このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20230519)

# デザインによる信頼できる透明性

Trustworthy Transparency by Design ( http://arxiv.org/abs/2103.10769v2 )

ライセンス: Link先を確認
Valentin Zieglmeier and Alexander Pretschner(参考訳) 個人はデータを処理するシステムに対する監視を欠いている。 これは識別と発見が難しい隠れバイアスにつながる可能性がある。 最近のデータ保護法はこれらの問題に取り組みますが、不十分です。 データに対する適切なユースケースを排除しながらも、データの誤用を防ぎません。 データ保護とデータベースのシステムとの対立は、異なる方法で解決すべきだと考えています。 データへのアクセスが与えられると、すべての使用法をデータ主題に対して透過的にすべきである。 これによりデータの主権が実現し、個人はデータ誤用による潜在的に有害な結果に対処しながら、賢明なデータ使用の恩恵を受けることができる。 我々は、技術的概念と経験的評価でこれを貢献する。 まず,ユーザ信頼と経験に関する研究を取り入れ,ソフトウェア設計のための透明性フレームワークを概念化する。 第2に,ユーザ視点を中心とした3ヶ月間のフォーカスグループ調査において,フレームワークをインスタンス化し,経験的に評価する。 私たちの透明性フレームワークは、その設計に透明性を取り入れたソフトウェア開発を可能にします。 この評価は、ユーザビリティと信頼性の要件を満たすことを示している。 提供された透明性は有益なものとして経験され、参加者はそれを力づけられていると感じます。 これは、我々のフレームワークが設計による信頼できる透明性を可能にしていることを示している。

Individuals lack oversight over systems that process their data. This can lead to discrimination and hidden biases that are hard to uncover. Recent data protection legislation tries to tackle these issues, but it is inadequate. It does not prevent data misusage while stifling sensible use cases for data. We think the conflict between data protection and increasingly data-based systems should be solved differently. When access to data is given, all usages should be made transparent to the data subjects. This enables their data sovereignty, allowing individuals to benefit from sensible data usage while addressing potentially harmful consequences of data misusage. We contribute to this with a technical concept and an empirical evaluation. First, we conceptualize a transparency framework for software design, incorporating research on user trust and experience. Second, we instantiate and empirically evaluate the framework in a focus group study over three months, centering on the user perspective. Our transparency framework enables developing software that incorporates transparency in its design. The evaluation shows that it satisfies usability and trustworthiness requirements. The provided transparency is experienced as beneficial and participants feel empowered by it. This shows that our framework enables Trustworthy Transparency by Design.
翻訳日:2023-10-24 16:00:38 公開日:2023-05-19
# Webテストにおける非同期ウェイトフレークテストの時間的修復

Time-based Repair for Asynchronous Wait Flaky Tests in Web Testing ( http://arxiv.org/abs/2305.08592v2 )

ライセンス: Link先を確認
Yu Pei (1), Jeongju Sohn (1), Sarra Habchi (2), Mike Papadakis (1) ((1) University of Luxembourg, (2) Ubisoft)(参考訳) 非同期待ちは、不安定なテストの最も一般的な根本原因の1つであり、webアプリケーションテストの主要な時間的影響要因である。 非同期待ち時間テストの特徴とwebテストにおける修正を調べるために、我々は、非同期待ちによって引き起こされる26のオープンソースプロジェクトから、49の再現性のあるテストのデータセットと、対応する開発者による修正を構築します。 これらの不安定なテストに関する調査から、約63%(49件中31件)の開発者が、ルート原因が他にある場合であっても、待ち時間に適応することで非同期なwaitflakyテストに対処できることが分かりました。 そこで本研究では,Webアプリケーションにおける非同期待ちフレキテストのための時間ベースの自動修復手法TRafを提案する。 TRafは、コードの類似性と過去の変更履歴を使用して、Webアプリケーション内の非同期呼び出し毎に適切な待ち時間を提案することで、フレキネスの問題に取り組む。 中心となる洞察は、開発者がしばしば同じ間違いを何度も犯すので、現在のコードベースや過去のコードベースに効率的な待ち時間が存在することをヒントにしている。 我々の分析によると、TRafは開発者による修正よりも、テストのフレキネスを解決するための待ち時間が短く、テストの実行時間を11.1%削減できる。 新しい待ち時間を動的にチューニングすることで、TRafはさらに実行時間を20.2%削減する。

Asynchronous waits are one of the most prevalent root causes of flaky tests and a major time-influential factor of web application testing. To investigate the characteristics of asynchronous wait flaky tests and their fixes in web testing, we build a dataset of 49 reproducible flaky tests, from 26 open-source projects, caused by asynchronous waits, along with their corresponding developer-written fixes. Our study of these flaky tests reveals that in approximately 63% of them (31 out of 49), developers addressed Asynchronous Wait flaky tests by adapting the wait time, even for cases where the root causes lie elsewhere. Based on this finding, we propose TRaf, an automated time-based repair method for asynchronous wait flaky tests in web applications. TRaf tackles the flakiness issues by suggesting a proper waiting time for each asynchronous call in a web application, using code similarity and past change history. The core insight is that as developers often make similar mistakes more than once, hints for the efficient wait time exist in the current or past codebase. Our analysis shows that TRaf can suggest a shorter wait time to resolve the test flakiness compared to developer-written fixes, reducing the test execution time by 11.1%. With additional dynamic tuning of the new wait time, TRaf further reduces the execution time by 20.2%.
翻訳日:2023-10-24 08:43:22 公開日:2023-05-19
# ファズしたらどうなる? OSS-Fuzzバグ履歴の調査

What Happens When We Fuzz? Investigating OSS-Fuzz Bug History ( http://arxiv.org/abs/2305.11433v1 )

ライセンス: Link先を確認
Brandon Keller, Andrew Meneely, Benjamin Meyers(参考訳) 背景: ソフトウェアエンジニアは、脆弱性やその他の重大なバグの予防と修正に警戒しなければならない。 このニーズを満たすために、多くのツールと技術が開発されている。 Fuzzersは、テストプログラムへのインプットを自律的に生成することによって、メモリの破損、入力ハンドリング、例外ケース、その他の問題を検出することで、時間の節約を約束する。 AIMS: この作業の目標は、OSS-Fuzzが生成したバグ履歴を分析して、開発者が品質保証を優先できるようにすることです。 具体的には,バグの寿命,学習機会,バグタイプを測定することによって,ファジィングを品質保証プラクティスとして採用した場合に何が起こったかを検討した。 方法:2022年3月12日までにOSS-Fuzzが公表した44,102件の問題を解析した。 繰り返しfuzzテストによって報告されたgitコミット範囲を、ソースコードリポジトリにトレースして、システム内にどれくらいのバグが残っているか、バグを修正した人、そして、fuzzersがこれまで見つけてきた問題の種類を特定しました。 コードを含むバグの発生時期を推定するために,バグ貢献のコミットを特定し,検出から修正までのタイムラインを測定した。 結果: oss-fuzz で検出されたバグは平均寿命が324日であったが,一度検出されたバグは,平均寿命が2日であった。 さらに、ソースコミットの著者が特定できる8,099件のうち、バグを導入した同じ著者によって、問題の半数以下(45.9%)が修正されていることがわかった。 結論: 結果から、ファジングは、製品のリリース前にミスを修正するための時間枠内のバグに対処する能力というメリットを生かしたプロジェクトに対して、ポジティブな影響を与えることができることが分かる。

BACKGROUND: Software engineers must be vigilant in preventing and correcting vulnerabilities and other critical bugs. In servicing this need, numerous tools and techniques have been developed to assist developers. Fuzzers, by autonomously generating inputs to test programs, promise to save time by detecting memory corruption, input handling, exception cases, and other issues. AIMS: The goal of this work is to empower developers to prioritize their quality assurance by analyzing the history of bugs generated by OSS-Fuzz. Specifically, we examined what has happened when a project adopts fuzzing as a quality assurance practice by measuring bug lifespans, learning opportunities, and bug types. METHOD: We analyzed 44,102 reported issues made public by OSS-Fuzz prior to March 12, 2022. We traced the Git commit ranges reported by repeated fuzz testing to the source code repositories to identify how long fuzzing bugs remained in the system, who fixes these bugs, and what types of problems fuzzers historically have found. We identified the bug-contributing commits to estimate when the bug containing code was introduced, and measure the timeline from introduction to detection to fix. RESULTS: We found that bugs detected in OSS-Fuzz have a median lifespan of 324 days, but that bugs, once detected, only remain unaddressed for a median of 2 days. Further, we found that of the 8,099 issues for which a source committing author can be identified, less than half (45.9%) of issues were fixed by the same author that introduced the bug. CONCLUSIONS: The results show that fuzzing can be used to makes a positive impact on a project that takes advantage in terms of their ability to address bugs in a time frame conducive to fixing mistakes prior to a product release.
翻訳日:2023-10-24 08:24:30 公開日:2023-05-19
# DNN4SE実験における落とし穴 : 実践状況の分析

Pitfalls in Experiments with DNN4SE: An Analysis of the State of the Practice ( http://arxiv.org/abs/2305.11556v1 )

ライセンス: Link先を確認
Sira Vegas, Sebastian Elbaum(参考訳) ソフトウェアエンジニアリングのテクニックは、バグトリージングからコード生成まで、多くのソフトウェアエンジニアリングタスクをサポートするためのディープラーニングのアプローチにますます依存しています。 このような手法の有効性を評価するために、研究者は一般に制御された実験を行う。 しかし、これらの実験を行うことは、専門的で複雑なアーキテクチャやアルゴリズムから多数のトレーニングハイパーパラメータ、進化するデータセットの選択に至るまで、関連する変数の空間の複雑さを考えると、特に困難である。 本研究は,ソフトウェア工学の最初期の会場で発行された55の論文に現れるディープニューラルネットワークに依存する技術を用いて,194の実験を地図化して実施し,一般的なトレンドと落とし穴を指摘する。 以上の結果から,ACMアーティファクトバッジを受け取った者を含む実験の大部分が,その信頼性に疑問を呈する根本的な限界があることが判明した。 More specifically, we find: weak analyses to determine that there is a true relationship between independent and dependent variables (87% of the experiments); limited control over the space of DNN relevant variables, which can render a relationship between dependent variables and treatments that may not be causal but rather correlational (100% of the experiments); and lack of specificity in terms of what are the DNN variables and their values utilized in the experiments (86% of the experiments) to define the treatments being applied, which makes it unclear whether the techniques designed are the ones being assessed, or how the sources of extraneous variation are controlled. これらの制限に対処するための実用的な推奨事項をいくつか提示します。

Software engineering techniques are increasingly relying on deep learning approaches to support many software engineering tasks, from bug triaging to code generation. To assess the efficacy of such techniques researchers typically perform controlled experiments. Conducting these experiments, however, is particularly challenging given the complexity of the space of variables involved, from specialized and intricate architectures and algorithms to a large number of training hyper-parameters and choices of evolving datasets, all compounded by how rapidly the machine learning technology is advancing, and the inherent sources of randomness in the training process. In this work we conduct a mapping study, examining 194 experiments with techniques that rely on deep neural networks appearing in 55 papers published in premier software engineering venues to provide a characterization of the state-of-the-practice, pinpointing experiments common trends and pitfalls. Our study reveals that most of the experiments, including those that have received ACM artifact badges, have fundamental limitations that raise doubts about the reliability of their findings. More specifically, we find: weak analyses to determine that there is a true relationship between independent and dependent variables (87% of the experiments); limited control over the space of DNN relevant variables, which can render a relationship between dependent variables and treatments that may not be causal but rather correlational (100% of the experiments); and lack of specificity in terms of what are the DNN variables and their values utilized in the experiments (86% of the experiments) to define the treatments being applied, which makes it unclear whether the techniques designed are the ones being assessed, or how the sources of extraneous variation are controlled. We provide some practical recommendations to address these limitations.
翻訳日:2023-10-24 08:14:34 公開日:2023-05-19
# chatgpt for us: 会話テキスト曖昧さによるchatgptのデータプライバシの保護とメンタルヘルスケア配信の拡大

ChatGPT for Us: Preserving Data Privacy in ChatGPT via Dialogue Text Ambiguation to Expand Mental Health Care Delivery ( http://arxiv.org/abs/2306.05552v1 )

ライセンス: Link先を確認
Anaelia Ovalle, Mehrab Beikzadeh, Parshan Teimouri, Kai-Wei Chang, Majid Sarrafzadeh(参考訳) 大規模言語モデルは、メンタルヘルスデリバリーの拡大に有用である。 特にChatGPTは人間のような対話を生成する能力で人気を集めている。 しかし、プライバシーやデータ所有者の懸念から、データに敏感なドメイン -- 医療に限らず – は、chatgptを使用する上での課題に直面している。 そこで本研究では,ユーザプライバシを保護したテキスト曖昧化フレームワークを提案する。 ユーザが提供するテキストによって引き起こされるストレスに対処し、プライバシ保護世代の有効性と有用性を示す。 この結果から,本来のユーザテキストが提供されていない場合でも,チャットGPTレコメンデーションは適度に有用かつ関連性が高いことが示唆された。

Large language models have been useful in expanding mental health care delivery. ChatGPT, in particular, has gained popularity for its ability to generate human-like dialogue. However, data-sensitive domains -- including but not limited to healthcare -- face challenges in using ChatGPT due to privacy and data-ownership concerns. To enable its utilization, we propose a text ambiguation framework that preserves user privacy. We ground this in the task of addressing stress prompted by user-provided texts to demonstrate the viability and helpfulness of privacy-preserved generations. Our results suggest that chatGPT recommendations are still able to be moderately helpful and relevant, even when the original user text is not provided.
翻訳日:2023-06-18 13:11:19 公開日:2023-05-19
# ファジィ双対SVMに基づく三方向不均衡学習

Three-way Imbalanced Learning based on Fuzzy Twin SVM ( http://arxiv.org/abs/2306.03885v1 )

ライセンス: Link先を確認
Wanting Cai, Mingjie Cai, Qingguo Li, Qiong Liu(参考訳) 3方向決定(3WD)は、情報システム、意思決定、医療で一般的に使用される不確実なデータを扱うための、グラニュラーコンピューティングの強力なツールである。 3方向決定は従来の粗い集合モデルで多くの研究を受ける。 しかし、その研究を拡大するために現在広く使われている機械学習の分野と組み合わされることはめったにない。 本稿では,機械学習における標準バイナリ分類モデルであるsvmと3方向決定を結びつけ,svmが改善すべき不均衡な分類問題を解決する。 新たな三方向ファジィメンバシップ関数と三方向メンバシップ(twftsvm)を備えた新しいファジィ双対支持ベクターマシンを提案する。 新たな3方向ファジィメンバシップ関数は、入力空間と特徴空間の両方における不確定データの確実性を高めるために定義され、少数サンプルに対して多数サンプルに比べて高いファジィメンバシップを割り当てる。 提案モデルの有効性を評価するため,差分不均衡比の異なる4つのデータセットの比較実験を行った。 また、不均衡比が異なるデータセットを同一データセットから導出して、提案モデルの性能をさらに評価する。 その結果,提案手法は従来のSVM法よりも優れていた。

Three-way decision (3WD) is a powerful tool for granular computing to deal with uncertain data, commonly used in information systems, decision-making, and medical care. Three-way decision gets much research in traditional rough set models. However, three-way decision is rarely combined with the currently popular field of machine learning to expand its research. In this paper, three-way decision is connected with SVM, a standard binary classification model in machine learning, for solving imbalanced classification problems that SVM needs to improve. A new three-way fuzzy membership function and a new fuzzy twin support vector machine with three-way membership (TWFTSVM) are proposed. The new three-way fuzzy membership function is defined to increase the certainty of uncertain data in both input space and feature space, which assigns higher fuzzy membership to minority samples compared with majority samples. To evaluate the effectiveness of the proposed model, comparative experiments are designed for forty-seven different datasets with varying imbalance ratios. In addition, datasets with different imbalance ratios are derived from the same dataset to further assess the proposed model's performance. The results show that the proposed model significantly outperforms other traditional SVM-based methods.
翻訳日:2023-06-11 13:39:23 公開日:2023-05-19
# 因果性の測度論的公理化

A Measure-Theoretic Axiomatisation of Causality ( http://arxiv.org/abs/2305.17139v1 )

ライセンス: Link先を確認
Junhyung Park, Simon Buchholz, Bernhard Sch\"olkopf, Krikamol Muandet(参考訳) 因果関係は幅広い研究領域において中心的な概念であるが、因果関係の公理化は広く合意されていない。 我々は因果関係を確率論の拡張として、また、ある系に介入したときに起こる「textit{What」の研究として、また、コルモゴロフの確率の測度理論的公理化を因果関係の公理化の出発点として捉えることを支持する。 この目的のために、我々は、空間の因果情報をエンコードする、遷移確率核の集まりである \textit{causal kernels} とともに確率空間からなる \textit{causal space} の概念を提案する。 提案するフレームワークは測度理論に厳格に根ざしているだけでなく,例えばサイクル,潜伏変数,確率過程など,既存のフレームワークの長年の制限にも光を当てている。

Causality is a central concept in a wide range of research areas, yet there is still no universally agreed axiomatisation of causality. We view causality both as an extension of probability theory and as a study of \textit{what happens when one intervenes on a system}, and argue in favour of taking Kolmogorov's measure-theoretic axiomatisation of probability as the starting point towards an axiomatisation of causality. To that end, we propose the notion of a \textit{causal space}, consisting of a probability space along with a collection of transition probability kernels, called \textit{causal kernels}, that encode the causal information of the space. Our proposed framework is not only rigorously grounded in measure theory, but it also sheds light on long-standing limitations of existing frameworks including, for example, cycles, latent variables and stochastic processes.
翻訳日:2023-06-04 12:01:16 公開日:2023-05-19
# Fire and Smoke Digital Twin -- 火災発生結果をモデル化するための計算フレームワーク

Fire and Smoke Digital Twin -- A computational framework for modeling fire incident outcomes ( http://arxiv.org/abs/2305.18313v1 )

ライセンス: Link先を確認
Junfeng Jiao, Ryan Hardesty Lewis, Kijin Seong, Arya Farahi, Paul Navratil, Nate Casebeer, Dev Niyogi(参考訳) 火と燃焼が粒子状物質(PM2.5)の主な原因であり、世界中の町や都市で大気の質を測る重要な指標である。 この研究は、米国の20以上の都市から活発に報告された火災や、その範囲内の地域の空気質に対する煙道や影響を予測するための、火災追跡プラットフォームを開発している。 特に、リアルタイムの追跡と予測に近づいたことで、デジタル双生児は公衆の健康を守り、火災や空気質のリスクを国民に知らせることができます。 このツールは、オースチンの3Dビルの足跡を利用して、煙の出力をシミュレートし、複雑な都市環境内での火災の煙の流出を予測する。 この研究の結果は、オースチンのフルファイア・アンド・スモーク・デジタルツインモデルを含む。 我々は、オースティン市消防局と協力して、予測の正確性を確保するとともに、都市内の空気質センサ密度が都市火災の存在を検証できないことを示した。 さらに、世界中のどの都市でもこれらの結果を再現するためのコードと方法論をリリースします。 この研究は、市民の健康と安全をよりよく保護するために、同様のデジタルツインモデルを開発し、展開する道を開く。

Fires and burning are the chief causes of particulate matter (PM2.5), a key measurement of air quality in communities and cities worldwide. This work develops a live fire tracking platform to show active reported fires from over twenty cities in the U.S., as well as predict their smoke paths and impacts on the air quality of regions within their range. Specifically, our close to real-time tracking and predictions culminates in a digital twin to protect public health and inform the public of fire and air quality risk. This tool tracks fire incidents in real-time, utilizes the 3D building footprints of Austin to simulate smoke outputs, and predicts fire incident smoke falloffs within the complex city environment. Results from this study include a complete fire and smoke digital twin model for Austin. We work in cooperation with the City of Austin Fire Department to ensure the accuracy of our forecast and also show that air quality sensor density within our cities cannot validate urban fire presence. We additionally release code and methodology to replicate these results for any city in the world. This work paves the path for similar digital twin models to be developed and deployed to better protect the health and safety of citizens.
翻訳日:2023-06-04 11:41:29 公開日:2023-05-19
# マスベースグラフとしてのメモリ:AIにおけるヒューマンメモリのシミュレーションモデルの概念的フレームワークを目指して

Memory as a Mass-based Graph: Towards a Conceptual Framework for the Simulation Model of Human Memory in AI ( http://arxiv.org/abs/2305.19274v1 )

ライセンス: Link先を確認
Mahdi Mollakazemiha, Hassan Fatzade(参考訳) 記憶のシミュレーションと人工知能の学習には、機能的アプローチと認知的アプローチの2つのアプローチがある。 第2のアプローチを考慮に入れるために必要な条件は、ミスや忘れられた経験のような観察上の事実と非常によく一致した脳活動のモデルを提供することである。 人間の記憶には、アイデンティティの構成要素、家族と故郷、生活の重要かつ決定的な出来事、そして我々の文化の数え切れないほど繰り返し受け入れられる事実を含む堅実なコアがあるので、データがよりゆるやかに露出しやすくなる。 地形差が極めて識別可能なモデルを提案することが不可欠であった。 提案するモデルでは,この地形的状況を数量に翻訳し,それがノードに帰属する。 その結果、ノード上に質量ベースの値を持つエッジ重み付きグラフとなり、知的存在に対する各原子命題の重要性が証明される。 さらに、動的に発達・変更し、連続したフェーズでは、環境からの収集された入力に応じて、エッジのノードの質量と重量を変化させる。

There are two approaches for simulating memory as well as learning in artificial intelligence; the functionalistic approach and the cognitive approach. The necessary condition to put the second approach into account is to provide a model of brain activity that contains a quite good congruence with observational facts such as mistakes and forgotten experiences. Given that human memory has a solid core that includes the components of our identity, our family and our hometown, the major and determinative events of our lives, and the countless repeated and accepted facts of our culture, the more we go to the peripheral spots the data becomes flimsier and more easily exposed to oblivion. It was essential to propose a model in which the topographical differences are quite distinguishable. In our proposed model, we have translated this topographical situation into quantities, which are attributed to the nodes. The result is an edge-weighted graph with mass-based values on the nodes which demonstrates the importance of each atomic proposition, as a truth, for an intelligent being. Furthermore, it dynamically develops and modifies, and in successive phases, it changes the mass of the nodes and weight of the edges depending on gathered inputs from the environment.
翻訳日:2023-06-04 11:10:46 公開日:2023-05-19
# 12誘導心電図分類のためのディープニューラルネットワークの一般化と微調整

Deep Neural Networks Generalization and Fine-Tuning for 12-lead ECG Classification ( http://arxiv.org/abs/2305.18592v1 )

ライセンス: Link先を確認
Aram Avetisyan, Shahane Tigranyan, Ariana Asatryan, Olga Mashkova, Sergey Skorik, Vladislav Ananev, and Yury Markin(参考訳) 深層学習法を用いた12誘導心電図(ecg)記録に基づく心疾患の診断を目的とした研究が数多く行われている。 これらの研究は通常、患者メタデータ、ECGに注釈を付ける医師の数、ECG記録のためのデバイスの種類、データ前処理技術など、サイズとパラメータの異なる特定のデータセットを使用する。 あるECGデータセットでトレーニングされた高品質なディープニューラルネットワークが、必ずしも他のデータセットや臨床設定でうまく機能しないことはよく知られている。 本稿では,特定のデータセットをさらに微調整して,さまざまなデータセット上でニューラルネットワークをトレーニングすることで,データセットに関わらず心臓病予測の品質を向上させる手法を提案する。 適用性を示すために、複数の病院の様々なECGレコードを含む大規模なプライベートデータセットTISと、比較的小さなパブリックデータセットTB-XLで異なるニューラルネットワークをトレーニングする。 大規模データセット上でネットワークをトレーニングし、別のソースから小さなデータセットに微調整することで、1つの小さなデータセットでのみトレーニングされたネットワークを上回ることを実証する。 また,深層ニューラルネットワークの汎用化によって,より多くの疾患の分類品質が向上することを示す。

Numerous studies are aimed at diagnosing heart diseases based on 12-lead electrocardiographic (ECG) records using deep learning methods. These studies usually use specific datasets that differ in size and parameters, such as patient metadata, number of doctors annotating ECGs, types of devices for ECG recording, data preprocessing techniques, etc. It is well-known that high-quality deep neural networks trained on one ECG dataset do not necessarily perform well on another dataset or clinical settings. In this paper, we propose a methodology to improve the quality of heart disease prediction regardless of the dataset by training neural networks on a variety of datasets with further fine-tuning for the specific dataset. To show its applicability, we train different neural networks on a large private dataset TIS containing various ECG records from multiple hospitals and on a relatively small public dataset PTB-XL. We demonstrate that training the networks on a large dataset and fine-tuning it on a small dataset from another source outperforms the networks trained only on one small dataset. We also show how the ability of a deep neural networks to generalize allows to improve classification quality of more diseases.
翻訳日:2023-06-04 11:08:35 公開日:2023-05-19
# パターン分類のための説明能力を有する半教師付き適応共鳴理論モデル

An Ensemble Semi-Supervised Adaptive Resonance Theory Model with Explanation Capability for Pattern Classification ( http://arxiv.org/abs/2305.14373v1 )

ライセンス: Link先を確認
Farhad Pourpanah and Chee Peng Lim and Ali Etemad and Q. M. Jonathan Wu(参考訳) ほとんどの半教師付き学習(SSL)モデルは複雑な構造と反復的なトレーニングプロセスを持ち、予測をユーザに解釈する上で困難に直面している。 これらの問題に対処するために,ネットワークの教師付き非教師付きアダプティブ共振理論(ART)ファミリを用いた新たな解釈可能なSSLモデルを提案する。 まず、SSL-ARTは教師なしファジィARTネットワークを採用し、ラベルなしサンプルを使用したプロトタイプノードを多数作成する。 次に、教師付きファジィartmap構造を利用して、確立されたプロトタイプノードをラベル付きサンプルを使用してターゲットクラスにマップする。 具体的には,プロトタイプノードと複数のクラスラベルを関連付けるために,OtMマッピング方式を考案した。 SSL-ARTの主な利点は次のとおりである。 (i)オンライン学習を行う。 (II)OtMマッピング方式による冗長プロトタイプノード数の削減、ノイズサンプルの効果の最小化、及び (iii)予測結果の解釈のための説明設備を提供する。 さらに、WESSL-ARTと呼ばれるアンサンブルSSL-ARTモデルを形成するために、重み付き投票戦略を導入する。 すべてのアンサンブルメンバー、すなわちSSL-ARTは、対応するクラスに関連するパフォーマンスに基づいて、各クラスに {\color{black}a different weight} を割り当てる。 目的は、すべてのSSL-ARTメンバに対するトレーニングデータシーケンスの効果を緩和し、WESSL-ART全体のパフォーマンスを改善することである。 18個のベンチマークデータセット、人工的に生成された3つのデータセット、実世界のケーススタディの実験結果は、パターン分類問題に取り組むためのssl-artモデルとwessl-artモデルの利点を示している。

Most semi-supervised learning (SSL) models entail complex structures and iterative training processes as well as face difficulties in interpreting their predictions to users. To address these issues, this paper proposes a new interpretable SSL model using the supervised and unsupervised Adaptive Resonance Theory (ART) family of networks, which is denoted as SSL-ART. Firstly, SSL-ART adopts an unsupervised fuzzy ART network to create a number of prototype nodes using unlabeled samples. Then, it leverages a supervised fuzzy ARTMAP structure to map the established prototype nodes to the target classes using labeled samples. Specifically, a one-to-many (OtM) mapping scheme is devised to associate a prototype node with more than one class label. The main advantages of SSL-ART include the capability of: (i) performing online learning, (ii) reducing the number of redundant prototype nodes through the OtM mapping scheme and minimizing the effects of noisy samples, and (iii) providing an explanation facility for users to interpret the predicted outcomes. In addition, a weighted voting strategy is introduced to form an ensemble SSL-ART model, which is denoted as WESSL-ART. Every ensemble member, i.e., SSL-ART, assigns {\color{black}a different weight} to each class based on its performance pertaining to the corresponding class. The aim is to mitigate the effects of training data sequences on all SSL-ART members and improve the overall performance of WESSL-ART. The experimental results on eighteen benchmark data sets, three artificially generated data sets, and a real-world case study indicate the benefits of the proposed SSL-ART and WESSL-ART models for tackling pattern classification problems.
翻訳日:2023-05-28 04:52:20 公開日:2023-05-19
# 統合失調症の予測と診断における人工知能の役割に関する調査研究

A Survey on the Role of Artificial Intelligence in the Prediction and Diagnosis of Schizophrenia ( http://arxiv.org/abs/2305.14370v1 )

ライセンス: Link先を確認
Narges Ramesh, Yasmin Ghodsi, Hamidreza Bolhasani(参考訳) 機械学習は、人間の病気や精神的な健康問題に関するおよその結論を引き出すために医療に用いられている。 従来の手法と比較して、より効率的にデータを分析し、より良い、より信頼性の高い結果を生み出すのに役立つ。 何百万人もの人々が統合失調症に罹患しており、これは慢性的な精神疾患であり、彼らの生活に大きな影響を及ぼす可能性がある。 多くの機械学習アルゴリズムは、この病気を予測し予防するために開発されており、それを持つ個人の診断に実装することができる。 本研究の目的は,脳波信号,fMRI,拡散磁気共鳴画像(dMRI)を用いて統合失調症を検出・予測するためにディープラーニングを用いた論文をレビューすることである。 選択した検索戦略により、2019年から2022年にかけて10の出版物を評価した。 すべての研究で80%以上の予測が成功した。 このレビューは研究の要約を提供し、それらの顕著な側面を比較する。 統合失調症に対する人工知能(AI)と機械学習(ML)の分野では、MLツールが利用可能であることから、大きな進歩が見られ、この分野が今後も成長し続けると楽観視している。

Machine learning is employed in healthcare to draw approximate conclusions regarding human diseases and mental health problems. Compared to older traditional methods, it can help to analyze data more efficiently and produce better and more dependable results. Millions of people are affected by schizophrenia, which is a chronic mental disorder that can significantly impact their lives. Many machine learning algorithms have been developed to predict and prevent this disease, and they can potentially be implemented in the diagnosis of individuals who have it. This survey aims to review papers that have focused on the use of deep learning to detect and predict schizophrenia using EEG signals, functional magnetic resonance imaging (fMRI), and diffusion magnetic resonance imaging (dMRI). With our chosen search strategy, we assessed ten publications from 2019 to 2022. All studies achieved successful predictions of more than 80%. This review provides summaries of the studies and compares their notable aspects. In the field of artificial intelligence (AI) and machine learning (ML) for schizophrenia, significant advances have been made due to the availability of ML tools, and we are optimistic that this field will continue to grow.
翻訳日:2023-05-28 04:51:55 公開日:2023-05-19
# 1次元$\delta$-ポテンシャル上の粒子の散乱に関する時間依存理論

Time-dependent theory of scattering a particle on a one-dimensional $\delta$-potential ( http://arxiv.org/abs/2305.15381v1 )

ライセンス: Link先を確認
N. L. Chuprikov(参考訳) 漸近極限 $t\to\mp\infty$ における時間依存schr\"{o}dinger方程式の解析解の解析に基づいて、1次元$\delta$-potential 上のスピンレス粒子の散乱に関する時間依存理論を開発した。 この過程の既存の理論とは対照的に、波動作用素は連続スペクトルの全体状態空間ではなく、シュワルツ空間$\mathcal{S}$、すなわち一粒子作用素の自己随伴性の領域において求めている。 この散乱問題では弱漸近完全性の条件のみを満たすことが示されている。 両方の波動作用素の定義の共通領域は、函数の部分空間 (運動量表現) $\mathcal{S}_{scat}=\mathcal{S}(-\infty,0]\oplus \mathcal{S} ([0,\infty )\subset \mathcal{S}$, ここでは、$\mathcal{S}([0,\infty)$ のアシンプトトが $t\to\mp\infty $ 内の正のモーメントを持つ粒子と $\mathcal {S}(-\infty,0]$ のアシンプトトが負のモーメントに対応する。 提示された理論の重要な特徴は、粒子の運動量$t\to\mp\infty$の符号による漸近的超選択則である。

It is developed a time-dependent theory of the scattering of a spinless particle on a one-dimensional $\delta$-potential, based on the analysis of analytical solutions of the time-dependent Schr\"{o}dinger equation in the asymptotic limits $t\to\mp\infty$. In contrast to the existing theory of this process, wave operators are sought not in the entire state space of the continuous spectrum, but in the Schwartz space $\mathcal{S}$, i.e. in the domain of self-adjointness of one-particle operators. It is shown that in this scattering problem only the condition of weak asymptotic completeness is satisfied. The common domain of definition of both wave operators is the subspace of functions (in momentum representation) $\mathcal{S}_{scat}=\mathcal{S}(-\infty,0]\oplus \mathcal{S} ( [0,\infty )\subset \mathcal{S}$, where the asymptotes from $\mathcal{S}([0,\infty)$ describe a particle with positive momenta within $t\to\mp\infty $, and the asymptotes from $\mathcal { S}(-\infty,0]$ correspond to negative momenta. The key feature of the presented theory is the asymptotic superselection rule by the sign of the particle's momentum at $t\to\mp\infty$.
翻訳日:2023-05-28 04:39:53 公開日:2023-05-19
# 減少カスケードモデルによるオンライン影響最大化

Online Influence Maximization under Decreasing Cascade Model ( http://arxiv.org/abs/2305.15428v1 )

ライセンス: Link先を確認
Fang Kong, Jize Xie, Baoxiang Wang, Tao Yao, Shuai Li(参考訳) カスケード減少モデル(DC)に基づくオンライン影響最大化(OIM)について検討した。 このモデルは、市場飽和の共通現象を考慮した独立カスケードモデル(IC)の一般化である。 DCでは、影響の試行が成功する確率は、以前の失敗で減少する。 この効果は、ICおよび線形しきい値モデルの下での以前のOIM作業によって無視される。 そこで本研究では,この問題を解決するためにdc-ucbアルゴリズムを提案する。 合成データと実データの両方について広範な実験を行い,アルゴリズムの有効性を示した。

We study online influence maximization (OIM) under a new model of decreasing cascade (DC). This model is a generalization of the independent cascade (IC) model by considering the common phenomenon of market saturation. In DC, the chance of an influence attempt being successful reduces with previous failures. The effect is neglected by previous OIM works under IC and linear threshold models. We propose the DC-UCB algorithm to solve this problem, which achieves a regret bound of the same order as the state-of-the-art works on the IC model. Extensive experiments on both synthetic and real datasets show the effectiveness of our algorithm.
翻訳日:2023-05-28 04:30:17 公開日:2023-05-19
# クロスリンガル擬似ラベルによる教師なしasr

Unsupervised ASR via Cross-Lingual Pseudo-Labeling ( http://arxiv.org/abs/2305.13330v1 )

ライセンス: Link先を確認
Tatiana Likhomanenko, Loren Lugosch, Ronan Collobert(参考訳) 最近の研究では、非ペアリングオーディオとテキストのみを使用して、$\textit{unsupervised}$ automatic speech recognition (asr)システムをトレーニングできることが示されている。 既存の教師なしのASRメソッドは、トレーニングにラベル付きデータを使用できないと仮定する。 ある言語にラベル付きオーディオがない場合でも、他の言語で利用可能なラベル付きデータとして$\textit{always}$がある、と我々は主張する。 文字レベルの音響モデル(AM)を他の言語から使い、新しい言語で$\textit{unsupervised}$ AMをブートストラップすることができることを示す。 は、$\textit{target}$言語でラベル付きオーディオが利用できないことを意味する。 私たちのアプローチは2つの重要な要素に基づいている。 i) $\textit{target}$ Language AM と $\textit{other}$ Language AM を使って $\textit{target}$ Language の擬似ラベル (PL) を生成する (ii)$\textit{target language model}$でこれらのPLを制約します。 例えば、英語 am から swahili への転送は 18% の wer を達成している。 また、文字ベースのwav2vec-u 2.0をljspeechの絶対werで15%上回り、ラベル付きドイツ語データを60k時間ではなく800hで上回っている。

Recent work has shown that it is possible to train an $\textit{unsupervised}$ automatic speech recognition (ASR) system using only unpaired audio and text. Existing unsupervised ASR methods assume that no labeled data can be used for training. We argue that even if one does not have any labeled audio for a given language, there is $\textit{always}$ labeled data available for other languages. We show that it is possible to use character-level acoustic models (AMs) from other languages to bootstrap an $\textit{unsupervised}$ AM in a new language. Here, "unsupervised" means no labeled audio is available for the $\textit{target}$ language. Our approach is based on two key ingredients: (i) generating pseudo-labels (PLs) of the $\textit{target}$ language using some $\textit{other}$ language AM and (ii) constraining these PLs with a $\textit{target language model}$. Our approach is effective on Common Voice: e.g. transfer of English AM to Swahili achieves 18% WER. It also outperforms character-based wav2vec-U 2.0 by 15% absolute WER on LJSpeech with 800h of labeled German data instead of 60k hours of unlabeled English data.
翻訳日:2023-05-24 23:18:49 公開日:2023-05-19
# イラクオンコロジー教育病院・国立がんセンターにおける肺がん分類におけるLeNetアルゴリズムの評価

Evaluating LeNet Algorithms in Classification Lung Cancer from Iraq-Oncology Teaching Hospital/National Center for Cancer Diseases ( http://arxiv.org/abs/2305.13333v1 )

ライセンス: Link先を確認
Jafar Abdollahi(参考訳) コンピュータ支援検出システムの進歩は、ヒト疾患の臨床的解析と意思決定に大きな影響を与えた。 肺がんは男性と女性の両方に影響を与え、死亡率を増加させるため、検査対象の多くの疾患により多くの注意を要する。 深層学習モデルであるlenetは肺腫瘍の検出に用いられている。 これらの研究は、CT画像データ(IQ-OTH/NCCD)からなる公開データセット上で実施された。 実験では畳み込みニューラルネットワーク(cnns)を用いて特徴抽出と分類を行った。 提案システムはイラク・オンコロジー教育病院・国立がん疾患センターのデータセットで評価され, 成功率は99.51%, 感度93%, 特異度95%と算出され, 既存の方法と比較して良好な結果を得た。 私たちのようなアルゴリズムの開発と検証は、日常的な病理学の実践に取り入れられるソフトウェアスイートの開発において重要な初期ステップであり、病理学者の負担軽減に役立つ可能性がある。

The advancement of computer-aided detection systems had a significant impact on clinical analysis and decision-making on human disease. Lung cancer requires more attention among the numerous diseases being examined because it affects both men and women, increasing the mortality rate. LeNet, a deep learning model, is used in this study to detect lung tumors. The studies were run on a publicly available dataset made up of CT image data (IQ-OTH/NCCD). Convolutional neural networks (CNNs) were employed in the experiment for feature extraction and classification. The proposed system was evaluated on Iraq-Oncology Teaching Hospital/National Center for Cancer Diseases datasets the success percentage was calculated as 99.51%, sensitivity (93%) and specificity (95%), and better results were obtained compared to the existing methods. Development and validation of algorithms such as ours are important initial steps in the development of software suites that could be adopted in routine pathological practices and potentially help reduce the burden on pathologists.
翻訳日:2023-05-24 23:06:18 公開日:2023-05-19
# キーワードスポッティングのための条件付きオンライン学習

Conditional Online Learning for Keyword Spotting ( http://arxiv.org/abs/2305.13332v1 )

ライセンス: Link先を確認
Michel Meneses, Bruno Iwami(参考訳) キーワードスポッティングの現代的なアプローチは、大きな静的データセット、すなわち分布を持つディープニューラルネットワークのトレーニングに依存している。 しかし、実際のアプリケーションでデータレギュレーションが変化すると、結果として得られるモデルは性能が低下する傾向にある。 本研究では,新しいデータが得られると,sgdでキーワードスポッターをデバイス上で更新する,シンプルかつ効果的なオンライン連続学習手法について検討する。 以前の研究とは対照的に、この研究は、ほとんどの商用アプリケーションをカバーする同じKWSタスクの学習に焦点を当てている。 異なるシナリオにおける動的オーディオストリームの実験では、事前訓練された小さなフットプリントモデルの性能を34%向上させる。 さらに,実験により,オンライン学習によるナイーブな実装と比較して,学習分布から引き出された小さなホールドアウトセットにおける条件付きモデル更新が破滅的な記憶を緩和することを示した。

Modern approaches for keyword spotting rely on training deep neural networks on large static datasets with i.i.d. distributions. However, the resulting models tend to underperform when presented with changing data regimes in real-life applications. This work investigates a simple but effective online continual learning method that updates a keyword spotter on-device via SGD as new data becomes available. Contrary to previous research, this work focuses on learning the same KWS task, which covers most commercial applications. During experiments with dynamic audio streams in different scenarios, that method improves the performance of a pre-trained small-footprint model by 34%. Moreover, experiments demonstrate that, compared to a naive online learning implementation, conditional model updates based on its performance in a small hold-out set drawn from the training distribution mitigate catastrophic forgetting.
翻訳日:2023-05-24 23:06:00 公開日:2023-05-19
# E-Branchformerとマルチタスク学習に基づく失語症音声認識と検出の新しいベンチマーク

A New Benchmark of Aphasia Speech Recognition and Detection Based on E-Branchformer and Multi-task Learning ( http://arxiv.org/abs/2305.13331v1 )

ライセンス: Link先を確認
Jiyang Tang, William Chen, Xuankai Chang, Shinji Watanabe, Brian MacWhinney(参考訳) 失語症は何百万もの患者の発話能力に影響を与える言語障害である。 本稿では,最先端音声認識技術を用いた失語症音声認識と検出タスクの新しいベンチマークについて述べる。 具体的には,ctc/attentionアーキテクチャに基づく2つのマルチタスク学習手法を導入し,両タスクを同時に実行する。 本システムは,中等度失語症患者に対して,最先端の話者レベル検出精度(97.3%)と平均11%のwr削減を実現する。 さらに、他の混乱した音声データベースであるDementiaBank Pitt corpusに適用することで、我々のアプローチの一般化可能性を示す。 私たちは再現性を促進するために、オールインワンのレシピと事前学習したモデルを公開します。 標準化されたデータ前処理パイプラインとオープンソースレシピにより、研究者は結果を直接比較し、混乱した音声処理の進捗を促進できる。

Aphasia is a language disorder that affects the speaking ability of millions of patients. This paper presents a new benchmark for Aphasia speech recognition and detection tasks using state-of-the-art speech recognition techniques with the AphsiaBank dataset. Specifically, we introduce two multi-task learning methods based on the CTC/Attention architecture to perform both tasks simultaneously. Our system achieves state-of-the-art speaker-level detection accuracy (97.3%), and a relative WER reduction of 11% for moderate Aphasia patients. In addition, we demonstrate the generalizability of our approach by applying it to another disordered speech database, the DementiaBank Pitt corpus. We will make our all-in-one recipes and pre-trained model publicly available to facilitate reproducibility. Our standardized data preprocessing pipeline and open-source recipes enable researchers to compare results directly, promoting progress in disordered speech processing.
翻訳日:2023-05-24 23:05:45 公開日:2023-05-19
# キャリブレーション推論のためのカーネル生成ネットワークの深い識別

Deep Discriminative to Kernel Generative Networks for Calibrated Inference ( http://arxiv.org/abs/2201.13001v5 )

ライセンス: Link先を確認
Jayanta Dey, Haoyin Xu, Ashwin De Silva, Will LeVine, Tyler M. Tomita, Ali Geisa, Tiffany Chu, Jacob Desman, Joshua T. Vogelstein(参考訳) 識別と生成の争いは、人工知能と自然知の研究の両方において深いものとなる。 我々の見解では、どちらのキャンプも相補的な価値を持っている。 そこで私たちは、それらを相乗的に組み合わせようとしました。 本稿では,深層識別ネットワークをカーネル生成ネットワークに変換する手法を提案する。 我々は,ランダムフォレストとディープネットワークの両方を含む深層モデルを用いて,アフィン活性化関数を持つポリトープの結合である内部表現を学習し,それらを一般化された分割規則として概念化する。 学習データに代表される各ポリトープのアフィン関数をガウス核に置き換えて生成モデルを作成する。 理論的には、生成モデルが対応するクラス条件密度の一貫した推定子である条件を導出する。 さらに, 提案モデルでは, 配当後部を適切に調整し, トレーニングデータを超える外挿を行い, 配当外入力を合理的に処理する。 このアプローチは、差別的および生成的境界を越えて思考とアプローチを統合する上で重要なステップであると考えています。

The fight between discriminative versus generative goes deep, in both the study of artificial and natural intelligence. In our view, both camps have complementary values. So, we sought to synergistically combine them. Here, we propose a methodology to convert deep discriminative networks to kernel generative networks. We leveraged the fact that deep models, including both random forests and deep networks, learn internal representations which are unions of polytopes with affine activation functions to conceptualize them both as generalized partitioning rules. We replace the affine function in each polytope populated by the training data with Gaussian kernel that results in a generative model. Theoretically, we derive the conditions under which our generative models are a consistent estimator of the corresponding class conditional density. Moreover, our proposed models obtain well calibrated posteriors for in-distribution, and extrapolate beyond the training data to handle out-of-distribution inputs reasonably. We believe this approach may be an important step in unifying the thinking and the approaches across the discriminative and the generative divide.
翻訳日:2023-05-24 06:34:47 公開日:2023-05-19
# トポロジカルディープラーニング: グラフデータを超えて

Topological Deep Learning: Going Beyond Graph Data ( http://arxiv.org/abs/2206.00606v3 )

ライセンス: Link先を確認
Mustafa Hajij, Ghada Zamzmi, Theodore Papamarkou, Nina Miolane, Aldo Guzm\'an-S\'aenz, Karthikeyan Natesan Ramamurthy, Tolga Birdal, Tamal K. Dey, Soham Mukherjee, Shreyas N. Samaga, Neal Livesay, Robin Walters, Paul Rosen, Michael T. Schaub(参考訳) トポロジカルディープラーニング(英: topological deep learning)は、単純複体、細胞複合体、ハイパーグラフなどのトポロジカルドメインでサポートされているデータのためのディープラーニングモデルの開発に関連する、急速に成長している分野である。 本稿では,広く採用されているトポロジ領域を含むよりリッチなデータ構造上に構築された,統一的な深層学習フレームワークを提案する。 具体的には,新しいタイプのトポロジカルドメインであるコンビナトリコンプレックスを導入する。 組合せ錯体は、特定の望ましい性質を維持するグラフの一般化と見なすことができる。 ハイパーグラフと同様に、組合せ錯体は関係の集合に制約を課さない。 さらに、コンビナート錯体は、単純および細胞複合体で見られるような階層的な高次関係の構築を可能にする。 したがって、組合せ錯体は、グラフニューラルネットワークの位相空間への一般化を促進する2つの有望な抽象化として出現したハイパーグラフとセル複合体の両方の有用な特性を一般化し結合する。 次に、組合せ錯体とそのリッチな組合せ構造と代数構造に基づいて、注意に基づくccnnを中心に、メッセージパッシング組合せ複合ニューラルネットワーク(ccnns)の一般クラスを構築した。 我々は、CCNNの置換と配向の等式を特徴付け、CCNN内のプーリングとアンプール操作を詳細に論じる。 第3に,メッシュ形状解析とグラフ学習に関わるタスクにおけるCCNNの性能を評価する。 我々の実験では、CCNNは最先端のディープラーニングモデルと比較すると、同じタスクに特化している。 本研究は,高次関係を異なるアプリケーションでディープラーニングモデルに組み込むことの利点を実証する。

Topological deep learning is a rapidly growing field that pertains to the development of deep learning models for data supported on topological domains such as simplicial complexes, cell complexes, and hypergraphs, which generalize many domains encountered in scientific computations. In this paper, we present a unifying deep learning framework built upon a richer data structure that includes widely adopted topological domains. Specifically, we first introduce combinatorial complexes, a novel type of topological domain. Combinatorial complexes can be seen as generalizations of graphs that maintain certain desirable properties. Similar to hypergraphs, combinatorial complexes impose no constraints on the set of relations. In addition, combinatorial complexes permit the construction of hierarchical higher-order relations, analogous to those found in simplicial and cell complexes. Thus, combinatorial complexes generalize and combine useful traits of both hypergraphs and cell complexes, which have emerged as two promising abstractions that facilitate the generalization of graph neural networks to topological spaces. Second, building upon combinatorial complexes and their rich combinatorial and algebraic structure, we develop a general class of message-passing combinatorial complex neural networks (CCNNs), focusing primarily on attention-based CCNNs. We characterize permutation and orientation equivariances of CCNNs, and discuss pooling and unpooling operations within CCNNs in detail. Third, we evaluate the performance of CCNNs on tasks related to mesh shape analysis and graph learning. Our experiments demonstrate that CCNNs have competitive performance as compared to state-of-the-art deep learning models specifically tailored to the same tasks. Our findings demonstrate the advantages of incorporating higher-order relations into deep learning models in different applications.
翻訳日:2023-05-24 06:15:34 公開日:2023-05-19
# 高角運動量Rydberg状態を用いた超高・超高周波数電場検出

Very-high- and ultrahigh- frequency electric field detection using high angular momentum Rydberg states ( http://arxiv.org/abs/2205.12876v3 )

ライセンス: Link先を確認
Roger C. Brown, Baran Kayim, Michael A. Viray, Abigail R. Perry, Brian C. Sawyer, and Robert Wyllie(参考訳) 我々は、電磁誘導透過を用いて240MHzから900MHz(超高周波(VHF)から超高周波(UHF))のrf電場を共振検出し、軌道角運動量$L=3\rightarrow L'=4$Rydberg遷移を測定する。 これらのライドバーグ状態は3光子赤外線励起によってアクセス可能である。 電気的に小さいレジームでrfを共鳴検出することで、これらの状態は新しい種類の原子受信機を可能にする。 主量子数 $n=45$ から $70$ に対する測度スペクトルと量子欠陥理論の予測との間にはよく一致している。 超ヘトロダイン検出装置を用いて、ノイズフロアを$n=50$で13,\mathrm {\mu V/m/\sqrt{Hz}}$と測定する。 さらに,本システムの基本感度限界を推定するために,5段階のマスター方程式解を組み込んだデータと数値モデルを利用する。

We demonstrate resonant detection of rf electric fields from 240 MHz to 900 MHz (very-high-frequency (VHF) to ultra-high-frequency (UHF)) using electromagnetically induced transparency to measure orbital angular momentum $L=3\rightarrow L'=4$ Rydberg transitions. These Rydberg states are accessible with three-photon infrared optical excitation. By resonantly detecting rf in the electrically small regime, these states enable a new class of atomic receivers. We find good agreement between measured spectra and predictions of quantum defect theory for principal quantum numbers $n=45$ to $70$. Using a super-hetrodyne detection setup, we measure the noise floor at $n=50$ to be $13\,\mathrm{\mu V/m/\sqrt{Hz}}$. Additionally, we utilize data and a numerical model incorporating a five-level master equation solution to estimate the fundamental sensitivity limits of our system.
翻訳日:2023-05-24 06:14:33 公開日:2023-05-19
# ランク可能性と線形順序問題:新しい確率的洞察とアルゴリズム

Rankability and Linear Ordering Problem: New Probabilistic Insight and Algorithms ( http://arxiv.org/abs/2208.03860v2 )

ライセンス: Link先を確認
Leszek Szczecinski and Harsh Sukheja(参考訳) m 個の対象を対比較から順序付ける線形順序問題(lop)は、多くの研究分野において一般的に適用されている。 効率的なLOPアルゴリズムを考案する努力が続けられているが、データのランク付けが可能かどうかの検証、すなわち線形順序付け問題(LOP)の解が意味のある解釈を持つ場合、より少ない注意が払われる。 この問題に対処するために、ペア比較の結果を共通のパラメータを持つベルヌーイ変数としてモデル化する確率論的視点を採用し、観測データから後者を推定する。 必要な列挙に対するブルート力のアプローチは、o(m !) の制限的な複雑性を持つので、問題を再構成し、スレーター指数を一般化するスレータースペクトルの概念を導入し、m の適度な値に対して管理可能な複雑性 o(m^3 2^m) のスペクトルを求めるアルゴリズムを考案する。さらに、アルゴリズムのマイナーな修正により、lop のすべての解を、複雑性 o(m 2^m) で見つけることができる。 数値的な例が合成データと実世界のデータに示され、アルゴリズムが公開されている。

The linear ordering problem (LOP), which consists in ordering M objects from their pairwise comparisons, is commonly applied in many areas of research. While efforts have been made to devise efficient LOP algorithms, verification of whether the data are rankable, that is, if the linear ordering problem (LOP) solutions have a meaningful interpretation, received much less attention. To address this problem, we adopt a probabilistic perspective where the results of pairwise comparisons are modeled as Bernoulli variables with a common parameter and we estimate the latter from the observed data. The brute-force approach to the required enumeration has a prohibitive complexity of O(M !), so we reformulate the problem and introduce a concept of the Slater spectrum that generalizes the Slater index, and then devise an algorithm to find the spectrum with complexity O(M^3 2^M) that is manageable for moderate values of M. Furthermore, with a minor modification of the algorithm, we are able to find all solutions of the LOP with the complexity O(M 2^M). Numerical examples are shown on synthetic and real-world data, and the algorithms are publicly available.
翻訳日:2023-05-24 05:54:04 公開日:2023-05-19
# 大規模言語モデルにおけるメタファ理解のための心理的に非定型な思考連鎖プロンプト

Psychologically-informed chain-of-thought prompts for metaphor understanding in large language models ( http://arxiv.org/abs/2209.08141v2 )

ライセンス: Link先を確認
Ben Prystawski, Paul Thibodeau, Christopher Potts, Noah D. Goodman(参考訳) 言語理解の確率論的モデルは、人間の言語使用を調査するための貴重なツールである。 しかし、特定のドメインに対して手動で設計する必要がある。 対照的に、大規模な言語モデル(llm)は、幅広いドメインにまたがるテキストに基づいて訓練されるが、確率モデルの構造や解釈性に欠ける。 本稿では,確率モデルからLLMへの構造導入にチェーン・オブ・シント・プロンプトを用いる。 我々はメタファー理解の場合にこのアプローチを探求する。 私たちの考えの連鎖は、メタファーの適切なパラフレーズを選択するために、言語モデルが潜在変数を推論し、それらの関係を推論するように促す。 選択された潜在変数と関係は、認知心理学からのメタファー理解の理論から学べる。 GPT-3の2つの大きなバージョンにこれらのプロンプトを適用し、パラフレーズ選択タスクの性能を向上させることを示す。

Probabilistic models of language understanding are valuable tools for investigating human language use. However, they need to be hand-designed for a particular domain. In contrast, large language models (LLMs) are trained on text that spans a wide array of domains, but they lack the structure and interpretability of probabilistic models. In this paper, we use chain-of-thought prompts to introduce structures from probabilistic models into LLMs. We explore this approach in the case of metaphor understanding. Our chain-of-thought prompts lead language models to infer latent variables and reason about their relationships in order to choose appropriate paraphrases for metaphors. The latent variables and relationships chosen are informed by theories of metaphor understanding from cognitive psychology. We apply these prompts to the two largest versions of GPT-3 and show that they can improve performance in a paraphrase selection task.
翻訳日:2023-05-24 05:46:35 公開日:2023-05-19
# 森Zwanzigによる深層学習の定式化

The Mori-Zwanzig formulation of deep learning ( http://arxiv.org/abs/2209.05544v4 )

ライセンス: Link先を確認
Daniele Venturi and Xiantao Li(参考訳) 我々は,モリ・ズワンツィヒ(MZ)の可逆統計力学の定式化に基づく新しいディープラーニングの定式化を開発する。 新しい定式化は、ディープニューラルネットワークと離散力学系のよく知られた双対性に基づいて構築されており、正確な線形作用素方程式を用いて、ネットワークを介して関心の量(条件予測と確率密度関数)を直接伝播することができる。 このような新しい方程式は、ディープニューラルネットワークの新しい効果的なパラメータ化を開発する出発点として利用することができ、演算子理論法によるディープラーニングを研究するための新しいフレームワークを提供する。 提案した深層学習のMZ定式化は、ニューラルネットワークの記憶という新しい概念を導入し、低次元モデリングとパラメータ化において基本的な役割を果たす。 縮約写像の理論を用いることで、ニューラルネットワークの記憶が層数で減衰するのに十分な条件を定式化する。 これにより、レイヤー毎のニューロン数(プロジェクション演算子を使用)を削減したり(メモリオペレータの減衰特性を使用して)レイヤー総数を削減したりして、ディープネットワークを浅いものに厳密に変換することが可能になります。

We develop a new formulation of deep learning based on the Mori-Zwanzig (MZ) formalism of irreversible statistical mechanics. The new formulation is built upon the well-known duality between deep neural networks and discrete dynamical systems, and it allows us to directly propagate quantities of interest (conditional expectations and probability density functions) forward and backward through the network by means of exact linear operator equations. Such new equations can be used as a starting point to develop new effective parameterizations of deep neural networks, and provide a new framework to study deep-learning via operator theoretic methods. The proposed MZ formulation of deep learning naturally introduces a new concept, i.e., the memory of the neural network, which plays a fundamental role in low-dimensional modeling and parameterization. By using the theory of contraction mappings, we develop sufficient conditions for the memory of the neural network to decay with the number of layers. This allows us to rigorously transform deep networks into shallow ones, e.g., by reducing the number of neurons per layer (using projection operators), or by reducing the total number of layers (using the decay property of the memory operator).
翻訳日:2023-05-24 05:45:33 公開日:2023-05-19
# バイスペクトルニューラルネットワーク

Bispectral Neural Networks ( http://arxiv.org/abs/2209.03416v5 )

ライセンス: Link先を確認
Sophia Sanborn, Christian Shewmake, Bruno Olshausen, Christopher Hillar(参考訳) 本稿では,信号が定義される空間上のコンパクト可換群の作用に不変な表現を学習するためのニューラルネットワークアーキテクチャであるbispectral neural network (bnns)を提案する。 このモデルは、解析的に定義された群不変量である bispectrum の ansatz を組み込んでいる -- つまり、群作用による変動のみを取り除きながら、すべての信号構造を保存できる。 ここでは,BNNが群,その既約表現,および対応する同変および完全不変写像を,データ中の対称性から純粋に学習できることを実証する。 さらに、完全性は、これらのネットワークに強い不変性に基づく逆ロバスト性を持つことを示す。 この研究は、頑健な不変表現学習のための強力な計算プリミティブとしてバイスペクトルニューラルネットワークを確立する

We present a neural network architecture, Bispectral Neural Networks (BNNs) for learning representations that are invariant to the actions of compact commutative groups on the space over which a signal is defined. The model incorporates the ansatz of the bispectrum, an analytically defined group invariant that is complete -- that is, it preserves all signal structure while removing only the variation due to group actions. Here, we demonstrate that BNNs are able to simultaneously learn groups, their irreducible representations, and corresponding equivariant and complete-invariant maps purely from the symmetries implicit in data. Further, we demonstrate that the completeness property endows these networks with strong invariance-based adversarial robustness. This work establishes Bispectral Neural Networks as a powerful computational primitive for robust invariant representation learning
翻訳日:2023-05-24 05:45:13 公開日:2023-05-19
# unrollingの呪い:最適化による差別化率

The Curse of Unrolling: Rate of Differentiating Through Optimization ( http://arxiv.org/abs/2209.13271v2 )

ライセンス: Link先を確認
Damien Scieur, Quentin Bertrand, Gauthier Gidel, Fabian Pedregosa(参考訳) 最適化問題の解のヤコビアンを計算することは、ハイパーパラメータ最適化、メタラーニング、層としての最適化、データセット蒸留など、機械学習における中心的な問題である。 unrolled differentiationは、反復解法を用いて解を近似し、計算経路を微分する一般的なヒューリスティックである。 この研究は、勾配降下とチェビシェフ法に対する二次目的に対するこのアプローチの非漸近収束率解析を提供する。 我々は、ヤコビアンの収束を保証するために、どちらかが可能であることを示す。 1)高速な漸近収束につながる大きな学習率を選択するが、アルゴリズムが任意に長いバーンインフェーズを持つことを受け入れるか、 2) より少ない学習率を選択して, 瞬時に, 緩やかに収束させる。 我々はこの現象を解脱の呪いと呼ぶ。 最後に, 最適展開戦略のための実用的な更新規則の導出やソボレフ直交多項式の分野との新たな接続など, このアプローチに対するオープンな問題について議論する。

Computing the Jacobian of the solution of an optimization problem is a central problem in machine learning, with applications in hyperparameter optimization, meta-learning, optimization as a layer, and dataset distillation, to name a few. Unrolled differentiation is a popular heuristic that approximates the solution using an iterative solver and differentiates it through the computational path. This work provides a non-asymptotic convergence-rate analysis of this approach on quadratic objectives for gradient descent and the Chebyshev method. We show that to ensure convergence of the Jacobian, we can either 1) choose a large learning rate leading to a fast asymptotic convergence but accept that the algorithm may have an arbitrarily long burn-in phase or 2) choose a smaller learning rate leading to an immediate but slower convergence. We refer to this phenomenon as the curse of unrolling. Finally, we discuss open problems relative to this approach, such as deriving a practical update rule for the optimal unrolling strategy and making novel connections with the field of Sobolev orthogonal polynomials.
翻訳日:2023-05-24 05:34:07 公開日:2023-05-19
# Floquetランダム回路を保存した$U(1)$のスロー熱化とサブ拡散

Slow thermalization and subdiffusion in $U(1)$ conserving Floquet random circuits ( http://arxiv.org/abs/2210.13429v2 )

ライセンス: Link先を確認
Cheryne Jonay, Joaquin F. Rodriguez-Nieva, and Vedika Khemani(参考訳) ランダム量子回路は、最小構造で解析的に抽出可能なカオス力学のパラダイムモデルである。 我々は、Haar random $U(1)$ charge conserving dynamicsを持つFloquetユニタリ回路の族について研究し、最小限のそのようなモデルは、スピン1/2量子ビットに作用する最寄りのゲートと、偶数ゲートの単一層を周期的に繰り返し持つ。 この極小モデルは、数値的にアクセス可能なシステムサイズではロバストに熱するものではなく、長時間の拡散の遅いダイナミクスを示す。 電荷保存回路の広いパラメータ空間における熱化ダイナミクスをマッピングし、パラメータ空間における近距離局所化および可積分レジームの観点からスローダイナミクスの起源を理解する。 対照的に、最小限のモデルへの小さな拡張は堅牢な熱化を達成するのに十分である。 (i)3箇所ゲートへの相互作用範囲の拡大 (二)各地における保存電荷に追加の制約のない量子ビットを付加することにより局所ヒルベルト空間次元を増大させる、又は (iii)2つの独立した門からなる大きなフロッケ期間を用いる。 本研究は, 幅広い話題的理論問題に関連する電荷保存回路について, 今後の数値的研究について述べる。

Random quantum circuits are paradigmatic models of minimally structured and analytically tractable chaotic dynamics. We study a family of Floquet unitary circuits with Haar random $U(1)$ charge conserving dynamics; the minimal such model has nearest-neighbor gates acting on spin 1/2 qubits, and a single layer of even/odd gates repeated periodically in time. We find that this minimal model is not robustly thermalizing at numerically accessible system sizes, and displays slow subdiffusive dynamics for long times. We map out the thermalization dynamics in a broader parameter space of charge conserving circuits, and understand the origin of the slow dynamics in terms of proximate localized and integrable regimes in parameter space. In contrast, we find that small extensions to the minimal model are sufficient to achieve robust thermalization; these include (i) increasing the interaction range to three-site gates (ii) increasing the local Hilbert space dimension by appending an additional unconstrained qubit to the conserved charge on each site, or (iii) using a larger Floquet period comprised of two independent layers of gates. Our results should inform future numerical studies of charge conserving circuits which are relevant for a wide range of topical theoretical questions.
翻訳日:2023-05-24 05:27:25 公開日:2023-05-19
# 層近傍サンプリング -GNNにおける近傍爆発の回避-

Layer-Neighbor Sampling -- Defusing Neighborhood Explosion in GNNs ( http://arxiv.org/abs/2210.13339v2 )

ライセンス: Link先を確認
Muhammed Fatih Bal{\i}n and \"Umit V. \c{C}ataly\"urek(参考訳) グラフニューラルネットワーク(GNN)は最近大きな注目を集めているが、大規模なトレーニングは依然として課題である。 この課題を軽減するため、ミニバッチトレーニングとサンプリングが併用される。 しかし、既存のアプローチは近隣の爆発現象に苦しむか、性能が悪い。 これらの問題に対処するため,LABOR (Layer-neighBOR sample) と呼ばれる新しいサンプリングアルゴリズムを提案する。 近隣サンプリング(NS)を同じファンアウトハイパーパラメータで置き換えると同時に、品質を犠牲にすることなく最大7倍の頂点をサンプリングするように設計されている。 設計により、各頂点の推定器のばらつきは、単一の頂点の観点からNSと一致する。 さらに、同じ頂点サンプリング予算制約の下では、LABORは既存のレイヤサンプリングアプローチよりも早く収束し、NSと比較して最大112倍のバッチサイズを使用することができる。

Graph Neural Networks (GNNs) have received significant attention recently, but training them at a large scale remains a challenge. Mini-batch training coupled with sampling is used to alleviate this challenge. However, existing approaches either suffer from the neighborhood explosion phenomenon or have poor performance. To address these issues, we propose a new sampling algorithm called LAyer-neighBOR sampling (LABOR). It is designed to be a direct replacement for Neighbor Sampling (NS) with the same fanout hyperparameter while sampling up to 7 times fewer vertices, without sacrificing quality. By design, the variance of the estimator of each vertex matches NS from the point of view of a single vertex. Moreover, under the same vertex sampling budget constraints, LABOR converges faster than existing layer sampling approaches and can use up to 112 times larger batch sizes compared to NS.
翻訳日:2023-05-24 05:27:02 公開日:2023-05-19
# オンライン契約設計のサンプル複雑さ

The Sample Complexity of Online Contract Design ( http://arxiv.org/abs/2211.05732v3 )

ライセンス: Link先を確認
Banghua Zhu, Stephen Bates, Zhuoran Yang, Yixin Wang, Jiantao Jiao, and Michael I. Jordan(参考訳) 隠れアクションの主エージェント問題をオンライン環境で研究する。 各ラウンドにおいて、プリンシパルは、各結果に基づいてエージェントへの支払いを規定する契約をポストする。 エージェントは自身の効用を最大化する戦略的な行動の選択を行うが、その行動はプリンシパルによって直接観測できない。 校長は結果を観察し、エージェントの行動選択からユーティリティを受け取る。 過去の観察に基づいて、プリンシパルは契約を動的に調整し、実用性を最大化する。 オンライン学習アルゴリズムを導入し、Stackelbergの後悔に対する上限を提供する。 契約空間が$[0,1]^m$の場合、Stackelbergの後悔は$\widetilde O(\sqrt{m} \cdot T^{1-1/(2m+1)})$で上界、$\Omega(T^{1-1/(m+2)})$で下界であり、$\widetilde O$は対数要素を省略する。 この結果から,指数-in-m$サンプルは最適に近い契約を学習するのに十分であり,オンライン契約設計の難易度に関する未解決問題を解き明かした。 さらに、契約がいくつかの部分集合 $\mathcal{f} \subset [0,1]^m$ に制限されるとき、空間内の球面コードの被覆数に依存し、この内在的な次元の観点で後悔を束縛する、内在的な次元$\mathcal{f}$ を定義する。 $\mathcal{F}$ が線型契約の族であるとき、Stackelberg の後悔はちょうど $\Theta(T^{2/3})$ として成長することを示す。 ユーティリティ関数が不連続であるため、コントラクト設計の問題は難しい。 この設定における離散化誤差の境界はオープンな問題である。 本稿では,ユーティリティ関数が連続した方向の限定的なセットを同定し,新しい離散化法を設計し,その誤差を限定する。 このアプローチは、コントラクトとアクション空間に制限を伴わない、最初の上限を許容する。

We study the hidden-action principal-agent problem in an online setting. In each round, the principal posts a contract that specifies the payment to the agent based on each outcome. The agent then makes a strategic choice of action that maximizes her own utility, but the action is not directly observable by the principal. The principal observes the outcome and receives utility from the agent's choice of action. Based on past observations, the principal dynamically adjusts the contracts with the goal of maximizing her utility. We introduce an online learning algorithm and provide an upper bound on its Stackelberg regret. We show that when the contract space is $[0,1]^m$, the Stackelberg regret is upper bounded by $\widetilde O(\sqrt{m} \cdot T^{1-1/(2m+1)})$, and lower bounded by $\Omega(T^{1-1/(m+2)})$, where $\widetilde O$ omits logarithmic factors. This result shows that exponential-in-$m$ samples are sufficient and necessary to learn a near-optimal contract, resolving an open problem on the hardness of online contract design. Moreover, when contracts are restricted to some subset $\mathcal{F} \subset [0,1]^m$, we define an intrinsic dimension of $\mathcal{F}$ that depends on the covering number of the spherical code in the space and bound the regret in terms of this intrinsic dimension. When $\mathcal{F}$ is the family of linear contracts, we show that the Stackelberg regret grows exactly as $\Theta(T^{2/3})$. The contract design problem is challenging because the utility function is discontinuous. Bounding the discretization error in this setting has been an open problem. In this paper, we identify a limited set of directions in which the utility function is continuous, allowing us to design a new discretization method and bound its error. This approach enables the first upper bound with no restrictions on the contract and action space.
翻訳日:2023-05-24 05:17:58 公開日:2023-05-19
# 長尺3次元検出に向けて

Towards Long-Tailed 3D Detection ( http://arxiv.org/abs/2211.08691v2 )

ライセンス: Link先を確認
Neehar Peri, Achal Dave, Deva Ramanan, Shu Kong(参考訳) 現代の自動運転車(AV)ベンチマークは、特に大規模ライダーデータに基づいて3D検出器を訓練するための高度な技術を持っている。 驚くべきことに、セマンティッククラスラベルは自然に長い尾の分布に従うが、現代のベンチマークはいくつかの共通クラス(歩行者や車など)に焦点を合わせ、多くの珍しいクラス(破片やベビーカーなど)を無視している。 しかし、安全操作を保証するためにavsは希少なクラスを検出する必要がある。 さらに、セマンティッククラスは階層内で組織されることが多い。例えば、子や建設作業員のような尾クラスは、間違いなく歩行者のサブクラスである。 しかし、このような階層的な関係はしばしば無視され、パフォーマンスの誤解を招く可能性があり、アルゴリズムによるイノベーションの機会を逃してしまう。 我々は,この課題を全クラスで評価可能なlt3d(long-tailed 3d detection)の問題を正式に検討することで解決する。 我々は,CenterPointやPointPillarsなどの一般的な3D検出コードベースを評価し,LT3Dに適応させる。 我々は,共通vs-rareクラス間の機能共有を促進する階層的損失と,階層性(例えば,子どもを大人に誤用する)に関する"理不尽な"誤りに対する部分的クレジットを与える検出指標の改善を実現した。 最後に,LiDARによるRGB画像のマルチモーダル融合により,微粒なテールクラスの精度が特に向上することが指摘されている。 全クラスで平均5%AP精度を向上し、レアクラスのAPを劇的に改善する(例:ベビーカーAPは3.6から31.6に改善)。 私たちのコードはhttps://github.com/neeharperi/LT3Dで利用可能です。

Contemporary autonomous vehicle (AV) benchmarks have advanced techniques for training 3D detectors, particularly on large-scale lidar data. Surprisingly, although semantic class labels naturally follow a long-tailed distribution, contemporary benchmarks focus on only a few common classes (e.g., pedestrian and car) and neglect many rare classes in-the-tail (e.g., debris and stroller). However, AVs must still detect rare classes to ensure safe operation. Moreover, semantic classes are often organized within a hierarchy, e.g., tail classes such as child and construction-worker are arguably subclasses of pedestrian. However, such hierarchical relationships are often ignored, which may lead to misleading estimates of performance and missed opportunities for algorithmic innovation. We address these challenges by formally studying the problem of Long-Tailed 3D Detection (LT3D), which evaluates on all classes, including those in-the-tail. We evaluate and innovate upon popular 3D detection codebases, such as CenterPoint and PointPillars, adapting them for LT3D. We develop hierarchical losses that promote feature sharing across common-vs-rare classes, as well as improved detection metrics that award partial credit to "reasonable" mistakes respecting the hierarchy (e.g., mistaking a child for an adult). Finally, we point out that fine-grained tail class accuracy is particularly improved via multimodal fusion of RGB images with LiDAR; simply put, small fine-grained classes are challenging to identify from sparse (lidar) geometry alone, suggesting that multimodal cues are crucial to long-tailed 3D detection. Our modifications improve accuracy by 5% AP on average for all classes, and dramatically improve AP for rare classes (e.g., stroller AP improves from 3.6 to 31.6)! Our code is available at https://github.com/neeharperi/LT3D
翻訳日:2023-05-24 05:08:46 公開日:2023-05-19
# 真の量子力学的レジームに対するゆらぎ定理

Fluctuation theorems for genuine quantum mechanical regimes ( http://arxiv.org/abs/2211.16179v4 )

ライセンス: Link先を確認
Thales Augusto Barbosa Pinto Silva and Renato Moreira Angelo(参考訳) 非平衡熱力学に対する議論の余地のない関連性の中で、ゆらぎ定理は量子熱力学の枠組みに一般化され、そのような文脈において仕事の概念が重要な役割を果たす。 典型的なアプローチは、仕事を確率変数として扱うことと、決定論的ダイナミクスを持つ古典的装置として作用するシステムから成り立っている。 ここでは、量子機械の分野での技術進歩に触発されて、作用系が量子領域に入ることを許されたときの揺らぎ定理の修正を求める。 これには、動的に作用するシステムを含み、実行されるシステムと非古典的な状態を共有することが含まれる。 さらに,このプログラムに機械的視点を取り入れた作業観察可能という概念を取り入れた。 単純性のために、弾性結合を持つ2粒子系の自律力学を理論的プラットフォームとして選択する。 いくつかの特定の過程に対して、量子および古典的な統計アリーナ内のいくつかのゆらぎ定理を導出する。 量子的な結果では、エンタングルメントや量子コヒーレンスとともに、慣性は機械的平衡への経路を規制するので重要な役割を担っていることが分かる。

Of indisputable relevance for non-equilibrium thermodynamics, fluctuations theorems have been generalized to the framework of quantum thermodynamics, with the notion of work playing a key role in such contexts. The typical approach consists of treating work as a stochastic variable and the acting system as an eminently classical device with a deterministic dynamics. Inspired by technological advances in the field of quantum machines, here we look for corrections to work fluctuations theorems when the acting system is allowed to enter the quantum domain. This entails including the acting system in the dynamics and letting it share a nonclassical state with the system acted upon. Moreover, favoring a mechanical perspective to this program, we employ a concept of work observable. For simplicity, we choose as theoretical platform the autonomous dynamics of a two-particle system with an elastic coupling. For some specific processes, we derive several fluctuation theorems within both the quantum and classical statistical arenas. In the quantum results, we find that, along with entanglement and quantum coherence, aspects of inertia also play a significant role since they regulate the route to mechanical equilibrium.
翻訳日:2023-05-24 04:56:59 公開日:2023-05-19
# 物理制約による温度・湿度の深層学習後処理

Physics-constrained deep learning postprocessing of temperature and humidity ( http://arxiv.org/abs/2212.04487v2 )

ライセンス: Link先を確認
Francesco Zanetta, Daniele Nerini, Tom Beucler and Mark A. Liniger(参考訳) 気象予報センターは現在、予報誤差を最小限に抑えるために統計的後処理方法に依存している。 これにより、スキルは向上するが、物理的な原則に違反したり、変数間の依存関係を無視する予測につながる可能性がある。 物理インフォームド機械学習の最近の進歩に基づき,気象学の専門知識を解析方程式の形で統合し,深層学習に基づく後処理モデルにおける物理的整合性を実現することを提案する。 スイスの表層気象のプロセス後処理に適用すると、ニューラルネットワークが熱力学状態方程式を強制することは、性能を損なうことなく、温度と湿度の物理的に一貫性のある予測をもたらすことが分かる。 その結果、後処理モデルにドメインの専門知識を組み込むことで、アプリケーション固有の要件を満たしながら天気予報情報を最適化できることが示唆された。

Weather forecasting centers currently rely on statistical postprocessing methods to minimize forecast error. This improves skill but can lead to predictions that violate physical principles or disregard dependencies between variables, which can be problematic for downstream applications and for the trustworthiness of postprocessing models, especially when they are based on new machine learning approaches. Building on recent advances in physics-informed machine learning, we propose to achieve physical consistency in deep learning-based postprocessing models by integrating meteorological expertise in the form of analytic equations. Applied to the post-processing of surface weather in Switzerland, we find that constraining a neural network to enforce thermodynamic state equations yields physically-consistent predictions of temperature and humidity without compromising performance. Our approach is especially advantageous when data is scarce, and our findings suggest that incorporating domain expertise into postprocessing models allows to optimize weather forecast information while satisfying application-specific requirements.
翻訳日:2023-05-24 04:47:16 公開日:2023-05-19
# egoのみ:エゴセントリックな行動検出

Ego-Only: Egocentric Action Detection without Exocentric Transferring ( http://arxiv.org/abs/2301.01380v2 )

ライセンス: Link先を確認
Huiyu Wang, Mitesh Kumar Singh, Lorenzo Torresani(参考訳) 我々は,エゴセントリック(一人称)ビデオにおける最先端の動作検出を可能にする最初のアプローチであるego-onlyを提案する。 2つのドメインを分ける内容と外観のギャップにもかかわらず、大規模なエキソセントリックトランスファーは、エゴセントリックなアクション検出のデフォルト選択となっている。 これは、エゴセントリックモデルがゼロから訓練することが困難であることや、異中心表現からの転送が精度の向上につながることによる。 しかし,本稿では,この共通の信念を再検討する。 2つの領域を分ける大きなギャップに動機づけられた,エゴセントリックモデルの効果的なトレーニングを可能にする戦略を提案する。 Ego-Onlyアプローチはシンプルです。 テンポラリセグメンテーション用に微調整されたマスク付きオートエンコーダでビデオ表現を訓練する。 学習した特徴は、オフザシェルフの時間的行動ローカライゼーションメソッドに送られ、アクションを検出する。 この単純なEgo-Onlyアプローチは、Ego4D、EPIC-Kitchens-100、Charades-Egoの3つのエゴセントリックなビデオデータセットに対して、極めて強力な結果をもたらす。 アクション検出とアクション認識の両方において、egoのみは、より桁違いに多くのラベルを使用する以前のベストエクソセントリックトランスファーメソッドよりも優れている。 ego-onlyは、エキソセントリックなデータなしで、これらのデータセットとベンチマークに新しい最先端の結果をセットする。

We present Ego-Only, the first approach that enables state-of-the-art action detection on egocentric (first-person) videos without any form of exocentric (third-person) transferring. Despite the content and appearance gap separating the two domains, large-scale exocentric transferring has been the default choice for egocentric action detection. This is because prior works found that egocentric models are difficult to train from scratch and that transferring from exocentric representations leads to improved accuracy. However, in this paper, we revisit this common belief. Motivated by the large gap separating the two domains, we propose a strategy that enables effective training of egocentric models without exocentric transferring. Our Ego-Only approach is simple. It trains the video representation with a masked autoencoder finetuned for temporal segmentation. The learned features are then fed to an off-the-shelf temporal action localization method to detect actions. We find that this renders exocentric transferring unnecessary by showing remarkably strong results achieved by this simple Ego-Only approach on three established egocentric video datasets: Ego4D, EPIC-Kitchens-100, and Charades-Ego. On both action detection and action recognition, Ego-Only outperforms previous best exocentric transferring methods that use orders of magnitude more labels. Ego-Only sets new state-of-the-art results on these datasets and benchmarks without exocentric data.
翻訳日:2023-05-24 04:38:27 公開日:2023-05-19
# DeepVATS: 時系列のためのディープビジュアル分析

DeepVATS: Deep Visual Analytics for Time Series ( http://arxiv.org/abs/2302.03858v2 )

ライセンス: Link先を確認
Victor Rodriguez-Fernandez, David Montalvo, Francesco Piccialli, Grzegorz J. Nalepa, David Camacho(参考訳) Deep Visual Analytics(DVA)の分野は最近、ディープラーニングがサポートするVisual Interactive Systemsの開発から生まれた。大規模なデータ処理機能を提供し、異なるデータやドメインにまたがって実装を統合するためである。 本稿では,DVAのフィールドを時系列データに組み込むオープンソースツールであるDeepVATSについて述べる。 DeepVATSは自己監督的な方法で、時系列のパッチを再構築するマスク付き時系列自動エンコーダを訓練し、そのモデルの埋め込みに含まれる知識をインタラクティブなプロットに投影する。 このツールには、データ処理パイプラインとモデルトレーニングのためのバックエンドと、インタラクティブなユーザインターフェースを備えたフロントエンドが含まれている。 本稿では,deepvatsの有用性を検証し,合成データと実データの両方で実験を行った結果について報告する。 コードはhttps://github.com/vrodriguezf/deepvatsで公開されている。

The field of Deep Visual Analytics (DVA) has recently arisen from the idea of developing Visual Interactive Systems supported by deep learning, in order to provide them with large-scale data processing capabilities and to unify their implementation across different data and domains. In this paper we present DeepVATS, an open-source tool that brings the field of DVA into time series data. DeepVATS trains, in a self-supervised way, a masked time series autoencoder that reconstructs patches of a time series, and projects the knowledge contained in the embeddings of that model in an interactive plot, from which time series patterns and anomalies emerge and can be easily spotted. The tool includes a back-end for data processing pipeline and model training, as well as a front-end with a interactive user interface. We report on results that validate the utility of DeepVATS, running experiments on both synthetic and real datasets. The code is publicly available on https://github.com/vrodriguezf/deepvats
翻訳日:2023-05-24 04:20:35 公開日:2023-05-19
# 科学文献からの機械学習教材類似による無機合成の前駆的勧告

Precursor recommendation for inorganic synthesis by machine learning materials similarity from scientific literature ( http://arxiv.org/abs/2302.02303v2 )

ライセンス: Link先を確認
Tanjin He, Haoyan Huo, Christopher J. Bartel, Zheren Wang, Kevin Cruse, Gerbrand Ceder(参考訳) 合成予測は先端材料の迅速な設計のための重要な加速器である。 しかし, 加熱中の反応の順序がよく分かっていないため, 前駆物質の選択などの合成変数を決定することは無機材料にとって困難である。 本研究では, 科学文献からテキストマイニングされた29,900種類の固体合成レシピを用いて, 新規な標的物質の合成を推奨する先駆体を自動学習する。 データ駆動アプローチは、物質の化学的類似性を学習し、人間の合成設計を模倣した、類似物質の前例的な合成手順への新しいターゲットの合成を参照する。 2,654個の未確認試験対象材料それぞれに5つの前駆体を提案する場合、推奨戦略は少なくとも82%の成功率を達成する。 我々の手法は何十年ものヒューリスティックな合成データを数学的形式で捉え、レコメンデーションエンジンや自律的な実験室での使用を可能にする。

Synthesis prediction is a key accelerator for the rapid design of advanced materials. However, determining synthesis variables such as the choice of precursor materials is challenging for inorganic materials because the sequence of reactions during heating is not well understood. In this work, we use a knowledge base of 29,900 solid-state synthesis recipes, text-mined from the scientific literature, to automatically learn which precursors to recommend for the synthesis of a novel target material. The data-driven approach learns chemical similarity of materials and refers the synthesis of a new target to precedent synthesis procedures of similar materials, mimicking human synthesis design. When proposing five precursor sets for each of 2,654 unseen test target materials, the recommendation strategy achieves a success rate of at least 82%. Our approach captures decades of heuristic synthesis data in a mathematical form, making it accessible for use in recommendation engines and autonomous laboratories.
翻訳日:2023-05-24 04:19:28 公開日:2023-05-19
# 媒介的有効容量による最寄り近傍の結合を有する低オーバーヘッド量子バス

Low Overhead Quantum Bus with Coupling beyond the Nearest Neighbor via Mediated Effective Capacitance ( http://arxiv.org/abs/2302.04284v2 )

ライセンス: Link先を確認
Yariv Yanay, Charles Tahan(参考訳) 容易な2つの量子ビットゲートの設計は、現在進行中の研究領域である。 一般的なスキームの多くは専用の制御線を必要とするが、周波数混雑の問題に弱いものもある。 本稿では,論理キュービットとして振る舞うトランスモンの連鎖を,補助キュービットの量子バスを介して結合する手法を提案する。 補助配列は浮遊トランスモンでできており、媒介的相互作用を利用することで、近接する近傍の外側で効果的なキャパシタンスを生成する。 論理キュービットは互いに直接結合しないが、遠方調整された補助配列に周波数を近づけることで結合することができる。 これにより、不要な論理キュービット間の調整可能な結合が可能となり、ゲートを3つ以上のキュービットに一度に絡めることができる。

The design of easy to operate high-fidelity two qubit gates remains an area of ongoing research. Many of the common schemes require dedicated controls lines, while others are vulnerable to issues of frequency crowding. Here, we propose a scheme for coupling a chain of transmons acting as logical qubits via a quantum bus of auxiliary qubits. The auxiliary array is made of floating transmons, and through the use of mediated interactions we generate effective capacitance between them beyond the nearest neighbor. Logical qubits are not directly coupled to each other, but they can be coupled by bringing them closer in frequency to the far-detuned auxiliary arrays. This allows for tunable coupling between non-neighboring logical qubits, and for the application of entangling gates to three or more qubits at once.
翻訳日:2023-05-24 04:08:43 公開日:2023-05-19
# ワークプレースウェルビーイング技術に労働者は満足できるのか?

Can Workers Meaningfully Consent to Workplace Wellbeing Technologies? ( http://arxiv.org/abs/2303.07242v3 )

ライセンス: Link先を確認
Shreya Chowdhary, Anna Kawakami, Mary L. Gray, Jina Suh, Alexandra Olteanu, Koustuv Saha(参考訳) 職場に展開されるセンシング技術は、個々のアクティビティやグループ間のインタラクションに関する詳細なデータを、控えめに収集することができる。 これらの技術の希望的な応用は、企業や労働者が生産性と幸福を最適化するのを助けることだ。 しかしながら、職場の本質的で構造的なパワーダイナミクスを考えると、労働者の有意義な同意を求めるのではなく、労働者活動を監視するために暗黙のコンプライアンスを受け入れるという一般的なアプローチは、プライバシと倫理的懸念を提起する。 本稿では、職場の福祉技術に同意する労働者が直面する課題を解き放つ。 15人の参加者を含む6つのマルチstakeholder focusグループ間の反省を促す仮定的なケースを用いて、これらの技術に同意する参加者の期待と能力について検討した。 We sketched possible interventions that could better support meaningful consent to workplace wellbeing technologies by drawing on critical computing and feminist scholarship -- which reframes consent from a purely individual choice to a structural condition experienced at the individual level that needs to be freely given, reversible, informed, enthusiastic, and specific (FRIES). The focus groups revealed how workers are vulnerable to "meaningless" consent -- as they may be subject to power dynamics that minimize their ability to withhold consent and may thus experience an erosion of autonomy, also undermining the value of data gathered in the name of "wellbeing." 有意義な同意を得るために、参加者は技術の変更と技術を取り巻く政策や実践を望んでいた。 労働者が職場の幸福技術(チャリエンス)に有意義に同意することを妨げるもの(インターベンション)のマッピングは、意味のある同意の欠如が社会技術的解決を必要とする構造的な問題であることを示している。

Sensing technologies deployed in the workplace can unobtrusively collect detailed data about individual activities and group interactions that are otherwise difficult to capture. A hopeful application of these technologies is that they can help businesses and workers optimize productivity and wellbeing. However, given the workplace's inherent and structural power dynamics, the prevalent approach of accepting tacit compliance to monitor work activities rather than seeking workers' meaningful consent raises privacy and ethical concerns. This paper unpacks the challenges workers face when consenting to workplace wellbeing technologies. Using a hypothetical case to prompt reflection among six multi-stakeholder focus groups involving 15 participants, we explored participants' expectations and capacity to consent to these technologies. We sketched possible interventions that could better support meaningful consent to workplace wellbeing technologies by drawing on critical computing and feminist scholarship -- which reframes consent from a purely individual choice to a structural condition experienced at the individual level that needs to be freely given, reversible, informed, enthusiastic, and specific (FRIES). The focus groups revealed how workers are vulnerable to "meaningless" consent -- as they may be subject to power dynamics that minimize their ability to withhold consent and may thus experience an erosion of autonomy, also undermining the value of data gathered in the name of "wellbeing." To meaningfully consent, participants wanted changes to the technology and to the policies and practices surrounding the technology. Our mapping of what prevents workers from meaningfully consenting to workplace wellbeing technologies (challenges) and what they require to do so (interventions) illustrates how the lack of meaningful consent is a structural problem requiring socio-technical solutions.
翻訳日:2023-05-24 03:39:43 公開日:2023-05-19
# 等尺テンソルネットワーク状態のエネルギー最適化におけるバレンプレートの存在と勾配のスケーリング

Absence of barren plateaus and scaling of gradients in the energy optimization of isometric tensor network states ( http://arxiv.org/abs/2304.00161v2 )

ライセンス: Link先を確認
Thomas Barthel, Qiang Miao(参考訳) 減衰勾配は高次元最適化問題にかなりの障害を与える。 ここでは、古典的コンピュータや量子コンピュータ上の変分量子固有解器の形で研究できる、広いハミルトニアンを持つ量子多体系のエネルギー最小化問題を考察する。 バレン高原は、エネルギー勾配の平均振幅がシステムサイズの増加とともに指数関数的に減少するシナリオに対応する。 これは例えば、量子ニューラルネットワークやブロックウォール量子回路において、深さがシステムサイズで多項式的に増加するときに発生する。 ここでは,行列積状態,木テンソルネットワーク,マルチスケールエンタングルメント再正規化アンサッツに対する変分最適化問題には不規則な高原がないことを示す。 勾配分散の派生スケーリング特性は、ランダム初期化テンソルネットワーク状態(tns)のトレーサビリティを解析的に保証し、特定の初期化スキームを動機付ける。 適切な表現では、TNSをパラメトリケートするユニタリテンソルは、均一なハール測度に従ってサンプリングされる。 解析的評価を単純化する勾配に基づく最適化のリーマン的定式化を用いる。

Vanishing gradients can pose substantial obstacles for high-dimensional optimization problems. Here we consider energy minimization problems for quantum many-body systems with extensive Hamiltonians, which can be studied on classical computers or in the form of variational quantum eigensolvers on quantum computers. Barren plateaus correspond to scenarios where the average amplitude of the energy gradient decreases exponentially with increasing system size. This occurs, for example, for quantum neural networks and for brickwall quantum circuits when the depth increases polynomially in the system size. Here we prove that the variational optimization problems for matrix product states, tree tensor networks, and the multiscale entanglement renormalization ansatz are free of barren plateaus. The derived scaling properties for the gradient variance provide an analytical guarantee for the trainability of randomly initialized tensor network states (TNS) and motivate certain initialization schemes. In a suitable representation, unitary tensors that parametrize the TNS are sampled according to the uniform Haar measure. We employ a Riemannian formulation of the gradient based optimizations which simplifies the analytical evaluation.
翻訳日:2023-05-24 03:33:37 公開日:2023-05-19
# MEGA: 生成AIの多言語評価

MEGA: Multilingual Evaluation of Generative AI ( http://arxiv.org/abs/2303.12528v3 )

ライセンス: Link先を確認
Kabir Ahuja and Harshita Diddee and Rishav Hada and Millicent Ochieng and Krithika Ramesh and Prachi Jain and Akshay Nambi and Tanuja Ganu and Sameer Segal and Maxamed Axmed and Kalika Bali and Sunayana Sitaram(参考訳) 生成AIモデルは、言語理解、推論、言語生成など、多くの自然言語処理タスクにおいて印象的なパフォーマンスを持つ。 今日のAIコミュニティから求められている最も重要な質問の1つは、これらのモデルの能力と限界についてであり、生成的AIを評価することが非常に難しいことは明らかである。 生成型大言語モデル(llm)の研究のほとんどは英語に限られており、これらのモデルが他言語をいかに理解し生成できるかは不明である。 そこで本研究では,標準NLPベンチマークのモデル評価を行うジェネレーティブLLMsMEGAの総合ベンチマークを行い,8つのタスクと33の言語を網羅した。 また, 生成型LLMの性能を, これらのタスクにおける非自己回帰モデル(SOTA)と比較し, 生成型LLMと比較して, 生成型モデルの性能について検討した。 本稿では, 言語間でのモデルの性能を徹底的に分析し, 生成LDMが現在すべての言語に最適でない理由について論じる。 我々は,多言語設定におけるジェネレーティブLLMの評価フレームワークを作成し,今後の発展に向けての方向性を提供する。

Generative AI models have impressive performance on many Natural Language Processing tasks such as language understanding, reasoning and language generation. One of the most important questions that is being asked by the AI community today is about the capabilities and limits of these models, and it is clear that evaluating generative AI is very challenging. Most studies on generative Large Language Models (LLMs) are restricted to English and it is unclear how capable these models are at understanding and generating other languages. We present the first comprehensive benchmarking of generative LLMs - MEGA, which evaluates models on standard NLP benchmarks, covering 8 diverse tasks and 33 typologically diverse languages. We also compare the performance of generative LLMs to State of the Art (SOTA) non-autoregressive models on these tasks to determine how well generative models perform compared to the previous generation of LLMs. We present a thorough analysis of the performance of models across languages and discuss some of the reasons why generative LLMs are currently not optimal for all languages. We create a framework for evaluating generative LLMs in the multilingual setting and provide directions for future progress in the field.
翻訳日:2023-05-24 03:30:40 公開日:2023-05-19
# なぜ一歩ずつ考えるのか? 経験の局所性から推論が現れる

Why think step by step? Reasoning emerges from the locality of experience ( http://arxiv.org/abs/2304.03843v2 )

ライセンス: Link先を確認
Ben Prystawski, Michael Y. Li, Noah D. Goodman(参考訳) 人間は力強く神秘的な能力を持っている。 純粋に精神的な一連のステップを通じて作業することで、世界から追加のデータが得られていないにもかかわらず、直接的に行うことができない推論が可能になる。 同様に、大きな言語モデルが質問に答える前に一連の中間段階(思考の連鎖)を生成するとき、彼らはしばしば他のものよりも優れた答えを生み出す。 言語モデルにおいて連鎖的推論が有用である理由と方法について検討し,相互に強い影響を与える変数の局所クラスタからデータトレーニングを行う場合,推論が有効であるという仮説を検証した。 これらの訓練条件は、訓練中に一緒に見られなかった変数間の関係を推定するために、正確な局所推論の連鎖を可能にする。 連鎖構造確率モデルから局所サンプルを用いて学習した自己回帰密度推定器の簡単な場合において、中間変数による推論が推論を改善する「推論ギャップ」が存在することを証明した。 次に、より複雑なモデルで経験的に仮説を検証し、ベイズネットのサンプルに対して自己回帰言語モデルを訓練するが、各サンプルに変数のサブセットのみを含む。 我々は言語モデルの条件付き確率を中間的な推論ステップと一致させる能力をテストし、中間のステップが変数間の依存関係に関して局所的に構造化されている場合にのみ有効であること、局所的な構造化された観察と推論の組み合わせが全ての変数のトレーニングよりもデータ効率が高いことを発見した。 本研究は,学習データの局所的統計構造に,段階別推論の有効性が深く根ざしていることを示す。

Humans have a powerful and mysterious capacity to reason. By working through a series of purely mental steps, we can make inferences we would not be capable of making directly -- despite the fact that we get no additional data from the world. Similarly, when large language models generate a series of intermediate steps (a chain of thought) before answering a question, they often produce better answers than they otherwise would. We investigate why and how chain-of-thought reasoning is useful in language models, testing the hypothesis that reasoning is effective when training data consists of local clusters of variables that influence each other strongly. These training conditions enable the chaining of accurate local inferences in order to estimate relationships between variables that were not seen together in training. We prove that there will exist a "reasoning gap", where reasoning through intermediate variables improves inference, for the simple case of an autoregressive density estimator trained on local samples from a chain-structured probabilistic model. We then test our hypothesis empirically in more complex models, training an autoregressive language model on samples from Bayes nets but only including a subset of variables in each sample. We test language models' ability to match conditional probabilities with and without intermediate reasoning steps, finding that intermediate steps are only helpful when the training data is locally structured with respect to dependencies between variables and that the combination of locally-structured observations and reasoning is much more data-efficient than training on all variables. Our results illustrate how the effectiveness of reasoning step by step is rooted in the local statistical structure of the training data.
翻訳日:2023-05-24 03:21:41 公開日:2023-05-19
# LaMP: 大きな言語モデルがパーソナライゼーションに出会ったとき

LaMP: When Large Language Models Meet Personalization ( http://arxiv.org/abs/2304.11406v2 )

ライセンス: Link先を確認
Alireza Salemi, Sheshera Mysore, Michael Bendersky, Hamed Zamani(参考訳) 本稿では、自然言語理解と生成の現状におけるパーソナライズの重要性を強調し、パーソナライズされた出力を生成するための言語モデルのトレーニングと評価のための新しいベンチマークであるLaMPベンチマークを紹介する。 LaMPは、さまざまな言語タスクと、各ユーザプロファイルに対する複数のエントリを備えた総合的な評価フレームワークを提供する。 それは7つのパーソナライズされたタスクで構成され、3つの分類と4つのテキスト生成タスクにまたがる。 また,ユーザプロファイルからパーソナライズされた項目を検索し,大規模言語モデルのためのパーソナライズされたプロンプトを構築する検索拡張手法を提案する。 ベースラインゼロショットモデルと微調整モデルにより、プロファイル情報に影響を及ぼさないプロファイル拡張を用いたLMの方が、プロファイル情報よりも優れていることを示す。

This paper highlights the importance of personalization in the current state of natural language understanding and generation and introduces the LaMP benchmark -- a novel benchmark for training and evaluating language models for producing personalized outputs. LaMP offers a comprehensive evaluation framework with diverse language tasks and multiple entries for each user profile. It consists of seven personalized tasks, spanning three classification and four text generation tasks. We also propose a retrieval augmentation approach that retrieves personalized items from user profiles to construct personalized prompts for large language models. Our baseline zero-shot and fine-tuned model results indicate that LMs utilizing profile augmentation outperform their counterparts that do not factor in profile information.
翻訳日:2023-05-24 03:10:40 公開日:2023-05-19
# IDQL: 拡散ポリシを用いたアクタクリティカルなQ-ラーニング

IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion Policies ( http://arxiv.org/abs/2304.10573v2 )

ライセンス: Link先を確認
Philippe Hansen-Estruch, Ilya Kostrikov, Michael Janner, Jakub Grudzien Kuba, Sergey Levine(参考訳) 効果的なオフラインRLメソッドは、配布外アクションを適切に処理する必要がある。 Implicit Q-learning(IQL)は、修正されたBellmanバックアップを通じてデータセットアクションのみを使用して、Q-関数をトレーニングすることで、この問題に対処する。 しかしながら、この暗黙的に訓練されたq関数で表される値が実際にどのポリシーで達成されるのかは不明である。 本稿では,批判対象を一般化し,行動規範化された暗黙的アクタと接続することにより,iqlをアクタ批判的手法として再解釈する。 この一般化は、誘導されたアクターが、このトレードオフの性質を決定する特定の損失選択とともに、行動方針からの報酬の最大化と分散のバランスを示す。 特に、このアクターは複雑でマルチモーダルな特性を示し、条件付きガウス型アクターが以前の手法で使われるアドバンテージ重み付け回帰 (awr) に適合する問題を提案する。 代わりに,拡散パラメータ化行動ポリシーのサンプルと,評価者から計算した重みを用いて,目的とする政策の標本化を重要視する。 一般的なiql批判とポリシ抽出法を組み合わせた,暗黙的拡散q-learning(idql)を導入する。 IDQLは、IQLの実装の容易さを維持しながら、以前のオフラインRLメソッドよりも優れ、ハイパーパラメータに対する堅牢性を示している。 コードはhttps://github.com/philippe-eecs/idqlで入手できる。

Effective offline RL methods require properly handling out-of-distribution actions. Implicit Q-learning (IQL) addresses this by training a Q-function using only dataset actions through a modified Bellman backup. However, it is unclear which policy actually attains the values represented by this implicitly trained Q-function. In this paper, we reinterpret IQL as an actor-critic method by generalizing the critic objective and connecting it to a behavior-regularized implicit actor. This generalization shows how the induced actor balances reward maximization and divergence from the behavior policy, with the specific loss choice determining the nature of this tradeoff. Notably, this actor can exhibit complex and multimodal characteristics, suggesting issues with the conditional Gaussian actor fit with advantage weighted regression (AWR) used in prior methods. Instead, we propose using samples from a diffusion parameterized behavior policy and weights computed from the critic to then importance sampled our intended policy. We introduce Implicit Diffusion Q-learning (IDQL), combining our general IQL critic with the policy extraction method. IDQL maintains the ease of implementation of IQL while outperforming prior offline RL methods and demonstrating robustness to hyperparameters. Code is available at https://github.com/philippe-eecs/IDQL.
翻訳日:2023-05-24 03:10:27 公開日:2023-05-19
# MEGABYTE:マルチスケールトランスフォーマーによる数百万バイトシーケンスの予測

MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers ( http://arxiv.org/abs/2305.07185v2 )

ライセンス: Link先を確認
Lili Yu, D\'aniel Simig, Colin Flaherty, Armen Aghajanyan, Luke Zettlemoyer, Mike Lewis(参考訳) オートレグレッシブトランスフォーマーは短いシーケンスの素晴らしいモデルだが、高解像度画像、ポッドキャスト、コード、本といった長いシーケンスにはほとんどスケールしない。 我々は100万バイト以上のシーケンスのエンドツーエンドの微分可能モデリングを可能にするマルチスケールデコーダアーキテクチャであるmegabyteを提案した。 Megabyteはパッチにシーケンスを分割し、パッチ内のローカルサブモデルとパッチ間のグローバルモデルを使用する。 これにより、サブクアクラティックな自己アテンション、同じ計算のためのはるかに大きなフィードフォワード層、デコード時の並列性の改善 -- トレーニングと生成の両方のコスト削減によるパフォーマンス向上が可能になる。 大規模な実験により、Megabyteはバイトレベルモデルと長文言語モデリングのサブワードモデルとの競合、ImageNetの最先端密度推定、生ファイルからのオーディオのモデル化を可能にしている。 これらの結果は、トークン化のない自己回帰配列モデリングを大規模に実現する。

Autoregressive transformers are spectacular models for short sequences but scale poorly to long sequences such as high-resolution images, podcasts, code, or books. We proposed Megabyte, a multi-scale decoder architecture that enables end-to-end differentiable modeling of sequences of over one million bytes. Megabyte segments sequences into patches and uses a local submodel within patches and a global model between patches. This enables sub-quadratic self-attention, much larger feedforward layers for the same compute, and improved parallelism during decoding -- unlocking better performance at reduced cost for both training and generation. Extensive experiments show that Megabyte allows byte-level models to perform competitively with subword models on long context language modeling, achieve state-of-the-art density estimation on ImageNet, and model audio from raw files. Together, these results establish the viability of tokenization-free autoregressive sequence modeling at scale.
翻訳日:2023-05-24 02:42:33 公開日:2023-05-19
# ST-GIN:時空間グラフアテンションと双方向再帰型ニューラルネットを用いた交通データインプットの不確かさ定量化手法

ST-GIN: An Uncertainty Quantification Approach in Traffic Data Imputation with Spatio-temporal Graph Attention and Bidirectional Recurrent United Neural Networks ( http://arxiv.org/abs/2305.06480v2 )

ライセンス: Link先を確認
Zepu Wang, Dingyi Zhuang, Yankai Li, Jinhua Zhao, Peng Sun(参考訳) 交通データは、インテリジェント交通システムにおける研究と応用の両方において、基本的な要素となっている。 しかし、ループ検出器や類似のソースから収集された実世界の輸送データは、しばしば、関連するアプリケーションや研究に悪影響を及ぼすような欠落値(MV)を含んでいる。 この不完全なデータを破棄する代わりに、数値統計、テンソル分解、深層学習技術を通じて、これらの欠落した値を復元しようと試みてきた。 本稿では,欠落データに対する革新的な深層学習手法を提案する。 トラフィックデータに存在する空間的相関を捉えるためにグラフアテンションアーキテクチャを用い、双方向ニューラルネットワークを用いて時間的情報を学ぶ。 実験の結果,提案手法は他のベンチマーク手法よりも優れており,その有効性が示された。

Traffic data serves as a fundamental component in both research and applications within intelligent transportation systems. However, real-world transportation data, collected from loop detectors or similar sources, often contain missing values (MVs), which can adversely impact associated applications and research. Instead of discarding this incomplete data, researchers have sought to recover these missing values through numerical statistics, tensor decomposition, and deep learning techniques. In this paper, we propose an innovative deep-learning approach for imputing missing data. A graph attention architecture is employed to capture the spatial correlations present in traffic data, while a bidirectional neural network is utilized to learn temporal information. Experimental results indicate that our proposed method outperforms all other benchmark techniques, thus demonstrating its effectiveness.
翻訳日:2023-05-24 02:41:49 公開日:2023-05-19
# 脳にインスパイアされた機械的解釈性のためのモジュラートレーニング

Seeing is Believing: Brain-Inspired Modular Training for Mechanistic Interpretability ( http://arxiv.org/abs/2305.08746v2 )

ライセンス: Link先を確認
Ziming Liu, Eric Gan, Max Tegmark(参考訳) ニューラルネットワークをよりモジュール化し、解釈可能にする手法であるbimt(brain-inspired modular training)を紹介する。 脳に触発されて、bimtはニューロンを幾何学的な空間に埋め込み、各ニューロン接続の長さに比例するコストで損失関数を増強する。 BIMTは,多くの単純なタスクに有用なモジュール型ニューラルネットワークを発見し,シンボル式における構成構造,解釈可能な決定境界,分類のための特徴,アルゴリズムデータセットにおける数学的構造を明らかにする。 裸眼でモジュールを直接見る能力は、プローブや介入、あらゆる重みを見つめるといった現在の機械的解釈可能性戦略を補完することができる。

We introduce Brain-Inspired Modular Training (BIMT), a method for making neural networks more modular and interpretable. Inspired by brains, BIMT embeds neurons in a geometric space and augments the loss function with a cost proportional to the length of each neuron connection. We demonstrate that BIMT discovers useful modular neural networks for many simple tasks, revealing compositional structures in symbolic formulas, interpretable decision boundaries and features for classification, and mathematical structure in algorithmic datasets. The ability to directly see modules with the naked eye can complement current mechanistic interpretability strategies such as probes, interventions or staring at all weights.
翻訳日:2023-05-24 02:21:39 公開日:2023-05-19
# 学習オートマタを用いたエネルギーフルーガと解釈可能なAIハードウェア設計

Energy-frugal and Interpretable AI Hardware Design using Learning Automata ( http://arxiv.org/abs/2305.11928v1 )

ライセンス: Link先を確認
Rishad Shafik, Tousif Rahman, Adrian Wheeldon, Ole-Christoffer Granmo, Alex Yakovlev(参考訳) エネルギー効率は、マイクロエッジで強力な人工知能アプリケーションを実現するための重要な要件である。 フラジアルアーキテクチャアロケーションによるハードウェアアクセラレーションは、エネルギー削減に有効な方法である。 多くの新興アプリケーションは、責任と透明性を確立するために解釈可能な決定モデルを統合するシステム設計を必要とする。 設計は、実世界のデータシナリオで到達可能な状態を提供する追加のリソースをプロビジョニングし、エネルギー効率の間の相反する設計トレードオフを定義する必要がある。 挑戦的です 近年,tsetlin machineと呼ばれる新しい機械学習アルゴリズムが提案されている。 このアルゴリズムは基本的に有限状態オートマトン(英語版)の原理と、算術よりも自然論理の基盤となる利点に基づいている。 本稿では,高パラメータを最適に調整し,高い学習効率を維持しつつ,エネルギーフルーガルな人工知能ハードウェア設計手法について検討する。 解釈可能性を示すために,2つのシミュレーション環境での到達可能性とゲーム理論解析を用いて,ハードウェア故障の有無による境界状態遷移と,学習収束度を解析するための状態間のナッシュ平衡を解析するシステムCモデルを提案する。 我々の分析は、この新しい人工知能ハードウェアアーキテクチャのエネルギー効率と解釈可能な決定モデルに関わる設計トレードオフに関する最初の洞察を提供する。 本研究は,ランダム化補強の系統的確率性が組み合わさった不規則な資源割当が,頑健で解釈可能な学習を実現すると同時に,決定的なエネルギー削減をもたらすことを示した。

Energy efficiency is a crucial requirement for enabling powerful artificial intelligence applications at the microedge. Hardware acceleration with frugal architectural allocation is an effective method for reducing energy. Many emerging applications also require the systems design to incorporate interpretable decision models to establish responsibility and transparency. The design needs to provision for additional resources to provide reachable states in real-world data scenarios, defining conflicting design tradeoffs between energy efficiency. is challenging. Recently a new machine learning algorithm, called the Tsetlin machine, has been proposed. The algorithm is fundamentally based on the principles of finite-state automata and benefits from natural logic underpinning rather than arithmetic. In this paper, we investigate methods of energy-frugal artificial intelligence hardware design by suitably tuning the hyperparameters, while maintaining high learning efficacy. To demonstrate interpretability, we use reachability and game-theoretic analysis in two simulation environments: a SystemC model to study the bounded state transitions in the presence of hardware faults and Nash equilibrium between states to analyze the learning convergence. Our analyses provides the first insights into conflicting design tradeoffs involved in energy-efficient and interpretable decision models for this new artificial intelligence hardware architecture. We show that frugal resource allocation coupled with systematic prodigality between randomized reinforcements can provide decisive energy reduction while also achieving robust and interpretable learning.
翻訳日:2023-05-24 02:05:06 公開日:2023-05-19
# コンピュータービジョンモデルはどこでミスをするのか? インタラクティブなビジュアライゼーションを使ってcvモデルが改善できる場所と方法を見つける

Where does a computer vision model make mistakes? Using interactive visualizations to find where and how CV models can improve ( http://arxiv.org/abs/2305.11927v1 )

ライセンス: Link先を確認
Hayeong Song, Gonzalo Ramos, and Peter Bodik(参考訳) コンピュータビジョン(CV)モデルの作成は、エンドユーザがこれらのモデルを構築し、検査し、改善するための複雑で課税のプラクティスである。 対話型MLの視点は、計画、教育、評価を行う教師・イン・ザ・ループを考えることで、これらの問題に対処するのに役立っている。 さまざまなレベルのML専門知識を持つエンドユーザの体験を改善するために,ビデオから派生した画像のCV分類と検出モデルを作成するシステムであるSpriteを用いて,インタラクティブな2つの可視化を設計・評価した。 これらの視覚化が,機械教育ループの一部として,モデルを識別(評価)し,モデルが苦労しているイメージを選択(計画)し,トレーニングするモデルを改善する上でどのように役立つかを検討する。 この視覚化を用いていたユーザは、より広いタイプのモデルエラーや、1つ以上のモデルの予測動作の評価とコントラストなどを行い、モデルの改善に必要な潜在的な労力を減らすことができた。

Creating Computer Vision (CV) models remains a complex and taxing practice for end-users to build, inspect, and improve these models. Interactive ML perspectives have helped address some of these issues by considering a teacher-in-the-loop where planning, teaching, and evaluating tasks take place. To improve the experience of end-users with various levels of ML expertise, we designed and evaluated two interactive visualizations in the context of Sprite, a system for creating CV classification and detection models for images originating from videos. We study how these visualizations, as part of the machine teaching loop, help users identify (evaluate) and select (plan) images where a model is struggling and improve the model being trained. We found that users who had used the visualizations found more images across a wider set of potential types of model errors, as well as in assessing and contrasting the prediction behavior of one or more models, thus reducing the potential effort required to improve a model.
翻訳日:2023-05-24 02:04:28 公開日:2023-05-19
# mparrottts:低資源環境における多言語多話者テキストから音声合成

MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low Resource Setting ( http://arxiv.org/abs/2305.11926v1 )

ライセンス: Link先を確認
Neil Shah, Vishal Tambrahalli, Saiteja Kosgi, Niranjan Pedanekar, Vineet Gandhi(参考訳) 本稿では,高品質音声を生成可能な多言語多話者音声合成モデルであるmparrotttsを提案する。 MParrotTTSは、自己教師付き音声表現を活用するモジュール化された訓練パラダイムから恩恵を受け、最小教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。 さらに、MParrotTTSはバイリンガルやパラレルな例を訓練することなく、フランス語話者の声とアクセントを使って、流動的なヒンディー語を合成するなど、話者固有の特徴を保ちながら、言語間で音声を転送することができる。 音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。 提案したモデルは,教師付きトレーニングデータのごく一部を用いて,最先端の多言語TSモデルとベースラインより優れている。 私たちのモデルの音声サンプルはhttps://paper2438.github.io/tts/で確認できる。

We present MParrotTTS, a unified multilingual, multi-speaker text-to-speech (TTS) synthesis model that can produce high-quality speech. Benefiting from a modularized training paradigm exploiting self-supervised speech representations, MParrotTTS adapts to a new language with minimal supervised data and generalizes to languages not seen while training the self-supervised backbone. Moreover, without training on any bilingual or parallel examples, MParrotTTS can transfer voices across languages while preserving the speaker-specific characteristics, e.g., synthesizing fluent Hindi speech using a French speaker's voice and accent. We present extensive results on six languages in terms of speech naturalness and speaker similarity in parallel and cross-lingual synthesis. The proposed model outperforms the state-of-the-art multilingual TTS models and baselines, using only a small fraction of supervised training data. Speech samples from our model can be found at https://paper2438.github.io/tts/
翻訳日:2023-05-24 02:04:01 公開日:2023-05-19
# コンパレート集合の操作下で安定な複数比較ベンチマーク評価へのアプローチ

An Approach to Multiple Comparison Benchmark Evaluations that is Stable Under Manipulation of the Comparate Set ( http://arxiv.org/abs/2305.11921v1 )

ライセンス: Link先を確認
Ali Ismail-Fawaz, Angus Dempster, Chang Wei Tan, Matthieu Herrmann, Lynn Miller, Daniel F. Schmidt, Stefano Berretti, Jonathan Weber, Maxime Devanne, Germain Forestier, Geoffrey I. Webb(参考訳) ベンチマーク評価を用いた進捗度の測定は、コンピュータ科学や機械学習においてユビキタスである。 しかし、Dem\v{s}ar (2006) が導入した臨界差図など、複数のデータセットに対するベンチマーク比較の結果を分析・提示する一般的なアプローチには、重大な欠点があり、不注意な操作と意図的な操作の両方が可能である。 これらの問題に対処するために,本研究では,ベンチマーク比較の結果を示すための新しい手法であるmultiple comparison matrix (mcm)を提案する。 MCMは、全ペア比較の結果を示すために、または1つ以上の選択されたアルゴリズムと技術状態の比較の結果を示すために使用することができる。 MCMはPythonで実装されており、公開されている。

The measurement of progress using benchmarks evaluations is ubiquitous in computer science and machine learning. However, common approaches to analyzing and presenting the results of benchmark comparisons of multiple algorithms over multiple datasets, such as the critical difference diagram introduced by Dem\v{s}ar (2006), have important shortcomings and, we show, are open to both inadvertent and intentional manipulation. To address these issues, we propose a new approach to presenting the results of benchmark comparisons, the Multiple Comparison Matrix (MCM), that prioritizes pairwise comparisons and precludes the means of manipulating experimental results in existing approaches. MCM can be used to show the results of an all-pairs comparison, or to show the results of a comparison between one or more selected algorithms and the state of the art. MCM is implemented in Python and is publicly available.
翻訳日:2023-05-24 02:03:45 公開日:2023-05-19
# DC:量子古典回路の深さ制御

DC: Depth Control on Quantum Classical Circuit ( http://arxiv.org/abs/2305.11919v1 )

ライセンス: Link先を確認
Movahhed Sadeghi, Soheil Khadirsharbiyani, Mostafa Eghbali Zarch, Mahmut Taylan Kandemir(参考訳) NISQ(Near-term Intermediate-scale Quantum)システムの適用範囲が拡大するにつれ、回路信頼性の保証が大きなハードルとなる。 回路設計からマルチキュービットマッピング戦略に至るまで、量子コンピューティングの様々な側面は、最適化によって信頼性を高めることを目的としている。 量子古典回路は、従来、アンシラ量子ビットを再利用し、回路のサイズと深さを最適化する様々な戦略を用いて信頼性を高める目的で研究されてきた。 しかし、最も洗練された最適化戦略でさえ、大規模回路の信頼性は得られない。 本論文で提案され評価されている古典量子回路深度制御(DC)は,この問題に対処することを目指している。 DCアプローチでは、与えられた古典回路をセグメントに分割し、深さを制限し、信頼性の高い出力と実際の量子ハードウェアのマッピングコストを低減させる。 さらに、DC は NISQ システム上であらゆる深さの量子古典回路に対して信頼性の高い出力を提供することができる。 dcによる実験では、従来は出力の信頼性が最小限か全くなかった量子古典回路の信頼性の高い出力を一貫して描画することが示されている。 重要なことは、DCは、信頼できる出力が得られないベースライン回路に対して、PST(Probability of successfully Trial)の確率が50%以上に達することを保証している。 DCは、非セグメントベースラインに比べて平均して11倍のPST改善を実現し、第2の最も一般的な結果よりも大きなリードで正しい出力を保証する。 さらに,直流下のセグメントごとのゲート数を減少させることで,全てのマッピング/ルート最適化を多項式時間で完了させることができる。 この成果は以前、指数時間を必要とするマッピング/ルーティング技術では届かなかった。

As the application range of Near-term Intermediate-scale Quantum (NISQ) systems expands, the primary hurdle that emerges is the assurance of circuit reliability. Various facets of quantum computing, from circuit design to multi-qubit mapping strategies, have aimed at bolstering reliability through assorted optimizations. Quantum classical circuits, a key type of quantum circuits, have been previously studied with the aim of enhancing reliability by reusing ancilla-qubits and employing a variety of strategies to optimize the size and depth of the circuit. However, even the most sophisticated optimization strategies may not yield reliable results for large-scale circuits. Classical Quantum Circuit Depth Control (DC), proposed and evaluated in this paper, seeks to confront this critical issue. The DC approach breaks a given classical circuit into segments, and limits its depth, thereby ensuring reliable output and reduced mapping costs for real quantum hardware. In addition, DC can deliver reliable output for quantum classical circuits of any depth on any NISQ system. Our trials with DC indicate that it consistently renders reliable output for quantum classical circuits that previously showed minimal or no reliability in output. Importantly, DC ensures the attainment of the expected output with a Probability of Successful Trial (PST) greater than 50\% for baseline circuits that otherwise yield no reliable output. DC achieves, on average, an 11x PST improvement compared to the non-segmented baseline, while guaranteeing the correct output with a significant lead over the second most common result. Furthermore, by reducing the number of gates per segment under DC, all mapping/routing optimizations can be completed in polynomial time, as confirmed by our theoretical analysis. This accomplishment was previously out of reach with mapping/routing techniques, which required exponential time.
翻訳日:2023-05-24 02:03:30 公開日:2023-05-19
# pasts: 視覚・言語ナビゲーションのための時空間トランスフォーマースピーカ

PASTS: Progress-Aware Spatio-Temporal Transformer Speaker For Vision-and-Language Navigation ( http://arxiv.org/abs/2305.11918v1 )

ライセンス: Link先を確認
Liuyi Wang, Chengju Liu, Zongtao He, Shu Li, Qingqing Yan, Huiyi Chen, Qijun Chen(参考訳) 視覚・言語ナビゲーション (vln) は重要だが難解なクロスモーダルナビゲーションタスクである。 VLNにおける一般化性能を高める強力な手法の1つは、データ拡張のための擬似命令を提供する独立話者モデルを使用することである。 しかし、Long-Short Term Memory (LSTM)に基づく現在の話者モデルは、異なる場所や時間ステップで関連する機能に出席する能力がない。 そこで,本稿では,トランスフォーマーをネットワークのコアとして用いる,新たな時空間トランスフォーマースピーカ(pasts)モデルを提案する。 PASTSは時空間エンコーダを使用してパノラマ表現を融合し、ステップを通して中間接続を符号化する。 また、誤調整問題を回避するため、話者進行モニター(SPM)が提案され、モデルが命令生成の進捗を推定し、よりきめ細かなキャプション結果を容易にする。 さらに,多機能ドロップアウト(MFD)戦略を導入し,オーバーフィッティングを緩和する。 提案されたPASTSは、既存のVLNモデルと組み合わせることができる。 実験の結果,PASTSは既存の話者モデルよりも優れており,従来のVLNモデルの性能向上に成功し,標準的なRoom-to-Room(R2R)データセット上で最先端のパフォーマンスを実現していることがわかった。

Vision-and-language navigation (VLN) is a crucial but challenging cross-modal navigation task. One powerful technique to enhance the generalization performance in VLN is the use of an independent speaker model to provide pseudo instructions for data augmentation. However, current speaker models based on Long-Short Term Memory (LSTM) lack the ability to attend to features relevant at different locations and time steps. To address this, we propose a novel progress-aware spatio-temporal transformer speaker (PASTS) model that uses the transformer as the core of the network. PASTS uses a spatio-temporal encoder to fuse panoramic representations and encode intermediate connections through steps. Besides, to avoid the misalignment problem that could result in incorrect supervision, a speaker progress monitor (SPM) is proposed to enable the model to estimate the progress of instruction generation and facilitate more fine-grained caption results. Additionally, a multifeature dropout (MFD) strategy is introduced to alleviate overfitting. The proposed PASTS is flexible to be combined with existing VLN models. The experimental results demonstrate that PASTS outperforms all existing speaker models and successfully improves the performance of previous VLN models, achieving state-of-the-art performance on the standard Room-to-Room (R2R) dataset.
翻訳日:2023-05-24 02:03:01 公開日:2023-05-19
# 画像2SSM:放射基底関数を持つ画像からの統計的形状モデルの再構成

Image2SSM: Reimagining Statistical Shape Models from Images with Radial Basis Functions ( http://arxiv.org/abs/2305.11946v1 )

ライセンス: Link先を確認
Hong Xu and Shireen Y. Elhabian(参考訳) 統計的形状モデリング(SSM)は解剖学的形態変化を解析するための重要なツールである。 典型的なSSMパイプラインでは、セグメント化と剛性登録を経た3次元解剖画像は、統計的解析が可能な低次元形状特徴を用いて表現される。 コンパクトな形状表現を構築するための様々な方法が提案されているが、それらは手間とコストのかかるステップを伴う。 本研究では,画像から形状のラジアル・ベイシス関数(rbf)に基づく表現を学習するために,画像セグメンテーションペアを利用した新しい深層学習手法であるimage2ssmを提案する。 このrpfベースの形状表現は、複雑なジオメトリにデータ駆動方式で適応できる基礎面の連続的かつコンパクトな表現を推定するために、ネットワークに豊富な自己教師付き信号を提供する。 image2ssmは、最小限のパラメータチューニングとユーザ支援を必要とせず、解剖学的形状のアンサンブルの統計的ランドマークに基づく形状モデルを構築して、興味のある生物学的構造の集団を特徴付けることができる。 トレーニングが完了すると、Image2SSMは、新しい未分割画像から低次元の形状表現を推測するために使用でき、特に大きなコホートを扱う場合、SSMのスケーラブルなアプローチへの道を開くことができる。 合成および実データを用いた実験は,SSMの最先端対応方式と比較して提案手法の有効性を示した。

Statistical shape modeling (SSM) is an essential tool for analyzing variations in anatomical morphology. In a typical SSM pipeline, 3D anatomical images, gone through segmentation and rigid registration, are represented using lower-dimensional shape features, on which statistical analysis can be performed. Various methods for constructing compact shape representations have been proposed, but they involve laborious and costly steps. We propose Image2SSM, a novel deep-learning-based approach for SSM that leverages image-segmentation pairs to learn a radial-basis-function (RBF)-based representation of shapes directly from images. This RBF-based shape representation offers a rich self-supervised signal for the network to estimate a continuous, yet compact representation of the underlying surface that can adapt to complex geometries in a data-driven manner. Image2SSM can characterize populations of biological structures of interest by constructing statistical landmark-based shape models of ensembles of anatomical shapes while requiring minimal parameter tuning and no user assistance. Once trained, Image2SSM can be used to infer low-dimensional shape representations from new unsegmented images, paving the way toward scalable approaches for SSM, especially when dealing with large cohorts. Experiments on synthetic and real datasets show the efficacy of the proposed method compared to the state-of-art correspondence-based method for SSM.
翻訳日:2023-05-24 01:56:49 公開日:2023-05-19
# 関連性予測のための合成クエリ生成の可能性を探る

Exploring the Viability of Synthetic Query Generation for Relevance Prediction ( http://arxiv.org/abs/2305.11944v1 )

ライセンス: Link先を確認
Aditi Chaudhary, Karthik Raman, Krishna Srinivasan, Kazuma Hashimoto, Mike Bendersky, Marc Najork(参考訳) クエリー文書関連予測は情報検索システムにおいて重要な問題である。 この問題は、ラベル付きデータの大規模なコレクションを使用して微調整された(事前訓練された)トランスフォーマーベースモデルを用いて、ますます取り組まれている。 しかし、eコマースやヘルスケアのような専門分野においては、このアプローチの有効性は、大きなドメイン内データによって制限される。 この問題に対処するために、近年の手法はこれらの強力なモデルを利用して高品質なタスクとドメイン固有の合成データを生成する。 以前の研究では、QA(Qarguy-Answering)とバイナリ(yes/no)の関連予測のための合成データ生成やクエリ生成(QGen)を主に検討しており、例えば、QGenモデルにはドキュメントが与えられ、そのドキュメントに関連するクエリを生成するように訓練されている。 しかし、多くの問題において、単純なye/noラベルよりもよりきめ細かい関連性の概念がある。 そこで本研究では,QGen のアプローチを不適切な関連性予測に活用する方法を詳細に検討する。 これまでの作業からの主張とは対照的に、現在のQGenアプローチは、従来のクロスドメイントランスファー学習アプローチでは不十分です。 3つの公開eコマースベンチマークにまたがる実証研究を通じて、既存のqgenアプローチの新たな欠点を特定します。 これに対処するために、異なる関連性に関する知識を組み込んだラベル条件付きqgenモデルを導入する。 実験の結果,これらの変更はQGen技術の性能向上に有効であることが示されたが,QGenアプローチは関連ラベル空間の完全ニュアンスを捉えるのに苦労しており,結果として生成したクエリは望ましい関連ラベルに忠実ではないことがわかった。

Query-document relevance prediction is a critical problem in Information Retrieval systems. This problem has increasingly been tackled using (pretrained) transformer-based models which are finetuned using large collections of labeled data. However, in specialized domains such as e-commerce and healthcare, the viability of this approach is limited by the dearth of large in-domain data. To address this paucity, recent methods leverage these powerful models to generate high-quality task and domain-specific synthetic data. Prior work has largely explored synthetic data generation or query generation (QGen) for Question-Answering (QA) and binary (yes/no) relevance prediction, where for instance, the QGen models are given a document, and trained to generate a query relevant to that document. However in many problems, we have a more fine-grained notion of relevance than a simple yes/no label. Thus, in this work, we conduct a detailed study into how QGen approaches can be leveraged for nuanced relevance prediction. We demonstrate that -- contrary to claims from prior works -- current QGen approaches fall short of the more conventional cross-domain transfer-learning approaches. Via empirical studies spanning 3 public e-commerce benchmarks, we identify new shortcomings of existing QGen approaches -- including their inability to distinguish between different grades of relevance. To address this, we introduce label-conditioned QGen models which incorporates knowledge about the different relevance. While our experiments demonstrate that these modifications help improve performance of QGen techniques, we also find that QGen approaches struggle to capture the full nuance of the relevance label space and as a result the generated queries are not faithful to the desired relevance label.
翻訳日:2023-05-24 01:56:26 公開日:2023-05-19
# Facebookにおけるニュース記事のインタラクションパターンの差異の理解--Varying BiasとReliabilityによる公開対プライベートシェアリング

Understanding Differences in News Article Interaction Patterns on Facebook: Public vs. Private Sharing with Varying Bias and Reliability ( http://arxiv.org/abs/2305.11943v1 )

ライセンス: Link先を確認
Alireza Mohammadinodooshan, Niklas Carlsson(参考訳) ソーシャルメディアプラットフォームでのニュースの拡散は、公共の談話に対する偏りや信頼できない情報の影響に関する懸念を招いた。 本研究では、Facebook上でのニュース記事の公開とプライベートの共有の相互作用パターンの違いについて、バイアスと信頼性の異なる記事とインタラクションの深さに着目した。 これらのパターンを解析するために、CrowdTangleブラウザ拡張を用いた2つの補完データ収集手法を用いた。 私たちは、30万以上のニュース記事の手動ラベル付きコレクションと、crowdtangleが追跡するフォーラムに投稿された公開投稿のインタラクションデータを参照して、すべてのfacebook投稿(プライベート+パブリック)で対話データを集めました。 厳密な統計分析によって裏付けられた経験的知見は,ニュース記事の拡散におけるユーザの嗜好やプライバシ設定の役割を浮き彫りにして,偏見や信頼性の観点から,公開とプライベートの相互作用パターンの顕著な差異を明らかにした。 特に、ニュースクラスによらず、ユーザーは公開クラスよりもプライベートな議論に深く関与する傾向にある。 さらに、Facebookユーザーは、右バイアスのクラスのコンテンツとより深く関わり、最も信頼できないクラスのコンテンツとより深い相互作用の比率を示す。 この研究は、Facebook上でのニュース記事の公開とプライベートの共有のダイナミクスを直接比較する最初のものであり、特に様々なバイアスと信頼性のある記事との相互作用とエンゲージメントの深さを調べる。 新たな洞察を与え,これらの側面に光を当てることで,ソーシャルメディアが世論の形成に与える影響を理解する上で重要な意味を持つ。

The proliferation of news on social media platforms has led to concerns about the impact of biased and unreliable information on public discourse. This study examines differences in interaction patterns between public and private sharing of news articles on Facebook, focusing on articles with varying bias and reliability, as well as the depth of interactions. To analyze these patterns, we employed two complementary data collection methods using the CrowdTangle browser extension. We collected interaction data across all Facebook posts (private + public) referencing a manually labeled collection of over 30K news articles, as well as interaction data on public posts posted in the forums tracked by CrowdTangle. Our empirical findings, backed by rigorous statistical analysis, reveal significant differences in interaction patterns between public and private sharing across different classes of news in terms of bias and reliability, highlighting the role of user preferences and privacy settings in shaping the spread of news articles. Notably, we find that irrespective of news class, users tend to engage more deeply in private discussions compared to public ones. Additionally, Facebook users engage more deeply with content from the Right-biased class, and exhibit higher deep interaction ratio levels with content from the Most-unreliable class. This study is the first to directly compare the dynamics of public and private sharing of news articles on Facebook, specifically examining the interactions and depth of engagement with articles of varying bias and reliability. By providing new insights and shedding light on these aspects, our findings have significant implications for understanding the influence of social media on shaping public discourse.
翻訳日:2023-05-24 01:55:56 公開日:2023-05-19
# OPTWIN:最適サブウィンドウを用いたドリフト同定

OPTWIN: Drift identification with optimal sub-windows ( http://arxiv.org/abs/2305.11942v1 )

ライセンス: Link先を確認
Mauro Dalle Lucca Tosi and Martin Theobald(参考訳) オンライン学習(ol)は、学界と産業の両方でますます注目を集めている研究分野である。 OLの主な課題の1つは概念ドリフトの存在であり、これは一般的に、時間とともにやってくるデータストリームの統計的性質の予期せぬ変化として定義される。 概念ドリフトの検出は、典型的には、概念ドリフトが発生したかどうかを識別するために、基礎となるolアルゴリズムが生成した誤り率を分析することを伴う。 現在のコンセプトドリフト検出器は、低い偽陰性率で非常によく機能するが、コンセプトドリフト検出では高い偽陽性率を示す傾向にある。 これは学習者のパフォーマンスに影響を与え、予測範囲内で実際に動作しているモデルの再トレーニングに費やされた膨大な計算リソースをもたらす可能性がある。 本稿では,OPTimal WINdowの概念ドリフト検出器OPTWINを提案する。 OPTWINは、OLアルゴリズムのエラーを追跡するために、入ってくるデータストリーム上のイベントのスライディングウィンドウを使用する。 optwinの目新しさは、スライディングウィンドウを2つの最適なサブウィンドウに分割するために学習者が生成した誤差率の平均と分散の両方を検討することである。 ADWIN, DDM, EDDM, STEPD, ECDDを7つの合成および実世界のデータセットのベースラインとし, 突然および段階的な概念ドリフトの存在下でOPTWINをMOAフレームワーク上で評価した。 実験では,オプティウィンが,検出遅延の低減とモデルの再トレーニングに費やす時間の21%の節約を保ちながら,統計的に有意な方法でベースラインのf1-scoreを上回っていることを示す。

Online Learning (OL) is a field of research that is increasingly gaining attention both in academia and industry. One of the main challenges of OL is the inherent presence of concept drifts, which are commonly defined as unforeseeable changes in the statistical properties of an incoming data stream over time. The detection of concept drifts typically involves analyzing the error rates produced by an underlying OL algorithm in order to identify if a concept drift occurred or not, such that the OL algorithm can adapt accordingly. Current concept-drift detectors perform very well, i.e., with low false negative rates, but they still tend to exhibit high false positive rates in the concept-drift detection. This may impact the performance of the learner and result in an undue amount of computational resources spent on retraining a model that actually still performs within its expected range. In this paper, we propose OPTWIN, our "OPTimal WINdow" concept drift detector. OPTWIN uses a sliding window of events over an incoming data stream to track the errors of an OL algorithm. The novelty of OPTWIN is to consider both the means and the variances of the error rates produced by a learner in order to split the sliding window into two provably optimal sub-windows, such that the split occurs at the earliest event at which a statistically significant difference according to either the $t$- or the $f$-tests occurred. We assessed OPTWIN over the MOA framework, using ADWIN, DDM, EDDM, STEPD and ECDD as baselines over 7 synthetic and real-world datasets, and in the presence of both sudden and gradual concept drifts. In our experiments, we show that OPTWIN surpasses the F1-score of the baselines in a statistically significant manner while maintaining a lower detection delay and saving up to 21% of time spent on retraining the models.
翻訳日:2023-05-24 01:55:25 公開日:2023-05-19
# quditsを用いたso(5)多重フェルミオン系の量子シミュレーション

Quantum Simulations of SO(5) Many-Fermion Systems using Qudits ( http://arxiv.org/abs/2305.11941v1 )

ライセンス: Link先を確認
Marc Illa, Caroline E. P. Robin and Martin J. Savage(参考訳) 量子多体系の構造とダイナミクスは、基礎となる相互作用の間の微妙な相互作用の結果であり、複雑な絡み合い構造をもたらす。 この明らかな複雑さにもかかわらず、対称性は出現し、関連する自由度を決定するために長く使われてきた。 本研究では,量子コンピュータが相互作用するフェルミオン系をシミュレートする上で,量子コンピュータの潜在的有用性について検討する。 フェルミオンのアガシモデルは、基礎となる$so(5)$代数に基づいており、それらが記述するシステムは、5つの基底状態を持つモードのペアに分割することができ、自然に$d=5$ qudits (qu5its) の配列に埋め込まれる。 最大12qu5itに埋め込まれたフェルミオン系の時間進化の古典的なノイズレスシミュレーションは、Googleのcirqソフトウェアを用いて実行される。 qu5it回路の資源要求を解析し、量子ビットシステムへの2つの異なるマッピング、物理認識のjordan-wignerマッピングと状態から状態へのマッピングと比較した。 特に、必要な量子リソースの削減と、シミュレーションを物理空間から外すための予測エラーの低減に、キューディットを使うことの利点を見出した。 それまで認識されていなかった符号問題は、高エネルギー励起を経時的に進行するトロタライズエラーから特定されている。 これは高エネルギーおよび核物理学における量子シミュレーション、特に断片化と高度非弾性マルチチャネル過程に意味を持つ。

The structure and dynamics of quantum many-body systems are the result of a delicate interplay between underlying interactions, which leads to intricate entanglement structures. Despite this apparent complexity, symmetries emerge and have long been used to determine the relevant degrees of freedom and simplify classical descriptions of these systems. In this work, we explore the potential utility of quantum computers with arrays of qudits in simulating interacting fermionic systems, when the qudits can naturally map these relevant degrees of freedom. The Agassi model of fermions is based on an underlying $so(5)$ algebra, and the systems it describes can be partitioned into pairs of modes with five basis states, which naturally embed in arrays of $d=5$ qudits (qu5its). Classical noiseless simulations of the time evolution of systems of fermions embedded in up to twelve qu5its are performed using Google's cirq software. The resource requirements of the qu5it circuits are analyzed and compared with two different mappings to qubit systems, a physics-aware Jordan-Wigner mapping and a state-to-state mapping. We find advantages in using qudits, specifically in lowering the required quantum resources and reducing anticipated errors that take the simulation out of the physical space. A previously unrecognized sign problem has been identified from Trotterization errors in time evolving high-energy excitations. This has implications for quantum simulations in high-energy and nuclear physics, specifically of fragmentation and highly inelastic, multi-channel processes.
翻訳日:2023-05-24 01:54:50 公開日:2023-05-19
# 絡み合いのマイクロカノニカル分布による量子カオスの定量化

Quantifying quantum chaos through microcanonical distributions of entanglement ( http://arxiv.org/abs/2305.11940v1 )

ライセンス: Link先を確認
Joaquin F. Rodriguez-Nieva, Cheryne Jonay, and Vedika Khemani(参考訳) 量子カオス」システムの特徴的な特徴は、固有スペクトルと固有状態がランダム行列理論(RMT)によって記述された普遍統計的性質を示すことである。 しかし、局所システムの固有状態もrmtを超えて構造を符号化する。 これを捉えるために,kullback-leiblerの発散を利用して,midspectrum eigenstatesの絡み合いエントロピー(ee)のマイクロカノニカル分布と,純粋なランダム状態によって生成された参照rmt分布を比較する量子カオスの定量的測定法を提案する。 メトリックは、分布の平均だけでなく、より高いモーメントも比較する。 モーメントの差は、システムサイズが指数的に小さいRTT分布の標準偏差によって設定された高分解能スケールで比較される。 これはカオス的な振る舞いと可積分的な振る舞いを区別し、カオスであると考えられるシステムのカオスの度合いを定量化する。 局所的に構成されたフロケ乱数回路と多体ハミルトニアンの正準族である混合場イジングモデル (MFIM) について検討した。 ハミルトン系の場合、参照ランダム分布はエネルギー保存の効果を組み込むために制約されなければならない。 この計量はRTTからの偏差を全てのモデルとパラメータで捉えており、以前はカオスと認識されていたものや、レベルスペーシング統計のようなカオスの他の診断は熱的に見えるものを含む。 フロッケ回路では、偏差の主源は分布の第2モーメントであり、これは全てのシステムサイズで持続する。 MFIMの場合、パラメータ空間におけるKL分散の有意なばらつきを見出す。 特に、rmtからの偏差が最小となる小さな領域を見つけ、パラメータ空間の微調整されたポケットに「最大カオス」ハミルトニアンが存在することを示唆する。

A characteristic feature of "quantum chaotic" systems is that their eigenspectra and eigenstates display universal statistical properties described by random matrix theory (RMT). However, eigenstates of local systems also encode structure beyond RMT. To capture this, we introduce a quantitative metric for quantum chaos which utilizes the Kullback-Leibler divergence to compare the microcanonical distribution of entanglement entropy (EE) of midspectrum eigenstates with a reference RMT distribution generated by pure random states (with appropriate constraints). The metric compares not just the averages of the distributions, but also higher moments. The differences in moments are compared on a highly-resolved scale set by the standard deviation of the RMT distribution, which is exponentially small in system size. This distinguishes between chaotic and integrable behavior, and also quantifies the degree of chaos in systems assumed to be chaotic. We study this metric in local minimally structured Floquet random circuits, as well as a canonical family of many-body Hamiltonians, the mixed field Ising model (MFIM). For Hamiltonian systems, the reference random distribution must be constrained to incorporate the effect of energy conservation. The metric captures deviations from RMT across all models and parameters, including those that have been previously identified as strongly chaotic, and for which other diagnostics of chaos such as level spacing statistics look strongly thermal. In Floquet circuits, the dominant source of deviations is the second moment of the distribution, and this persists for all system sizes. For the MFIM, we find significant variation of the KL divergence in parameter space. Notably, we find a small region where deviations from RMT are minimized, suggesting that "maximally chaotic" Hamiltonians may exist in fine-tuned pockets of parameter space.
翻訳日:2023-05-24 01:54:23 公開日:2023-05-19
# XTREME-UP: 表現下言語のためのユーザ中心のスカースデータベンチマーク

XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented Languages ( http://arxiv.org/abs/2305.11938v1 )

ライセンス: Link先を確認
Sebastian Ruder, Jonathan H. Clark, Alexander Gutkin, Mihir Kale, Min Ma, Massimo Nicosia, Shruti Rijhwani, Parker Riley, Jean-Michel A. Sarr, Xinyi Wang, John Wieting, Nitish Gupta, Anna Katanova, Christo Kirov, Dana L. Dickinson, Brian Roark, Bidisha Samanta, Connie Tao, David I. Adelani, Vera Axelrod, Isaac Caswell, Colin Cherry, Dan Garrette, Reeve Ingle, Melvin Johnson, Dmitry Panteleev, Partha Talukdar(参考訳) データ不足は、多言語NLPシステムの開発において重要な問題である。 しかし、多くの未表現言語(UL) -- NLPの再検索がユーザニーズを満たす上で特に遅れている言語 -- では、少量のデータに注釈をつけることは可能である。 XTREME-UPは、ゼロショットではなく、希少なデータシナリオに焦点をあてること、ユーザ中心のタスクに焦点を当てること、高ソース言語の話者が広く採用するタスク、この希少なデータシナリオが最も現実的になるような表現不足言語に焦点を当てることである。 XTREME-UPは、ASR、OCR、MT、および汎用性のある情報アクセスタスクを含む9つの主要なユーザ中心技術に対して、88の非表現言語にわたる言語モデルの性能を評価する。 ocr、オートコンプリート、セマンティクス解析、および翻訳のための新しいデータセットを作成し、他のタスクのために既存のデータセットを構築し、洗練します。 XTREME-UPは、テキストのみ、マルチモーダル(ビジョン、オーディオ、テキスト)、教師付きパラメータチューニング、コンテキスト内学習など、多くのモデリングシナリオを評価する方法論を提供する。 ベンチマークでよく使われるモデルを評価する。 モデルをトレーニングし、評価するすべてのコードとスクリプトをリリースします。

Data scarcity is a crucial issue for the development of highly multilingual NLP systems. Yet for many under-represented languages (ULs) -- languages for which NLP re-search is particularly far behind in meeting user needs -- it is feasible to annotate small amounts of data. Motivated by this, we propose XTREME-UP, a benchmark defined by: its focus on the scarce-data scenario rather than zero-shot; its focus on user-centric tasks -- tasks with broad adoption by speakers of high-resource languages; and its focus on under-represented languages where this scarce-data scenario tends to be most realistic. XTREME-UP evaluates the capabilities of language models across 88 under-represented languages over 9 key user-centric technologies including ASR, OCR, MT, and information access tasks that are of general utility. We create new datasets for OCR, autocomplete, semantic parsing, and transliteration, and build on and refine existing datasets for other tasks. XTREME-UP provides methodology for evaluating many modeling scenarios including text-only, multi-modal (vision, audio, and text),supervised parameter tuning, and in-context learning. We evaluate commonly used models on the benchmark. We release all code and scripts to train and evaluate models
翻訳日:2023-05-24 01:53:48 公開日:2023-05-19
# インダクティブカルロフロー

Inductive CaloFlow ( http://arxiv.org/abs/2305.11934v1 )

ライセンス: Link先を確認
Matthew R. Buckley, Claudius Krause, Ian Pang, David Shih(参考訳) 粒子検出器応答のシミュレーションは、大型ハドロン衝突型加速器計算パイプラインで最も高価なステップである。 近年, 流れの正規化は前例のない精度を達成しつつ, このプロセスの高速化を図っているが, 将来の検出器アップグレードに関連する高解像度化にアプローチを拡大することは, メモリ制約の禁止につながることが示されている。 この問題を解決するために, 連続したカロリー層内のエネルギー沈着パターンに基づいて訓練された誘導型正規化流れに基づいて, 高速検出器シミュレーションのためのフレームワークiCaloFlowを導入する。 さらに, 教師留学生蒸留を用いて, 表現力を失うことなくサンプリング速度を向上する。 calochallenge2022のデータセット2と3で示すように、icaloflowは、従来考えられていた10倍から100倍の粒度を持つ検出器ジオメトリの高速で高忠実なシミュレーションを行う際に、流れの正規化の可能性を実現することができる。

Simulating particle detector response is the single most expensive step in the Large Hadron Collider computational pipeline. Recently it was shown that normalizing flows can accelerate this process while achieving unprecedented levels of accuracy, but scaling this approach up to higher resolutions relevant for future detector upgrades leads to prohibitive memory constraints. To overcome this problem, we introduce Inductive CaloFlow (iCaloFlow), a framework for fast detector simulation based on an inductive series of normalizing flows trained on the pattern of energy depositions in pairs of consecutive calorimeter layers. We further use a teacher-student distillation to increase sampling speed without loss of expressivity. As we demonstrate with Datasets 2 and 3 of the CaloChallenge2022, iCaloFlow can realize the potential of normalizing flows in performing fast, high-fidelity simulation on detector geometries that are ~ 10 - 100 times higher granularity than previously considered.
翻訳日:2023-05-24 01:53:23 公開日:2023-05-19
# PyTorch Hyperparameter Tuning - SpotPython用のチュートリアル

PyTorch Hyperparameter Tuning -- A Tutorial for spotPython ( http://arxiv.org/abs/2305.11930v1 )

ライセンス: Link先を確認
Thomas Bartz-Beielstein(参考訳) ハイパーパラメータチューニング(ハイパーパラメータ最適化)の目標は、ハイパーパラメータを最適化して、マシンやディープラーニングモデルの性能を改善することである。 spotPython (``Sequential Parameter Optimization Toolbox in Python'') は、Rプログラミング環境において10年以上にわたって統計解析のために開発された、よく知られたハイパーパラメータチューナーSPOTのPythonバージョンである。 PyTorchは、GPUとCPUを使用したディープラーニングのための最適化されたテンソルライブラリである。 このドキュメントは、SpotPythonハイパーパラメータチューナをPyTorchトレーニングワークフローに統合する方法を示している。 例として、cifar10画像分類器の結果を用いる。 spotPythonの紹介に加えて、このチュートリアルには、実験とハイパーパラメータのチューニングを行うPythonライブラリであるRay Tuneとの簡単な比較も含まれている。 この比較は、PyTorchハイパーパラメータチューニングチュートリアルに基づいている。 両アプローチの長所と短所について論じる。 spotPythonはRay Tuneよりも柔軟で透明でありながら、同じような、あるいはさらに優れた結果が得られることを示す。

The goal of hyperparameter tuning (or hyperparameter optimization) is to optimize the hyperparameters to improve the performance of the machine or deep learning model. spotPython (``Sequential Parameter Optimization Toolbox in Python'') is the Python version of the well-known hyperparameter tuner SPOT, which has been developed in the R programming environment for statistical analysis for over a decade. PyTorch is an optimized tensor library for deep learning using GPUs and CPUs. This document shows how to integrate the spotPython hyperparameter tuner into the PyTorch training workflow. As an example, the results of the CIFAR10 image classifier are used. In addition to an introduction to spotPython, this tutorial also includes a brief comparison with Ray Tune, a Python library for running experiments and tuning hyperparameters. This comparison is based on the PyTorch hyperparameter tuning tutorial. The advantages and disadvantages of both approaches are discussed. We show that spotPython achieves similar or even better results while being more flexible and transparent than Ray Tune.
翻訳日:2023-05-24 01:53:04 公開日:2023-05-19
# 分子フォトセルのtop-ranked cycle flux network解析

Top-Ranked Cycle Flux Network Analysis of Molecular Photocells ( http://arxiv.org/abs/2305.11929v1 )

ライセンス: Link先を確認
Nikhil Gupt, Shuvadip Ghosh and Arnab Ghosh(参考訳) 本稿では、分子接合太陽電池の性能を評価するためにネットワーク解析の上位ランクのサイクルフラックスランキングスキームを提案する。 リンドブラッドマスター方程式を量子遷移ネットワークにマッピングすることにより、分子フォトセルのキャラクタリゼーションによく用いられる速度方程式の基盤となる顕微鏡的ハミルトン記述を提案する。 提案手法はエッジフラックスの重要度を解明し,光電流発生において等しく重要な役割を果たす2つの関連する電子伝達経路を明らかにする。 さらに,非放射損失過程が光セルの最大電力効率を阻害することを示した。 これらの発見は、分子の太陽光発電を司る複雑な機能に光を当て、それらを体系的に扱うための包括的なアプローチを提供する。

We introduce a top-ranked cycle flux ranking scheme of network analysis to assess the performance of molecular junction solar cells. By mapping the Lindblad master equation to the quantum-transition network, we propose a microscopic Hamiltonian description underpinning the rate equations commonly used to characterize molecular photocells. Our approach elucidates the paramount significance of edge flux and unveils two pertinent electron transfer pathways that play equally important roles in robust photocurrent generation. Furthermore, we demonstrate that non-radiative loss processes impede the maximum power efficiency of photocells, which may otherwise be above the Curzon-Ahlborn limit. These findings shed light on the intricate functionalities that govern molecular photovoltaics and offer a comprehensive approach to address them in a systematic way.
翻訳日:2023-05-24 01:52:48 公開日:2023-05-19
# シュレーディンジェリスト波動関数はブラウン運動を説明できるか?

Can Schroedingerist Wavefunction Physics Explain Brownian Motion? ( http://arxiv.org/abs/2305.11977v1 )

ライセンス: Link先を確認
W. David Wick(参考訳) アインシュタインが1905年に行った水滴中の花粉粒子のブラウン運動の解析は、水分子と粒子の衝突の統計的変異によるものであり、続いてペリンの実験によって、原子の現実の最も説得力のある例の一つとなった。 しかし1926年、シュレーディンガーは古典的な粒子を波動関数に置き換えた。 シュレーディンガー波関数物理学はペリンの観測を説明できるのか? 有限ボックスに制限されたシステムは準周期的な信号しか生成できないため、これは不可能に思えるが、ここではより微妙な問題であると主張する。 残念なことに、明示的な解は得られていない(一般の右三角形の調和性はまだ未知であるという事実と関係している)。 しかし、私はモデルの一般的な特徴から、こう結論づけます。 (a) 波動関数モデルは、確率過程に類似した軌道を生成することができる。 b) 拡散的行動は,制限された時間間隔で現れること,及び c) 追加の ``wave function energy" は ``cat" 形成を制限することで、観察をもっと ``classical" にすることができる。 しかし、波動関数モデルにおける拡散と粘度と温度をリンクするアインシュタイン計画を完成させるのは難しい。

Einstein's 1905 analysis of the Brownian Motion of a pollen grain in a water droplet as due to statistical variations in the collisions of water molecules with the grain, followed up by Perrin's experiments, provided one of the most convincing demonstrations of the reality of atoms. But in 1926 Schroedinger replaced classical particles by wavefunctions, which cannot undergo collisions. Can a Schroedingerist wavefunction physics account for Perrin's observations? As systems confined to a finite box can only generate quasiperiodic signals, this seems impossible, but I argue here that the issue is more subtle. I then introduce several models of the droplet-plus-grain; unfortunately, no explicit solutions are available (related is the remarkable fact that the harmonics of a general right triangle are still unknown). But from generic features of the models I conclude that: (a) wavefunction models may generate trajectories resembling those of a stochastic process; (b) diffusive behavior may appear for a restricted time interval; and (c) additional ``Wave Function Energy", by restricting ``cat" formation, can render the observations more ``classical". But completing the Einstein program of linking diffusion to viscosity and temperature in wavefunction models is still challenging.
翻訳日:2023-05-24 01:45:24 公開日:2023-05-19
# 不均一センサ信号の教師なし変化点検出

Unsupervised Change Point Detection for heterogeneous sensor signals ( http://arxiv.org/abs/2305.11976v1 )

ライセンス: Link先を確認
Mario Krause(参考訳) 変化点検出は、データを生成するプロセスにおいて、変化点の存在が急激かつ重大な変化を示すため、時系列データを分析する上で重要な側面である。 変化点検出問題に対する多くのアルゴリズムが時間をかけて開発されてきたが、特定の問題に対する適切なアルゴリズムを選択することは困難である。 アルゴリズムの選択は問題の性質と基礎となるデータソースに大きく依存する。 本稿では,大量のアノテートされたトレーニングデータやモデルの再校正を必要とせず,様々なデータソースへのアプリケーションの柔軟性を生かした教師なし技術について考察する。 提案手法は,アルゴリズムを比較するためのいくつかの基準に基づいて導入し,評価する。

Change point detection is a crucial aspect of analyzing time series data, as the presence of a change point indicates an abrupt and significant change in the process generating the data. While many algorithms for the problem of change point detection have been developed over time, it can be challenging to select the appropriate algorithm for a specific problem. The choice of the algorithm heavily depends on the nature of the problem and the underlying data source. In this paper, we will exclusively examine unsupervised techniques due to their flexibility in the application to various data sources without the requirement for abundant annotated training data and the re-calibration of the model. The examined methods will be introduced and evaluated based on several criteria to compare the algorithms.
翻訳日:2023-05-24 01:45:03 公開日:2023-05-19
# 慢性退院者スケジューリングのための解集合プログラミングにおける論理型ベンダ分解

Logic-Based Benders Decomposition in Answer Set Programming for Chronic Outpatients Scheduling ( http://arxiv.org/abs/2305.11969v1 )

ライセンス: Link先を確認
Paola Cappanera, Marco Gavanelli, Maddalena Nonato, Marco Roma(参考訳) Answer Set Programming (ASP)では、ユーザーは宣言的に問題を定義でき、効率的な解決器で解決することができる。 一方、解時間は通常、インスタンスのサイズに関して超線形(しばしば指数関数的)に成長するが、大規模なインスタンスでは実用的ではない。 広く使われているアプローチは、最適化問題を逐次解決された部分問題に分割し、ある者は他の方法で割り当てられた値にコミットし、ある部分問題の解をジャクスタポスすることで、問題全体の有効な割り当てを再構築する。 一方、このアプローチは超線型的な振る舞いのため、はるかに高速であり、一方、最適性の保証は提供されない: 1つのサブプロブレムの割り当てにコミットすることは、探索空間から最適解を除外することができる。 他の研究領域では、論理ベースのベンダー分解(LBBD)が有効であることが証明され、LBBDでは、問題はマスター問題(MP)と1つまたは複数のサブプロブレム(SP)に分解される。 MPの解はSPに渡され、おそらく失敗する可能性がある。 障害が発生した場合、mpにno-goodが返され、新たな制約を追加することで再び解決される。 解過程は、すべてのサブ問題に対して有効な解が得られ、あるいはmpが実現不可能であることが証明されるまで反復される。 得られた溶液は、非常に穏やかな条件下で確実に最適である。 本稿では, 医療におけるlbbdの応用をケーススタディとして活用し, lbbdをaspに初めて適用する。 実験の結果,アプローチの有効性が示された。 LBBDが利用可能になったことで、ASP技術の実用性はさらに向上すると考えています。

In Answer Set Programming (ASP), the user can define declaratively a problem and solve it with efficient solvers; practical applications of ASP are countless and several constraint problems have been successfully solved with ASP. On the other hand, solution time usually grows in a superlinear way (often, exponential) with respect to the size of the instance, which is impractical for large instances. A widely used approach is to split the optimization problem into sub-problems that are solved in sequence, some committing to the values assigned by others, and reconstructing a valid assignment for the whole problem by juxtaposing the solutions of the single sub-problems. On the one hand this approach is much faster, due to the superlinear behavior; on the other hand, it does not provide any guarantee of optimality: committing to the assignment of one sub-problem can rule out the optimal solution from the search space. In other research areas, Logic-Based Benders Decomposition (LBBD) proved effective; in LBBD, the problem is decomposed into a Master Problem (MP) and one or several Sub-Problems (SP). The solution of the MP is passed to the SPs, that can possibly fail. In case of failure, a no-good is returned to the MP, that is solved again with the addition of the new constraint. The solution process is iterated until a valid solution is obtained for all the sub-problems or the MP is proven infeasible. The obtained solution is provably optimal under very mild conditions. In this paper, we apply for the first time LBBD to ASP, exploiting an application in health care as case study. Experimental results show the effectiveness of the approach. We believe that the availability of LBBD can further increase the practical applicability of ASP technologies.
翻訳日:2023-05-24 01:44:50 公開日:2023-05-19
# 3次元スライドワイド多段階腎病理登録のためのエンドツーエンドパイプライン

An End-to-end Pipeline for 3D Slide-wise Multi-stain Renal Pathology Registration ( http://arxiv.org/abs/2305.11968v1 )

ライセンス: Link先を確認
Peize Li, Ruining Deng, Yuankai Huo(参考訳) 連続部全スライド画像(WSI)の3次元コンテキストにおける組織検査と定量化は、労働集約的かつ時間を要する課題であった。 先行研究では,wsisを同一の物理的空間に自動調整する新しい登録ベース手法(map3d)を提案し,wsisからシリアルセクションをスクリーニングする人間の努力を軽減した。 しかし,Map3D法の登録性能は,大規模腎組織試料を用いた単一定常WSIでのみ評価された。 本稿では,マルチステインパラダイムにおける針生検シリアルセクションのエンドツーエンド3dスライドワイズ登録パイプラインのためのdockerを提供する。 1) コンテナ化されたdockerをリリースし、エンドツーエンドのマルチstain wsi登録を行う。 2)Map3Dパイプラインはマルチステア WSI から分割登録できることを示す。 (3) 針生検組織サンプルにもMap3Dパイプラインが適用可能であることを確認する。 ソースコードとDockerはhttps://github.com/hrlblab/Map3Dで公開されている。

Tissue examination and quantification in a 3D context on serial section whole slide images (WSIs) were laborintensive and time-consuming tasks. Our previous study proposed a novel registration-based method (Map3D) to automatically align WSIs to the same physical space, reducing the human efforts of screening serial sections from WSIs. However, the registration performance of our Map3D method was only evaluated on single-stain WSIs with large-scale kidney tissue samples. In this paper, we provide a Docker for an end-to-end 3D slide-wise registration pipeline on needle biopsy serial sections in a multi-stain paradigm. The contribution of this study is three-fold: (1) We release a containerized Docker for an end-to-end multi-stain WSI registration. (2) We prove that the Map3D pipeline is capable of sectional registration from multi-stain WSI. (3) We verify that the Map3D pipeline can also be applied to needle biopsy tissue samples. The source code and the Docker have been made publicly available at https://github.com/hrlblab/Map3D.
翻訳日:2023-05-24 01:44:21 公開日:2023-05-19
# すべてのセマンティクスが平等であるとは限らない: 自己指導型自己指導型自己学習

Not All Semantics are Created Equal: Contrastive Self-supervised Learning with Automatic Temperature Individualization ( http://arxiv.org/abs/2305.11965v1 )

ライセンス: Link先を確認
Zi-Hao Qiu, Quanqi Hu, Zhuoning Yuan, Denny Zhou, Lijun Zhang, Tianbao Yang(参考訳) 本稿では,自己指導型学習において,個別化温度による対照的な損失を原則的かつ体系的に最適化することを目的とする。 グローバル温度パラメータである$\tau$を使用する一般的なプラクティスは、 ``not all semantics are created equal" という事実を無視している。 まず、分布的ロバストな最適化(DRO)にインスパイアされた新しい頑健な対照的な損失を提案し、$\tau$の効果と自動温度個別化のメカニズムについて直感を与える。 そこで本研究では,大規模ミニバッチサイズを用いずに,証明可能な収束保証によりロバストなコントラスト損失を最適化する効率的な確率的アルゴリズムを提案する。 理論的および実験的結果から,本アルゴリズムは各サンプルに対して適切な$\tau$を自動で学習することを示す。 特に、頻繁なセマンティクスを持つサンプルは局所的なセマンティクス構造を維持するために大きな温度を使用し、稀なセマンティクスを持つサンプルはより分離可能な特徴を誘導するために小さな温度を使用する。 提案手法は, 従来の強いベースライン(SimCLRやCLIPなど)を非定常およびバイモーダルなデータセットで上回るだけでなく, ハイパーパラメータに対する感度も低い。 我々の知る限りでは、これは個別の温度で対照的な損失を最適化する最初の方法である。

In this paper, we aim to optimize a contrastive loss with individualized temperatures in a principled and systematic manner for self-supervised learning. The common practice of using a global temperature parameter $\tau$ ignores the fact that ``not all semantics are created equal", meaning that different anchor data may have different numbers of samples with similar semantics, especially when data exhibits long-tails. First, we propose a new robust contrastive loss inspired by distributionally robust optimization (DRO), providing us an intuition about the effect of $\tau$ and a mechanism for automatic temperature individualization. Then, we propose an efficient stochastic algorithm for optimizing the robust contrastive loss with a provable convergence guarantee without using large mini-batch sizes. Theoretical and experimental results show that our algorithm automatically learns a suitable $\tau$ for each sample. Specifically, samples with frequent semantics use large temperatures to keep local semantic structures, while samples with rare semantics use small temperatures to induce more separable features. Our method not only outperforms prior strong baselines (e.g., SimCLR, CLIP) on unimodal and bimodal datasets with larger improvements on imbalanced data but also is less sensitive to hyper-parameters. To our best knowledge, this is the first methodical approach to optimizing a contrastive loss with individualized temperatures.
翻訳日:2023-05-24 01:44:07 公開日:2023-05-19
# indistinguishability-assisted two-qubit entanglement 蒸留

Indistinguishability-assisted two-qubit entanglement distillation ( http://arxiv.org/abs/2305.11964v1 )

ライセンス: Link先を確認
Farzam Nosrati, Bruno Bellomo, Gabriele De Chiara, Giuseppe Compagno, Roberto Morandotti, Rosario Lo Franco(参考訳) ノイズの多い状態から高い絡み合いを示す量子状態の生成は、量子情報科学の主要な目標の1つである。 本稿では,空間的局所化操作と古典的コミュニケーションの枠組み内で機能する条件付きかつ効率的な絡み合い蒸留法を提案する。 この方法は、2つの同一の量子ビット間の空間的重なりによる識別不能効果を利用し、粒子統計インプリントを包含する。 混合状態から最大エンタングルメント蒸留の一般的な条件を導出する。 利用例として, 熱ギブス状態やヴェルナー状態など, 典型的な雑音状態から発生する蒸留エンタングルメントとそれに伴う成功確率の詳細な説明を行う。 この2つのケースにおいて, 局所温度と騒音パラメータの影響について検討した。 提案手法は、制御可能な同一量子粒子からなる複合ネットワークにおける量子リピータへの道を開くものである。

Production of quantum states exhibiting a high degree of entanglement out of noisy conditions is one of the main goals of quantum information science. Here, we provide a conditional yet efficient entanglement distillation method which functions within the framework of spatially localized operations and classical communication. This method exploits indistinguishability effects due to the spatial overlap between two identical qubits in distinct sites and encompasses particle statistics imprint. We derive the general conditions for the maximum entanglement distillation out of mixed states. As applications, we give a thorough description of distilled entanglement and associated success probability starting from typical noisy states, such as thermal Gibbs states and Werner states. The influence of local temperatures and of noise parameter is discussed, respectively, in these two cases. The proposed scheme paves the way towards quantum repeaters in composite networks made of controllable identical quantum particles.
翻訳日:2023-05-24 01:43:37 公開日:2023-05-19
# 情報ボトルネック法による教師付きコントラスト学習における神経崩壊の理解に向けて

Towards understanding neural collapse in supervised contrastive learning with the information bottleneck method ( http://arxiv.org/abs/2305.11957v1 )

ライセンス: Link先を確認
Siwei Wang and Stephanie E Palmer(参考訳) ニューラル崩壊(Neural collapse)とは、パフォーマンスプレートを超えてトレーニングされたディープニューラルネットワークの最終層におけるアクティベーションの幾何学である。 オープンな質問は、神経崩壊がより良い一般化につながるかどうか、そしてもしそうなら、なぜ、そしてどのように訓練が高原を越えて役立つのかである。 神経崩壊を情報ボトルネック(ib)問題としてモデル化し,そのようなコンパクト表現が存在するかを調べ,一般化との関連性を見出す。 分類問題の最適IB解に近づくと、神経崩壊は特に良い一般化をもたらすことを実証する。 最近の研究では、同じ対照的な損失目標で独立に訓練された2つのディープニューラルネットワークが線形同定可能であることが示されている。 ib問題の解析解を近似するために線形同定可能性を利用する。 この近似は、クラス平均が$K$-simplex Equiangular Tight Frame (ETF) の振る舞いを示す場合(例えば、CIFAR10は$K$=10、CIFAR100は$K$=100)、対応するIB問題の臨界位相遷移と一致することを示す。 IB問題に対する最適解がこれらすべての相転移を含むと、性能プラトーが発生する。 また、結果として得られる$K$-simplex ETFは、ResNet50バックボーンによる教師付きコントラスト学習を用いて、$K$-dimensional Gaussian分布にまとめることができることを示す。 この幾何学は、教師付きコントラスト学習で学んだ$k$-simplex etfがソースコーディングの最適な特徴を近似していることを示唆している。 したがって、最適ISB解とコントラスト学習における一般化の間には直接対応がある。

Neural collapse describes the geometry of activation in the final layer of a deep neural network when it is trained beyond performance plateaus. Open questions include whether neural collapse leads to better generalization and, if so, why and how training beyond the plateau helps. We model neural collapse as an information bottleneck (IB) problem in order to investigate whether such a compact representation exists and discover its connection to generalization. We demonstrate that neural collapse leads to good generalization specifically when it approaches an optimal IB solution of the classification problem. Recent research has shown that two deep neural networks independently trained with the same contrastive loss objective are linearly identifiable, meaning that the resulting representations are equivalent up to a matrix transformation. We leverage linear identifiability to approximate an analytical solution of the IB problem. This approximation demonstrates that when class means exhibit $K$-simplex Equiangular Tight Frame (ETF) behavior (e.g., $K$=10 for CIFAR10 and $K$=100 for CIFAR100), they coincide with the critical phase transitions of the corresponding IB problem. The performance plateau occurs once the optimal solution for the IB problem includes all of these phase transitions. We also show that the resulting $K$-simplex ETF can be packed into a $K$-dimensional Gaussian distribution using supervised contrastive learning with a ResNet50 backbone. This geometry suggests that the $K$-simplex ETF learned by supervised contrastive learning approximates the optimal features for source coding. Hence, there is a direct correspondence between optimal IB solutions and generalization in contrastive learning.
翻訳日:2023-05-24 01:43:23 公開日:2023-05-19
# Self-QA: 教師なし知識ガイド言語モデルアライメント

Self-QA: Unsupervised Knowledge Guided Language Model Alignment ( http://arxiv.org/abs/2305.11952v1 )

ライセンス: Link先を確認
Xuanyu Zhang and Qing Yang(参考訳) ChatGPTやGPT-4のような大規模言語モデルは、その印象的な会話と生成能力で注目を集めている。 しかし、指導指導のための教師付き質問応答データの作成は、非常に困難な課題である。 この取り組みは、データアノテーションと、データ品質、多様性、正確性、その他の関連する要因に関する問題に対する、かなりの人間の努力を必要とします。 これらの障害を克服するために,従来の命令シードの実践を膨大な量の教師なしの知識に置き換える,Self-QAという斬新なフレームワークを導入し,モデルが大量の正しい命令データとドメイン固有の命令データを生成することを可能にする。 提案手法の有効性は, 各種ドメインの教師なしコーパスを用いて実験を行った。

Large-scale language models like ChatGPT and GPT-4 have gained attention for their impressive conversational and generative capabilities. However, the creation of supervised paired question-answering data for instruction tuning presents formidable challenges. This endeavor necessitates substantial human effort for data annotation and wrestles with issues concerning data quality, diversity, accuracy, and other related factors. To overcome these obstacles, we introduce an innovative framework named Self-QA, which replaces the traditional practice of human-written instruction seeds with a vast amount of unsupervised knowledge, enabling the model to generate a larger quantity of correct and domain-specific instruction data. The effectiveness of our proposed method is demonstrated through experiments conducted on unsupervised corpora from various domains.
翻訳日:2023-05-24 01:42:51 公開日:2023-05-19
# 大エネルギーギャップの限界における振幅と微分結合粒子検出器の双対性

Duality between amplitude and derivative coupled particle detectors in the limit of large energy gaps ( http://arxiv.org/abs/2305.11949v1 )

ライセンス: Link先を確認
T. Rick Perche and Matheus H. Zambianco(参考訳) スカラー場の振幅に結合し、大きなエネルギーギャップの限界において場の微分に結合した粒子検出器モデル間の双対性を示す。 モデルの結果が1対1の方法で相互にマッピングできることを,検出器のギャップによる再スケーリングによって示す。 我々の解析は、曲線時空における任意のスカラー場に対して有効であり、検出器に関する最小の仮定を必要とする。 双対性は、複数の検出器がフィールドに結合されている場合にも適用される。 これは、振幅結合型UDW検出器による絡み合いの多くの例が、時空の同じ領域の磁場と相互作用する微分結合型検出器と全く同じ結果をもたらすことを示している。

We present a duality between a particle detector model coupled to the amplitude of a scalar field and coupled to the field's derivative in the limit of large energy gaps. We show that the results of the models can be mapped to each other in a one-to-one fashion modulo a rescaling by the detector's gap. Our analysis is valid for arbitrary scalar fields in curved spacetimes, and requires minimal assumptions regarding the detectors. The duality also applies to the case where more than one detector is coupled to the field. This shows that many examples of entanglement harvesting with amplitude coupled UDW detectors give exactly the same result as derivative coupled detectors that interact with the field in the same region of spacetime.
翻訳日:2023-05-24 01:42:39 公開日:2023-05-19
# Eye-SpatialNet:眼科ノートからの空間情報抽出

Eye-SpatialNet: Spatial Information Extraction from Ophthalmology Notes ( http://arxiv.org/abs/2305.11948v1 )

ライセンス: Link先を確認
Surabhi Datta, Tasneem Kaochar, Hio Cheng Lam, Nelly Nwosu, Luca Giancardo, Alice Z. Chuang, Robert M. Feldman, Kirk Roberts(参考訳) 眼科領域の詳細な空間情報と文脈情報をラベル付けした600個の眼科メモの注釈付きコーパスを導入する。 我々は,これまで提案してきたフレームセマンティクスに基づく空間表現スキーマRad-SpatialNetを拡張し,眼科テキストで空間言語を表現する。 空間的に位置づけられた実体は、発見、手続き、および薬物である。 すべての空間的詳細を正確に把握するために、eye-spatialnetにいくつかのドメイン固有の要素を追加します。 注釈付きコーパスには1715の空間トリガー、7308の発見、2424の解剖、9914の記述子が含まれている。 空間情報を自動的に抽出するために,トランスフォーマー言語モデルbertに基づく2ターン質問応答アプローチを採用する。 F1スコアは、それぞれ89.31点、74.86点、88.47点の空間トリガ、図形、地上フレームである。 これは眼科における様々な臨床情報を表現し抽出する最初の研究である。 詳細な情報を抽出することは、疾患の進行とスクリーニングを目的とした眼科の応用や研究に役立つ。

We introduce an annotated corpus of 600 ophthalmology notes labeled with detailed spatial and contextual information of ophthalmic entities. We extend our previously proposed frame semantics-based spatial representation schema, Rad-SpatialNet, to represent spatial language in ophthalmology text, resulting in the Eye-SpatialNet schema. The spatially-grounded entities are findings, procedures, and drugs. To accurately capture all spatial details, we add some domain-specific elements in Eye-SpatialNet. The annotated corpus contains 1715 spatial triggers, 7308 findings, 2424 anatomies, and 9914 descriptors. To automatically extract the spatial information, we employ a two-turn question answering approach based on the transformer language model BERT. The results are promising, with F1 scores of 89.31, 74.86, and 88.47 for spatial triggers, Figure, and Ground frame elements, respectively. This is the first work to represent and extract a wide variety of clinical information in ophthalmology. Extracting detailed information can benefit ophthalmology applications and research targeted toward disease progression and screening.
翻訳日:2023-05-24 01:42:26 公開日:2023-05-19
# 定義生成による解釈可能な単語センス表現:意味的変化分析の事例

Interpretable Word Sense Representations via Definition Generation: The Case of Semantic Change Analysis ( http://arxiv.org/abs/2305.11993v1 )

ライセンス: Link先を確認
Mario Giulianelli, Iris Luden, Raquel Fernandez, Andrey Kutuzov(参考訳) 本稿では,文脈化された単語の用法を解釈可能な単語と単語感覚表現として自動生成する自然言語定義を提案する。 対象語に対する使用例のコレクションと、対応するデータ駆動利用クラスタ(すなわち、単語センス)が与えられた場合、特殊なFlan-T5言語モデルを用いて各使用法について定義を生成し、使用クラスタにおける最も原始的な定義をセンスラベルとして選択する。 その結果得られたセンスラベルは,意味変化分析に対する既存のアプローチをより解釈しやすくすると同時に,ユーザ – 歴史言語学者,辞書学者,社会科学者 – が,単語の意味のダイアクロニカルな特徴を探索し,直感的に説明できるようにする方法を示す。 意味的変化分析は、'definitions as representations'パラダイムの考えられる多くの応用の1つにすぎない。 人間の可読性に加えて、文脈化された定義は、トークンや使用文の埋め込みを単語・イン・コンテクストのセマンティックな類似性判断で上回る。

We propose using automatically generated natural language definitions of contextualised word usages as interpretable word and word sense representations. Given a collection of usage examples for a target word, and the corresponding data-driven usage clusters (i.e., word senses), a definition is generated for each usage with a specialised Flan-T5 language model, and the most prototypical definition in a usage cluster is chosen as the sense label. We demonstrate how the resulting sense labels can make existing approaches to semantic change analysis more interpretable, and how they can allow users -- historical linguists, lexicographers, or social scientists -- to explore and intuitively explain diachronic trajectories of word meaning. Semantic change analysis is only one of many possible applications of the `definitions as representations' paradigm. Beyond being human-readable, contextualised definitions also outperform token or usage sentence embeddings in word-in-context semantic similarity judgements, making them a new promising type of lexical representation for NLP.
翻訳日:2023-05-24 01:39:12 公開日:2023-05-19
# ゼロショットクローズドブック生成質問応答における中大言語モデルの評価

Evaluation of medium-large Language Models at zero-shot closed book generative question answering ( http://arxiv.org/abs/2305.11991v1 )

ライセンス: Link先を確認
Ren\'e Peinl and Johannes Wirth(参考訳) 大型言語モデル (LLM) は注目されているが、"大規模"の定義には明確さがない。 本稿では,少なくとも60億のパラメータを持つが1000億未満のパラメータを持つ中型ランゲージモデル(MLM)に焦点を当てる。 本研究は,外部文書検索を行なわずに精巧な回答を提供するモデルであるゼロショットジェネレーティブ質問応答に関するMDMを評価した。 本稿では,テストダタセットを独自に導入し,人的評価の結果を示す。 その結果、異なるMLMから最高の回答を合成すると、全体の正解率は82.7%となり、ChatGPTの60.9%より優れていることがわかった。 最高のmlmは46.4%に達し、7bのパラメータを持ち、パラメータ数のみに頼るのではなく、微調整に適切なトレーニングデータを使用することの重要性を強調している。 よりきめ細かいフィードバックは、回答の質をさらに改善するために使われるべきです。

Large language models (LLMs) have garnered significant attention, but the definition of "large" lacks clarity. This paper focuses on medium-sized lan-guage models (MLMs), defined as having at least six billion parameters but less than 100 billion. The study evaluates MLMs regarding zero-shot genera-tive question answering, which requires models to provide elaborate answers without external document retrieval. The paper introduces an own test da-taset and presents results from human evaluation. Results show that combin-ing the best answers from different MLMs yielded an overall correct answer rate of 82.7% which is better than the 60.9% of ChatGPT. The best MLM achieved 46.4% and has 7B parameters, which highlights the importance of using appropriate training data for fine-tuning rather than solely relying on the number of parameters. More fine-grained feedback should be used to further improve the quality of answers.
翻訳日:2023-05-24 01:38:40 公開日:2023-05-19
# Productive Crop Field Detection: 新たなデータセットとディープラーニングベンチマーク結果

Productive Crop Field Detection: A New Dataset and Deep Learning Benchmark Results ( http://arxiv.org/abs/2305.11990v1 )

ライセンス: Link先を確認
Eduardo Nascimento, John Just, Jurandy Almeida, and Tiago Almeida(参考訳) 精密農業では、農夫が個別に作業性能を評価し、異なる種子品種、農薬、肥料を比較できるようにするため、生産作物の検出が不可欠である。 しかし、生産的フィールドを手動で識別することは、しばしば時間を要する、エラーを起こしやすいタスクである。 従来の研究では、先進的な機械学習アルゴリズムを用いて作物の畑を検出する様々な方法が検討されていたが、良質なラベル付きデータを欠いていることが多い。 そこで本研究では,sentinel-2画像とマシン操作によって生成された高品質なデータセットを提案する。 私たちが知る限りでは、この手法を用いてラベル付きサンプルの欠如を克服するのはこれが初めてである。 本研究では,ラベルなしデータの半教師付き分類と,最先端の教師付き・自己教師付き深層学習手法を適用し,生産農地を自動的に検出する。 最後に, 正の未ラベル学習において, 正のサンプルに高い信頼感を持つ問題に完全に適合していることを示す。 Triplet Loss Siameseでは、正確なデータセットの存在と、包括的なラベル付きデータセットが利用できない状況を考慮して、Contrastive Learningが提供されている。

In precision agriculture, detecting productive crop fields is an essential practice that allows the farmer to evaluate operating performance separately and compare different seed varieties, pesticides, and fertilizers. However, manually identifying productive fields is often a time-consuming and error-prone task. Previous studies explore different methods to detect crop fields using advanced machine learning algorithms, but they often lack good quality labeled data. In this context, we propose a high-quality dataset generated by machine operation combined with Sentinel-2 images tracked over time. As far as we know, it is the first one to overcome the lack of labeled samples by using this technique. In sequence, we apply a semi-supervised classification of unlabeled data and state-of-the-art supervised and self-supervised deep learning methods to detect productive crop fields automatically. Finally, the results demonstrate high accuracy in Positive Unlabeled learning, which perfectly fits the problem where we have high confidence in the positive samples. Best performances have been found in Triplet Loss Siamese given the existence of an accurate dataset and Contrastive Learning considering situations where we do not have a comprehensive labeled dataset available.
翻訳日:2023-05-24 01:38:26 公開日:2023-05-19
# 応答:kupczynskiコンテキストの局所因果確率モデルはベルの定理によって制約される

Response: Kupczynski Contextual Locally Causal Probabilistic Models are constrained by Bell theorem ( http://arxiv.org/abs/2305.11986v1 )

ライセンス: Link先を確認
Marian Kupczynski(参考訳) 我々の文脈モデルでは、統計的独立性は破られ、ベルの定理に拘束されない。 個々の結果は、物理的システムを記述する機器や変数を計測する依存変数を設定する機能において、相互作用の瞬間に決定論的に局所的に生成される。 これらの設定依存変数は関連付けられるが、必ずしもスプーキーな影響や超決定性のためとは限らない。 いくつかのベルテストでは、遠クリックの2つの時系列は、ゼロでない結果のペアを含む有限サンプルに変換される。 このデータはCHSHの不等式だけでなく、非シグナリングにも違反する。 我々のモデルは、これらの実験で生データと最終データの両方を説明できる。 さらに,モデルでは,実験者の選択の自由を損なわない。 非シグナリングの違反は、理想的なEPRB実験の量子記述や標準的な局所現実的で確率的な隠れ変数モデルと一致しないので、この記事のタイトルと結論は以下の通りである。

In our contextual model, statistical independence is violated, thus it is not constrained by Bell Theorem. Individual outcomes are created locally in a deterministic way in a function of setting dependent variables describing measuring instruments and variables describing physical systems, at the moment of their interactions. These setting dependent variables may be correlated, but not necessarily due to spooky influences or superdeterminism. In several Bell Tests, two time series of distant clicks are converted into finite samples containing pairs of non zero outcomes. This data not only violates CHSH inequalities but also nonsignalling. Our model allows explaining both the raw and the final data in these experiments. Moreover, our model, does not compromise experimenters freedom of choice. The violation of nonsignaling is neither consistent with quantum description of an ideal EPRB experiment nor with standard local realistic and stochastic hidden variable models, thus the title of this article and its conclusion: Kupczynski escape route for local realism is not available are misleading.
翻訳日:2023-05-24 01:38:07 公開日:2023-05-19
# 孤立系の平衡:初期状態磁化における粗粒化の役割に関する研究

Equilibration of Isolated Systems: investigating the role of coarse-graining on the initial state magnetization ( http://arxiv.org/abs/2305.11985v1 )

ライセンス: Link先を確認
Gabriel Dias Carvalho, Luis Fernando dos Prazeres, Pedro Silva Correia, and Thiago R de Oliveira(参考訳) 多くの理論および実験の結果は、一元的に進化する孤立量子系でさえも、観測可能ないくつかの進化は、大抵の場合、無視できるゆらぎを持つ平衡値の周りに存在する可能性があるため、等式化することができることを示している。 そのような平衡が発生する条件を与える厳密な定理がある。 特に、エネルギーの分解能の欠如で準備された初期状態は平衡する。 初期状態の磁化における分解能の欠如や粗粒化の影響について検討する。 特に、カオススピン鎖と正確な対角化を用いて、明確に定義された磁化を持つ初期状態はほとんど平衡しないことを示す。 反対に、粗い、明確に定義されていない磁化は、粗い粒度に依存する方法で平衡を誘導する。 また,システムが平衡に達するまでの時間を解析し,理論的な推定値とよく一致し,より少ない分解能で平衡がより速くなることを示す。 本研究は,量子系の平衡力学における初期状態準備の重要性を強調し,閉系における平衡の基本的性質に関する新たな知見を提供する。

Many theoretical and experimental results show that even isolated quantum systems evolving unitarily may equilibrate, since the evolution of some observables may be around an equilibrium value with negligible fluctuations most of the time. There are rigorous theorems giving the conditions for such equilibration to happen. In particular, initial states prepared with a lack of resolution in the energy will equilibrate. We investigate how equilibration may be affected by a lack of resolution, or coarse-graining, in the magnetization of the initial state. In particular, for a chaotic spin chain and using exact diagonalization, we show that an initial state with welldefined magnetization almost does not equilibrate. On the contrary, a coarse, not well-defined, magnetization induces equilibration in a way that will depend on the degree of coarse graining. We also analyze the time for the system to reach equilibrium, showing good agreement with theoretical estimates and with some evidence that less resolution leads to faster equilibration. Our study highlights the crucial role of initial state preparation in the equilibration dynamics of quantum systems and provides new insights into the fundamental nature of equilibration in closed systems.
翻訳日:2023-05-24 01:37:50 公開日:2023-05-19
# OL変換器:光多層膜構造のための高速で普遍的なサロゲートシミュレータ

OL-Transformer: A Fast and Universal Surrogate Simulator for Optical Multilayer Thin Film Structures ( http://arxiv.org/abs/2305.11984v1 )

ライセンス: Link先を確認
Taigao Ma, Haozhu Wang, L. Jay Guo(参考訳) 近年,光多層膜構造のための高速高精度サロゲートシミュレータとして深層学習法が確立されている。 しかし、既存の手法は素材配置が異なる限られた種類の構造のみに対応し、多様な普遍的な構造への応用を妨げている。 本稿では,巨大構造体に対する普遍的なサロゲートシミュレータとして機能するOpto-Layer (OL) Transformerを提案する。 構造シリアライゼーションの手法と組み合わせることで,物理解法に比べて6倍の高速化を実現しつつ,最大10〜25ドル程度の異なる多層構造に対して,正確な反射スペクトルと透過スペクトルを予測できる。 さらに,本モデルでは,まず物理埋め込みを学習し,自己認識機構を用いて各層間の光・光相互作用の隠れた関係を捉えることにより,一般学習能力が向上することを明らかにした。

Deep learning-based methods have recently been established as fast and accurate surrogate simulators for optical multilayer thin film structures. However, existing methods only work for limited types of structures with different material arrangements, preventing their applications towards diverse and universal structures. Here, we propose the Opto-Layer (OL) Transformer to act as a universal surrogate simulator for enormous types of structures. Combined with the technique of structure serialization, our model can predict accurate reflection and transmission spectra for up to $10^{25}$ different multilayer structures, while still achieving a six-fold time speedup compared to physical solvers. Further investigation reveals that the general learning ability comes from the fact that our model first learns the physical embeddings and then uses the self-attention mechanism to capture the hidden relationship of light-matter interaction between each layer.
翻訳日:2023-05-24 01:37:31 公開日:2023-05-19
# 時間予測符号化によるシーケンシャルメモリ

Sequential Memory with Temporal Predictive Coding ( http://arxiv.org/abs/2305.11982v1 )

ライセンス: Link先を確認
Mufeng Tang, Helen Barron and Rafal Bogacz(参考訳) 事象列の時間的順序を記憶することは生物学的エージェントの生存に不可欠である。 しかし、脳内のシーケンシャルメモリの基礎となる計算機構は未だ不明である。 静的メモリタスクに予測符号化(pc)を適用した神経科学理論と最近の成功に触発され,本研究は時間予測符号化(tpc)と呼ばれる新しい逐次メモリモデルを提案する。 我々は,tpcモデルが,生物学的に妥当なニューラル実装により,シーケンシャル入力を記憶し,正確に取得できることを示す。 解析学的には、tPCは暗黙的な統計的白化過程を持つ古典的非対称ホップフィールドネットワーク(AHN)と見なすことができ、構造化された入力の逐次メモリタスクにおいてより安定した性能をもたらす。 さらに,多層構造を持つtpcは,文脈依存情報をエンコードできるため,海馬による計算として,シーケンスに現れる繰り返し要素を区別できることが分かった。 我々の研究は、既存のメモリモデルフレームワークを使って理論的に解釈できる脳内のシーケンシャルメモリの基礎となる計算機構を確立する。

Memorizing the temporal order of event sequences is critical for the survival of biological agents. However, the computational mechanism underlying sequential memory in the brain remains unclear. Inspired by neuroscience theories and recent successes in applying predictive coding (PC) to static memory tasks, in this work we propose a novel PC-based model for sequential memory, called temporal predictive coding (tPC). We show that our tPC models can memorize and retrieve sequential inputs accurately with a biologically plausible neural implementation. Importantly, our analytical study reveals that tPC can be viewed as a classical Asymmetric Hopfield Network (AHN) with an implicit statistical whitening process, which leads to more stable performance in sequential memory tasks of structured inputs. Moreover, we find that tPC with a multi-layer structure can encode context-dependent information, thus distinguishing between repeating elements appearing in a sequence, a computation attributed to the hippocampus. Our work establishes a possible computational mechanism underlying sequential memory in the brain that can also be theoretically interpreted using existing memory model frameworks.
翻訳日:2023-05-24 01:37:16 公開日:2023-05-19
# sch\"one neue lieferkettenwelt"--西天アルゴリズムにおける労働者の声とアーベイト標準

"Sch\"one neue Lieferkettenwelt": Workers' Voice und Arbeitsstandards in Zeiten algorithmischer Vorhersage ( http://arxiv.org/abs/2305.11981v1 )

ライセンス: Link先を確認
Lukas Daniel Klausner, Maximilian Heimst\"adt, Leonhard Dobusch(参考訳) サプライチェーンの複雑さとますます密接な結合は、主要な企業にとって大きな課題となる。 もう1つの課題は、消費者からの圧力の下、サプライチェーン法などの重要な公的および立法的な措置が、サプライヤの労働基準よりも多くの責任を負わなければならないことだ。 本稿では,企業がこれらの課題に対処するために利用する新たなアプローチについて論じる。ビジネスリスクのアルゴリズム予測だけでなく,環境・社会リスクの予測である。 アルゴリズム予測の技術的・文化的条件を説明し、先進的な企業の観点から、両課題にどのように対処するかを説明します。 次に、主要な企業がどのような社会的影響をアルゴリズムで予測できるかというシナリオを開発します。 シナリオから、異なる利害関係者グループの政策オプションを導き、労働基準や労働者の声を改善するためのアルゴリズムによる予測を開発する。 Die Komplexit\"at und zunehmend enge Kopplung vieler Lieferketten stellt eine gro{\ss}e logistische Herausforderung f\"ur Leitunternehmen dar。 Eine weitere Herausforderung besteht darin, dass Leitunternehmen -- gedr\"angt durch Konsument:innen, eine kritische \"Offentlichkeit und gesetzgeberische Ma{\ss}nahmen wie die Lieferkettengesetze -- st\"arker als bisher Verantwortung f\"ur Arbeits standards in ihren Zulieferbetrieben \"ubernehmen m\"ussen 英語: diesem Beitrag diskutieren wir einen neuen Ansatz, mit dem Leitunternehmen versuchen, diese Herausforderungen zu bearbeiten: die algorithmische Vorhersage von betriebswirtschaftlichen, aber auch \"okologischen und sozialen Risiken。 テクニッヒェンとクルチュルレンのベディングングンゲン f\"ur algorithmische vorhersage und erkl\"aren, wie diese— aus perspektive von leitunternehmen— bei der bearbeitung beider herausforderungen hilft アンシュリー・ハイス(anschlie{\ss}end entwickeln wir szenarien, wie und mit welchen sozialen konsequenzen algorithmische vorhersage durch leitunternehmen eingesetzt werden kann Aus den Szenarien leiten wir Handlungsoptionen f\"ur verschiedene Stakeholder-Gruppen ab, die dabei helfen sollen, Algorithmische Vorhersage im Sinne einer Verbesserung von Arbeitsstandards und Workers' Voice weiterzuentwickeln

The complexity and increasingly tight coupling of supply chains poses a major logistical challenge for leading companies. Another challenge is that leading companies -- under pressure from consumers, a critical public and legislative measures such as supply chain laws -- have to take more responsibility than before for their suppliers' labour standards. In this paper, we discuss a new approach that leading companies are using to try to address these challenges: algorithmic prediction of business risks, but also environmental and social risks. We describe the technical and cultural conditions for algorithmic prediction and explain how -- from the perspective of leading companies -- it helps to address both challenges. We then develop scenarios on how and with what kind of social consequences algorithmic prediction can be used by leading companies. From the scenarios, we derive policy options for different stakeholder groups to help develop algorithmic prediction towards improving labour standards and worker voice. -- Die Komplexit\"at und zunehmend enge Kopplung vieler Lieferketten stellt eine gro{\ss}e logistische Herausforderung f\"ur Leitunternehmen dar. Eine weitere Herausforderung besteht darin, dass Leitunternehmen -- gedr\"angt durch Konsument:innen, eine kritische \"Offentlichkeit und gesetzgeberische Ma{\ss}nahmen wie die Lieferkettengesetze -- st\"arker als bisher Verantwortung f\"ur Arbeitsstandards in ihren Zulieferbetrieben \"ubernehmen m\"ussen. In diesem Beitrag diskutieren wir einen neuen Ansatz, mit dem Leitunternehmen versuchen, diese Herausforderungen zu bearbeiten: die algorithmische Vorhersage von betriebswirtschaftlichen, aber auch \"okologischen und sozialen Risiken. Wir beschreiben die technischen und kulturellen Bedingungen f\"ur algorithmische Vorhersage und erkl\"aren, wie diese -- aus Perspektive von Leitunternehmen -- bei der Bearbeitung beider Herausforderungen hilft. Anschlie{\ss}end entwickeln wir Szenarien, wie und mit welchen sozialen Konsequenzen algorithmische Vorhersage durch Leitunternehmen eingesetzt werden kann. Aus den Szenarien leiten wir Handlungsoptionen f\"ur verschiedene Stakeholder-Gruppen ab, die dabei helfen sollen, algorithmische Vorhersage im Sinne einer Verbesserung von Arbeitsstandards und Workers' Voice weiterzuentwickeln.
翻訳日:2023-05-24 01:36:56 公開日:2023-05-19
# AutoCoreset: 自動実践的なコアセット構築フレームワーク

AutoCoreset: An Automatic Practical Coreset Construction Framework ( http://arxiv.org/abs/2305.11980v1 )

ライセンス: Link先を確認
Alaa Maalouf and Murad Tukan and Vladimir Braverman and Daniela Rus(参考訳) コアセットは入力セットの小さな重み付き部分集合であり、特定のクエリ集合に対して損失関数によく似ている。 coresetsは多くのアプリケーションで有利であることが示されているため、機械学習で普及した。 コアセット研究は活発な研究分野であるが、残念ながらコアセットは問題に依存した方法で構築されており、各問題に対して、新しいコアセット構築アルゴリズムが提案される。 汎用フレームワークでさえ、ユーザによって行われる追加の(問題に依存しない)計算や証明を必要とします。 さらに、多くの問題は(証明可能な)小さなコアセットを持たず、適用性を制限する。 この目的のために,ユーザから入力データと所望のコスト関数を要求されるコアセットを構築するための,他のタスク関連計算を必要とせずに,自動的な実践的フレームワークを提案する。 これを実現するために、我々は損失関数をベクトル和近似のインスタンスに近似する問題を低減し、そのベクトルはクエリの特定の部分集合の損失ベクトルであり、この部分集合上の関数の像を近似することを目的としている。 この集合は限定的であるが、コアセットは非常に一般的である。 また,様々な機械学習応用に関する広範な実験を行った。 最後に ``plug and play" 形式の実装を提供し,coreset を多くの問題に対して容易に適用可能なユーザフレンドリなシステムを提案する。 完全なオープンソースコードは、 \href{https://github.com/alaamaalouf/AutoCoreset}{\text{https://github.com/alaamaalouf/AutoCoreset}}にある。 これらの貢献により、コアセットの今後の研究や利用が容易になると考えています。

A coreset is a tiny weighted subset of an input set, that closely resembles the loss function, with respect to a certain set of queries. Coresets became prevalent in machine learning as they have shown to be advantageous for many applications. While coreset research is an active research area, unfortunately, coresets are constructed in a problem-dependent manner, where for each problem, a new coreset construction algorithm is usually suggested, a process that may take time or may be hard for new researchers in the field. Even the generic frameworks require additional (problem-dependent) computations or proofs to be done by the user. Besides, many problems do not have (provable) small coresets, limiting their applicability. To this end, we suggest an automatic practical framework for constructing coresets, which requires (only) the input data and the desired cost function from the user, without the need for any other task-related computation to be done by the user. To do so, we reduce the problem of approximating a loss function to an instance of vector summation approximation, where the vectors we aim to sum are loss vectors of a specific subset of the queries, such that we aim to approximate the image of the function on this subset. We show that while this set is limited, the coreset is quite general. An extensive experimental study on various machine learning applications is also conducted. Finally, we provide a ``plug and play" style implementation, proposing a user-friendly system that can be easily used to apply coresets for many problems. Full open source code can be found at \href{https://github.com/alaamaalouf/AutoCoreset}{\text{https://github.com/alaamaalouf/AutoCoreset}}. We believe that these contributions enable future research and easier use and applications of coresets.
翻訳日:2023-05-24 01:33:47 公開日:2023-05-19
# Few-Shot Aspect based Sentimentのための弱スーパービジョンアプローチ

A Weak Supervision Approach for Few-Shot Aspect Based Sentiment ( http://arxiv.org/abs/2305.11979v1 )

ライセンス: Link先を確認
Robert Vacareanu, Siddharth Varia, Kishaloy Halder, Shuai Wang, Giovanni Paolini, Neha Anna John, Miguel Ballesteros, Smaranda Muresan(参考訳) 我々は、アスペクトベース感情分析(absa)タスクにおいて、豊富なラベルのないデータに対する弱い監督をいかに活用できるかを考察する。 ノイズの多いABSAデータセットを構築するパイプライン手法を提案し,それを用いて事前学習されたシーケンス・ツー・シーケンスモデルをABSAタスクに適用する。 3つのABSAデータセットを用いて、微調整前後で結果のモデルを検証した。 提案手法は, 難解なタスクに対する数ショット学習シナリオにおいて, 大幅な改善(15.84%)を示しながら, 完全な微調整性能を保っている。 ゼロショット(微調整なし)では、アスペクト抽出感情分類(AESC)タスクにおいて、従来の手法よりも優れており、さらに、より難しいアスペクト感情感情の3重項抽出(ASTE)タスクを実行可能である。

We explore how weak supervision on abundant unlabeled data can be leveraged to improve few-shot performance in aspect-based sentiment analysis (ABSA) tasks. We propose a pipeline approach to construct a noisy ABSA dataset, and we use it to adapt a pre-trained sequence-to-sequence model to the ABSA tasks. We test the resulting model on three widely used ABSA datasets, before and after fine-tuning. Our proposed method preserves the full fine-tuning performance while showing significant improvements (15.84% absolute F1) in the few-shot learning scenario for the harder tasks. In zero-shot (i.e., without fine-tuning), our method outperforms the previous state of the art on the aspect extraction sentiment classification (AESC) task and is, additionally, capable of performing the harder aspect sentiment triplet extraction (ASTE) task.
翻訳日:2023-05-24 01:33:20 公開日:2023-05-19
# 自然のインスピレーションによる絵画様式の創出

Inventing painting styles through natural inspiration ( http://arxiv.org/abs/2305.12015v1 )

ライセンス: Link先を確認
Nilin Abrahamsen, Jiahao Yao(参考訳) 自然画像のみに基づいて訓練されたモデルを用いて絵画スタイルを作成するための2つの手法を提案する。 第1の手順では,芸術媒体からの帰納バイアスを用いて創造的な表現を実現する。 抽象化は再構築損失を用いて達成される。 第2の手順では、新たなスタイルを作成するために、追加の自然イメージをインスピレーションとして使用する。 これら2つの手順により、芸術的な訓練データなしで新しい絵画様式を創出することができる。 われわれのアプローチは、人間の創造者の独創性を侵害することなく、芸術における生成AIの倫理的雇用の道を開くのに役立つと信じている。

We propose two procedures to create painting styles using models trained only on natural images, providing objective proof that the model is not plagiarizing human art styles. In the first procedure we use the inductive bias from the artistic medium to achieve creative expression. Abstraction is achieved by using a reconstruction loss. The second procedure uses an additional natural image as inspiration to create a new style. These two procedures make it possible to invent new painting styles with no artistic training data. We believe that our approach can help pave the way for the ethical employment of generative AI in art, without infringing upon the originality of human creators.
翻訳日:2023-05-24 01:25:57 公開日:2023-05-19
# 生成AIによる夢の構築

Constructing Dreams using Generative AI ( http://arxiv.org/abs/2305.12013v1 )

ライセンス: Link先を確認
Safinah Ali, Daniella DiPaola, Randi Williams, Prerna Ravi, Cynthia Breazeal(参考訳) ジェネレイティブaiツールは、若者向けの新しいアクセス可能なメディア作成形態を導入する。 また、偽メディアの生成、データ保護、プライバシー、AI生成アートの所有権に関する倫理的懸念も提起している。 生成AIは、すでに若者が使用する製品で使われているため、これらのツールがどのように機能し、どのように使用されるか、誤用されるかを理解することが重要である。 本研究では,学生が想像する未来のアイデンティティを表現して生成的AI学習を促進する。 そこでは、生徒が生成型aiツールの内部動作について学び、テキストから画像への生成アルゴリズムを使って、画像化された将来の夢を作り、生成型aiツールの潜在的利益と害を反映し、これらのツールが教室で使われるためのポリシーについて意見を述べた。 本稿では,ワークショップに参加した34人の高校生の学習活動と経験について述べる。 学生は、プロンプトエンジニアリングを使用して将来の夢を創造し、生成AIの能力、限界、テキスト視覚マッピング、応用を学び、生成AIの潜在的な社会的利益と害を特定することによって技術知識を得た。

Generative AI tools introduce new and accessible forms of media creation for youth. They also raise ethical concerns about the generation of fake media, data protection, privacy and ownership of AI-generated art. Since generative AI is already being used in products used by youth, it is critical that they understand how these tools work and how they can be used or misused. In this work, we facilitated students' generative AI learning through expression of their imagined future identities. We designed a learning workshop - Dreaming with AI - where students learned about the inner workings of generative AI tools, used text-to-image generation algorithms to create their imaged future dreams, reflected on the potential benefits and harms of generative AI tools and voiced their opinions about policies for the use of these tools in classrooms. In this paper, we present the learning activities and experiences of 34 high school students who engaged in our workshops. Students reached creative learning objectives by using prompt engineering to create their future dreams, gained technical knowledge by learning the abilities, limitations, text-visual mappings and applications of generative AI, and identified most potential societal benefits and harms of generative AI.
翻訳日:2023-05-24 01:25:46 公開日:2023-05-19
# 衛星, 回転, コンテクストデータの階層的融合による作物分類の促進

Boosting Crop Classification by Hierarchically Fusing Satellite, Rotational, and Contextual Data ( http://arxiv.org/abs/2305.12011v1 )

ライセンス: Link先を確認
Barriere Valentin and Claverie Martin and Schneider Maja and Lemoine Guido and d'Andrimont Rapha\"el(参考訳) 季節内作物の正確な分類は農作物生産量の推定とモニタリングに不可欠である。 しかし, 植物の成長パターンの複雑さと時空間変動は重要な課題である。 現在のディープラーニングベースの手法では、単一およびマルチモーダル時系列からの作物タイプ分類が期待できるが、既存の手法のほとんどは、衛星リモートセンシングデータや作物の回転パターンのような単一のモダリティに依存している。 本稿では,複数年にわたる精度と堅牢性向上のためのモデルにマルチモーダル情報を融合する新しい手法を提案する。 このアプローチは、Sentinel-2とLandsat 8のリモートセンシング時系列、パーセルの作物回転、および局所的な作物分布の3つのモードに依存している。 このアプローチを評価するため、フランスとオランダで740万の農業パーセルの注釈付きデータセットを新たにリリースしました。 表面反射率(赤とNIR)と生体物理変数(LAI, FAPAR)の時系列とを関連づける。 さらに,作物種を階層的クラス構造に自動集約し,有意義なモデル評価を行う新しい手法と,早期シーズン分類のための新しいデータ提供手法を提案する。 151種から8種にまたがるセマンティックドメインにおいて,マルチモーダルアプローチの性能を異なるアグリゲーションレベルで評価した。 その結果,NLデータセットでは 91\% から 95\% ,FRデータセットでは 85\% から 89\% の精度が得られた。 データセットを事前トレーニングすることで、国間のドメイン適応性が向上し、クロスドメインのゼロショット学習が可能になり、フランスからオランダまでの数ショット環境でのパフォーマンスが堅牢になる。 提案手法は,しばしば見過ごされがちな時空間的文脈を学習法で利用することで,比較した手法を上回っている。

Accurate in-season crop type classification is crucial for the crop production estimation and monitoring of agricultural parcels. However, the complexity of the plant growth patterns and their spatio-temporal variability present significant challenges. While current deep learning-based methods show promise in crop type classification from single- and multi-modal time series, most existing methods rely on a single modality, such as satellite optical remote sensing data or crop rotation patterns. We propose a novel approach to fuse multimodal information into a model for improved accuracy and robustness across multiple years and countries. The approach relies on three modalities used: remote sensing time series from Sentinel-2 and Landsat 8 observations, parcel crop rotation and local crop distribution. To evaluate our approach, we release a new annotated dataset of 7.4 million agricultural parcels in France and Netherlands. We associate each parcel with time-series of surface reflectance (Red and NIR) and biophysical variables (LAI, FAPAR). Additionally, we propose a new approach to automatically aggregate crop types into a hierarchical class structure for meaningful model evaluation and a novel data-augmentation technique for early-season classification. Performance of the multimodal approach was assessed at different aggregation level in the semantic domain spanning from 151 to 8 crop types or groups. It resulted in accuracy ranging from 91\% to 95\% for NL dataset and from 85\% to 89\% for FR dataset. Pre-training on a dataset improves domain adaptation between countries, allowing for cross-domain zero-shot learning, and robustness of the performances in a few-shot setting from France to Netherlands. Our proposed approach outperforms comparable methods by enabling learning methods to use the often overlooked spatio-temporal context of parcels, resulting in increased preci...
翻訳日:2023-05-24 01:25:25 公開日:2023-05-19
# Chemellia: 原子論的機械学習のためのエコシステム

Chemellia: An Ecosystem for Atomistic Scientific Machine Learning ( http://arxiv.org/abs/2305.12010v1 )

ライセンス: Link先を確認
Anant Thazhemadam, Dhairya Gandhi, Venkatasubramanian Viswanathan, Rachel C. Kurchin(参考訳) Chemelliaは、Juliaプログラミング言語における原子論的機械学習のためのオープンソースのフレームワークである。 このフレームワークは、Juliaの高速性と、複数ディスパッチのパラダイムによるコードとインターフェースの共有と再利用の能力を活用している。 Chemelliaは既存のインターフェースを活用して,‘車輪の再発明’を回避するように設計されている。 chemelliaエコシステムの重要な側面は、特徴の定義とエンコーディングのためのケミカルフェアチュアライズインターフェースである -- フェアチュアライズスキームとそれらの要素間の相互運用性を最大化し、エンコードされた特徴の証明性を維持し、機能エンジニアリング実験を可能にするために、容易にデコダビリティと再構成性を確保するように設計されている。 これは、関心の分離、相互運用性、透明性という、chemelliaエコシステムの全体的な設計原則を具現化している。 本稿では,物質特性予測のための結晶グラフ畳み込みニューラルネットワークの実装について論じる。

Chemellia is an open-source framework for atomistic machine learning in the Julia programming language. The framework takes advantage of Julia's high speed as well as the ability to share and reuse code and interfaces through the paradigm of multiple dispatch. Chemellia is designed to make use of existing interfaces and avoid ``reinventing the wheel'' wherever possible. A key aspect of the Chemellia ecosystem is the ChemistryFeaturization interface for defining and encoding features -- it is designed to maximize interoperability between featurization schemes and elements thereof, to maintain provenance of encoded features, and to ensure easy decodability and reconfigurability to enable feature engineering experiments. This embodies the overall design principles of the Chemellia ecosystem: separation of concerns, interoperability, and transparency. We illustrate these principles by discussing the implementation of crystal graph convolutional neural networks for material property prediction.
翻訳日:2023-05-24 01:24:52 公開日:2023-05-19
# XuanYuan 2.0: 数十億のパラメータを持つ中国の巨大金融チャットモデル

XuanYuan 2.0: A Large Chinese Financial Chat Model with Hundreds of Billions Parameters ( http://arxiv.org/abs/2305.12002v1 )

ライセンス: Link先を確認
Xuanyu Zhang and Qing Yang and Dongliang Xu(参考訳) 近年,大規模モデルの出現に伴い,事前学習型言語モデルの開発が急速に進んでいる。 しかし、特に中国の金融の分野では、何十億という規模で、中国語用に特別に設計されたオープンソースのチャットモデルが不足している。 このギャップに対処するために,BLOOM-176Bアーキテクチャ上に構築された中国最大のチャットモデルであるXuanYuan 2.0を紹介する。 さらに,破滅的忘れを緩和するハイブリッドチューニングという新たなトレーニング手法を提案する。 一般ドメインとドメイン固有の知識を組み合わせることで、事前トレーニングと微調整の段階を統合することで、中国の金融ドメインにおいて正確かつ文脈的に適切な応答を提供することができる。

In recent years, pre-trained language models have undergone rapid development with the emergence of large-scale models. However, there is a lack of open-sourced chat models specifically designed for the Chinese language, especially in the field of Chinese finance, at the scale of hundreds of billions. To address this gap, we introduce XuanYuan 2.0, the largest Chinese chat model to date, built upon the BLOOM-176B architecture. Additionally, we propose a novel training method called hybrid-tuning to mitigate catastrophic forgetting. By combining general-domain with domain-specific knowledge and integrating the stages of pre-training and fine-tuning, XuanYuan 2.0 is capable of providing accurate and contextually appropriate responses in the Chinese financial domain.
翻訳日:2023-05-24 01:24:37 公開日:2023-05-19
# opt-r: 大きな言語モデルの推論スキルの微調整と促進における説明の役割を探る

OPT-R: Exploring the Role of Explanations in Finetuning and Prompting for Reasoning Skills of Large Language Models ( http://arxiv.org/abs/2305.12001v1 )

ライセンス: Link先を確認
Badr AlKhamissi, Siddharth Verma, Ping Yu, Zhijing Jin, Asli Celikyilmaz, Mona Diab(参考訳) 本稿では,大規模言語モデル (llm) の推論能力について,特にopen pretrained transformers (opt) モデルを代表として徹底的に検討する。 そこで本研究では, OPT-Rモデル, OPT-REモデル, OPT-REモデルの3つのモデルについて検討した。 次に,SUPER-NATURALINSTRUCTIONSベンチマークから抽出した57の領域外タスクに対して,26の異なる推論スキルを網羅し,3つのプロンプト技術を用いて全てのモデルを評価する。 本研究では,27の構成と6,156の試験評価を網羅的に網羅し,様々な推論スキルにおける説明の役割を理解するために,微調整,プロンプト,スケールの寸法を調査した。 この結果から, モデルが微調整された場合, モデルの性能に有意な影響を与えず, 非微調整されたモデルに肯定的な影響を及ぼすことが明らかとなった。 さらに,シグネチャリングと微調整の際の説明を取り入れた分類精度が,わずかながら一貫した増加を観察した。 最後に、数値(+20.4%)と類推(+13.9%)の推論や、無視可能なあるいは否定的な効果を示すスキルなど、微調整やプロンプトの際の説明を取り入れることで、どのスキルが最も有益かを洞察する。

In this paper, we conduct a thorough investigation into the reasoning capabilities of Large Language Models (LLMs), focusing specifically on the Open Pretrained Transformers (OPT) models as a representative of such models. Our study entails finetuning three different sizes of OPT on a carefully curated reasoning corpus, resulting in two sets of finetuned models: OPT-R, finetuned without explanations, and OPT-RE, finetuned with explanations. We then evaluate all models on 57 out-of-domain tasks drawn from the SUPER-NATURALINSTRUCTIONS benchmark, covering 26 distinct reasoning skills, utilizing three prompting techniques. Through a comprehensive grid of 27 configurations and 6,156 test evaluations, we investigate the dimensions of finetuning, prompting, and scale to understand the role of explanations on different reasoning skills. Our findings reveal that having explanations in the fewshot exemplar has no significant impact on the model's performance when the model is finetuned, while positively affecting the non-finetuned counterpart. Moreover, we observe a slight yet consistent increase in classification accuracy as we incorporate explanations during prompting and finetuning, respectively. Finally, we offer insights on which skills benefit the most from incorporating explanations during finetuning and prompting, such as Numerical (+20.4%) and Analogical (+13.9%) reasoning, as well as skills that exhibit negligible or negative effects.
翻訳日:2023-05-24 01:24:24 公開日:2023-05-19
# 語彙的単純化への深層学習アプローチ:サーベイ

Deep Learning Approaches to Lexical Simplification: A Survey ( http://arxiv.org/abs/2305.12000v1 )

ライセンス: Link先を確認
Kai North, Tharindu Ranasinghe, Matthew Shardlow, Marcos Zampieri(参考訳) レキシカルシンプリフィケーション(Lexical Simplification、LS)は、文の本来の意味を保ちながら、文中のより単純な単語に置き換えるタスクである。 LSはテキスト単純化(Text Simplification, TS)の語彙的構成要素であり、テキストを様々なターゲット層によりアクセスしやすくすることを目的としている。 過去の調査(Paetzold and Specia, 2017)では、LSの概要が詳細に説明されている。 しかし、この調査以降、AI/NLPコミュニティは、特に大規模言語モデル(LLM)の導入と迅速な学習によって、近年のディープラーニングの進歩によって、嵐に浴びている。 これらのモデルの高性能化はlsへの関心を再び高めた。 近年の進歩を振り返って、2017年から2023年にかけて発表されたlsとそのサブタスクに関する論文の包括的調査を行い、深層学習に特化している。 また,今後のLSシステム開発のためのベンチマークデータセットも提示する。

Lexical Simplification (LS) is the task of replacing complex for simpler words in a sentence whilst preserving the sentence's original meaning. LS is the lexical component of Text Simplification (TS) with the aim of making texts more accessible to various target populations. A past survey (Paetzold and Specia, 2017) has provided a detailed overview of LS. Since this survey, however, the AI/NLP community has been taken by storm by recent advances in deep learning, particularly with the introduction of large language models (LLM) and prompt learning. The high performance of these models sparked renewed interest in LS. To reflect these recent advances, we present a comprehensive survey of papers published between 2017 and 2023 on LS and its sub-tasks with a special focus on deep learning. We also present benchmark datasets for the future development of LS systems.
翻訳日:2023-05-24 01:23:53 公開日:2023-05-19
# 確率的保証を伴うニューラルネットワークのロバストな反事実説明

Robust Counterfactual Explanations for Neural Networks With Probabilistic Guarantees ( http://arxiv.org/abs/2305.11997v1 )

ライセンス: Link先を確認
Faisal Hamman, Erfaun Noorani, Saumitra Mishra, Daniele Magazzeni, Sanghamitra Dutta(参考訳) モデルが更新されたり、あるいは少し変更されたとしても、有効な、堅牢な反事実的説明を生成することへの関心が高まっている。 堅牢な反事実を見つけるために、既存の文献では、元のモデル $m$ と新しいモデル $M$ がパラメータ空間、すなわち $\|\text{Params}(M){-}\text{Params}(m)\|{<}\Delta$ に有界であると仮定することが多い。 しかし、モデルはしばしばパラメータ空間において、与えられたデータセットの予測や精度をほとんど、あるいは全く変更することなく大きく変化する。 本研究では,データ多様体上の点に対する予測の変化が制限されるようなパラメータ空間の任意の変化を可能にする,数学的抽象化である \emph{naturally-occurring} model changeを導入する。 次に、ニューラルネットワークなどの微分可能なモデルに対する潜在的なモデル変化に対する反ファクトアルのロバスト性を定量化する尺度(emph{Stability})を提案する。 我々の主な貢献は、我々の測度によって定義される十分高い値の 'emph{Stability} の反ファクトアルが、高い確率で「自然帰納的」モデルが変化した後も有効であることを示すことである(独立ガウスのリプシッツ関数に対する平均濃度境界)。 私たちの定量化は、常に利用可能ではないデータポイント周辺の局所リプシッツ定数に依存するため、提案手法の実際的な緩和を検証し、モデル変更後も有効なニューラルネットワークの堅牢な反事実を見つけるためにどのように組み込むか実験的に実証する。

There is an emerging interest in generating robust counterfactual explanations that would remain valid if the model is updated or changed even slightly. Towards finding robust counterfactuals, existing literature often assumes that the original model $m$ and the new model $M$ are bounded in the parameter space, i.e., $\|\text{Params}(M){-}\text{Params}(m)\|{<}\Delta$. However, models can often change significantly in the parameter space with little to no change in their predictions or accuracy on the given dataset. In this work, we introduce a mathematical abstraction termed \emph{naturally-occurring} model change, which allows for arbitrary changes in the parameter space such that the change in predictions on points that lie on the data manifold is limited. Next, we propose a measure -- that we call \emph{Stability} -- to quantify the robustness of counterfactuals to potential model changes for differentiable models, e.g., neural networks. Our main contribution is to show that counterfactuals with sufficiently high value of \emph{Stability} as defined by our measure will remain valid after potential ``naturally-occurring'' model changes with high probability (leveraging concentration bounds for Lipschitz function of independent Gaussians). Since our quantification depends on the local Lipschitz constant around a data point which is not always available, we also examine practical relaxations of our proposed measure and demonstrate experimentally how they can be incorporated to find robust counterfactuals for neural networks that are close, realistic, and remain valid after potential model changes.
翻訳日:2023-05-24 01:23:40 公開日:2023-05-19
# 能動整形装置による誤り検出のための脳波とEMGデータセット

EEG and EMG dataset for the detection of errors introduced by an active orthosis device ( http://arxiv.org/abs/2305.11996v1 )

ライセンス: Link先を確認
Niklas Kueper, Kartik Chari, Judith B\"utef\"ur, Julia Habenicht, Su Kyoung Kim, Tobias Rossol, Marc Tabie, Frank Kirchner, and Elsa Andrea Kirchner(参考訳) 本稿では,脳波(EEG)と筋電図(EMG)の記録を含むデータセットについて,能動整形装置を用いて右腕の移動を補助した8名の被験者から報告する。 支持運動は肘関節運動,すなわち右腕の屈曲と伸展であった。 矯正は被験者の腕を積極的に動かしている間に、いくつかの誤りは意図的に短期間導入された。 この間、矯正は反対方向に移動した。 本稿では,実験的な設定を説明し,全被験者にまたがる行動分析について述べる。 さらに,ある被験者に対して,平均的な事象関連電位分析を行い,エラー導入によるデータ品質と脳波活動について考察する。 ここで説明したデータセットは、公開アクセス可能である。 本研究の目的は研究コミュニティにデータセットを提供することであり,特に脳波から誤った事象を非同期に検出する新しい手法の開発を目的としている。 特に触覚と触覚を媒介とする誤認識に関心があるが,文献ではまだ十分に研究されていない。 我々は, 補綴の詳細な記述と実験により, その再現が可能となり, 大規模コミュニティによる補助システムの誤動作の検出に影響を及ぼす要因の系統的研究が促進されることを期待する。

This paper presents a dataset containing recordings of the electroencephalogram (EEG) and the electromyogram (EMG) from eight subjects who were assisted in moving their right arm by an active orthosis device. The supported movements were elbow joint movements, i.e., flexion and extension of the right arm. While the orthosis was actively moving the subject's arm, some errors were deliberately introduced for a short duration of time. During this time, the orthosis moved in the opposite direction. In this paper, we explain the experimental setup and present some behavioral analyses across all subjects. Additionally, we present an average event-related potential analysis for one subject to offer insights into the data quality and the EEG activity caused by the error introduction. The dataset described herein is openly accessible. The aim of this study was to provide a dataset to the research community, particularly for the development of new methods in the asynchronous detection of erroneous events from the EEG. We are especially interested in the tactile and haptic-mediated recognition of errors, which has not yet been sufficiently investigated in the literature. We hope that the detailed description of the orthosis and the experiment will enable its reproduction and facilitate a systematic investigation of the influencing factors in the detection of erroneous behavior of assistive systems by a large community.
翻訳日:2023-05-24 01:23:08 公開日:2023-05-19
# ディープラーニングに基づくソフトウェアISP手法に関する調査研究

Survey on software ISP methods based on Deep Learning ( http://arxiv.org/abs/2305.11994v1 )

ライセンス: Link先を確認
Matheus Henrique Marques da Silva, Jhessica Victoria Santos da Silva, Rodrigo Reis Arrais, Wladimir Barroso Guedes de Ara\'ujo Neto, Leonardo Tadeu Lopes, Guilherme Augusto Bileki, Iago Oliveira Lima, Lucas Borges Rondon, Bruno Melo de Souza, Mayara Costa Regazio, Rodolfo Coelho Dalapicola, Claudio Filipi Gon\c{c}alves dos Santos(参考訳) カメラの全画像信号処理装置(isp)は、デモサイシング、デノイジング、エンハンスメントなど、カラーフィルタアレイ(cfa)センサーからデータを変換するためのいくつかのプロセスに依存している。 これらのプロセスはハードウェアでもソフトウェアでも実行できる。 近年では、Deep Learningが一部のソリューションとして登場したり、あるいはひとつのニューラルネットワークを使ってISP全体を置き換えたりもしています。 本研究では,この領域における最近の研究をいくつか調査し,今後の研究成果や改善点などについて,より深い分析と比較を行った。

The entire Image Signal Processor (ISP) of a camera relies on several processes to transform the data from the Color Filter Array (CFA) sensor, such as demosaicing, denoising, and enhancement. These processes can be executed either by some hardware or via software. In recent years, Deep Learning has emerged as one solution for some of them or even to replace the entire ISP using a single neural network for the task. In this work, we investigated several recent pieces of research in this area and provide deeper analysis and comparison among them, including results and possible points of improvement for future researchers.
翻訳日:2023-05-24 01:22:48 公開日:2023-05-19
# グラフニューラルネットワークを用いたオープンワールド校正の学習

Learning for Open-World Calibration with Graph Neural Networks ( http://arxiv.org/abs/2305.12039v1 )

ライセンス: Link先を確認
Qin Zhang, Dongsheng An, Tianjun Xiao, Tong He, Qingming Tang, Ying Nian Wu, Joseph Tighe, Yifan Xing(参考訳) 本稿では,クラスタリングに表現のコンパクト度を組み込んだオープンワールド認識のためのしきい値校正問題に取り組む。 未知のクラスの発見と拒否に焦点を当てたオープンセット認識とは異なり、オープンワールド認識はテスト時に未知のクラスを分離するために一般化された頑健な表現を学習する。 提案手法は2つの重要な観測結果に基づく。 (i)高次元視覚埋め込み空間における近傍画像間の表現構造は、オープンワールドへの移動性を促進するために活用できる強い自己相似性を有する。 (ii)クラス内埋め込み構造はマージン化フォン・ミセス・フィッシャー(vmf)確率でモデル化することができ、真の正の確率との相関はデータセット不変である。 そこで我々は,グラフニューラルネットワーク(GNN)を中心とした統一フレームワークを設計し,擬似ラベルと表現のコンパクトさを示すvMF濃度を共同で予測する。 これらの予測は、認識精度の統計的推定に変換でき、オープンワールドクラスの目標ユーティリティを達成するために、距離しきい値のより堅牢なキャリブレーションを可能にする。 様々な視覚認知ベンチマークの結果,特に分布シフト下では,従来のポストホックキャリブレーション法よりも優れた手法が得られた。

We tackle the problem of threshold calibration for open-world recognition by incorporating representation compactness measures into clustering. Unlike the open-set recognition which focuses on discovering and rejecting the unknown, open-world recognition learns robust representations that are generalizable to disjoint unknown classes at test time. Our proposed method is based on two key observations: (i) representation structures among neighbouring images in high dimensional visual embedding spaces have strong self-similarity which can be leveraged to encourage transferability to the open world, (ii) intra-class embedding structures can be modeled with the marginalized von Mises-Fisher (vMF) probability, whose correlation with the true positive rate is dataset-invariant. Motivated by these, we design a unified framework centered around a graph neural network (GNN) to jointly predict the pseudo-labels and the vMF concentrations which indicate the representation compactness. These predictions can be converted into statistical estimations for recognition accuracy, allowing more robust calibration of the distance threshold to achieve target utility for the open-world classes. Results on a variety of visual recognition benchmarks demonstrate the superiority of our method over traditional posthoc calibration methods for the open world, especially under distribution shift.
翻訳日:2023-05-24 01:17:57 公開日:2023-05-19
# SIDAR:アライメントとリカバリのための合成画像データセット

SIDAR: Synthetic Image Dataset for Alignment & Restoration ( http://arxiv.org/abs/2305.12036v1 )

ライセンス: Link先を確認
Monika Kwiatkowski, Simon Matern, Olaf Hellwich(参考訳) 画像アライメントと画像復元は古典的なコンピュータビジョンタスクである。 しかし、エンドツーエンドのディープラーニングモデルのトレーニングと評価に十分なデータを提供するデータセットがまだ存在しない。 画像アライメントのための接地データを得るには、複雑な構造から移動する手法や光学フローシステムが必要であり、基礎となる画像シーケンス内ではわずかなシーンの変更しか導入せず、通常は大量の画像対応を提供するような十分なデータ分散を提供しないことが多い。 既存の画像データにランダムな視点歪みを利用する方法もある。 しかし、これは単純な歪みしか与えず、実世界のシナリオの複雑さと分散を欠いている。 画像は平面上にテクスチャとして追加され、照明条件、シャドウ、オクルージョンがシーンに追加されます。 シーンは複数の視点からレンダリングされ、実世界のシナリオとより一貫性のある視点歪みを生成し、ランダム化されたホモグラフではなく、カメラの投影と密接に類似している。 各シーンに対して,対応するオクルージョンマスク,ホモグラフィ,接地ラベルを付加した歪んだ画像列を提供する。 得られたデータセットは、ディープホモグラフィ推定、高密度画像マッチング、2dバンドル調整、インペインティング、シャドー削除、デノージング、コンテンツ検索、背景減算など、画像アライメントおよびアーティファクト除去を含む多数のタスクのトレーニングおよび評価セットとして機能することができる。 私たちのデータ生成パイプラインはカスタマイズ可能で、既存のどんなデータセットにも適用できます。

Image alignment and image restoration are classical computer vision tasks. However, there is still a lack of datasets that provide enough data to train and evaluate end-to-end deep learning models. Obtaining ground-truth data for image alignment requires sophisticated structure-from-motion methods or optical flow systems that often do not provide enough data variance, i.e., typically providing a high number of image correspondences, while only introducing few changes of scenery within the underlying image sequences. Alternative approaches utilize random perspective distortions on existing image data. However, this only provides trivial distortions, lacking the complexity and variance of real-world scenarios. Instead, our proposed data augmentation helps to overcome the issue of data scarcity by using 3D rendering: images are added as textures onto a plane, then varying lighting conditions, shadows, and occlusions are added to the scene. The scene is rendered from multiple viewpoints, generating perspective distortions more consistent with real-world scenarios, with homographies closely resembling those of camera projections rather than randomized homographies. For each scene, we provide a sequence of distorted images with corresponding occlusion masks, homographies, and ground-truth labels. The resulting dataset can serve as a training and evaluation set for a multitude of tasks involving image alignment and artifact removal, such as deep homography estimation, dense image matching, 2D bundle adjustment, inpainting, shadow removal, denoising, content retrieval, and background subtraction. Our data generation pipeline is customizable and can be applied to any existing dataset, serving as a data augmentation to further improve the feature learning of any existing method.
翻訳日:2023-05-24 01:17:35 公開日:2023-05-19
# waymo open sim agentsチャレンジ

The Waymo Open Sim Agents Challenge ( http://arxiv.org/abs/2305.12032v1 )

ライセンス: Link先を確認
Nico Montali, John Lambert, Paul Mougin, Alex Kuefler, Nick Rhinehart, Michelle Li, Cole Gulino, Tristan Emrich, Zoey Yang, Shimon Whiteson, Brandyn White, Dragomir Anguelov(参考訳) 本研究では,Waymo Open Sim Agents Challenge (WOSAC) を定義する。 現実的でインタラクティブなエージェントによるシミュレーションは、自動運転車ソフトウェア開発の重要なタスクである。 WOSACはこの課題に取り組み、対応するメトリクスを提案する最初の公開課題である。 この課題の目標は、自律運転のための行動モデルの評価と訓練に使用できる現実的なシミュレータの設計を刺激することである。 本稿では, 評価手法の概要と, 各種ベースラインシミュレーション手法の予備的結果について述べる。

In this work, we define the Waymo Open Sim Agents Challenge (WOSAC). Simulation with realistic, interactive agents represents a key task for autonomous vehicle software development. WOSAC is the first public challenge to tackle this task and propose corresponding metrics. The goal of the challenge is to stimulate the design of realistic simulators that can be used to evaluate and train a behavior model for autonomous driving. We outline our evaluation methodology and present preliminary results for a number of different baseline simulation agent methods.
翻訳日:2023-05-24 01:17:07 公開日:2023-05-19
# Clinical Camel: 対話型知識符号化を備えたオープンソースのエキスパートレベル医療言語モデル

Clinical Camel: An Open-Source Expert-Level Medical Language Model with Dialogue-Based Knowledge Encoding ( http://arxiv.org/abs/2305.12031v1 )

ライセンス: Link先を確認
Augustin Toma, Patrick R. Lawler, Jimmy Ba, Rahul G. Krishnan, Barry B. Rubin, Bo Wang(参考訳) 大規模言語モデル(LLM)は医療分野で大きな可能性を秘めているが、データプライバシ、規制コンプライアンス、モデルの安定性に関する懸念は広く採用されている。 高性能クローズドソースLCMの蒸留は一般的な作業に有効であることが証明されているが、その医療への応用は、ドメイン知識の減少と臨床作業を妨げるアライメント行動の残余によって制限されている。 これらの課題に対処するために,対話型知識符号化(DBKE)を提案する。 DBKEはモデルの暗黙の知識ベースを強化し、会話のリコールに備え、会話能力を強化し、その後のユースケースのソフトアライメントを可能にする。 密度の高い学術資料を合成対話に変換することで、DBKEはモデルの知識基盤を広げ、下流の振る舞いを導くソフトアライメントを可能にする。 dbkeの有効性を示すために,医療に焦点を絞ったオープンソースの会話モデルである clinical camel を提案する。 臨床カメラは、米国医学ライセンス試験(USMLE)ステップ1とステップ3でそれぞれ53.2 %、58.2 %で、GPT-3.5のスコアは36.1 %、55.7 %である。 臨床ラクダは、しばしば多段階の臨床ケースの問題に対処し、適応的なカウンセリングを提供し、臨床ノートを生成する。 しかし、幻覚を起こす傾向があり、安全上重要な設定において大きな障害となる。 臨床ラクダのパフォーマンスは、医療現場におけるllmの安全かつ効果的な統合のためのオープンソースモデルの継続的な研究と開発の重要性を強調している。

Large Language Models (LLMs) present immense potential in the medical field, yet concerns over data privacy, regulatory compliance, and model stability restrict their widespread adoption. Although the distillation of high-performing closed-source LLMs has proven effective for general tasks, their application in healthcare is limited due to reduced domain knowledge and remnants of alignment behavior hindering clinical tasks. To address these challenges, we propose Dialogue-Based Knowledge Encoding (DBKE). DBKE enhances models' implicit knowledge base and primes them for conversational recall, augmenting their conversational capabilities and enabling a soft alignment for subsequent use cases. By transforming dense academic source text into synthetic dialogue, DBKE broadens the model's knowledge base and enables a soft alignment that guides downstream behaviours. We present Clinical Camel, an open-source, healthcare-focused conversational model, to showcase the effectiveness of DBKE. Clinical Camel outperforms GPT-3.5 on the United States Medical Licensing Examination (USMLE) Step 1 and Step 3 with scores of 53.2 % and 58.2 %, respectively, compared to GPT-3.5's scores of 36.1 % and 55.7 %. Clinical Camel adeptly handles multi-stage clinical case problems, provides adaptive counseling, and generates clinical notes. However, it is prone to hallucinations, which pose a significant obstacle in safety-critical settings. The performance of Clinical Camel underscores the importance of continued research and development of open-source models for the safe and effective integration of LLMs in healthcare settings.
翻訳日:2023-05-24 01:17:01 公開日:2023-05-19
# 一連のグラフで継続的に学習する -- 力学系の方法

Learning Continually on a Sequence of Graphs -- The Dynamical System Way ( http://arxiv.org/abs/2305.12030v1 )

ライセンス: Link先を確認
Krishnan Raghavan and Prasanna Balaprakash(参考訳) 連続学習~(CL)は一連の相互関連タスクの学習に関わる分野であり、典型的には回帰または分類の意味で定義される。 近年、CL は、これらのタスクが n 次元実空間におけるベクトルの集合によって記述できる画像のようなユークリッドデータを用いて定義されるとき、広範囲に研究されている。 しかし、CLタスクに対応するデータが非ユークリッドデータであるとき、グラフ、点雲、多様体など、ユークリッド計量の意味における類似性の概念が持たないとき、文献はかなり疎い。 例えば、グラフは頂点と辺のタプルによって記述され、2つのグラフ間の類似性はユークリッド計量によって明確に定義されない。 このデータの基本的な性質から、非ユークリッドデータのためのclの開発には、いくつかの理論的および方法論的な課題がある。 特にグラフのCLは、頂点と辺の非定常挙動の明示的なモデリングと学習問題に対するそれらの影響を必要とする。 そこで本研究では,グラフ付きCLに対する適応動的プログラミングの視点を開発する。 本研究では,新しいタスクを学習する行為〜(一般化)と,以前に学習したタスクを記憶する行為〜(フォーゲッティング)の間に,2つのプレイヤーシーケンシャルゲームを定式化する。 我々は,ゲームに対する解の存在を数学的に証明し,ゲームの解に対する収束性を実証する。 最後に,提案手法の有効性を,最先端性能を確立しつつ,総合的なアブレーション研究を行ったグラフベンチマークで示す。

Continual learning~(CL) is a field concerned with learning a series of inter-related task with the tasks typically defined in the sense of either regression or classification. In recent years, CL has been studied extensively when these tasks are defined using Euclidean data-- data, such as images, that can be described by a set of vectors in an n-dimensional real space. However, the literature is quite sparse, when the data corresponding to a CL task is nonEuclidean-- data , such as graphs, point clouds or manifold, where the notion of similarity in the sense of Euclidean metric does not hold. For instance, a graph is described by a tuple of vertices and edges and similarities between two graphs is not well defined through a Euclidean metric. Due to this fundamental nature of the data, developing CL for nonEuclidean data presents several theoretical and methodological challenges. In particular, CL for graphs requires explicit modelling of nonstationary behavior of vertices and edges and their effects on the learning problem. Therefore, in this work, we develop a adaptive dynamic programming viewpoint for CL with graphs. In this work, we formulate a two-player sequential game between the act of learning new tasks~(generalization) and remembering previously learned tasks~(forgetting). We prove mathematically the existence of a solution to the game and demonstrate convergence to the solution of the game. Finally, we demonstrate the efficacy of our method on a number of graph benchmarks with a comprehensive ablation study while establishing state-of-the-art performance.
翻訳日:2023-05-24 01:16:33 公開日:2023-05-19
# MultiTurnCleanup: マルチTurnの会話トランスクリプトクリーンアップのためのベンチマーク

MultiTurnCleanup: A Benchmark for Multi-Turn Spoken Conversational Transcript Cleanup ( http://arxiv.org/abs/2305.12029v1 )

ライセンス: Link先を確認
Hua Shen, Vicky Zayats, Johann C. Rocholl, Daniel D. Walker, Dirk Padfield(参考訳) 現在のディフルエンシ検出モデルは、1つの話者からの個々の発話に焦点を当てている。 しかし,複数回にまたがる会話書き起こしにおける不連続現象が多数発生し,人間の可読性を阻害し,下流のNLPタスクの性能が低下する。 本研究は,会話の書き起こしに革新的なマルチトゥルンクリーンアップタスクを提案し,新たなデータセットであるMultiTurnCleanup1を収集することによって,これらの現象に対処する。 データラベリングスキーマを設計し,高品質なデータセットを収集し,広範なデータ分析を行う。 さらに,2つのモデリング手法を実験的評価に活用し,今後の研究のベンチマークを行う。

Current disfluency detection models focus on individual utterances each from a single speaker. However, numerous discontinuity phenomena in spoken conversational transcripts occur across multiple turns, hampering human readability and the performance of downstream NLP tasks. This study addresses these phenomena by proposing an innovative Multi-Turn Cleanup task for spoken conversational transcripts and collecting a new dataset, MultiTurnCleanup1. We design a data labeling schema to collect the high-quality dataset and provide extensive data analysis. Furthermore, we leverage two modeling approaches for experimental evaluation as benchmarks for future research.
翻訳日:2023-05-24 01:16:08 公開日:2023-05-19
# 極性アヒルとその発見場所 : アヒル型付けと極性ボックス埋め込みによるエンティティリンクの強化

Polar Ducks and Where to Find Them: Enhancing Entity Linking with Duck Typing and Polar Box Embeddings ( http://arxiv.org/abs/2305.12027v1 )

ライセンス: Link先を確認
Mattia Atzeni, Mikhail Plekhanov, Fr\'ed\'eric A. Dreyer, Nora Kassner, Simone Merello, Louis Martin, Nicola Cancedda(参考訳) 高密度検索に基づくエンティティリンク手法は,大規模アプリケーションにおいて効率的かつ広く利用されているソリューションであるが,組込み空間の構造に敏感な生成モデルの性能に欠ける。 この問題に対処するために,本論文では,エンティティ型の事前知識を用いて,エンティティ表現空間に構造情報を注入するアプローチであるDUCKを紹介する。 プログラミング言語におけるダックタイプに着想を得て,知識グラフ内の他のエンティティとの関係に基づいて,エンティティの型を定義することを提案する。 次に,ボックス埋め込みの概念を球面極座標に移植し,超球面上のボックスとして関係を表現することを提案する。 関係に対応するボックス内に配置することで,類似型のエンティティをクラスタリングするモデルを最適化する。 提案手法は,標準エンティティ曖昧性ベンチマークで新たな最先端結果をセットし,最大7.9f1ポイントの性能向上を行い,他の型認識手法を上回り,生成モデルの結果を18倍のパラメータで一致させる。

Entity linking methods based on dense retrieval are an efficient and widely used solution in large-scale applications, but they fall short of the performance of generative models, as they are sensitive to the structure of the embedding space. In order to address this issue, this paper introduces DUCK, an approach to infusing structural information in the space of entity representations, using prior knowledge of entity types. Inspired by duck typing in programming languages, we propose to define the type of an entity based on the relations that it has with other entities in a knowledge graph. Then, porting the concept of box embeddings to spherical polar coordinates, we propose to represent relations as boxes on the hypersphere. We optimize the model to cluster entities of similar type by placing them inside the boxes corresponding to their relations. Our experiments show that our method sets new state-of-the-art results on standard entity-disambiguation benchmarks, it improves the performance of the model by up to 7.9 F1 points, outperforms other type-aware approaches, and matches the results of generative models with 18 times more parameters.
翻訳日:2023-05-24 01:15:57 公開日:2023-05-19
# 時空間データ処理のためのエネルギー効率の高いmemcapacitive physical reservoir computing system

Energy-efficient memcapacitive physical reservoir computing system for temporal data processing ( http://arxiv.org/abs/2305.12025v1 )

ライセンス: Link先を確認
Md Razuan Hossain, Ahmed Salah Mohamed, Nicholas Xavier Armendarez, Joseph S. Najem and Md Sakib Hasan(参考訳) 貯水池コンピューティングは、入力信号から特徴を抽出し、それらを高次元空間にマッピングすることで、時間的データを処理するための高効率な機械学習フレームワークである。 物理貯留層は、スピントロン振動子、原子スイッチネットワーク、シリコンフォトニックモジュール、強誘電トランジスタ、揮発性memristorを用いて実現されている。 しかし、これらの装置は、その抵抗性により本質的にエネルギーを消費し、電力消費が増加する。 したがって、容量メモリデバイスはよりエネルギー効率の良いアプローチを提供できる。 本研究では,特定の短期シナプス可塑性関数を密接に模倣した揮発性生体膜を用いた膜キャパシタを用いて分類課題を解決し,シミュレーションおよび実験で時系列データを解析する。 本システムは,2次非線形回帰タスクにおいて,音声桁分類の精度98%,正規化平均平方誤差0.0012を達成する。 さらに,脳波を用いたてんかん検出のための脳波信号分類問題において,リアルタイムの時間データ処理能力を示すために,100%の精度を示す。 最も重要なことは、ランダムな入力シーケンスでは、各memcapacitorは、選択された入力電圧パルス幅に関係なく、スパイク当たり平均41.5fj、100msパルス幅の平均電力415fwを消費し、最先端デバイスよりも桁違いに消費する。 最後に,メムキャパシタの生体適合性,ソフト性は,生体環境における計算や信号処理に極めて適していると考えている。

Reservoir computing is a highly efficient machine learning framework for processing temporal data by extracting features from the input signal and mapping them into higher dimensional spaces. Physical reservoir layers have been realized using spintronic oscillators, atomic switch networks, silicon photonic modules, ferroelectric transistors, and volatile memristors. However, these devices are intrinsically energy-dissipative due to their resistive nature, which leads to increased power consumption. Therefore, capacitive memory devices can provide a more energy-efficient approach. Here, we leverage volatile biomembrane-based memcapacitors that closely mimic certain short-term synaptic plasticity functions as reservoirs to solve classification tasks and analyze time-series data in simulation and experimentally. Our system achieves a 98% accuracy rate for spoken digit classification and a normalized mean square error of 0.0012 in a second-order non-linear regression task. Further, to demonstrate the device's real-time temporal data processing capability, we demonstrate a 100% accuracy for an electroencephalography (EEG) signal classification problem for epilepsy detection. Most importantly, we demonstrate that for a random input sequence, each memcapacitor consumes on average 41.5fJ of energy per spike, irrespective of the chosen input voltage pulse width, and 415fW of average power for 100 ms pulse width, orders of magnitude lower than the state-of-the-art devices. Lastly, we believe the biocompatible, soft nature of our memcapacitor makes it highly suitable for computing and signal-processing applications in biological environments.
翻訳日:2023-05-24 01:15:28 公開日:2023-05-19
# BOLT:Tunable Biasesを用いた高速エネルギー制御テキスト生成

BOLT: Fast Energy-based Controlled Text Generation with Tunable Biases ( http://arxiv.org/abs/2305.12018v1 )

ライセンス: Link先を確認
Xin Liu, Muhammad Khalifa, and Lu Wang(参考訳) エネルギーベースモデル(EBM)は、幅広い制約に高い適用性があることから、制御されたテキスト生成で人気を博している。 しかし、ESMからのサンプリングは、しばしば可塑性テキストに収束するために大量のイテレーションを必要とするため、デコード処理を遅くし、現実世界のアプリケーションでは実用的でない。 本研究では,言語モデルの出力ロジットを直接調整するために,調整可能なバイアスに依存するBOLTを提案する。 従来の作業とは異なり、BOLTはジェネレータの自己回帰的な性質を維持し、トークン単位の条件依存と全体的なフラレンシの強い制御を主張する。 ソフトな制約(感情制御など)とハードな制約(キーワード誘導されたトピック制御など)の両方を用いて制御された生成タスクの最先端技術と比較すると、BOLTは効率と流速を大幅に向上させる。 感情制御では、BOLTは競争基準の7倍の速さで、人間の審査員によると74.4%の評価サンプルに精通している。

Energy-based models (EBMs) have gained popularity for controlled text generation due to their high applicability to a wide range of constraints. However, sampling from EBMs is non-trivial, as it often requires a large number of iterations to converge to plausible text, which slows down the decoding process and makes it less practical for real-world applications. In this work, we propose BOLT, which relies on tunable biases to directly adjust the language model's output logits. Unlike prior work, BOLT maintains the generator's autoregressive nature to assert a strong control on token-wise conditional dependencies and overall fluency, and thus converges faster. When compared with state-of-the-arts on controlled generation tasks using both soft constraints (e.g., sentiment control) and hard constraints (e.g., keyword-guided topic control), BOLT demonstrates significantly improved efficiency and fluency. On sentiment control, BOLT is 7x faster than competitive baselines, and more fluent in 74.4% of the evaluation samples according to human judges.
翻訳日:2023-05-24 01:14:22 公開日:2023-05-19
# Paxion: ビデオ言語基礎モデルにおけるアクション知識のパッチング

Paxion: Patching Action Knowledge in Video-Language Foundation Models ( http://arxiv.org/abs/2305.10683v2 )

ライセンス: Link先を確認
Zhenhailong Wang, Ansel Blume, Sha Li, Genglin Liu, Jaemin Cho, Zineng Tang, Mohit Bansal, Heng Ji(参考訳) 行動知識は、行動のテキスト的、視覚的、時間的側面を理解することを含む。 action dynamics benchmark (actionbench) では,マルチモーダルアライメント機能と時間的理解スキルをそれぞれ対象とするaction antonymとvideo reversalという,注意深く設計された2つのプロビングタスクについて紹介する。 最近のビデオ言語モデル(VidLM)の様々なベンチマークタスクにおける印象的なパフォーマンスにもかかわらず、我々の診断タスクは、アクション知識の驚くべき不足(ほぼランダムなパフォーマンス)を明らかにし、現在のモデルはアクション理解のショートカットとしてオブジェクト認識能力に依存していることを示唆している。 そこで本研究では,DVDM(Dis Discriminative Video Dynamics Modeling)の目的と合わせて,新しいフレームワークPaxionを提案する。 Paxionフレームワークは、Knowledge Patcherネットワークを使用して、新しいアクション知識とKnowledge Fuserコンポーネントをエンコードし、Pacherを凍結したVidLMに統合する。 アクション知識の学習に広く使われているビデオテキストコントラスト(vtc)ロスの制限により,知識パッカーの訓練にdvdm目標を導入する。 DVDMは、アクションテキストとビデオフレームの正しい順序の相関をエンコードするようにモデルを強制する。 広範な分析の結果,paxion と dvdm はともに動作知識理解のギャップ(約50%から80%)を効果的に満たし,オブジェクトと動作中心のダウンストリームタスクの両方において,パフォーマンスを維持あるいは改善できることがわかった。

Action knowledge involves the understanding of textual, visual, and temporal aspects of actions. We introduce the Action Dynamics Benchmark (ActionBench) containing two carefully designed probing tasks: Action Antonym and Video Reversal, which targets multimodal alignment capabilities and temporal understanding skills of the model, respectively. Despite recent video-language models' (VidLM) impressive performance on various benchmark tasks, our diagnostic tasks reveal their surprising deficiency (near-random performance) in action knowledge, suggesting that current models rely on object recognition abilities as a shortcut for action understanding. To remedy this, we propose a novel framework, Paxion, along with a new Discriminative Video Dynamics Modeling (DVDM) objective. The Paxion framework utilizes a Knowledge Patcher network to encode new action knowledge and a Knowledge Fuser component to integrate the Patcher into frozen VidLMs without compromising their existing capabilities. Due to limitations of the widely-used Video-Text Contrastive (VTC) loss for learning action knowledge, we introduce the DVDM objective to train the Knowledge Patcher. DVDM forces the model to encode the correlation between the action text and the correct ordering of video frames. Our extensive analyses show that Paxion and DVDM together effectively fill the gap in action knowledge understanding (~50% to 80%), while maintaining or improving performance on a wide spectrum of both object- and action-centric downstream tasks.
翻訳日:2023-05-23 11:21:06 公開日:2023-05-19
# ベルの不等式に対する一般化反復式

Generalized Iterative Formula for Bell Inequalities ( http://arxiv.org/abs/2109.05521v3 )

ライセンス: Link先を確認
Xing-Yan Fan, Zhen-Peng Xu, Jia-Le Miao, Hong-Ye Liu, Yi-Jia Liu, Wei-Min Shang, Jie Zhou, Hui-Xian Meng, Otfried G\"uhne and Jing-Ling Chen(参考訳) ベルの不等式は非局所的相関を検出するための重要なツールであるが、多粒子系の構築は依然として複雑な問題である。 本研究は,$(n+1)$-partite bellの不等式を$n$-partite に分解することから着想を得て,非自明な$(n+1)$-partite を$n$-partite から構成するための一般化反復式を提案する。 我々の反復公式は、文学における有名なメルミン・アルデハリ・ベリンスキー・クリュシュコ(英語版)(MABK)と他の家族を特別な事例として回収する。 さらに、一般化されたグリーンベルガー=ホルン=ゼーリンガー(英語版)(Greenberger-Horne-Zeilinger)は、これらの不等式がMABK族と同じ量子違反を招き、同時に、非等式は絡み合った領域全体の非局所性を検出することができると述べる。 さらに、I3322の不等式は、まだ厳密な任意の$n$-partiteケースに一般化され、46$ \'{S}liwaの不等式は、各不等式とその同値類に反復法を適用することにより、四部密なケースに一般化される。

Bell inequalities are a vital tool to detect the nonlocal correlations, but the construction of them for multipartite systems is still a complicated problem. In this work, inspired via a decomposition of $(n+1)$-partite Bell inequalities into $n$-partite ones, we present a generalized iterative formula to construct nontrivial $(n+1)$-partite ones from the $n$-partite ones. Our iterative formulas recover the well-known Mermin-Ardehali-Belinski{\u{\i}}-Klyshko (MABK) and other families in the literature as special cases. Moreover, a family of ``dual-use'' Bell inequalities is proposed, in the sense that for the generalized Greenberger-Horne-Zeilinger states these inequalities lead to the same quantum violation as the MABK family and, at the same time, the inequalities are able to detect the non-locality in the entire entangled region. Furthermore, we present generalizations of the the I3322 inequality to any $n$-partite case which are still tight, and of the $46$ \'{S}liwa's inequalities to the four-partite tight ones, by applying our iteration method to each inequality and its equivalence class.
翻訳日:2023-05-22 20:22:59 公開日:2023-05-19
# 汎用性評価のための多心ポリープ検出とセグメンテーションデータセット

A multi-centre polyp detection and segmentation dataset for generalisability assessment ( http://arxiv.org/abs/2106.04463v3 )

ライセンス: Link先を確認
Sharib Ali, Debesh Jha, Noha Ghatwary, Stefano Realdon, Renato Cannizzaro, Osama E. Salem, Dominique Lamarque, Christian Daul, Michael A. Riegler, Kim V. Anonsen, Andreas Petlund, P{\aa}l Halvorsen, Jens Rittscher, Thomas de Lange, and James E. East(参考訳) 大腸ポリープは大腸内視鏡で同定されたがん前駆体として広く知られている。 ほとんどのポリープは良性であるが、ポリープの数、サイズ、表面構造は大腸癌のリスクと関連している。 ポリープ検出とセグメンテーションを自動化するいくつかの方法が開発されている。 しかし、主な問題は、大規模なマルチセンタで構築されたデータセットで厳密にテストされていないことである。 その結果、開発した手法は、異なる集団データセットに一般化できない。 この範囲で、300人以上の患者を対象とする6つのユニークなセンターからデータセットを収集した。 このデータセットは、3762個のアノテートされたポリプラベルを持つ単一フレームとシーケンスデータの両方を含む。 我々の知る限り、これは最も包括的な検出とピクセルレベルのセグメンテーションデータセット(「textit{PolypGen}」と呼ばれる)であり、計算科学者と専門の消化器科医のチームが計算した。 本稿では,データ構築とアノテーション戦略,品質保証,技術検証に関する知見を提供する。 我々のデータセットは \url{ https://doi.org/10.7303/syn26376615} からダウンロードできる。

Polyps in the colon are widely known cancer precursors identified by colonoscopy. Whilst most polyps are benign, the polyp's number, size and surface structure are linked to the risk of colon cancer. Several methods have been developed to automate polyp detection and segmentation. However, the main issue is that they are not tested rigorously on a large multicentre purpose-built dataset, one reason being the lack of a comprehensive public dataset. As a result, the developed methods may not generalise to different population datasets. To this extent, we have curated a dataset from six unique centres incorporating more than 300 patients. The dataset includes both single frame and sequence data with 3762 annotated polyp labels with precise delineation of polyp boundaries verified by six senior gastroenterologists. To our knowledge, this is the most comprehensive detection and pixel-level segmentation dataset (referred to as \textit{PolypGen}) curated by a team of computational scientists and expert gastroenterologists. The paper provides insight into data construction and annotation strategies, quality assurance, and technical validation. Our dataset can be downloaded from \url{ https://doi.org/10.7303/syn26376615}.
翻訳日:2023-05-22 20:21:53 公開日:2023-05-19
# 軽量で勾配安定な神経層

A Lightweight and Gradient-Stable Nerual Layer ( http://arxiv.org/abs/2106.04088v2 )

ライセンス: Link先を確認
Yueyao Yu and Yin Zhang(参考訳) そこで本研究では,家計の重み付けと絶対値活性化に基づく神経層アーキテクチャを提案する。 d$-neurons と $d$ output の完全接続層と比較して、han-layer はパラメータの数と対応する複雑性を $o(d^2)$ から $o(d)$ に削減する。 ハン層構造は、2つの望ましい性質を保証する:(1)勾配安定性(消失または爆発勾配がない)、(2)1-リプシッツ連続性。 広範な数値実験により、完全連結(fc)層を置き換えるために戦略的にハン層を用いることができ、一般化性能を維持しつつモデルパラメータの数を減らすことができる。 いくつかの小さなスタイリングモデルでHan層アーキテクチャの機能を紹介し、その現在の限界についても論じる。

We propose a neural-layer architecture based on Householder weighting and absolute-value activating, hence called Householder-absolute neural layer or simply Han-layer. Compared to a fully-connected layer with $d$-neurons and $d$ outputs, a Han-layer reduces the number of parameters and the corresponding complexity from $O(d^2)$ to $O(d)$. The Han-layer structure guarantees two desirable properties: (1) gradient stability (free of vanishing or exploding gradient), and (2) 1-Lipschitz continuity. Extensive numerical experiments show that one can strategically use Han-layers to replace fully-connected (FC) layers, reducing the number of model parameters while maintaining or even improving the generalization performance. We will showcase the capabilities of the Han-layer architecture on a few small stylized models, and also discuss its current limitations.
翻訳日:2023-05-22 20:21:38 公開日:2023-05-19
# ポイント2Sound:3Dポイントクラウドシーンを用いたモノからバイノーラルオーディオへ

Points2Sound: From mono to binaural audio using 3D point cloud scenes ( http://arxiv.org/abs/2104.12462v3 )

ライセンス: Link先を確認
Francesc Llu\'is, Vasileios Chatziioannou, Alex Hofmann(参考訳) 没入的アプリケーションでは、仮想環境の人々に有意義な体験をもたらすためには、その視覚と一致するバイノーラル音の生成が不可欠である。 近年の研究では、2次元視覚情報を用いてモノオーディオからバイノーラルオーディオを合成するためにニューラルネットワークを用いる可能性が示されている。 音声を3次元視覚情報で誘導し、波形領域で操作することでこのアプローチを拡張することで、仮想オーディオシーンをより正確にオーラル化することができる。 3Dポイントクラウドシーンを用いたモノオーディオからバイノーラル版を生成するマルチモーダルディープラーニングモデルであるPoints2Soundを提案する。 具体的には、points2soundはビジョンネットワークとオーディオネットワークで構成される。 vision networkは3dスパース畳み込みを使用して、point cloudシーンから視覚的な特徴を抽出する。 次に、波形領域で動作するオーディオネットワークを視覚特徴量条件とし、バイノーラル版を合成する。 その結果,バイノーラル合成作業において,3次元視覚情報を用いてマルチモーダル深層学習モデルを導出できることが示唆された。 また,3Dポイントクラウド特性,学習目標,残響条件,複数種類のモノ混合信号が,現場に存在する様々な音源に対して,Points2Soundのバイノーラル音声合成性能に与える影響についても検討した。

For immersive applications, the generation of binaural sound that matches its visual counterpart is crucial to bring meaningful experiences to people in a virtual environment. Recent studies have shown the possibility of using neural networks for synthesizing binaural audio from mono audio by using 2D visual information as guidance. Extending this approach by guiding the audio with 3D visual information and operating in the waveform domain may allow for a more accurate auralization of a virtual audio scene. We propose Points2Sound, a multi-modal deep learning model which generates a binaural version from mono audio using 3D point cloud scenes. Specifically, Points2Sound consists of a vision network and an audio network. The vision network uses 3D sparse convolutions to extract a visual feature from the point cloud scene. Then, the visual feature conditions the audio network, which operates in the waveform domain, to synthesize the binaural version. Results show that 3D visual information can successfully guide multi-modal deep learning models for the task of binaural synthesis. We also investigate how 3D point cloud attributes, learning objectives, different reverberant conditions, and several types of mono mixture signals affect the binaural audio synthesis performance of Points2Sound for the different numbers of sound sources present in the scene.
翻訳日:2023-05-22 20:21:21 公開日:2023-05-19
# 正極性保存密度行列の平方根による有限温度での最小化

Positivity Preserving Density Matrix Minimization at Finite Temperatures via Square Root ( http://arxiv.org/abs/2103.07078v2 )

ライセンス: Link先を確認
Jacob M. Leamer (1), William Dawson (2), and Denys I. Bondar (1) ((1) Department of Physics and Engineering Physics, Tulane University, (2) RIKEN Center for Computational Science)(参考訳) 本稿では,有限温度における電子構造問題に対するフェルミ・ディラック密度行列を計算するための波動作用素最小化(wom)法を提案する。 womモデルは当初、所望の有限温度まで無限温度で状態を冷却する。 我々は、グランドカノニカル(定数化学ポテンシャル)とカノニカル(定数電子数)のアンサンブルの両方を考慮する。 さらに、収束に必要なステップの数は系内の原子の数とは無関係であることを示す。 本稿では,密度行列最小化手法への関心を再活性化させることを期待する。

We present a Wave Operator Minimization (WOM) method for calculating the Fermi-Dirac density matrix for electronic structure problems at finite temperature while preserving physicality by construction using the wave operator, i.e., the square root of the density matrix. WOM models cooling a state initially at infinite temperature down to the desired finite temperature. We consider both the grand canonical (constant chemical potential) and canonical (constant number of electrons) ensembles. Additionally, we show that the number of steps required for convergence is independent of the number of atoms in the system. We hope that the discussion and results presented in this article reinvigorates interest in density matrix minimization methods.
翻訳日:2023-05-22 20:20:59 公開日:2023-05-19
# CodeVIO: 学習可能なDense深さを持つビジュアル慣性オドメトリー

CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth ( http://arxiv.org/abs/2012.10133v3 )

ライセンス: Link先を確認
Xingxing Zuo, Nathaniel Merrill, Wei Li, Yong Liu, Marc Pollefeys, Guoquan Huang(参考訳) 本研究では,高精度な状態推定と深度マップを提供する,軽量で密結合の深度ネットワークと視覚慣性オドメトリー(VIO)システムを提案する。 提案する軽量条件付き変分オートエンコーダ(cvae)を奥行き推定とエンコーディングに活用し,vioのそれまでの細分化された特徴をネットワークに与え,初期深度予測と一般化能力の精度を向上させる。 コンパクトなエンコードされた深度マップは、密集したローカルシーンの幾何学を提供するために、スライディングウィンドウ推定器のナビゲーション状態と共同で更新される。 また, CVAE のジャコビアンを従来よりも1桁以上高速に取得できる新しい手法を提案し, また, 第一推定ジャコビアン (FEJ) を用いて再計算を回避する。 完全高密度残差に依存する従来の研究とは対照的に、深度コード更新のための疎度測定のみを提供し、スパース測定とFEJの選択が依然として推定深度マップを大幅に改善できることを示す。 また,本システムでは,ネットワークとコードヤコビアンにのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。

In this work, we present a lightweight, tightly-coupled deep depth network and visual-inertial odometry (VIO) system, which can provide accurate state estimates and dense depth maps of the immediate surroundings. Leveraging the proposed lightweight Conditional Variational Autoencoder (CVAE) for depth inference and encoding, we provide the network with previously marginalized sparse features from VIO to increase the accuracy of initial depth prediction and generalization capability. The compact encoded depth maps are then updated jointly with navigation states in a sliding window estimator in order to provide the dense local scene geometry. We additionally propose a novel method to obtain the CVAE's Jacobian which is shown to be more than an order of magnitude faster than previous works, and we additionally leverage First-Estimate Jacobian (FEJ) to avoid recalculation. As opposed to previous works relying on completely dense residuals, we propose to only provide sparse measurements to update the depth code and show through careful experimentation that our choice of sparse measurements and FEJs can still significantly improve the estimated depth maps. Our full system also exhibits state-of-the-art pose estimation accuracy, and we show that it can run in real-time with single-thread execution while utilizing GPU acceleration only for the network and code Jacobian.
翻訳日:2023-05-22 20:20:46 公開日:2023-05-19
# ビデオ異常検出のためのオブジェクト中心およびメモリ誘導正規性再構成

Object-centric and memory-guided normality reconstruction for video anomaly detection ( http://arxiv.org/abs/2203.03677v4 )

ライセンス: Link先を確認
Khalil Bergaoui, Yassine Naji, Aleksandr Setkov, Ang\'elique Loesch, Mich\`ele Gouiff\`es and Romaric Audigier(参考訳) 本稿では,ビデオ監視におけるビデオ異常検出問題に対処する。 異常事象の固有ラリティーと不均一性のため、このモデルはトレーニング中に異常なサンプルを見ることなく、オブジェクト中心の正常パターンを学習する正規性モデリング戦略と見なされる。 主なコントリビューションは、事前訓練されたオブジェクトレベルの動作特徴のプロトタイプと、余弦距離に基づく異常推定関数を結合することであり、それゆえ、主流の再構築戦略にさらなる制約を加えることで、従来の手法を拡張している。 我々のフレームワークは、外見情報と動き情報を利用してオブジェクトレベルの振る舞いを学習し、メモリモジュール内のプロトタイプパターンをキャプチャする。 いくつかのよく知られたデータセットにおける実験は、最も関連する時空間的評価指標の最先端を上回り、この手法の有効性を実証している。

This paper addresses video anomaly detection problem for videosurveillance. Due to the inherent rarity and heterogeneity of abnormal events, the problem is viewed as a normality modeling strategy, in which our model learns object-centric normal patterns without seeing anomalous samples during training. The main contributions consist in coupling pretrained object-level action features prototypes with a cosine distance-based anomaly estimation function, therefore extending previous methods by introducing additional constraints to the mainstream reconstruction-based strategy. Our framework leverages both appearance and motion information to learn object-level behavior and captures prototypical patterns within a memory module. Experiments on several well-known datasets demonstrate the effectiveness of our method as it outperforms current state-of-the-art on most relevant spatio-temporal evaluation metrics.
翻訳日:2023-05-22 20:13:30 公開日:2023-05-19
# $\phi$-divergences を用いた分布ロバストベイズ最適化

Distributionally Robust Bayesian Optimization with $\phi$-divergences ( http://arxiv.org/abs/2203.02128v4 )

ライセンス: Link先を確認
Hisham Husain and Vu Nguyen and Anton van den Hengel(参考訳) 堅牢性の研究は、多くのシステムが不確実性に直面するデータ駆動環境において必然性のため、多くの注目を集めている。 そのような問題の一つがベイズ最適化 (BO) であり、不確実性は多面的であるが、この方向に特化した研究は限られている。 特に、Kirschner et al. (2020) は、DROのレンズからBO問題をキャストすることで、既存の分散ロバスト最適化(DRO)の文献を橋渡しする。 この研究は先駆的だが、有限文脈仮定のような様々な現実的な欠点に悩まされており、主要な疑問を残している。 本研究では,$\phi$-divergences におけるデータシフトに対するロバスト性を検討することで,この問題に多くの一般性に取り組み,$\chi^2$-divergence や total variation, 現存する kullback-leibler (kl) の分岐など,多くの一般的な選択肢を仮定した。 この設定におけるDRO-BO問題は有限次元最適化問題と等価であり、連続的な文脈でも証明可能な部分線型後悔境界で容易に実装できることを示す。 次に,提案手法が既存の手法を超越し,理論的結果が得られたことを実験的に示す。

The study of robustness has received much attention due to its inevitability in data-driven settings where many systems face uncertainty. One such example of concern is Bayesian Optimization (BO), where uncertainty is multi-faceted, yet there only exists a limited number of works dedicated to this direction. In particular, there is the work of Kirschner et al. (2020), which bridges the existing literature of Distributionally Robust Optimization (DRO) by casting the BO problem from the lens of DRO. While this work is pioneering, it admittedly suffers from various practical shortcomings such as finite contexts assumptions, leaving behind the main question Can one devise a computationally tractable algorithm for solving this DRO-BO problem? In this work, we tackle this question to a large degree of generality by considering robustness against data-shift in $\phi$-divergences, which subsumes many popular choices, such as the $\chi^2$-divergence, Total Variation, and the extant Kullback-Leibler (KL) divergence. We show that the DRO-BO problem in this setting is equivalent to a finite-dimensional optimization problem which, even in the continuous context setting, can be easily implemented with provable sublinear regret bounds. We then show experimentally that our method surpasses existing methods, attesting to the theoretical results.
翻訳日:2023-05-22 20:13:16 公開日:2023-05-19
# asymetric cycle generative and adversarial frameworkを用いた深部単一画像のレーディング

Deep Single Image Deraining using An Asymetric Cycle Generative and Adversarial Framework ( http://arxiv.org/abs/2202.09635v2 )

ライセンス: Link先を確認
Wei Liu, Rui Jiang, Cheng Chen, Tao Lu and Zixiang Xiong(参考訳) 実際には、雨と霧はしばしば同時に存在し、シーンイメージの明快さと質を大幅に低下させる可能性がある。 しかし, ほとんどは霧を無視して雨害除去に重点を置いているため, 品質の低さに繋がる。 さらに、サンプルはこれらの方法によってかなり均質に生成され、多様性が欠如しており、複雑な雨のシーンに直面する結果に乏しい。 そこで,本研究では,雨のストレークと霧の特徴を同時に捉えながら,合成画像と実際の雨画像の両方を訓練する単一画像デレーニングのための,新しいアサイメトリサイクル生成・逆行フレームワーク(acgf)を提案する。 ACGFはRain-fog2Clean(R2C)変換ブロックとC2R変換ブロックで構成される。 前者は雨・寺院-fogネットワークと注意雨-fog特徴抽出ネットワーク(arfe)による並行雨除去経路と雨-fog特徴抽出経路とからなり、後者は合成雨量変換経路のみを含む。 降雨フォグ特徴抽出経路において,降雨フォグ融合特徴をよりよく特徴付けるために,arfeを用いて,降雨フォグ情報と局所降雨フォグ情報の自己相似性を,空間的特徴相関を学習することによって活用する。 さらに,C2Rの翻訳能力とモデルの多様性を向上させるため,雨天画像劣化モデルと混合判別器を組み込んだ雨天特徴疎結合再編成ネットワーク(RFDR)を設計し,よりリッチなテクスチャを合成雨天路に保存する。 ベンチマークのrain-fogとrain datasetに関する広範囲な実験は、acgfが最先端のデレイン法を上回っていることを示している。 また,acgfの有効性をさらに実証するために,性能評価実験を行った。

In reality, rain and fog are often present at the same time, which can greatly reduce the clarity and quality of the scene image. However, most unsupervised single image deraining methods mainly focus on rain streak removal by disregarding the fog, which leads to low-quality deraining performance. In addition, the samples are rather homogeneous generated by these methods and lack diversity, resulting in poor results in the face of complex rain scenes. To address the above issues, we propose a novel Asymetric Cycle Generative and Adversarial framework (ACGF) for single image deraining that trains on both synthetic and real rainy images while simultaneously capturing both rain streaks and fog features. ACGF consists of a Rain-fog2Clean (R2C) transformation block and a Clean2Rain-fog (C2R) transformation block. The former consists of parallel rain removal path and rain-fog feature extraction path by the rain and derain-fog network and the attention rain-fog feature extraction network (ARFE) , while the latter only contains a synthetic rain transformation path. In rain-fog feature extraction path, to better characterize the rain-fog fusion feature, we employ an ARFE to exploit the self-similarity of global and local rain-fog information by learning the spatial feature correlations. Moreover, to improve the translational capacity of C2R and the diversity of models, we design a rain-fog feature decoupling and reorganization network (RFDR) by embedding a rainy image degradation model and a mixed discriminator to preserve richer texture details in synthetic rain conversion path. Extensive experiments on benchmark rain-fog and rain datasets show that ACGF outperforms state-of-the-art deraining methods. We also conduct defogging performance evaluation experiments to further demonstrate the effectiveness of ACGF.
翻訳日:2023-05-22 20:12:51 公開日:2023-05-19
# トランスフォーマーはより堅牢か? 変圧器の厳密なロバスト性検証に向けて

Are Transformers More Robust? Towards Exact Robustness Verification for Transformers ( http://arxiv.org/abs/2202.03932v4 )

ライセンス: Link先を確認
Brian Hsuan-Cheng Liao, Chih-Hong Cheng, Hasan Esen, Alois Knoll(参考訳) 新しいタイプのニューラルネットワーク(nns)として、トランスフォーマーは自然言語処理から自動運転まで、さまざまな領域で使われている。 本稿では,トランスフォーマーのロバスト性問題について検討する。 具体的には,Sparsemaxベースのトランスフォーマーに着目し,MIQCP(Mixed Integer Quadratically Constrained Programming)問題への最大のロバストさの発見を減らす。 また、MIQCPエンコーディングに組み込むことができる2つの前処理ヒューリスティックを設計し、その解法を大幅に高速化する。 次に、Sparsemaxベースのトランスフォーマーのロバスト性を従来のマルチ層パーセプトロン(MLP)NNと比較するために、Land Departure Warningを用いて実験を行った。 驚いたことに、トランスフォーマーは必ずしも強固ではないため、安全クリティカルなドメイン・アプリケーションに適したnnアーキテクチャを選択する上での深い考慮が必要となる。

As an emerging type of Neural Networks (NNs), Transformers are used in many domains ranging from Natural Language Processing to Autonomous Driving. In this paper, we study the robustness problem of Transformers, a key characteristic as low robustness may cause safety concerns. Specifically, we focus on Sparsemax-based Transformers and reduce the finding of their maximum robustness to a Mixed Integer Quadratically Constrained Programming (MIQCP) problem. We also design two pre-processing heuristics that can be embedded in the MIQCP encoding and substantially accelerate its solving. We then conduct experiments using the application of Land Departure Warning to compare the robustness of Sparsemax-based Transformers against that of the more conventional Multi-Layer-Perceptron (MLP) NNs. To our surprise, Transformers are not necessarily more robust, leading to profound considerations in selecting appropriate NN architectures for safety-critical domain applications.
翻訳日:2023-05-22 20:11:46 公開日:2023-05-19
# 一般化のための反相関ノイズ注入

Anticorrelated Noise Injection for Improved Generalization ( http://arxiv.org/abs/2202.02831v3 )

ライセンス: Link先を確認
Antonio Orvieto, Hans Kersting, Frank Proske, Francis Bach, Aurelien Lucchi(参考訳) 勾配降下(gd)への人工雑音の注入は、機械学習モデルの性能を改善するために一般的に用いられる。 通常、非相関ノイズはこのような摂動勾配降下(PGD)法で用いられる。 しかし、これが最適かどうか、あるいは他の種類のノイズがより良い一般化性能を提供できるかどうかは不明である。 本稿では,連続したPGDステップの摂動を関連づける問題を拡大する。 我々は,抗相関性摂動(Anti-PGD)を持つGDが,GDと標準(非相関性)PGDよりもはるかに良く一般化することを示す,様々な目的関数を考察する。 これらの実験結果を支持するために,抗PGDがより広い最小値に移行し,GDとPGDは至適領域に留まり,あるいは分岐することを示す理論解析も導出した。 反相関ノイズと一般化の新たな結びつきは、機械学習モデルのトレーニングにノイズを利用する新しい方法へとフィールドを開放する。

Injecting artificial noise into gradient descent (GD) is commonly employed to improve the performance of machine learning models. Usually, uncorrelated noise is used in such perturbed gradient descent (PGD) methods. It is, however, not known if this is optimal or whether other types of noise could provide better generalization performance. In this paper, we zoom in on the problem of correlating the perturbations of consecutive PGD steps. We consider a variety of objective functions for which we find that GD with anticorrelated perturbations ("Anti-PGD") generalizes significantly better than GD and standard (uncorrelated) PGD. To support these experimental findings, we also derive a theoretical analysis that demonstrates that Anti-PGD moves to wider minima, while GD and PGD remain stuck in suboptimal regions or even diverge. This new connection between anticorrelated noise and generalization opens the field to novel ways to exploit noise for training machine learning models.
翻訳日:2023-05-22 20:11:31 公開日:2023-05-19
# 深層ニューラルネットワークを用いた振り子角位置推定のための転送学習

Transfer Learning for Estimation of Pendubot Angular Position Using Deep Neural Networks ( http://arxiv.org/abs/2201.12649v2 )

ライセンス: Link先を確認
Sina Khanagha(参考訳) 本稿では, 撮像画像からペンデュボット角位置を推定するために, 機械学習に基づくアプローチを提案する。 まず、従来の画像処理手法を用いて角度を推定するためにベースラインアルゴリズムを導入する。 ベースラインアルゴリズムは、pendubotが高速でない場合にうまく機能する。 しかし、自由落下によって素早く移動すると、pendubotは、ベースラインアルゴリズムが角度を推定できないように、キャプチャされた画像のぼやけたオブジェクトとして現れる。 その結果、この課題に対処するために、ディープニューラルネットワーク(DNN)ベースのアルゴリズムが導入された。 このアプローチは、非常に小さな微調整データセット上でDNNのトレーニングを可能にするために、転送学習の概念に依存している。 基本アルゴリズムは、微調整データセットの基底真理ラベルを作成するために使用される。 ホールドアウト評価セットにおける実験結果から,提案手法はシャープ画像とぼやけた画像に対して0.02度と0.06度という中央値の絶対誤差をそれぞれ達成できることがわかった。

In this paper, a machine learning based approach is introduced to estimate pendubot angular position from its captured images. Initially, a baseline algorithm is introduced to estimate the angle using conventional image processing techniques. The baseline algorithm performs well for the cases that the pendubot is not moving fast. However, when moving quickly due to a free fall, the pendubot appears as a blurred object in the captured image in a way that the baseline algorithm fails to estimate the angle. Consequently, a Deep Neural Network (DNN) based algorithm is introduced to cope with this challenge. The approach relies on the concept of transfer learning to allow the training of the DNN on a very small fine-tuning dataset. The base algorithm is used to create the ground truth labels of the fine-tuning dataset. Experimental results on the held-out evaluation set show that the proposed approach achieves a median absolute error of 0.02 and 0.06 degrees for the sharp and blurry images respectively.
翻訳日:2023-05-22 20:11:18 公開日:2023-05-19
# spdニューラルネットワークのためのリーマン局所機構

Riemannian Local Mechanism for SPD Neural Networks ( http://arxiv.org/abs/2201.10145v3 )

ライセンス: Link先を確認
Ziheng Chen, Tianyang Xu, Xiao-Jun Wu, Rui Wang, Zhiwu Huang, Josef Kittler(参考訳) 対称正定値行列(SPD)は多くの科学分野においてデータ表現に広く注目されている。 SPD行列のリーマン多様体上のデータ処理に有効な深層アーキテクチャを開発する試みは数多くあるが、深部SPD特徴表現における局所幾何学的情報を明示的に抽出する解はほとんどない。 ユークリッド法における局所的メカニズムの大きな成功を考えると、SPDネットワークにおける局所的幾何学情報の保存を確実にすることが最も重要であると論じる。 まず, ユークリッド深層ネットワークの局所情報取得に一般的に用いられる畳み込み演算子を, カテゴリー理論によって与えられる高レベルな抽象化の観点から解析する。 この分析に基づいて、SPD多様体の局所情報を定義し、局所幾何学をマイニングするためのマルチスケールサブマニフォールドブロックを設計する。 複数の視覚的タスクを含む実験は、我々のアプローチの有効性を検証する。 サプリメントとソースコードはhttps://github.com/GitZH-Chen/MSNet.gitにある。

The Symmetric Positive Definite (SPD) matrices have received wide attention for data representation in many scientific areas. Although there are many different attempts to develop effective deep architectures for data processing on the Riemannian manifold of SPD matrices, very few solutions explicitly mine the local geometrical information in deep SPD feature representations. Given the great success of local mechanisms in Euclidean methods, we argue that it is of utmost importance to ensure the preservation of local geometric information in the SPD networks. We first analyse the convolution operator commonly used for capturing local information in Euclidean deep networks from the perspective of a higher level of abstraction afforded by category theory. Based on this analysis, we define the local information in the SPD manifold and design a multi-scale submanifold block for mining local geometry. Experiments involving multiple visual tasks validate the effectiveness of our approach. The supplement and source code can be found in https://github.com/GitZH-Chen/MSNet.git.
翻訳日:2023-05-22 20:11:04 公開日:2023-05-19
# 自動腹部臓器分割術における反復的特徴伝播とエッジスキップ接続

Recurrent Feature Propagation and Edge Skip-Connections for Automatic Abdominal Organ Segmentation ( http://arxiv.org/abs/2201.00317v2 )

ライセンス: Link先を確認
Zefan Yang, Di Lin, Dong Ni and Yi Wang(参考訳) ct画像における腹部臓器の自動分割は放射線治療や画像誘導手術のワークフローを支援する。 このような自動解法の開発は、主にct画像の複雑な臓器間相互作用とぼやけた境界のために難しいままである。 これらの課題に対処するために,効率的な空間コンテキストモデリングと明示的なエッジセグメンテーションに着目する。 そこで我々は,共有エンコーダ,エッジ検出器,エッジスキップ接続(esc)付きデコーダ,rfpヘッド(recurrent feature propagation head)の4つの主成分を訓練した3次元ネットワークを提案する。 広帯域空間依存性を捉えるため,RFP-Headは画像単位の空間配置に関して,効率的なスライスワイズ方式で繰り返し接続された有向非巡回グラフ(DAG)を用いて局所的特徴を伝播し,抽出する。 エッジ情報を活用するために、エッジ監視によりエンコーダの中間特徴を利用して、エッジ検出器は、セマンティックセグメンテーション用に特別に調整されたエッジ先行知識を学習する。 ESCは、エッジ知識とマルチレベルデコーダ特徴を集約し、臓器の内部とセグメント化のためのエッジ間の相補性を明示的にモデル化した識別的特徴の階層構造を学ぶ。 腹部CTにて8臓器を注視した2症例について広範な実験を行った。 実験の結果,提案するネットワークは,特に小型で複雑な構造(胆嚢,食道,胃,膵臓,十二指腸)のセグメンテーションにおいて,最先端モデルよりも優れていた。 コードは公開される予定だ。

Automatic segmentation of abdominal organs in computed tomography (CT) images can support radiation therapy and image-guided surgery workflows. Developing of such automatic solutions remains challenging mainly owing to complex organ interactions and blurry boundaries in CT images. To address these issues, we focus on effective spatial context modeling and explicit edge segmentation priors. Accordingly, we propose a 3D network with four main components trained end-to-end including shared encoder, edge detector, decoder with edge skip-connections (ESCs) and recurrent feature propagation head (RFP-Head). To capture wide-range spatial dependencies, the RFP-Head propagates and harvests local features through directed acyclic graphs (DAGs) formulated with recurrent connections in an efficient slice-wise manner, with regard to spatial arrangement of image units. To leverage edge information, the edge detector learns edge prior knowledge specifically tuned for semantic segmentation by exploiting intermediate features from the encoder with the edge supervision. The ESCs then aggregate the edge knowledge with multi-level decoder features to learn a hierarchy of discriminative features explicitly modeling complementarity between organs' interiors and edges for segmentation. We conduct extensive experiments on two challenging abdominal CT datasets with eight annotated organs. Experimental results show that the proposed network outperforms several state-of-the-art models, especially for the segmentation of small and complicated structures (gallbladder, esophagus, stomach, pancreas and duodenum). The code will be publicly available.
翻訳日:2023-05-22 20:10:50 公開日:2023-05-19
# ニューラルネットワークによる疾患コードアサインメントのための臨床問題リストの二次的活用

Secondary Use of Clinical Problem List Entries for Neural Network-Based Disease Code Assignment ( http://arxiv.org/abs/2112.13756v2 )

ライセンス: Link先を確認
Markus Kreuzthaler, Bastian Pfeifer, Diether Kramer and Stefan Schulz(参考訳) 臨床情報システムは、半構造化および部分的にアノテートされた電子健康記録データのための大規模なリポジトリとなり、教師付きデータ駆動ニューラルネットワークアプローチで興味深い重要な質量に達した。 国際疾病分類分類(icd-10)を用いて50文字の長期臨床課題リスト項目の自動符号化を行い、上位100のicd-103桁コードで3種類のネットワークアーキテクチャを評価した。 fastTextベースラインは、マクロ平均F1スコアの0.83に到達し、その後、マクロ平均F1スコアの0.84に文字レベルLSTMが続いた。 トップパフォーマンスのアプローチはカスタム言語モデルを備えたダウンストリームのRoBERTaモデルを使用しており、マクロ平均F1スコアは0.88である。 ニューラルネットワークのアクティベーション解析と偽陽性と偽陰性の調査により、手作業による符号化が主な制限要因であることが明らかとなった。

Clinical information systems have become large repositories for semi-structured and partly annotated electronic health record data, which have reached a critical mass that makes them interesting for supervised data-driven neural network approaches. We explored automated coding of 50 character long clinical problem list entries using the International Classification of Diseases (ICD-10) and evaluated three different types of network architectures on the top 100 ICD-10 three-digit codes. A fastText baseline reached a macro-averaged F1-score of 0.83, followed by a character-level LSTM with a macro-averaged F1-score of 0.84. The top performing approach used a downstreamed RoBERTa model with a custom language model, yielding a macro-averaged F1-score of 0.88. A neural network activation analysis together with an investigation of the false positives and false negatives unveiled inconsistent manual coding as a main limiting factor.
翻訳日:2023-05-22 20:10:20 公開日:2023-05-19
# 実処理インメモリシステムにおける機械学習学習の実験的評価

An Experimental Evaluation of Machine Learning Training on a Real Processing-in-Memory System ( http://arxiv.org/abs/2207.07886v4 )

ライセンス: Link先を確認
Juan G\'omez-Luna, Yuxin Guo, Sylvan Brocard, Julien Legriel, Remy Cimadomo, Geraldo F. Oliveira, Gagandeep Singh, Onur Mutlu(参考訳) 機械学習(ML)アルゴリズムのトレーニングは計算集約的なプロセスであり、大規模なトレーニングデータセットに繰り返しアクセスするため、メモリバウンドが頻繁に発生する。 その結果、プロセッサ中心のシステム(CPU、GPUなど)は、大量のエネルギーと実行サイクルを消費するメモリユニットと処理ユニットの間のコストのかかるデータ移動に悩まされる。 メモリ中心のコンピューティングシステム、すなわち処理・イン・メモリ(pim)機能により、このデータ移動ボトルネックを軽減することができる。 我々のゴールは、MLトレーニングを加速する現代の汎用PIMアーキテクチャの可能性を理解することである。 そのため,(1) 現実の汎用PIMアーキテクチャ上での代表的なMLアルゴリズム(線形回帰,ロジスティック回帰,決定木,K平均クラスタリング)を実装し,(2) 精度,性能,スケーリングの点でそれらを厳格に評価,特徴付けし,(3) 対応するCPUやGPUの実装と比較する。 2500以上のPIMコアを持つ実メモリ中心型コンピューティングシステムに対する評価は、PIMハードウェアで必要な操作やデータタイプをネイティブにサポートする場合、汎用PIMアーキテクチャがメモリバウンドMLワークロードを大幅に高速化できることを示している。 例えば、私たちのPIMによる決定ツリーの実装は、8コアのIntel Xeonの最先端CPUバージョンよりも27\times$高速で、NVIDIA A100の最先端GPUバージョンより1.34\times$高速です。 PIM上でのK-Meansクラスタリングは、それぞれ最先端のCPUバージョンとGPUバージョンよりも2.8\times$と3.2\times$です。 私たちの知る限り、実際のPIMアーキテクチャ上でMLトレーニングを評価するのは、私たちの仕事が初めてです。 我々は、MLワークロードのユーザ、PIMアーキテクチャのプログラマ、将来のメモリ中心コンピューティングシステムのハードウェアデザイナやアーキテクトに刺激を与える、重要な観察、テイクアウト、レコメンデーションで締めくくります。

Training machine learning (ML) algorithms is a computationally intensive process, which is frequently memory-bound due to repeatedly accessing large training datasets. As a result, processor-centric systems (e.g., CPU, GPU) suffer from costly data movement between memory units and processing units, which consumes large amounts of energy and execution cycles. Memory-centric computing systems, i.e., with processing-in-memory (PIM) capabilities, can alleviate this data movement bottleneck. Our goal is to understand the potential of modern general-purpose PIM architectures to accelerate ML training. To do so, we (1) implement several representative classic ML algorithms (namely, linear regression, logistic regression, decision tree, K-Means clustering) on a real-world general-purpose PIM architecture, (2) rigorously evaluate and characterize them in terms of accuracy, performance and scaling, and (3) compare to their counterpart implementations on CPU and GPU. Our evaluation on a real memory-centric computing system with more than 2500 PIM cores shows that general-purpose PIM architectures can greatly accelerate memory-bound ML workloads, when the necessary operations and datatypes are natively supported by PIM hardware. For example, our PIM implementation of decision tree is $27\times$ faster than a state-of-the-art CPU version on an 8-core Intel Xeon, and $1.34\times$ faster than a state-of-the-art GPU version on an NVIDIA A100. Our K-Means clustering on PIM is $2.8\times$ and $3.2\times$ than state-of-the-art CPU and GPU versions, respectively. To our knowledge, our work is the first one to evaluate ML training on a real-world PIM architecture. We conclude with key observations, takeaways, and recommendations that can inspire users of ML workloads, programmers of PIM architectures, and hardware designers & architects of future memory-centric computing systems.
翻訳日:2023-05-22 20:03:55 公開日:2023-05-19
# 医学領域における連合学習の実用化に向けて

Towards the Practical Utility of Federated Learning in the Medical Domain ( http://arxiv.org/abs/2207.03075v5 )

ライセンス: Link先を確認
Seongjun Yang, Hyeonji Hwang, Daeyoung Kim, Radhika Dua, Jong-Yeup Kim, Eunho Yang, Edward Choi(参考訳) 連合学習 (federated learning, fl) は活発な研究分野である。 FLを採用するのに最も適した分野の1つは、患者のプライバシーを尊重しなければならない医療領域である。 しかし、これまでの研究では医学領域にflを適用するための実践的なガイドを提供していない。 縦断的電子健康記録, 皮膚がん画像, 心電図信号の3つの指標について, 実験的ベンチマークと実験的検討を行った。 医療機関やIT企業のようなFLのユーザは、これらのベンチマークをFLを採用し、試行錯誤を最小限にするためのガイドとして使うことができます。 各データセットについて、各クライアントデータは、実世界の異質性を保存するために異なるソースからのものである。 クライアント間のデータ不均一性に対処するために設計された6つのFLアルゴリズムと、2つの代表FLアルゴリズムの強度を組み合わせたハイブリッドアルゴリズムを評価する。 3つのモダリティによる実験結果から、単純なFLアルゴリズムはより洗練されたアルゴリズムよりも優れており、ハイブリッドアルゴリズムは優れた性能を示すが、最良の性能は得られない。 また、頻繁なグローバルモデルのアップデートは、一定のトレーニングイテレーション予算の下で、パフォーマンスの向上につながります。 参加するクライアント数が増加すると、it管理者やgpuの増加によってコストが上昇するが、パフォーマンスは一貫して向上する。 今後,臨床の課題を考慮し,医療領域でのFL実験を設計し,低コストでより優れたパフォーマンスを得るために,これらの経験的ベンチマークを参考にすることを期待する。

Federated learning (FL) is an active area of research. One of the most suitable areas for adopting FL is the medical domain, where patient privacy must be respected. Previous research, however, does not provide a practical guide to applying FL in the medical domain. We propose empirical benchmarks and experimental settings for three representative medical datasets with different modalities: longitudinal electronic health records, skin cancer images, and electrocardiogram signals. The likely users of FL such as medical institutions and IT companies can take these benchmarks as guides for adopting FL and minimize their trial and error. For each dataset, each client data is from a different source to preserve real-world heterogeneity. We evaluate six FL algorithms designed for addressing data heterogeneity among clients, and a hybrid algorithm combining the strengths of two representative FL algorithms. Based on experiment results from three modalities, we discover that simple FL algorithms tend to outperform more sophisticated ones, while the hybrid algorithm consistently shows good, if not the best performance. We also find that a frequent global model update leads to better performance under a fixed training iteration budget. As the number of participating clients increases, higher cost is incurred due to increased IT administrators and GPUs, but the performance consistently increases. We expect future users will refer to these empirical benchmarks to design the FL experiments in the medical domain considering their clinical tasks and obtain stronger performance with lower costs.
翻訳日:2023-05-22 20:03:08 公開日:2023-05-19
# 階層型ベイズ学習を用いた逐次画像復元

Sequential image recovery using joint hierarchical Bayesian learning ( http://arxiv.org/abs/2206.12745v2 )

ライセンス: Link先を確認
Yao Xiao and Jan Glaubitz(参考訳) 間接的、ノイズ、あるいは不完全なデータに基づく時間的画像シーケンス(ビデオ)の復元は不可欠だが難しい作業である。 具体的には,各データセットに致命的な情報が欠落している場合について考察し,個々の画像の正確な復元を防止する。 最近の(変分法)手法では、連続画像の連立復元に基づく高分解能画像復元が実証されているが、パラメータチューニングやシーケンシャル画像の種類制限による堅牢性の問題が残っている。 本稿では,事前画像情報と画像間情報を組み合わせた逐次画像の同時復元のための階層ベイズ学習に基づく手法を提案する。 本手法は,他の画像から「ボーリング」することで,各画像の欠落情報を復元する。 その結果、個々の再構成のemph{all} により精度が向上した。 本手法は様々なデータ取得に利用でき,不確実性定量化が可能となる。 いくつかの予備的な結果は、シーケンシャルデブロアリングと磁気共鳴イメージングにその可能性を示している。

Recovering temporal image sequences (videos) based on indirect, noisy, or incomplete data is an essential yet challenging task. We specifically consider the case where each data set is missing vital information, which prevents the accurate recovery of the individual images. Although some recent (variational) methods have demonstrated high-resolution image recovery based on jointly recovering sequential images, there remain robustness issues due to parameter tuning and restrictions on the type of the sequential images. Here, we present a method based on hierarchical Bayesian learning for the joint recovery of sequential images that incorporates prior intra- and inter-image information. Our method restores the missing information in each image by "borrowing" it from the other images. As a result, \emph{all} of the individual reconstructions yield improved accuracy. Our method can be used for various data acquisitions and allows for uncertainty quantification. Some preliminary results indicate its potential use for sequential deblurring and magnetic resonance imaging.
翻訳日:2023-05-22 20:02:43 公開日:2023-05-19
# Pseudo-Labeling の信頼性

Confident Sinkhorn Allocation for Pseudo-Labeling ( http://arxiv.org/abs/2206.05880v4 )

ライセンス: Link先を確認
Vu Nguyen and Hisham Husain and Sachin Farfade and Anton van den Hengel(参考訳) 半教師付き学習は、ラベル付きデータへの機械学習の依存を減らす重要なツールである。 画像や自然言語などの構造化データに対して、事前訓練されたモデルやデータ拡張による空間的・意味的構造の利用によって、うまく適用されてきた。 しかし、データに適切な構造や不変性がない場合には、これらの手法は適用できない。 その単純さのため、擬似ラベル法(PL)メソッドはドメインの仮定なしに広く利用することができる。 しかし、PLはしきい値に敏感であり、過度な自信のために間違った割り当てが行われた場合、性能が悪くなる。 本稿では,疑似ラベルリングにおける不確実性の役割を理論的に検討し,信頼度の高いサンプルのみへの最適移動を通じて最適な疑似ラベル割り当てを同定するssummit sinkhorn allocation (csa)を提案する。 CSAは、半教師付き学習のこの事実上重要な領域において、現在の最先端技術よりも優れています。 さらに,アンサンブルモデルのkullback-leibler(kl)発散に依存する既存のpac-bayes境界を拡張し,改良するために積分確率メトリクスを用いることを提案する。 私たちのコードはhttps://github.com/amzn/confident-sinkhorn-allocationで公開されています。

Semi-supervised learning is a critical tool in reducing machine learning's dependence on labeled data. It has been successfully applied to structured data, such as images and natural language, by exploiting the inherent spatial and semantic structure therein with pretrained models or data augmentation. These methods are not applicable, however, when the data does not have the appropriate structure, or invariances. Due to their simplicity, pseudo-labeling (PL) methods can be widely used without any domain assumptions. However, PL is sensitive to a threshold and can perform poorly if wrong assignments are made due to overconfidence. This paper studies theoretically the role of uncertainty to pseudo-labeling and proposes Confident Sinkhorn Allocation (CSA), which identifies the best pseudo-label allocation via optimal transport to only samples with high confidence scores. CSA outperforms the current state-of-the-art in this practically important area of semi-supervised learning. Additionally, we propose to use the Integral Probability Metrics to extend and improve the existing PAC-Bayes bound which relies on the Kullback-Leibler (KL) divergence, for ensemble models. Our code is publicly available at https://github.com/amzn/confident-sinkhorn-allocation.
翻訳日:2023-05-22 20:02:15 公開日:2023-05-19
# 超音速信号のない超音速トンネル時間:初期MacColl-Hartman効果のフェーディング

Superluminal tunneling times without superluminal signaling: Fading of the MacColl-Hartman effect at early times ( http://arxiv.org/abs/2205.15375v2 )

ライセンス: Link先を確認
Randall S. Dumont, Tom Rivlin(参考訳) maccoll-hartman効果として知られる量子トンネル効果の興味深い特徴は、粒子が効果的な超光速で障壁を横切ることができるという数値観測結果をもたらす。 しかし、トンネルは確実ではないため、この効果を使って光よりも早く信号を送信しようとすると、多くの粒子を送る必要がある。 本研究では, 粒子間の相互作用を伴わずに, 平行に, 少なくとも1つのトンネルを確実にするために, 十分に多くの粒子を送出することを検討する。 この場合、1つのトンネル粒子の平均時間の経過にもかかわらず、1ビットの情報を送信する平均時間は、同じ数の自由光子よりもトンネル粒子に対して大きい。 これにより、スーパールミナルシグナリングの可能性が排除される。 n個の粒子を用いて1ビットを送信する平均時間は、トンネル時間の分布の早期テールによって決定され、この早期テールが最も急な降下を用いて高精度にモデル化された場合、maccoll-hartman効果は消失する。

A curious feature of quantum tunneling known as the MacColl-Hartman effect results in the numerical observation that particles can traverse a barrier with effective superluminal speed. However, because tunneling is never certain, any attempt to use this effect to send a signal faster than light would require sending many particles. In this work, we consider sending -- in parallel, without interactions between particles -- sufficiently many particles to ensure at the least one of them tunnels. In this case, in spite of the time advance of the mean time for a single tunneling particle, the mean time to send one bit of information is larger for tunneling particles than for the same number of free photons. This removes any possibility of superluminal signaling. We show that the mean time to send one bit using N particles is determined by the early-time tail of the distribution of tunneling times for one particle and that, when this early-time tail is highly accurately modeled using steepest descent, the MacColl-Hartman effect is seen to fade away.
翻訳日:2023-05-22 20:01:55 公開日:2023-05-19
# DELTA: フェデレーション学習を高速化するためのクライアントサンプリング

DELTA: Diverse Client Sampling for Fasting Federated Learning ( http://arxiv.org/abs/2205.13925v3 )

ライセンス: Link先を確認
Lin Wang, YongXin Guo, Tao Lin, Xiaoying Tang(参考訳) フェデレートラーニング(FL)では、コミュニケーションの負担を効率的に軽減するために、部分的なクライアント参加が広く採用されている。 しかし、不十分なクライアントサンプリングスキームは、非表現部分集合の選択につながり、モデル更新の大幅なばらつきと収束の鈍化をもたらす。 既存のサンプリング手法は偏りがあるか,より高速な収束に最適化できるかのいずれかであり,本論文では,これらの問題を緩和するための非バイアスサンプリング方式であるDELTAを提案する。 DELTAは、クライアントの多様性と局所的な分散の影響を特徴付け、グローバルモデル更新のための貴重な情報を持つ代表クライアントをサンプリングする。 さらに、デルタは、部分的なクライアント参加による分散を最小限に抑え、収束の観点から他の非バイアスサンプリングスキームよりも優れる最適な非バイアスサンプリングスキームである。 さらに、全クライアントの勾配依存性に対処するために、利用可能なクライアントの情報に応じてデルタの実用的なバージョンを提供し、その収束を分析する。 結果は合成データと実世界のデータセットの両方で実験によって検証される。

Partial client participation has been widely adopted in Federated Learning (FL) to reduce the communication burden efficiently. However, an inadequate client sampling scheme can lead to the selection of unrepresentative subsets, resulting in significant variance in model updates and slowed convergence. Existing sampling methods are either biased or can be further optimized for faster convergence.In this paper, we present DELTA, an unbiased sampling scheme designed to alleviate these issues. DELTA characterizes the effects of client diversity and local variance, and samples representative clients with valuable information for global model updates. In addition, DELTA is a proven optimal unbiased sampling scheme that minimizes variance caused by partial client participation and outperforms other unbiased sampling schemes in terms of convergence. Furthermore, to address full-client gradient dependence,we provide a practical version of DELTA depending on the available clients' information, and also analyze its convergence. Our results are validated through experiments on both synthetic and real-world datasets.
翻訳日:2023-05-22 20:01:36 公開日:2023-05-19
# 環境クレーム検出

Environmental Claim Detection ( http://arxiv.org/abs/2209.00507v3 )

ライセンス: Link先を確認
Dominik Stammbach, Nicolas Webersinke, Julia Anna Bingler, Mathias Kraus, Markus Leippold(参考訳) グリーンエコノミーに移行するためには、企業による環境クレームは信頼性が高く、比較され、検証可能である必要がある。 このような主張を大規模に分析するには,まずは自動で検出する必要がある。 しかし、このためのデータセットやモデルは存在しない。 そこで本稿では,環境クレーム検出の課題を紹介する。 このタスクに対応するために、専門家による注釈付きデータセットと、このデータセットでトレーニングされたモデルをリリースする。 我々は、2015年のパリ協定以降、四半期決算報告で得られた環境要求を検知し、環境要求の数が着実に増加していることを確認する。

To transition to a green economy, environmental claims made by companies must be reliable, comparable, and verifiable. To analyze such claims at scale, automated methods are needed to detect them in the first place. However, there exist no datasets or models for this. Thus, this paper introduces the task of environmental claim detection. To accompany the task, we release an expert-annotated dataset and models trained on this dataset. We preview one potential application of such models: We detect environmental claims made in quarterly earning calls and find that the number of environmental claims has steadily increased since the Paris Agreement in 2015.
翻訳日:2023-05-22 19:53:00 公開日:2023-05-19
# 資源制約エッジ環境における分散データセット蒸留によるフェデレーション学習

Federated Learning via Decentralized Dataset Distillation in Resource-Constrained Edge Environments ( http://arxiv.org/abs/2208.11311v3 )

ライセンス: Link先を確認
Rui Song, Dai Liu, Dave Zhenyu Chen, Andreas Festag, Carsten Trinitis, Martin Schulz, Alois Knoll(参考訳) 連合学習では、すべてのネットワーククライアントが協調してモデルトレーニングに寄与する。 しかし、モデルのサイズが大きくなると、訓練された部分モデルを共有することさえも、基礎となるネットワーク、特に反復的に通信する場合に深刻な通信ボトルネックを引き起こす。 本稿では,データセット蒸留インスタンスの統合により,単発通信のみを必要とするフェデレート学習フレームワークfeedd3を提案する。 fedd3は、他の連合学習アプローチでモデル更新を共有する代わりに、接続されたクライアントがローカルデータセットを個別に蒸留し、それらの分散蒸留データセット(例えば、いくつかの識別不能な画像)をネットワークから集約してモデルトレーニングを行う。 実験の結果,feedd3は,使用シナリオや目標データセットに応じて,精度と通信コストのトレードオフをバランスさせることで,必要な通信量で他のフェデレーション学習フレームワークを著しく上回っていることが示された。 例えば、非独立かつ同一の分散(非iid)設定下で10のクライアントを持つcifar-10上でalexnetモデルをトレーニングする場合、feedd3は、同じ通信ボリュームで71%以上精度を上げるか、98%の通信量を節約できるが、他のワンショットフェデレーション学習アプローチと同等の精度に達する。

In federated learning, all networked clients contribute to the model training cooperatively. However, with model sizes increasing, even sharing the trained partial models often leads to severe communication bottlenecks in underlying networks, especially when communicated iteratively. In this paper, we introduce a federated learning framework FedD3 requiring only one-shot communication by integrating dataset distillation instances. Instead of sharing model updates in other federated learning approaches, FedD3 allows the connected clients to distill the local datasets independently, and then aggregates those decentralized distilled datasets (e.g. a few unrecognizable images) from networks for model training. Our experimental results show that FedD3 significantly outperforms other federated learning frameworks in terms of needed communication volumes, while it provides the additional benefit to be able to balance the trade-off between accuracy and communication cost, depending on usage scenario or target dataset. For instance, for training an AlexNet model on CIFAR-10 with 10 clients under non-independent and identically distributed (Non-IID) setting, FedD3 can either increase the accuracy by over 71% with a similar communication volume, or save 98% of communication volume, while reaching the same accuracy, compared to other one-shot federated learning approaches.
翻訳日:2023-05-22 19:52:50 公開日:2023-05-19
# ファウショット行動認識のための階層的構成表現

Hierarchical Compositional Representations for Few-shot Action Recognition ( http://arxiv.org/abs/2208.09424v2 )

ライセンス: Link先を確認
Changzhen Li, Jie Zhang, Shuzhe Wu, Xin Jin, and Shiguang Shan(参考訳) 近年、知的監視と人間とコンピュータのインタラクションにおける包括的かつ実践的な応用により、アクション認識がますます注目を集めている。 しかし、少数のアクション認識は十分に研究されておらず、データ不足のため依然として挑戦的である。 本稿では,新しい階層型合成表現(HCR)学習手法を提案する。 具体的には,階層的クラスタリングを注意深く設計し,さらに細粒度の空間的注意的サブアクション(sas-actions)に分解することで,複雑なアクションを複数のサブアクションに分割する。 基本クラスと新規クラスの間には大きな違いがあるが、サブアクションやSASアクションで同様のパターンを共有することができる。 さらに,輸送問題におけるアースモーバー距離を,サブアクション表現の観点からビデオサンプル間の類似度を測定するために採用する。 サブアクション間の最適なマッチングフローを距離メートル法として計算し、きめ細かいパターンを比較するのに好適である。 広範な実験により, hmdb51, ucf101およびkineticsデータセットの最先端の結果が得られた。

Recently action recognition has received more and more attention for its comprehensive and practical applications in intelligent surveillance and human-computer interaction. However, few-shot action recognition has not been well explored and remains challenging because of data scarcity. In this paper, we propose a novel hierarchical compositional representations (HCR) learning approach for few-shot action recognition. Specifically, we divide a complicated action into several sub-actions by carefully designed hierarchical clustering and further decompose the sub-actions into more fine-grained spatially attentional sub-actions (SAS-actions). Although there exist large differences between base classes and novel classes, they can share similar patterns in sub-actions or SAS-actions. Furthermore, we adopt the Earth Mover's Distance in the transportation problem to measure the similarity between video samples in terms of sub-action representations. It computes the optimal matching flows between sub-actions as distance metric, which is favorable for comparing fine-grained patterns. Extensive experiments show our method achieves the state-of-the-art results on HMDB51, UCF101 and Kinetics datasets.
翻訳日:2023-05-22 19:52:26 公開日:2023-05-19
# 隠れマルコフモデルの代数的還元

Algebraic Reduction of Hidden Markov Models ( http://arxiv.org/abs/2208.05968v2 )

ライセンス: Link先を確認
Tommaso Grigoletto and Francesco Ticozzi(参考訳) 隠れマルコフモデル(HMM)を、同じ限界を正確に再現する小さな次元の1つに還元する問題は、システム理論のアプローチによって取り組まれる。 実現理論ツールは確率空間の適切な代数的表現を利用してHMMに拡張される。 確率射影演算子により得られた粗粒度等価HMMを返却する2つのアルゴリズムを提案する。第1は与えられた出力プロセスの単一時間分布を正確に再現するモデルを返却し、第2は完全(複数時間)分布を保存する。 還元法は、観測された出力の構造だけでなく、その初期条件を、後者が知られているときや与えられたサブクラスに属するときでも活用する。 最適アルゴリズムは、観測可能なHMMのクラスのために導出される。

The problem of reducing a Hidden Markov Model (HMM) to one of smaller dimension that exactly reproduces the same marginals is tackled by using a system-theoretic approach. Realization theory tools are extended to HMMs by leveraging suitable algebraic representations of probability spaces. We propose two algorithms that return coarse-grained equivalent HMMs obtained by stochastic projection operators: the first returns models that exactly reproduce the single-time distribution of a given output process, while in the second the full (multi-time) distribution is preserved. The reduction method exploits not only the structure of the observed output, but also its initial condition, whenever the latter is known or belongs to a given subclass. Optimal algorithms are derived for a class of HMM, namely observable ones.
翻訳日:2023-05-22 19:52:08 公開日:2023-05-19
# ほぼ凸性による量子エントロピー量の連続性

Continuity of quantum entropic quantities via almost convexity ( http://arxiv.org/abs/2208.00922v2 )

ライセンス: Link先を確認
Andreas Bluhm, \'Angela Capel, Paul Gondolf, Antonio P\'erez-Hern\'andez(参考訳) Alicki, Fannes, Winter による条件エントロピーの連続性の証明に基づいて,本研究では, ほぼ局所的なアフィン (ALAFF) 法を紹介する。 この方法により、導出エントロピー量に対して非常に多様な連続性境界を証明できる。 まず,ALAFF法を梅垣相対エントロピーに適用する。 このようにして、ほとんど厳密な境界が分かるだけでなく、相対エントロピーに対するいくつかの新しい連続性境界も回復する。 その後,Belavkin-Staszewski 相対エントロピー (BS-エントロピー) に適用した。 これにより、特にBS条件エントロピー、BS条件エントロピー、BS条件相互情報に対する新しい明示的境界が得られる。 一方, 梅垣相対エントロピーとBS-エントロピーは, 独立性を持つ可能性が示唆された。 最後に、量子情報理論における様々な文脈におけるこれらの連続性境界の応用について述べる。

Based on the proofs of the continuity of the conditional entropy by Alicki, Fannes, and Winter, we introduce in this work the almost locally affine (ALAFF) method. This method allows us to prove a great variety of continuity bounds for the derived entropic quantities. First, we apply the ALAFF method to the Umegaki relative entropy. This way, we recover known almost tight bounds, but also some new continuity bounds for the relative entropy. Subsequently, we apply our method to the Belavkin-Staszewski relative entropy (BS-entropy). This yields novel explicit bounds in particular for the BS-conditional entropy, the BS-mutual and BS-conditional mutual information. On the way, we prove almost concavity for the Umegaki relative entropy and the BS-entropy, which might be of independent interest. We conclude by showing some applications of these continuity bounds in various contexts within quantum information theory.
翻訳日:2023-05-22 19:51:55 公開日:2023-05-19
# 量子コンピュータにおける実効的で効率的なLanczos法

Exact and efficient Lanczos method on a quantum computer ( http://arxiv.org/abs/2208.00567v4 )

ライセンス: Link先を確認
William Kirby, Mario Motta, and Antonio Mezzacapo(参考訳) 本稿では,量子コンピュータ上でブロック符号化を用いてクリロフ空間を正確に構築するアルゴリズムを提案する。 古典的なLanczos法は量子系のクリロフ状態を表すためにシステムサイズが指数関数的なコストを持つが、効率的な量子アルゴリズムは多項式時間とメモリでこれを実現できる。 提示された構成は、結果のクリロフ空間がランツォス法と同一であるという意味では正確であるので、正確な方法に関する唯一の近似は有限サンプルノイズによるものである。 これは、従来の量子クリロフ法とは異なり、このアルゴリズムは実時間や虚数時間の進化をシミュレートする必要がないため可能である。 ノイズが存在する場合、結果として生じる基底状態エネルギー推定のための明示的なエラーバウンドを提供する。 我々の手法が効率的に成功するためには、入力問題の唯一の要件は、初期状態と真の基底状態との重なり合いが$\Omega(1/\text{poly}(n))$ for $n$ qubitsでなければならないことである。

We present an algorithm that uses block encoding on a quantum computer to exactly construct a Krylov space, which can be used as the basis for the Lanczos method to estimate extremal eigenvalues of Hamiltonians. While the classical Lanczos method has exponential cost in the system size to represent the Krylov states for quantum systems, our efficient quantum algorithm achieves this in polynomial time and memory. The construction presented is exact in the sense that the resulting Krylov space is identical to that of the Lanczos method, so the only approximation with respect to the exact method is due to finite sample noise. This is possible because, unlike previous quantum Krylov methods, our algorithm does not require simulating real or imaginary time evolution. We provide an explicit error bound for the resulting ground state energy estimate in the presence of noise. For our method to be successful efficiently, the only requirement on the input problem is that the overlap of the initial state with the true ground state must be $\Omega(1/\text{poly}(n))$ for $n$ qubits.
翻訳日:2023-05-22 19:51:41 公開日:2023-05-19
# 希少イベントサンプリングのための条件付き正規化フロー

Conditioning Normalizing Flows for Rare Event Sampling ( http://arxiv.org/abs/2207.14530v2 )

ライセンス: Link先を確認
Sebastian Falkner, Alessandro Coretti, Salvatore Romano, Phillip Geissler, Christoph Dellago(参考訳) 複雑な分子過程の力学を理解することは、しばしば長寿命の安定状態の間の頻繁な遷移の研究と結びついている。 このようなまれな事象のサンプリングに対する標準的なアプローチは、軌道空間内のランダムウォークを用いて遷移経路のアンサンブルを生成することである。 しかし、これは後続のサンプルパス間の強い相関の欠点と、サンプリングプロセスの並列化に固有の困難が伴う。 ニューラルネットワーク生成構成に基づく遷移経路サンプリング手法を提案する。 これらは、与えられた分布から統計的に独立なサンプルを生成することができるニューラルネットワーククラスである正規化フローを用いて得られる。 このアプローチでは、訪問経路間の相関が除去されるだけでなく、サンプリングプロセスも容易に並列化できる。 さらに、正規化フローを条件付けすることにより、興味のある領域に向けて構成のサンプリングを行うことができる。 本手法は遷移領域の熱力学と運動学の両方の解法を可能にすることを示す。

Understanding the dynamics of complex molecular processes is often linked to the study of infrequent transitions between long-lived stable states. The standard approach to the sampling of such rare events is to generate an ensemble of transition paths using a random walk in trajectory space. This, however, comes with the drawback of strong correlations between subsequently sampled paths and with an intrinsic difficulty in parallelizing the sampling process. We propose a transition path sampling scheme based on neural-network generated configurations. These are obtained employing normalizing flows, a neural network class able to generate statistically independent samples from a given distribution. With this approach, not only are correlations between visited paths removed, but the sampling process becomes easily parallelizable. Moreover, by conditioning the normalizing flow, the sampling of configurations can be steered towards regions of interest. We show that this approach enables the resolution of both the thermodynamics and kinetics of the transition region.
翻訳日:2023-05-22 19:51:21 公開日:2023-05-19
# 多段階データフィルタリングによる効率的なNLPモデルファインタニング

Efficient NLP Model Finetuning via Multistage Data Filtering ( http://arxiv.org/abs/2207.14386v2 )

ライセンス: Link先を確認
Xu Ouyang, Shahina Mohd Azam Ansari, Felix Xiaozhu Lin, Yangfeng Ji(参考訳) モデルファインタニングは現代のNLPの中心であり、その効率を最大化する。 トレーニング例の冗長性と事前トレーニングされたモデルのサイズによって動機付けられた、重要な機会である重要なデータのみをトレーニングする。 この目的のために我々は,ターゲットモデルのトレーニングと合わせて,トレーニング例をストリーミング形式でフィルタリングすることにした。 我々は,(1)後方トレーニングパスをスキップするためのトレーニング損失閾値を自動的に決定する,(2)前方トレーニングパスをスキップするためのメタ予測を実行する,という2つの手法を提案する。 上記のテクニックを総合的な3段階のトレーニングプロセスに統合する。 様々なベンチマークでは、必要なトレーニングサンプルを最大5.3$\times$に削減し、トレーニング時間を最大6.8$\times$に短縮する。 本手法は,各トレーニング例が1回しか遭遇しない1つのエポックをトレーニングする場合においても有効である。 実装は簡単で、既存の微調整技術と互換性がある。 https://github.com/xo28/ efficientNLP-multistage-training

As model finetuning is central to the modern NLP, we set to maximize its efficiency. Motivated by redundancy in training examples and the sheer sizes of pretrained models, we exploit a key opportunity: training only on important data. To this end, we set to filter training examples in a streaming fashion, in tandem with training the target model. Our key techniques are two: (1) automatically determine a training loss threshold for skipping backward training passes; (2) run a meta predictor for further skipping forward training passes. We integrate the above techniques in a holistic, three-stage training process. On a diverse set of benchmarks, our method reduces the required training examples by up to 5.3$\times$ and training time by up to 6.8$\times$, while only seeing minor accuracy degradation. Our method is effective even when training one epoch, where each training example is encountered only once. It is simple to implement and is compatible with the existing finetuning techniques. Code is available at: https://github.com/xo28/efficient- NLP-multistage-training
翻訳日:2023-05-22 19:51:08 公開日:2023-05-19
# 量子最適制御によるストロンチウムクロック原子干渉測定の強化

Enhancing strontium clock atom interferometry using quantum optimal control ( http://arxiv.org/abs/2207.13217v2 )

ライセンス: Link先を確認
Zilin Chen, Garrett Louie, Yiping Wang, Tejas Deshpande, Tim Kovachy(参考訳) ストロンチウム原子干渉法(Strontium clock atom interferometry)は、ダークマターと重力波検出の可能性を探るための複数の実験が進行中である。 これらの検出器では、多くのレーザーパルスのシーケンスを用いた大きな運動量移動(lmt)が必要であり、少ない不純物が拡大するため各パルスの忠実度が重要である。 量子最適制御(Quantum Optimal Control, QOC)は、高忠実性を実現し、実験的不完全性に対して堅牢な制御パルス波形を開発するためのフレームワークである。 ストロンチウムの狭いクロック遷移を用いた共鳴単光子遷移は、遠方修正された2光子ラマンまたはブラッグ遷移に基づくより確立された原子干渉法とは大きく異なる量子力学を含む。 本稿では、ストロンチウムクロック干渉計のQOCパルスについて検討し、複数のノイズチャネルに対するロバスト性の観点から、基本2乗パルス(原始パルス)と複合パルスの利点を示す。 これにより、Srクロック干渉計における大きな運動量移動のスケールが向上し、これらの科学的目標を達成するための道を開くことができる。

Strontium clock atom interferometry is a promising new technique, with multiple experiments under development to explore its potential for dark matter and gravitational wave detection. In these detectors, large momentum transfer (LMT) using sequences of many laser pulses is necessary, and thus high fidelity of each pulse is important since small infidelities become magnified. Quantum Optimal Control (QOC) is a framework for developing control pulse waveforms that achieve high fidelity and are robust against experimental imperfections. Resonant single-photon transitions using the narrow clock transition of strontium involve significantly different quantum dynamics than more established atom interferometry methods based on far-detuned two-photon Raman or Bragg transitions, which leads to new opportunities and challenges when applying QOC. Here, we study QOC pulses for strontium clock interferometry and demonstrate their advantage over basic square pulses (primitive pulses) and composite pulses in terms of robustness against multiple noise channels. This could improve the scale of large momentum transfer in Sr clock interferometers, paving the way to achieve these scientific goals.
翻訳日:2023-05-22 19:50:51 公開日:2023-05-19
# GPT-3 文化遺産における視覚的質問回答に必要なもの

Is GPT-3 all you need for Visual Question Answering in Cultural Heritage? ( http://arxiv.org/abs/2207.12101v2 )

ライセンス: Link先を確認
Pietro Bongini, Federico Becattini, Alberto Del Bimbo(参考訳) 文化遺産ドメインにおけるディープラーニングとコンピュータビジョンの利用は、ここ数年、オーディオスマートガイド、インタラクティブな博物館、拡張現実に関する多くの応用において、非常に重要になっている。 これらの技術はすべて、効果的に動作し、ユーザに役立つために大量のデータを必要とします。 アートワークの文脈では、そのようなデータは高価な時間のかかるプロセスにおいて専門家によって注釈付けされる。 特に、各アートワークには、視覚質問応答のような共通的なタスクを実行するために、アートワークの画像と記述シートを収集する必要がある。 本稿では,映像とアノテーションのプロセスを完全に回避し,アートワークに関する視覚的質問と文脈質問の両方に回答できる記述シートを,実行時に生成できる視覚的質問応答手法を提案する。 そこで本研究では, キャプションメトリクスを用いて生成した記述の質を分析し, GPT-3による記述生成について検討する。 最後に,視覚的質問応答とキャプションタスクの性能評価を行う。

The use of Deep Learning and Computer Vision in the Cultural Heritage domain is becoming highly relevant in the last few years with lots of applications about audio smart guides, interactive museums and augmented reality. All these technologies require lots of data to work effectively and be useful for the user. In the context of artworks, such data is annotated by experts in an expensive and time consuming process. In particular, for each artwork, an image of the artwork and a description sheet have to be collected in order to perform common tasks like Visual Question Answering. In this paper we propose a method for Visual Question Answering that allows to generate at runtime a description sheet that can be used for answering both visual and contextual questions about the artwork, avoiding completely the image and the annotation process. For this purpose, we investigate on the use of GPT-3 for generating descriptions for artworks analyzing the quality of generated descriptions through captioning metrics. Finally we evaluate the performance for Visual Question Answering and captioning tasks.
翻訳日:2023-05-22 19:50:29 公開日:2023-05-19
# 優れた量子回路コンパイルオプションの予測

Predicting Good Quantum Circuit Compilation Options ( http://arxiv.org/abs/2210.08027v3 )

ライセンス: Link先を確認
Nils Quetschlich, Lukas Burgholzer, Robert Wille(参考訳) かつて量子回路としてエンコードされた量子コンピューティングの潜在的な応用は、量子コンピュータ上で実行されるためにコンパイルされる必要がある。 どのQubit技術、どのデバイス、どのコンパイラ、どの設定が問題を考えるのに最適かを決定するには、専門家の知識が必要で、量子コンピューティングをその利点に活用しようとする異なるドメインのエンドユーザーにとっては圧倒的である。 本研究では,この問題を統計的分類タスクとして扱い,教師あり機械学習技術を用いて量子回路のコンパイルを最適化する。 そこで我々は,量子回路が与えられた場合,これらのオプションの最適な組み合わせを予測し,その結果,エンドユーザが自動的に決定する枠組みを提案する。 実験的な評価により、3000個の量子回路を持つ原始的設定を考えると、提案されたフレームワークは有望な結果をもたらすことが示される: 未検出の試験回路の4分の3以上において、コンパイルオプションの最適な組み合わせが決定される。 さらに、95%以上の回路では、トップ3内のコンパイルオプションの組み合わせが決定されるが、中央値のコンパイル時間は1桁以上削減される。 さらに、結果として得られる方法論は、エンドユーザに最適なコンパイルオプションの予測を提供するだけでなく、機械学習技術から明確な知識を抽出する手段も提供する。 この知識は、この領域における機械学習のさらなる応用の基礎を築き、機械学習アルゴリズムが合理的に訓練されているかどうかをすばやく検証することを可能にする。 対応するフレームワークと事前トレーニングされた分類器は、ミュンヘン量子ツールキット(MQT)の一部としてGitHub(https://github.com/cda-tum/MQTPredictor)で公開されている。

Any potential application of quantum computing, once encoded as a quantum circuit, needs to be compiled in order to be executed on a quantum computer. Deciding which qubit technology, which device, which compiler, and which corresponding settings are best for the considered problem -- according to a measure of goodness -- requires expert knowledge and is overwhelming for end-users from different domains trying to use quantum computing to their advantage. In this work, we treat the problem as a statistical classification task and explore the utilization of supervised machine learning techniques to optimize the compilation of quantum circuits. Based on that, we propose a framework that, given a quantum circuit, predicts the best combination of these options and, therefore, automatically makes these decisions for end-users. Experimental evaluations show that, considering a prototypical setting with 3000 quantum circuits, the proposed framework yields promising results: for more than three quarters of all unseen test circuits, the best combination of compilation options is determined. Moreover, for more than 95% of the circuits, a combination of compilation options within the top-three is determined -- while the median compilation time is reduced by more than one order of magnitude. Furthermore, the resulting methodology not only provides end-users with a prediction of the best compilation options, but also provides means to extract explicit knowledge from the machine learning technique. This knowledge helps in two ways: it lays the foundation for further applications of machine learning in this domain and, also, allows one to quickly verify whether a machine learning algorithm is reasonably trained. The corresponding framework and the pre-trained classifier are publicly available on GitHub (https://github.com/cda-tum/MQTPredictor) as part of the Munich Quantum Toolkit (MQT).
翻訳日:2023-05-22 19:44:48 公開日:2023-05-19
# Phantom -- 複雑なシステムをモデル化するRL駆動マルチエージェントフレームワーク

Phantom -- A RL-driven multi-agent framework to model complex systems ( http://arxiv.org/abs/2210.06012v3 )

ライセンス: Link先を確認
Leo Ardon, Jared Vann, Deepeka Garg, Tom Spooner, Sumitra Ganesh(参考訳) エージェント・ベース・モデリング(abm)は、システム内の自律的な意思決定コンポーネントやエージェントの振る舞いを特定し、システムのダイナミクスをその相互作用から生じさせることによって、複雑なシステムのモデリングを行うための計算手法である。 マルチエージェント強化学習(MARL)の分野での最近の進歩により、複数のエージェントが同時に学習する複雑な環境の平衡を研究することが可能になった。 しかし、ほとんどのABMフレームワークはRLネイティブではなく、エージェントの振る舞いを学ぶためにMARLと互換性のある概念やインターフェースを提供していない。 本稿では, abm と marl のギャップを埋めるための新しいオープンソースフレームワーク phantom を提案する。 Phantomは複雑なマルチエージェントシステムのエージェントベースのモデリングのためのRL駆動のフレームワークであり、経済システムや市場に限定されない。 このフレームワークは、動的部分的可観測性、エージェントユーティリティ関数、エージェントの嗜好や型の不均一性、エージェントが動作可能な順序(例えばStackelbergゲームやより複雑なターンテイク環境)の制約をエンコードする機能を含む、MARL互換の方法でABM仕様を単純化するツールを提供することを目的としている。 本稿では,これらの特徴,設計上の根拠,フレームワークを活用した2つの新しい環境について述べる。

Agent based modelling (ABM) is a computational approach to modelling complex systems by specifying the behaviour of autonomous decision-making components or agents in the system and allowing the system dynamics to emerge from their interactions. Recent advances in the field of Multi-agent reinforcement learning (MARL) have made it feasible to study the equilibrium of complex environments where multiple agents learn simultaneously. However, most ABM frameworks are not RL-native, in that they do not offer concepts and interfaces that are compatible with the use of MARL to learn agent behaviours. In this paper, we introduce a new open-source framework, Phantom, to bridge the gap between ABM and MARL. Phantom is an RL-driven framework for agent-based modelling of complex multi-agent systems including, but not limited to economic systems and markets. The framework aims to provide the tools to simplify the ABM specification in a MARL-compatible way - including features to encode dynamic partial observability, agent utility functions, heterogeneity in agent preferences or types, and constraints on the order in which agents can act (e.g. Stackelberg games, or more complex turn-taking environments). In this paper, we present these features, their design rationale and present two new environments leveraging the framework.
翻訳日:2023-05-22 19:44:21 公開日:2023-05-19
# 大きな言語モデルでHTMLを理解する

Understanding HTML with Large Language Models ( http://arxiv.org/abs/2210.03945v2 )

ライセンス: Link先を確認
Izzeddin Gur, Ofir Nachum, Yingjie Miao, Mustafa Safdari, Austin Huang, Aakanksha Chowdhery, Sharan Narang, Noah Fiedel, Aleksandra Faust(参考訳) 大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。 しかし、Webページの生のHTMLを解析し、Webベースのタスクの自動化、クローリング、ブラウザによる検索など、HTMLを理解する能力は、完全には研究されていない。 我々は,HTML理解モデル(微調整LDM)と,その機能の詳細を3つのタスクで分析する。 (i)HTML要素のセマンティック分類 (ii)HTML入力のための記述生成、および (iii)htmlページの自律的なwebナビゲーション。 従来の研究はHTML理解のための専用のアーキテクチャとトレーニング手順を開発してきたが、LLMは標準自然言語コーパスで事前訓練され、HTML理解タスクに非常に適していることを示す。 例えば、微調整されたLLMは、タスクデータセットにのみ訓練されたモデルよりもセマンティック分類において12%精度が高い。 さらに、miniwobベンチマークからデータを微調整すると、以前の最良の教師付きモデルよりも192倍少ないデータで50%のタスクを完了した。 我々が評価したLCMのうち、T5ベースのモデルは双方向エンコーダデコーダアーキテクチャのために理想的であることを示す。 HTML 理解のための LLM のさらなる研究を促進するために,CommonCrawl から抽出,自動ラベル付けされた大規模 HTML データセットを作成し,オープンソース化する。

Large language models (LLMs) have shown exceptional performance on a variety of natural language tasks. Yet, their capabilities for HTML understanding -- i.e., parsing the raw HTML of a webpage, with applications to automation of web-based tasks, crawling, and browser-assisted retrieval -- have not been fully explored. We contribute HTML understanding models (fine-tuned LLMs) and an in-depth analysis of their capabilities under three tasks: (i) Semantic Classification of HTML elements, (ii) Description Generation for HTML inputs, and (iii) Autonomous Web Navigation of HTML pages. While previous work has developed dedicated architectures and training procedures for HTML understanding, we show that LLMs pretrained on standard natural language corpora transfer remarkably well to HTML understanding tasks. For instance, fine-tuned LLMs are 12% more accurate at semantic classification compared to models trained exclusively on the task dataset. Moreover, when fine-tuned on data from the MiniWoB benchmark, LLMs successfully complete 50% more tasks using 192x less data compared to the previous best supervised model. Out of the LLMs we evaluate, we show evidence that T5-based models are ideal due to their bidirectional encoder-decoder architecture. To promote further research on LLMs for HTML understanding, we create and open-source a large-scale HTML dataset distilled and auto-labeled from CommonCrawl.
翻訳日:2023-05-22 19:43:56 公開日:2023-05-19
# 励起状態に対する密度行列関数の導出

Deriving density-matrix functionals for excited states ( http://arxiv.org/abs/2210.00964v3 )

ライセンス: Link先を確認
Julia Liebert, Christian Schilling(参考訳) 最近提案された $\boldsymbol{w}$-enmble 1- Particle reduced density matrix functional theory (\boldsymbol{w}$-RDMFT) は、最初の汎函数近似を導出し、励起エネルギーを実際にどのように計算できるかを説明する。 この目的のために、我々はまず、ハバードモデルのビルディングブロックを構成する対称ハバードダイマーを研究し、レヴィ・リーブ制約付き探索を実行する。 第二に、ボース=アインシュタイン凝縮体を記述するための $\boldsymbol{w}$-RDMFT の特定の適合性から、ボゴリューボフ系における任意の対の相互作用のために同質なボース気体の普遍函数を導出する3つの概念的に異なるアプローチを示す。 どちらの系においても、函数の勾配は函数の領域の境界で反発的に分岐し、最近発見されたボース=アインシュタイン凝縮力を励起状態へと拡張する。 本研究は, フェルミオン混合状態とボゾン混合状態の一般排他原理と機能理論における普遍性の呪いとの関連性を明らかにする。

We initiate the recently proposed $\boldsymbol{w}$-ensemble one-particle reduced density matrix functional theory ($\boldsymbol{w}$-RDMFT) by deriving the first functional approximations and illustrate how excitation energies can be calculated in practice. For this endeavour, we first study the symmetric Hubbard dimer, constituting the building block of the Hubbard model, for which we execute the Levy-Lieb constrained search. Second, due to the particular suitability of $\boldsymbol{w}$-RDMFT for describing Bose-Einstein condensates, we demonstrate three conceptually different approaches for deriving the universal functional in a homogeneous Bose gas for arbitrary pair interaction in the Bogoliubov regime. Remarkably, in both systems the gradient of the functional is found to diverge repulsively at the boundary of the functional's domain, extending the recently discovered Bose-Einstein condensation force to excited states. Our findings highlight the physical relevance of the generalized exclusion principle for fermionic and bosonic mixed states and the curse of universality in functional theories.
翻訳日:2023-05-22 19:43:34 公開日:2023-05-19
# 良性オートエンコーダ

Benign Autoencoders ( http://arxiv.org/abs/2210.00637v3 )

ライセンス: Link先を確認
Semyon Malamud, Teng Andrea Xu, Giuseppe Matera and Antoine Didisheim(参考訳) 生成人工知能(AI)の最近の進歩は、エンコーダ-デコーダアーキテクチャを特徴とする効率的なデータ表現に依存している。 最適なエンコーダ-デコーダペアを見つけ、その解を特徴付ける数学的問題を定式化し、これを「良性オートエンコーダ」(bae)と呼ぶ。 BAEが生成問題の最適圧縮性次元である多様体にデータを投影することを証明する。 我々は、条件付きgan、コンテキストエンコーダ、安定した拡散、スタック付きオートエンコーダ、生成モデルの学習能力など、aiにおけるbaeと最近のいくつかの開発との間の驚くべき関係に注目した。 例として,分布シフト下での判別器の性能を向上させるために,baeが最適かつ低次元の潜在表現を見出す方法を示す。 データの次元を圧縮することで、BAEはより滑らかで安定した勾配をもたらす。

Recent progress in Generative Artificial Intelligence (AI) relies on efficient data representations, often featuring encoder-decoder architectures. We formalize the mathematical problem of finding the optimal encoder-decoder pair and characterize its solution, which we name the "benign autoencoder" (BAE). We prove that BAE projects data onto a manifold whose dimension is the optimal compressibility dimension of the generative problem. We highlight surprising connections between BAE and several recent developments in AI, such as conditional GANs, context encoders, stable diffusion, stacked autoencoders, and the learning capabilities of generative models. As an illustration, we show how BAE can find optimal, low-dimensional latent representations that improve the performance of a discriminator under a distribution shift. By compressing "malignant" data dimensions, BAE leads to smoother and more stable gradients.
翻訳日:2023-05-22 19:43:11 公開日:2023-05-19
# リニア光学におけるページ曲線と典型的な絡み合い

Page curves and typical entanglement in linear optics ( http://arxiv.org/abs/2209.06838v2 )

ライセンス: Link先を確認
Joseph T. Iosue, Adam Ehrenberg, Dominik Hangleiter, Abhinav Deshpande, Alexey V. Gorshkov(参考訳) ボソニック・ガウス状態(英: Bosonic Gaussian state)は、無限次元ヒルベルト空間における特別な量子状態のクラスであり、普遍連続変数量子計算やガウス・ボソンサンプリングのような短期量子サンプリングタスクに関係している。 本研究では,ランダム線形光学ユニタリによって進化した一組のスクイーズモード内の絡み合いについて検討する。 まず、r\'enyi-2 ページ曲線(純ボソニックガウス状態のサブシステムの平均 r\'enyi-2 エントロピー)のモード数に漸近的に正確である公式と、特定のスクイーズ状態における対応するページ補正(サブシステムの平均情報)を導出する。 次に、r\'enyi-2エントロピーによって測定されるエンタングルメントの典型性に関する様々な結果を示す。 R'enyi-2 エントロピーに対する上記の結果を用いて、フォン・ノイマンエントロピー曲線を上下に有界にし、フォン・ノイマンエントロピーによって測定されたある種の絡み合いの典型性を証明した。 我々の主な証明は、平均に従う対称性の性質と、ユニタリ上の平均化を劇的に単純化するエントロピーの分散を利用する。 本稿では,この対称性を活用できる将来の研究方向を提案する。 結論として,本研究の応用可能性とガウスボソンサンプリングへの一般化を考察し,絡み合いと計算複雑性の関係を明らかにした。

Bosonic Gaussian states are a special class of quantum states in an infinite dimensional Hilbert space that are relevant to universal continuous-variable quantum computation as well as to near-term quantum sampling tasks such as Gaussian Boson Sampling. In this work, we study entanglement within a set of squeezed modes that have been evolved by a random linear optical unitary. We first derive formulas that are asymptotically exact in the number of modes for the R\'enyi-2 Page curve (the average R\'enyi-2 entropy of a subsystem of a pure bosonic Gaussian state) and the corresponding Page correction (the average information of the subsystem) in certain squeezing regimes. We then prove various results on the typicality of entanglement as measured by the R\'enyi-2 entropy by studying its variance. Using the aforementioned results for the R\'enyi-2 entropy, we upper and lower bound the von Neumann entropy Page curve and prove certain regimes of entanglement typicality as measured by the von Neumann entropy. Our main proofs make use of a symmetry property obeyed by the average and the variance of the entropy that dramatically simplifies the averaging over unitaries. In this light, we propose future research directions where this symmetry might also be exploited. We conclude by discussing potential applications of our results and their generalizations to Gaussian Boson Sampling and to illuminating the relationship between entanglement and computational complexity.
翻訳日:2023-05-22 19:42:45 公開日:2023-05-19
# 風力エネルギー取引のためのオンライン意思決定

Online Decision Making for Trading Wind Energy ( http://arxiv.org/abs/2209.02009v3 )

ライセンス: Link先を確認
Miguel Angel Mu\~noz, Pierre Pinson and Jalal Kazempour(参考訳) 我々は,オンライン学習最適化フレームワークを用いて電力市場における風力エネルギー取引のための新しいアルゴリズムを提案し,開発する。 特に、勾配降下アルゴリズムのコンポーネントワイド適応版と、機能駆動型ニューズベンダーモデルにおける最近の進歩を組み合わせる。 これにより、データ豊富な環境を活用でき、エネルギーと電力市場の非定常特性に適応し、計算負担を最小限に抑えるオンライン提供アプローチが実現される。 提案手法の性能はいくつかの数値実験に基づいて解析され,非定常的不確実なパラメータへの適応性および有意な経済効果を示す。

We propose and develop a new algorithm for trading wind energy in electricity markets, within an online learning and optimization framework. In particular, we combine a component-wise adaptive variant of the gradient descent algorithm with recent advances in the feature-driven newsvendor model. This results in an online offering approach capable of leveraging data-rich environments, while adapting to the nonstationary characteristics of energy generation and electricity markets, also with a minimal computational burden. The performance of our approach is analyzed based on several numerical experiments, showing both better adaptability to nonstationary uncertain parameters and significant economic gains.
翻訳日:2023-05-22 19:41:58 公開日:2023-05-19
# IDとOODのパフォーマンスは実世界のデータセットと逆相関することがある

ID and OOD Performance Are Sometimes Inversely Correlated on Real-world Datasets ( http://arxiv.org/abs/2209.00613v4 )

ライセンス: Link先を確認
Damien Teney, Yong Lin, Seong Joon Oh, Ehsan Abbasnejad(参考訳) いくつかの研究は、コンピュータビジョンとNLPにおけるモデルの分布内(ID)と分布外(OOD)のパフォーマンスを比較している。 彼らは頻繁な正の相関を報告し、驚くべきことに、必要なトレードオフを示す逆相関も観測していない。 逆パターンの可能性は、IDパフォーマンスがOOD一般化機能のプロキシになるかどうかを決定するために重要である。 本稿では,IDとOODのパフォーマンスの逆相関が実世界のデータで発生することを複数のデータセットで示す。 また,これらのケースが最小限の線形設定でもどのように発生するのか,また,モデル選択の偏りが原因で過去の研究がそのようなケースを見逃す可能性がある理由を理論的に説明する。 我々の観察は、現在の文献の多くに見られるものと矛盾する推奨に繋がる。 -高いOODパフォーマンスにはIDパフォーマンスのトレードオフが必要になることがある。 -IDパフォーマンスのみに注目しても、最適なOODパフォーマンスには至らないかもしれない。 OOD性能は低下(最終的には負)する可能性がある。 -これらの場合、モデル選択にIDパフォーマンスを使用するOOD一般化の研究(一般的な推奨慣行)は、必ずしも最高の性能モデルを見落としており、これらの研究はあらゆる現象に盲目である。

Several studies have compared the in-distribution (ID) and out-of-distribution (OOD) performance of models in computer vision and NLP. They report a frequent positive correlation and some surprisingly never even observe an inverse correlation indicative of a necessary trade-off. The possibility of inverse patterns is important to determine whether ID performance can serve as a proxy for OOD generalization capabilities. This paper shows with multiple datasets that inverse correlations between ID and OOD performance do happen in real-world data - not only in theoretical worst-case settings. We also explain theoretically how these cases can arise even in a minimal linear setting, and why past studies could miss such cases due to a biased selection of models. Our observations lead to recommendations that contradict those found in much of the current literature. - High OOD performance sometimes requires trading off ID performance. - Focusing on ID performance alone may not lead to optimal OOD performance. It may produce diminishing (eventually negative) returns in OOD performance. - In these cases, studies on OOD generalization that use ID performance for model selection (a common recommended practice) will necessarily miss the best-performing models, making these studies blind to a whole range of phenomena.
翻訳日:2023-05-22 19:41:48 公開日:2023-05-19
# タスク指向対話におけるインテント誘導による発話埋め込みとクラスタリング手法の解析

Analysis of Utterance Embeddings and Clustering Methods Related to Intent Induction for Task-Oriented Dialogue ( http://arxiv.org/abs/2212.02021v4 )

ライセンス: Link先を確認
Jeiyoon Park, Yoonna Jang, Chanhee Lee, Heuiseok Lim(参考訳) この研究の焦点は、タスク指向のダイアログスキーマの設計において、意図ラベルを各ダイアログターン(インテントクラスタリング)に割り当て、インテントクラスタリング手法(インテントインジェクション)に基づいたインテントセットを生成するという重要な課題を克服するための教師なしアプローチを検討することである。 意図の自動誘導には,(1)インテントラベリングのためのクラスタリングアルゴリズム,(2)ユーザ発話の埋め込み空間の2つの因果関係を仮定する。 既存の市販クラスタリングモデルとDSTC11評価に基づく埋め込みを比較した。 本研究は,インテント誘導タスクにおける発話埋め込みとクラスタリングの併用を慎重に検討する必要があることを示す。 また,Agglomerative clusteringによる事前学習したMiniLMは,NMI,ARI,F1,精度,インテント誘導タスクにおけるサンプルカバレッジを著しく向上させることを示した。 ソースコードはhttps://github.com/jeiyoon/dstc11-track2で入手できる。

The focus of this work is to investigate unsupervised approaches to overcome quintessential challenges in designing task-oriented dialog schema: assigning intent labels to each dialog turn (intent clustering) and generating a set of intents based on the intent clustering methods (intent induction). We postulate there are two salient factors for automatic induction of intents: (1) clustering algorithm for intent labeling and (2) user utterance embedding space. We compare existing off-the-shelf clustering models and embeddings based on DSTC11 evaluation. Our extensive experiments demonstrate that the combined selection of utterance embedding and clustering method in the intent induction task should be carefully considered. We also present that pretrained MiniLM with Agglomerative clustering shows significant improvement in NMI, ARI, F1, accuracy and example coverage in intent induction tasks. The source codes are available at https://github.com/Jeiyoon/dstc11-track2.
翻訳日:2023-05-22 19:34:27 公開日:2023-05-19
# 反実的推論の複雑さについて

On the Complexity of Counterfactual Reasoning ( http://arxiv.org/abs/2211.13447v2 )

ライセンス: Link先を確認
Yunqiu Han, Yizuo Chen, Adnan Darwiche(参考訳) 構造因果モデル(scms)における連想的・介入的推論の複雑性に関連して,反事実的推論の計算複雑性について検討した。 本稿では,2つの計算フレームワークの文脈において,完全に指定されたSCM上での協調的あるいは介入的推論よりも反実的推論が困難であることを示す。 最初のフレームワークはtreewidthの概念に基づいており、古典的な変数除去とジョインツリーアルゴリズムを含んでいる。 第2のフレームワークは、SCMのような機能的依存関係を持つモデルに向けられた、より最近で洗練された因果木幅の概念に基づいている。 我々の結果は構成的であり、基礎となるSCM構造の(因果的)ツリー幅に対して、実と虚の2つの世界を考える標準的な反実的推論で使われる双対ネットワークの(因果的)ツリー幅の有界化に基づいている。 特に、後者(causal)の木の幅は、前者プラス1の2倍以下であることを示す。 したがって、完全に指定されたSCM上で結合的または介入的推論が抽出可能であれば、反事実的推論も抽出可能となる。 我々は,2つ以上の世界を考える一般の反実的推論に結果を拡張し,データと結合した部分的特定SCMを用いて反実的推論への応用について議論する。 最終的に、対実的推論の複雑さとランダムなSCMにおける連帯的・インターベンショナル推論のギャップを測る実験結果を示す。

We study the computational complexity of counterfactual reasoning in relation to the complexity of associational and interventional reasoning on structural causal models (SCMs). We show that counterfactual reasoning is no harder than associational or interventional reasoning on fully specified SCMs in the context of two computational frameworks. The first framework is based on the notion of treewidth and includes the classical variable elimination and jointree algorithms. The second framework is based on the more recent and refined notion of causal treewidth which is directed towards models with functional dependencies such as SCMs. Our results are constructive and based on bounding the (causal) treewidth of twin networks -- used in standard counterfactual reasoning that contemplates two worlds, real and imaginary -- to the (causal) treewidth of the underlying SCM structure. In particular, we show that the latter (causal) treewidth is no more than twice the former plus one. Hence, if associational or interventional reasoning is tractable on a fully specified SCM then counterfactual reasoning is tractable too. We extend our results to general counterfactual reasoning that requires contemplating more than two worlds and discuss applications of our results to counterfactual reasoning with a partially specified SCM that is coupled with data. We finally present empirical results that measure the gap between the complexities of counterfactual reasoning and associational/interventional reasoning on random SCMs.
翻訳日:2023-05-22 19:33:49 公開日:2023-05-19
# vatlm:音声表現学習のための統一マスク予測を用いた視覚音声テキスト事前学習

VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning ( http://arxiv.org/abs/2211.11275v2 )

ライセンス: Link先を確認
Qiushi Zhu, Long Zhou, Ziqiang Zhang, Shujie Liu, Binxing Jiao, Jie Zhang, Lirong Dai, Daxin Jiang, Jinyu Li, Furu Wei(参考訳) 音声は、人間が外界とコミュニケーションをとるためのシンプルで効果的な方法であるが、より現実的な音声対話には、例えば視覚、テキストといったマルチモーダル情報が含まれる。 異なるモーダル情報を統合し、異なるリソース(例えば、視覚-聴覚ペア、音声-テキストペア、ラベルなし音声、ラベルなしテキスト)を活用して、音声表現学習を容易にする統一フレームワークを設計する方法は、十分に検討されなかった。 本稿では,統合型クロスモーダル表現学習フレームワークvatlm(visual-audio-text language model)を提案する。 提案するvatlmは、モダリティ非依存情報をモデル化するために統一バックボーンネットワークを使用し、視覚、音声、テキスト入力の前処理に3つの単純なモダリティ依存モジュールを使用する。 これら3つのモダリティを1つの共有意味空間に統合するために、VATLMは、提案した統一トークン化器によって与えられるマスク付き予測タスクで最適化される。 本稿では,音声-視覚的音声認識(AVSR),視覚的音声認識(VSR)タスクなど,音声-視覚関連下流タスクに対する事前学習VATLMの評価を行った。 以上の結果から,VATLMはAV-HuBERTモデルのような従来の最先端モデルよりも優れており,VATLMが異なるモダリティを同一空間に整列できることが示唆された。 将来の研究を容易にするため、コードと事前訓練済みのモデルをhttps://aka.ms/vatlm.comでリリースします。

Although speech is a simple and effective way for humans to communicate with the outside world, a more realistic speech interaction contains multimodal information, e.g., vision, text. How to design a unified framework to integrate different modal information and leverage different resources (e.g., visual-audio pairs, audio-text pairs, unlabeled speech, and unlabeled text) to facilitate speech representation learning was not well explored. In this paper, we propose a unified cross-modal representation learning framework VATLM (Visual-Audio-Text Language Model). The proposed VATLM employs a unified backbone network to model the modality-independent information and utilizes three simple modality-dependent modules to preprocess visual, speech, and text inputs. In order to integrate these three modalities into one shared semantic space, VATLM is optimized with a masked prediction task of unified tokens, given by our proposed unified tokenizer. We evaluate the pre-trained VATLM on audio-visual related downstream tasks, including audio-visual speech recognition (AVSR), visual speech recognition (VSR) tasks. Results show that the proposed VATLM outperforms previous the state-of-the-art models, such as audio-visual pre-trained AV-HuBERT model, and analysis also demonstrates that VATLM is capable of aligning different modalities into the same space. To facilitate future research, we release the code and pre-trained models at https://aka.ms/vatlm.
翻訳日:2023-05-22 19:33:26 公開日:2023-05-19
# NLPeer: ピアレビューの計算研究のための統一リソース

NLPeer: A Unified Resource for the Computational Study of Peer Review ( http://arxiv.org/abs/2211.06651v2 )

ライセンス: Link先を確認
Nils Dycke, Ilia Kuznetsov, Iryna Gurevych(参考訳) ピアレビューは学術出版の中核的な要素であるが、かなりの専門知識と訓練を必要とし、誤りや偏見に影響を受けやすい。 ピアレビュー支援のためのNLPの様々な応用は、この複雑なプロセスにおいてレビュアーを支援することを目的としているが、明確にライセンスされたデータセットとマルチドメインコーパスの欠如は、ピアレビューのためのNLPの体系的な研究を妨げる。 この問題を解決するために、nlpeerを紹介します。nlpeerは、5k以上の論文と5つの異なる場所からの1kレビューレポートからなる、倫理的にオープンソース化された最初のマルチドメインコーパスです。 論文草案,カメラ対応版,nlpコミュニティのピアレビューの新しいデータセットに加えて,統一データ表現を確立し,従来のピアレビューデータセットを拡張して,解析および構造化された論文表現,リッチメタデータ,バージョニング情報を含める。 我々は,新しいガイドスキミングタスクを含む3つのレビュー支援タスクの実装と分析でリソースを補完する。 我々の研究は、NLPなどにおけるピアレビューの体系的、多面的、エビデンスに基づく研究への道を開く。 データとコードは公開されています。

Peer review constitutes a core component of scholarly publishing; yet it demands substantial expertise and training, and is susceptible to errors and biases. Various applications of NLP for peer reviewing assistance aim to support reviewers in this complex process, but the lack of clearly licensed datasets and multi-domain corpora prevent the systematic study of NLP for peer review. To remedy this, we introduce NLPeer -- the first ethically sourced multidomain corpus of more than 5k papers and 11k review reports from five different venues. In addition to the new datasets of paper drafts, camera-ready versions and peer reviews from the NLP community, we establish a unified data representation and augment previous peer review datasets to include parsed and structured paper representations, rich metadata and versioning information. We complement our resource with implementations and analysis of three reviewing assistance tasks, including a novel guided skimming task. Our work paves the path towards systematic, multi-faceted, evidence-based study of peer review in NLP and beyond. The data and code are publicly available.
翻訳日:2023-05-22 19:32:58 公開日:2023-05-19
# 誘電体媒体の多重散乱拡大:カシミール効果

Multiple scattering expansion for dielectric media: Casimir effect ( http://arxiv.org/abs/2211.05042v2 )

ライセンス: Link先を確認
Thorsten Emig, Giuseppe Bimonte(参考訳) カシミール力の最近の測定は、複雑な幾何学における電磁場の量子揺らぎの複雑な修正の証拠となった。 ここでは、任意の形状の物体と材料組成との間のカシミール相互作用の多重散乱記述を導入し、体間散乱および体内散乱の列として展開を認める。 複雑なジオメトリの相互作用は、典型的には数個の波動散乱から現在の実験分解で計算でき、特に天体の散乱振幅に関する事前知識がない。 アプローチのパワーを示す最初の応用例もある。

Recent measurements of Casimir forces have provided evidence of an intricate modification of quantum fluctuations of the electromagnetic field in complex geometries. Here we introduce a multiple scattering description for Casimir interactions between bodies of arbitrary shape and material composition, admitting an expansion as a sequence of inter- and intra-body wave scatterings. Interactions in complex geometries can be computed within the current experimental resolution from typically a few wave scatterings, notably without any a priori knowledge of the scattering amplitudes of the bodies. Some first applications demonstrate the power of the approach.
翻訳日:2023-05-22 19:32:38 公開日:2023-05-19
# 確率過程拡散を伴う連続関数としての時間データのモデリング

Modeling Temporal Data as Continuous Functions with Stochastic Process Diffusion ( http://arxiv.org/abs/2211.02590v2 )

ライセンス: Link先を確認
Marin Bilo\v{s}, Kashif Rasul, Anderson Schneider, Yuriy Nevmyvaka, Stephan G\"unnemann(参考訳) 時系列などの時間データは、基礎となる関数の離散化測定と見なすことができる。 このようなデータの生成モデルを構築するには、それを管理する確率過程をモデル化する必要があります。 関数空間における微分拡散モデルを定義し,不規則にサンプリングされた観測を自然に処理できる解を提案する。 フォワードプロセスは徐々に関数にノイズを加え、連続性を保ちながら、学習された逆プロセスはノイズを取り除き、新しいサンプルとして関数を返す。 この目的のために,適切な音源を定め,新しいデノイジングモデルとスコアマッチングモデルを導入する。 本手法が多変量確率予測および計算にどのように利用できるか,また,モデルがニューラルプロセスとして解釈されるかを示す。

Temporal data such as time series can be viewed as discretized measurements of the underlying function. To build a generative model for such data we have to model the stochastic process that governs it. We propose a solution by defining the denoising diffusion model in the function space which also allows us to naturally handle irregularly-sampled observations. The forward process gradually adds noise to functions, preserving their continuity, while the learned reverse process removes the noise and returns functions as new samples. To this end, we define suitable noise sources and introduce novel denoising and score-matching models. We show how our method can be used for multivariate probabilistic forecasting and imputation, and how our model can be interpreted as a neural process.
翻訳日:2023-05-22 19:32:29 公開日:2023-05-19
# 組立学習のための微分モデル選択

Differentiable Model Selection for Ensemble Learning ( http://arxiv.org/abs/2211.00251v2 )

ライセンス: Link先を確認
James Kotary, Vincenzo Di Vito, Ferdinando Fioretto(参考訳) モデル選択は、正確で堅牢なモデルを作成するための戦略である。 これらのアルゴリズムを設計する上で重要な課題は、特定の入力サンプルを分類する最適なモデルを特定することである。 本稿では,機械学習と組合せ最適化を融合した微分可能なモデル選択のための新しいフレームワークを提案する。 このフレームワークは、個別に事前学習されたモデルの出力を結合したアンサンブル学習用に調整され、アンサンブル学習タスクをアンサンブル学習モデル内の微分可能な選択プログラム訓練エンドツーエンドに変換することにより、特定の入力サンプルの適切なアンサンブルメンバを選択することを学ぶ。 提案したフレームワークは様々なタスクでテストし、その汎用性と有効性を示し、様々な設定や学習タスクにおいて従来および先進的なコンセンサスルールより優れている。

Model selection is a strategy aimed at creating accurate and robust models. A key challenge in designing these algorithms is identifying the optimal model for classifying any particular input sample. This paper addresses this challenge and proposes a novel framework for differentiable model selection integrating machine learning and combinatorial optimization. The framework is tailored for ensemble learning, a strategy that combines the outputs of individually pre-trained models, and learns to select appropriate ensemble members for a particular input sample by transforming the ensemble learning task into a differentiable selection program trained end-to-end within the ensemble learning model. Tested on various tasks, the proposed framework demonstrates its versatility and effectiveness, outperforming conventional and advanced consensus rules across a variety of settings and learning tasks.
翻訳日:2023-05-22 19:32:17 公開日:2023-05-19
# 知識蒸留のマルチタスク音声表現学習への応用

Application of Knowledge Distillation to Multi-task Speech Representation Learning ( http://arxiv.org/abs/2210.16611v2 )

ライセンス: Link先を確認
Mine Kerpicci, Van Nguyen, Shuhua Zhang, Erik Visser(参考訳) wav2vec 2.0 や HuBERT のようなモデルアーキテクチャは、音声波形から音声表現を自己教師方式で学習するために提案されている。 キーワードスポッティングや話者検証といった下流タスクと組み合わせることで、最先端のパフォーマンスを提供する。 しかし、これらのモデルは多数のパラメータを使用し、その最小バージョンは95万のパラメータを持つ。 これは、エッジAIデバイスデプロイメントの課題となっている。 本稿では,知識蒸留を音声表現学習(SRL)モデルに適用し,さらに複数の下流音声アクティベートタスクを用いた共同微調整を行う。 このようなタスクを2回行った実験で,本手法ではモデルサイズが約75%減少し,精度が0.1%,誤差率が0.9%低下した。 さらに, SRLモデルの微調整により, 凍結SRLモデルに比べて性能が大幅に向上することを示した。

Model architectures such as wav2vec 2.0 and HuBERT have been proposed to learn speech representations from audio waveforms in a self-supervised manner. When they are combined with downstream tasks such as keyword spotting and speaker verification, they provide state-of-the-art performance. However, these models use a large number of parameters, the smallest version of which has 95 million parameters. This constitutes a challenge for edge AI device deployments. In this paper, we investigate the application of knowledge distillation to speech representation learning (SRL) models followed by joint fine-tuning with multiple downstream voice-activated tasks. In our experiments on two such tasks, our approach results in nearly 75% reduction in model size while suffering only 0.1% accuracy and 0.9% equal error rate degradation compared to the full-size model. In addition, we show that fine-tuning the SRL models results in a significant performance boost compared to using frozen SRL models.
翻訳日:2023-05-22 19:32:02 公開日:2023-05-19
# ゼロショットテキスト分類のためのプロンプトとラベル検索による文エンコーダの強化

Empowering Sentence Encoders with Prompting and Label Retrieval for Zero-shot Text Classification ( http://arxiv.org/abs/2212.10391v2 )

ライセンス: Link先を確認
Jimin Hong, Jungsoo Park, Daeyoung Kim, Seongjae Choi, Bokyung Son, and Jaewook Kang(参考訳) 対照的な事前学習では、文エンコーダは一般的に、それらの埋め込み空間において、互いに近い意味的に類似したサンプルを見つけるように最適化される。 本研究では,意味的に異なるサンプルがすでに分離されているため,組込み空間がゼロショットテキスト分類に容易に適応できる可能性に注目した。 提案手法であるralp (retrieval augmented label prompts for sentence encoder) では,提案するラベル候補を文エンコーダでエンコードし,入力文エンコーダと最も類似度の高いラベルを割り当てる。 原文のラベルを補うために、RaLPは、外部コーパスから元のラベルプロンプトと意味的に類似した文を検索し、追加の擬似ラベルプロンプトとして使用する。 RaLPは、さまざまなクローズドセット分類と、ゼロショット設定下でのマルチチョイスQAデータセットに基づいて、はるかに大きなベースラインよりも、競争力や強いパフォーマンスを達成する。 本稿では,RaLPの成功において検索成分が重要な役割を担っていることを示し,その成果は動詞のバリエーションによらずしっかりと達成されていることを示す。

With contrastive pre-training, sentence encoders are generally optimized to locate semantically similar samples closer to each other in their embedding spaces. In this work, we focus on the potential of their embedding spaces to be readily adapted to zero-shot text classification, as semantically distinct samples are already well-separated. Our framework, RaLP (Retrieval augmented Label Prompts for sentence encoder), encodes prompted label candidates with a sentence encoder, then assigns the label whose prompt embedding has the highest similarity with the input text embedding. In order to compensate for the potentially poorly descriptive labels in their original format, RaLP retrieves sentences that are semantically similar to the original label prompt from external corpora and use them as additional pseudo-label prompts. RaLP achieves competitive or stronger performance than much larger baselines on various closed-set classification and multiple-choice QA datasets under zero-shot settings. We show that the retrieval component plays a pivotal role in RaLP's success, and its results are robustly attained regardless of verbalizer variations.
翻訳日:2023-05-22 19:25:59 公開日:2023-05-19
# foveate, attribute, and rationalize: 物理的に安全で信頼できるaiに向けて

Foveate, Attribute, and Rationalize: Towards Physically Safe and Trustworthy AI ( http://arxiv.org/abs/2212.09667v2 )

ライセンス: Link先を確認
Alex Mei, Sharon Levy, William Yang Wang(参考訳) 知的システムの市場が成長を続けるにつれ、ユーザの身体的安全が懸念されるようになり、制約のないシステムは、深刻な怪我につながる危険なアクションをユーザに推奨する可能性がある。 包括的不安全テキストは、日常的なシナリオから生じる可能性のある特定の関心領域であり、有害なテキストを検出するのが困難である。 安全の観点から、信頼に値する合理的な生成のために外部知識を活用する新しいフレームワークであるFARMを提案する。 特にファームは、特定のシナリオにおいて推論に必要な情報を取得するための知識の欠如に焦点をあて、信頼できる情報源への帰属とともにこの情報を取得する。 この知識は、原文の安全性を分類し、人間の解釈可能な合理性を生成すると同時に、特定のユーザーグループに対するシステムのリスクを隠蔽し、利害関係者がシステムや政策立案者のリスクを管理し、消費者の安全のための具体的な保護を提供する手助けをする。 実験の結果,FARMはSafeTextデータセットの最先端結果を取得し,安全性の分類精度を5.9%向上した。

Users' physical safety is an increasing concern as the market for intelligent systems continues to grow, where unconstrained systems may recommend users dangerous actions that can lead to serious injury. Covertly unsafe text is an area of particular interest, as such text may arise from everyday scenarios and are challenging to detect as harmful. We propose FARM, a novel framework leveraging external knowledge for trustworthy rationale generation in the context of safety. In particular, FARM foveates on missing knowledge to qualify the information required to reason in specific scenarios and retrieves this information with attribution to trustworthy sources. This knowledge is used to both classify the safety of the original text and generate human-interpretable rationales, shedding light on the risk of systems to specific user groups and helping both stakeholders manage the risks of their systems and policymakers to provide concrete safeguards for consumer safety. Our experiments show that FARM obtains state-of-the-art results on the SafeText dataset, showing absolute improvement in safety classification accuracy by 5.9%.
翻訳日:2023-05-22 19:25:23 公開日:2023-05-19
# ニューラルマシン翻訳における教師なし幻覚検出のための最適輸送法

Optimal Transport for Unsupervised Hallucination Detection in Neural Machine Translation ( http://arxiv.org/abs/2212.09631v2 )

ライセンス: Link先を確認
Nuno M. Guerreiro, Pierre Colombo, Pablo Piantanida, Andr\'e F. T. Martins(参考訳) neural machine translation (nmt) は現実世界の機械翻訳アプリケーションにおいてデファクトスタンダードとなっている。 しかし、NMTモデルは、幻覚として知られる深刻な病的翻訳を予測不能に生成し、ユーザーの信頼を著しく損なう。 したがって、適切な機能を保証する効果的な予防戦略を実施することが不可欠となる。 本稿では,NMTにおける幻覚検出の問題点を,簡単な直感によって解決する:幻覚をソースコンテンツから切り離すと,高品質翻訳と統計的に異なるエンコーダ・デコーダの注意パターンを示す。 我々は,この問題を最適輸送定式化で構成し,注意に基づくNMTモデルで使用可能な,完全に教師なしのプラグイン検出器を提案する。 実験の結果,我々の検出器は,従来のモデルに基づく検出器よりも優れており,また,何百万ものサンプルで訓練された大規模モデルを用いる検出器と競合することがわかった。

Neural machine translation (NMT) has become the de-facto standard in real-world machine translation applications. However, NMT models can unpredictably produce severely pathological translations, known as hallucinations, that seriously undermine user trust. It becomes thus crucial to implement effective preventive strategies to guarantee their proper functioning. In this paper, we address the problem of hallucination detection in NMT by following a simple intuition: as hallucinations are detached from the source content, they exhibit encoder-decoder attention patterns that are statistically different from those of good quality translations. We frame this problem with an optimal transport formulation and propose a fully unsupervised, plug-in detector that can be used with any attention-based NMT model. Experimental results show that our detector not only outperforms all previous model-based detectors, but is also competitive with detectors that employ large models trained on millions of samples.
翻訳日:2023-05-22 19:25:04 公開日:2023-05-19
# 知らないことを知る:テキストからSQLへの曖昧で不可解な質問の扱い

Know What I don't Know: Handling Ambiguous and Unanswerable Questions for Text-to-SQL ( http://arxiv.org/abs/2212.08902v2 )

ライセンス: Link先を確認
Bing Wang, Yan Gao, Zhoujun Li, Jian-Guang Lou(参考訳) テキストからSQLへのタスクは、自然言語の質問をリレーショナルテーブルのコンテキスト内で対応するSQLクエリに変換することを目的としている。 既存のテキストからSQLへのパーサは任意のユーザ質問に対して"楽観的な"SQLクエリを生成します。 この問題を形式化するために,テキスト・トゥ・SQLにおける不明瞭・不確実な事例について予備研究を行い,それらを6つの特徴カテゴリにまとめる。 それに応じて,各カテゴリの背後にある原因を特定し,あいまいで不可解な質問を扱うための要件を提案する。 そこで本研究では,不明瞭かつ不確実なテキスト対SQLのサンプルを自動生成する,単純な反実例生成手法を提案する。 さらに、誤り検出、局所化、説明のための弱い教師付きDTE(Detecting-Then-Explaining)モデルを提案する。 実験の結果,実世界の実例と生成した実例の両方において,本モデルが最良となることがわかった。 私たちは、以下のデータとコードをリリースします。 \href{https://github.com/wbbeyourself/DTE}{https://github.com/wbbeyourself/DTE}。

The task of text-to-SQL aims to convert a natural language question into its corresponding SQL query within the context of relational tables. Existing text-to-SQL parsers generate a "plausible" SQL query for an arbitrary user question, thereby failing to correctly handle problematic user questions. To formalize this problem, we conduct a preliminary study on the observed ambiguous and unanswerable cases in text-to-SQL and summarize them into 6 feature categories. Correspondingly, we identify the causes behind each category and propose requirements for handling ambiguous and unanswerable questions. Following this study, we propose a simple yet effective counterfactual example generation approach that automatically produces ambiguous and unanswerable text-to-SQL examples. Furthermore, we propose a weakly supervised DTE (Detecting-Then-Explaining) model for error detection, localization, and explanation. Experimental results show that our model achieves the best result on both real-world examples and generated examples compared with various baselines. We release our data and code at: \href{https://github.com/wbbeyourself/DTE}{https://github.com/wbbeyourself/DTE}.
翻訳日:2023-05-22 19:24:47 公開日:2023-05-19
# 多言語翻訳における干渉の原因と治療

Causes and Cures for Interference in Multilingual Translation ( http://arxiv.org/abs/2212.07530v3 )

ライセンス: Link先を確認
Uri Shaham and Maha Elbayad and Vedanuj Goswami and Omer Levy and Shruti Bhosale(参考訳) 多言語機械翻訳モデルは、異なる言語ペア間のシナジーの恩恵を受けるが、干渉も受ける。 干渉を排除しようとする高度な手法が増えているが、干渉を現象として理解することは依然として限られている。 この研究は多言語機械翻訳における干渉に寄与する主な要因を特定する。 系統的な実験により、干渉(またはシナジー)はモデルのサイズ、データサイズ、および全データセット内の各言語ペアの割合によって決定されることがわかった。 モデルが利用可能なトレーニングデータに対して非常に小さい場合,10億未満のパラメータを持つ標準トランスフォーマー構成を用いることで,干渉が軽減され,シナジーが促進されることが観察された。 また,データ内の各言語対の比率を制御するためにサンプリング温度をチューニングすることが,低資源言語対と高資源言語対の干渉量を効果的にバランスさせる上で重要であることを示す。

Multilingual machine translation models can benefit from synergy between different language pairs, but also suffer from interference. While there is a growing number of sophisticated methods that aim to eliminate interference, our understanding of interference as a phenomenon is still limited. This work identifies the main factors that contribute to interference in multilingual machine translation. Through systematic experimentation, we find that interference (or synergy) are primarily determined by model size, data size, and the proportion of each language pair within the total dataset. We observe that substantial interference occurs mainly when the model is very small with respect to the available training data, and that using standard transformer configurations with less than one billion parameters largely alleviates interference and promotes synergy. Moreover, we show that tuning the sampling temperature to control the proportion of each language pair in the data is key to balancing the amount of interference between low and high resource language pairs effectively, and can lead to superior performance overall.
翻訳日:2023-05-22 19:24:28 公開日:2023-05-19
# ernie-code: プログラミング言語のための英語中心のクロスリンガル事前学習

ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for Programming Languages ( http://arxiv.org/abs/2212.06742v2 )

ライセンス: Link先を確認
Yekun Chai, Shuohuan Wang, Chao Pang, Yu Sun, Hao Tian, Hua Wu(参考訳) 同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆もまた、コミュニケーションと作業効率に対する大きな障壁を築きます。 近年、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、常に英語中心である。 本研究では,大規模言語モデル(LLM)における多言語NLと多言語PLのギャップを埋めることを目指す。 ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。 普遍的な言語間事前学習には,単言語nlやplからパターンを学習するスパン・腐敗言語モデリングと,多数のnlやplの並列データに依存するpivotに基づく翻訳言語モデリングの2つの手法を用いる。 ERNIE-Codeは、多言語のコード・トゥ・テキスト、テキスト・トゥ・コード、テキスト・トゥ・テキスト生成など、コードインテリジェンスの幅広いタスクにおいて、PLやNLの従来の多言語LLMよりも優れていた。 さらに,多言語コード要約とテキスト間翻訳におけるゼロショットプロンプトの利点を示す。 コードと事前トレーニング済みのチェックポイントをリリースします。

Software engineers working with the same programming language (PL) may speak different natural languages (NLs) and vice versa, erecting huge barriers to communication and working efficiency. Recent studies have demonstrated the effectiveness of generative pre-training in computer programs, yet they are always English-centric. In this work, we step towards bridging the gap between multilingual NLs and multilingual PLs for large language models (LLMs). We release ERNIE-Code, a unified pre-trained language model for 116 NLs and 6 PLs. We employ two methods for universal cross-lingual pre-training: span-corruption language modeling that learns patterns from monolingual NL or PL; and pivot-based translation language modeling that relies on parallel data of many NLs and PLs. Extensive results show that ERNIE-Code outperforms previous multilingual LLMs for PL or NL across a wide range of end tasks of code intelligence, including multilingual code-to-text, text-to-code, code-to-code, and text-to-text generation. We further show its advantage of zero-shot prompting on multilingual code summarization and text-to-text translation. We release our code and pre-trained checkpoints.
翻訳日:2023-05-22 19:24:11 公開日:2023-05-19
# 静止空間における運動拡散によるコマンドの実行

Executing your Commands via Motion Diffusion in Latent Space ( http://arxiv.org/abs/2212.04048v3 )

ライセンス: Link先を確認
Xin Chen, Biao Jiang, Wen Liu, Zilong Huang, Bin Fu, Tao Chen, Jingyi Yu, Gang Yu(参考訳) 本稿では,アクションクラスやテキスト記述子など,様々な条件入力に応じて人間の動作シーケンスを生成する課題である条件付きヒューマンモーション生成について検討する。 人間の動きは多様であり、自然言語におけるテキスト記述子のような条件付きモダリティとは全く異なる性質を持つため、所望の条件付きモダリティから人間の動き列への確率的マッピングを学ぶことは困難である。 さらに、モーションキャプチャシステムからの生のモーションデータはシーケンスが冗長でノイズも含んでいる可能性があり、生のモーションシーケンスと条件付きモダリティのジョイント分布を直接モデル化するには、重い計算オーバーヘッドが必要となり、キャプチャされたノイズによって引き起こされるアーティファクトを発生させる可能性がある。 人間の動作シーケンスをよりよく表現するために、我々はまず強力な変分オートエンコーダ(VAE)を設計し、人間の動作シーケンスを代表的で低次元の遅延コードに到達する。 次に, 動き列と条件入力との接続を確立するために拡散モデルを用いる代わりに, 動き潜在空間上で拡散過程を行う。 提案した動作遅延に基づく拡散モデル(MLD)は、与えられた条件入力に対応する鮮明な動き列を生成し、トレーニングおよび推論段階の計算オーバーヘッドを大幅に低減する。 様々な人体運動生成タスクに対する広範囲な実験により、我々のMLDは、広範囲な人体運動生成タスクにおける最先端の手法よりも大幅に改善され、原動列上の従来の拡散モデルよりも2桁高速であることが示された。

We study a challenging task, conditional human motion generation, which produces plausible human motion sequences according to various conditional inputs, such as action classes or textual descriptors. Since human motions are highly diverse and have a property of quite different distribution from conditional modalities, such as textual descriptors in natural languages, it is hard to learn a probabilistic mapping from the desired conditional modality to the human motion sequences. Besides, the raw motion data from the motion capture system might be redundant in sequences and contain noises; directly modeling the joint distribution over the raw motion sequences and conditional modalities would need a heavy computational overhead and might result in artifacts introduced by the captured noises. To learn a better representation of the various human motion sequences, we first design a powerful Variational AutoEncoder (VAE) and arrive at a representative and low-dimensional latent code for a human motion sequence. Then, instead of using a diffusion model to establish the connections between the raw motion sequences and the conditional inputs, we perform a diffusion process on the motion latent space. Our proposed Motion Latent-based Diffusion model (MLD) could produce vivid motion sequences conforming to the given conditional inputs and substantially reduce the computational overhead in both the training and inference stages. Extensive experiments on various human motion generation tasks demonstrate that our MLD achieves significant improvements over the state-of-the-art methods among extensive human motion generation tasks, with two orders of magnitude faster than previous diffusion models on raw motion sequences.
翻訳日:2023-05-22 19:23:38 公開日:2023-05-19
# すべてのドメインに対する1つのモデル:クロスドメインnerのためのコラボレーティブなドメインプリフィックスチューニング

One Model for All Domains: Collaborative Domain-Prefix Tuning for Cross-Domain NER ( http://arxiv.org/abs/2301.10410v4 )

ライセンス: Link先を確認
Xiang Chen, Lei Li, Shuofei Qiao, Ningyu Zhang, Chuanqi Tan, Yong Jiang, Fei Huang, Huajun Chen(参考訳) クロスドメインNERは、実践シナリオにおける低リソースの問題に対処する上で難しいタスクである。 従来の典型的なソリューションは主に、リッチリソースドメインのデータを持つ事前学習言語モデル(PLM)を用いてNERモデルを取得し、ターゲットドメインに適応する。 異なるドメインのエンティティタイプ間のミスマッチの問題のため、従来のアプローチは通常、PLMのすべてのパラメータをチューニングし、最終的に各ドメインに対して全く新しいNERモデルになる。 さらに、現在のモデルは、複数のソースからターゲットへの知識の転送に失敗しながら、単一のソースドメインにおける知識の活用にのみ焦点を当てている。 この問題に対処するために,テキスト対テキスト生成plmに基づくクロスドメインner(cp-ner)のための協調型ドメインプリフィックスチューニングを導入する。 具体的には、ドメイン関連インストラクターを対象に、構造変更なしに知識を新しいドメインNERタスクに転送するテキスト・ツー・テキスト生成を提案する。 凍結したPLMを利用して協調的なドメイン-プレフィックスチューニングを行い、PLMのポテンシャルを刺激し、NERタスクを様々なドメインで処理する。 Cross-NERベンチマークによる実験結果から,提案手法はフレキシブルトランスファー能力を有し,単一ソースと複数ソースのクロスドメインNERタスクにおいて優れた性能を発揮することが示された。 コードはhttps://github.com/zjunlp/deepke/tree/main/example/ner/crossで入手できる。

Cross-domain NER is a challenging task to address the low-resource problem in practical scenarios. Previous typical solutions mainly obtain a NER model by pre-trained language models (PLMs) with data from a rich-resource domain and adapt it to the target domain. Owing to the mismatch issue among entity types in different domains, previous approaches normally tune all parameters of PLMs, ending up with an entirely new NER model for each domain. Moreover, current models only focus on leveraging knowledge in one general source domain while failing to successfully transfer knowledge from multiple sources to the target. To address these issues, we introduce Collaborative Domain-Prefix Tuning for cross-domain NER (CP-NER) based on text-to-text generative PLMs. Specifically, we present text-to-text generation grounding domain-related instructors to transfer knowledge to new domain NER tasks without structural modifications. We utilize frozen PLMs and conduct collaborative domain-prefix tuning to stimulate the potential of PLMs to handle NER tasks across various domains. Experimental results on the Cross-NER benchmark show that the proposed approach has flexible transfer ability and performs better on both one-source and multiple-source cross-domain NER tasks. Codes are available in https://github.com/zjunlp/DeepKE/tree/main/example/ner/cross.
翻訳日:2023-05-22 19:16:04 公開日:2023-05-19
# 量子計算と情報

Notes on Quantum Computation and Information ( http://arxiv.org/abs/2301.09679v2 )

ライセンス: Link先を確認
Raghav G. Jha(参考訳) 量子ゲート,回路,アルゴリズム,定理,誤り訂正など,量子コンピューティングと情報の基礎を議論し,qiskitプログラムのコレクションと興味のある読者のためのエクササイズを提供する。

We discuss fundamentals of quantum computing and information - quantum gates, circuits, algorithms, theorems, error correction, and provide collection of QISKIT programs and exercises for the interested reader.
翻訳日:2023-05-22 19:15:40 公開日:2023-05-19
# 単発学習のためのオープンセット確率最大化

Open-Set Likelihood Maximization for Few-Shot Learning ( http://arxiv.org/abs/2301.08390v2 )

ライセンス: Link先を確認
Malik Boudiaf, Etienne Bennequin, Myriam Tami, Antoine Toubhans, Pablo Piantanida, C\'eline Hudelot, Ismail Ben Ayed(参考訳) Few-Shot Open-Set Recognition (FSOSR) 問題、すなわち、いくつかのラベル付きサンプルしか持たないクラスのインスタンスを分類すると同時に、既知のクラスに属さないインスタンスを同時に検出する。 提案手法では,推論時に非競合なクエリインスタンスを利用する。 既設のトランスダクティブ法がオープンセットのシナリオでは性能に乏しいという観測に動機づけられ,一般のパラメトリックモデルと並行して,潜在的外れ値の影響を弱める潜在スコアの一般化を提案する。 提案方式では,クエリ集合に対する過密な予測を損なうサポートセットと追加のペナルティからの監督制約を組み込む。 我々は,潜在スコアとパラメトリックモデルが交互に最適化され,相互に利益を得るブロック座標降下を行う。 我々は、結果の定式化を \textit{Open-Set Likelihood Optimization} (OSLO) と呼ぶ。 OSLOは解釈可能で、完全にモジュール化されている。 広範な実験を通じて,本手法は,オープンセット認識の両面において既存の帰納的および帰納的手法,すなわち不規則分類と外れ値検出を上回っていることを示す。

We tackle the Few-Shot Open-Set Recognition (FSOSR) problem, i.e. classifying instances among a set of classes for which we only have a few labeled samples, while simultaneously detecting instances that do not belong to any known class. We explore the popular transductive setting, which leverages the unlabelled query instances at inference. Motivated by the observation that existing transductive methods perform poorly in open-set scenarios, we propose a generalization of the maximum likelihood principle, in which latent scores down-weighing the influence of potential outliers are introduced alongside the usual parametric model. Our formulation embeds supervision constraints from the support set and additional penalties discouraging overconfident predictions on the query set. We proceed with a block-coordinate descent, with the latent scores and parametric model co-optimized alternately, thereby benefiting from each other. We call our resulting formulation \textit{Open-Set Likelihood Optimization} (OSLO). OSLO is interpretable and fully modular; it can be applied on top of any pre-trained model seamlessly. Through extensive experiments, we show that our method surpasses existing inductive and transductive methods on both aspects of open-set recognition, namely inlier classification and outlier detection.
翻訳日:2023-05-22 19:15:35 公開日:2023-05-19
# 効率的な情報流通

Efficient information distribution ( http://arxiv.org/abs/2301.02287v2 )

ライセンス: Link先を確認
Suchetana Goswami and Saronath Halder(参考訳) 局所的な識別不能状態は、情報がロックされているような空間的に分離された当事者間で情報を分配するのに有用である。 これは、当事者はローカル操作や古典的コミュニケーション(LOCC)を通じて情報を完全に抽出できないが、当事者が絡み合いを共有している場合、LOCCによって可能かもしれないことを意味する。 本研究では,m >= 3 の直交状態を用いた情報配信プロトコルについて検討し,k <= (m-1) の関係者が協力しても情報を完全には明らかにできないようにした。 このようなプロトコルは、エンコードされた情報がどの程度ロックされているかを理解するのに役立ちます。 しかし、必要であれば、関係者は絡み合いを共有し、LOCCによって情報を抽出することができる。 プロセスリソースを効率的にするためには、絡み合った状態の数を減らす必要がある。 各2部構成で局所的に区別できない状態の集合は、上記のプロトコルでは十分であるが、完全な情報抽出を目指す場合、より多くの絡み合った状態が消費される可能性がある。 上記のプロトコルを達成するために使用できる局所的に区別不能な直交状態の集合のクラスを構築し、これら集合は、完全な情報抽出のために前者の集合と比較して、より少ないエンタングル状態を使用する。 実際、完全な情報抽出に必要な絡み合った状態の数におけるこの差は、パーティーの数とともに直線的に増加する。 本研究は,量子状態の局所的識別可能性特性を資源として適切に利用することに光を当て,効率的な情報分布の方法を示す。

Locally indistinguishable states are useful to distribute information among spatially separated parties such that the information is locked. This implies that the parties are not able to extract the information completely via local operations and classical communication (LOCC) while it might be possible via LOCC when the parties share entanglement. In this work, we consider an information distribution protocol using orthogonal states for m >= 3 spatially separated parties such that even if any k <= (m-1) parties collaborate still the information cannot be revealed completely. Such a protocol is useful to understand up to what extent the encoded information remains locked. However, if required, the parties can share entanglement and extract the information completely by LOCC. To make the process resource efficient, it should consume less number of entangled states. We show that though the set of states, which are locally indistinguishable across every bipartition, are sufficient for the above protocol, they may consume higher number of entangled states when aiming for complete information extraction. We establish this by constructing a class of locally indistinguishable sets of orthogonal states which can be employed to accomplish the above protocol and these sets consume less number of entangled states, compared to the former sets, for complete information extraction. In fact, this difference in the number of required entangled states for complete information extraction grows linearly with the number of parties. This study sheds light on suitable use of local indistinguishability property of quantum states as resource and thus, we demonstrate an efficient way of information distribution.
翻訳日:2023-05-22 19:14:12 公開日:2023-05-19
# 高次元センサフィードバックを用いた灌水スケジューリングのための深部強化学習

Deep reinforcement learning for irrigation scheduling using high-dimensional sensor feedback ( http://arxiv.org/abs/2301.00899v2 )

ライセンス: Link先を確認
Yuji Saikai, Allan Peake, Karine Chenu(参考訳) 深層補強学習は,様々な測定値に適応的な水量を適用することにより,多くのクロッピングシステムにおいて灌水スケジューリングを改善する可能性を秘めている。 目標は、農家に利用可能な情報を処理し、考慮された時間ステップに対して合理的な灌水量を規定するインテリジェントな決定ルールを見つけることである。 しかし、技術革新のため、この技術の研究はまばらで実用的ではないままである。 そこで本論文では, 研究者が独自の最適化問題を定式化し, 深層強化学習に基づく解法アルゴリズムを実装可能な, 基本的枠組みと実行可能な手順を提案する。 本フレームワークの有効性は, 利益が最大化されたオーストラリアの生産地域で栽培された灌水小麦のケーススタディを用いて実証した。 特に、決定規則は、作物の表現学的段階、葉面積指数、5つのトップ層ごとに抽出可能な土壌水、累積降雨、累積灌水という9つの状態変数の入力を必要とする。 毎日、5つの候補灌水量(0, 10, 20, 30, 40 mm)以上の確率的処方薬を返します。 生産システムはAPSIM-Wheatモデルを用いてGoondiwindiでシミュレーションした。 1981-2010年の気象データを用いて学習環境のトレーニングを行った結果,2011-2020年ごとの学習決定ルールを個別に検証した。 その結果,この地域で共通する従来法で得られた平均利益と比較した。 検出された決定規則は、従来の試験年で均一に改良された日次灌水量を規定し、2018年には最大の改善が17%に達した。 このフレームワークは汎用的で、現実的な最適化問題のある幅広いクロッピングシステムに適用できる。

Deep reinforcement learning has considerable potential to improve irrigation scheduling in many cropping systems by applying adaptive amounts of water based on various measurements over time. The goal is to discover an intelligent decision rule that processes information available to growers and prescribes sensible irrigation amounts for the time steps considered. Due to the technical novelty, however, the research on the technique remains sparse and impractical. To accelerate the progress, the paper proposes a principled framework and actionable procedure that allow researchers to formulate their own optimisation problems and implement solution algorithms based on deep reinforcement learning. The effectiveness of the framework was demonstrated using a case study of irrigated wheat grown in a productive region of Australia where profits were maximised. Specifically, the decision rule takes nine state variable inputs: crop phenological stage, leaf area index, extractable soil water for each of the five top layers, cumulative rainfall and cumulative irrigation. It returns a probabilistic prescription over five candidate irrigation amounts (0, 10, 20, 30 and 40 mm) every day. The production system was simulated at Goondiwindi using the APSIM-Wheat crop model. After training in the learning environment using 1981-2010 weather data, the learned decision rule was tested individually for each year of 2011-2020. The results were compared against the benchmark profits obtained by a conventional rule common in the region. The discovered decision rule prescribed daily irrigation amounts that uniformly improved on the conventional rule for all the testing years, and the largest improvement reached 17% in 2018. The framework is general and applicable to a wide range of cropping systems with realistic optimisation problems.
翻訳日:2023-05-22 19:13:47 公開日:2023-05-19
# 実行に基づくオープンドメインコード生成の評価

Execution-Based Evaluation for Open-Domain Code Generation ( http://arxiv.org/abs/2212.10481v2 )

ライセンス: Link先を確認
Zhiruo Wang, Shuyan Zhou, Daniel Fried, Graham Neubig(参考訳) コーディングクエリのスコープをより現実的な設定に拡張するため、最初のオープンドメイン実行ベース自然言語(NL)であるODEXをPythonコード生成データセットに提案する。 ODEXには79の多様なライブラリにまたがる945のNL-Codeペアと1,707の人間が書いたテストケースがある。 当社のNL-CodeペアはStackOverflowフォーラムから取得して,自然かつ実用的なコーディングクエリを奨励しています。 さらに、ODEXは英語、スペイン語、日本語、ロシア語の4つの自然言語を意図としてサポートしている。 ODEXは、最高のパフォーマンスのコード言語モデル(LM)間の興味深い振る舞いの違いを公表している。 CODEGEN 6.1BはCODEX 12Bと互換性のあるパフォーマンスを実現している。 どちらのモデルも開域と閉域の間にかなりのギャップを示すが、CODEGENギャップはモデルサイズとともに減少し、CODEXギャップは増加する。 我々は、コード生成コミュニティのオープンドメイン問題の研究を促進するためにODEXをリリースします。

To extend the scope of coding queries to more realistic settings, we propose ODEX, the first Open-Domain EXecution-based natural language (NL) to Python code generation dataset. ODEX has 945 NL-Code pairs spanning 79 diverse libraries, along with 1,707 human-written test cases for execution. Our NL-Code pairs are harvested from StackOverflow forums to encourage natural and practical coding queries. Moreover, ODEX supports four natural languages as intents, in English, Spanish, Japanese, and Russian. ODEX unveils intriguing behavioral differences among top-performing code language models (LM). While CODEX achieves better overall results, CODEGEN improves effectively via scaling -- CODEGEN 6.1B performs comparably with CODEX 12B. Both models show substantial gaps between open and closed domains, but CODEGEN gaps tend to decrease with model size while CODEX gaps increase. We release ODEX to facilitate research into open-domain problems for the code generation community.
翻訳日:2023-05-22 19:13:07 公開日:2023-05-19
# 神経容量型クラスタリング

Neural Capacitated Clustering ( http://arxiv.org/abs/2302.05134v2 )

ライセンス: Link先を確認
Jonas K. Falkner and Lars Schmidt-Thieme(参考訳) 深層クラスタリングに関する最近の研究は、制約付きクラスタリング問題にも新しい有望な方法を発見した。 典型的なペアワイズ制約は、しばしばデータのパーティショニングのガイドに使用することができる。 しかし、多くの問題はクラスタレベルの制約(例えばキャパシテーションクラスタリング問題(ccp))を特徴としており、各ポイントは重みを持ち、各クラスタ内のすべてのポイントの合計重量和は所定の容量で区切られている。 本稿では,CCPの新しい手法であるNeural Capacited Clusteringを提案し,他の問題インスタンスの最適あるいはほぼ最適過去の解のデータセットから,クラスタセンターへのポイントの割り当て確率を予測するニューラルネットワークを学習する。 推論の間、結果のスコアは、キャパシティ制約の下で割り当てを洗練するための反復的なk平均のような手順で使用される。 人工データと2つの実世界のデータセットに関する実験では、我々のアプローチは、文学の最先端の数学的、ヒューリスティックな解法よりも優れています。 さらに,本手法をキャパシタ付き車両ルーティング問題(cvrp)にクラスタファーストルート秒アプローチの文脈に適用し,よく知られているuchoaベンチマークで競合結果を示す。

Recent work on deep clustering has found new promising methods also for constrained clustering problems. Their typically pairwise constraints often can be used to guide the partitioning of the data. Many problems however, feature cluster-level constraints, e.g. the Capacitated Clustering Problem (CCP), where each point has a weight and the total weight sum of all points in each cluster is bounded by a prescribed capacity. In this paper we propose a new method for the CCP, Neural Capacited Clustering, that learns a neural network to predict the assignment probabilities of points to cluster centers from a data set of optimal or near optimal past solutions of other problem instances. During inference, the resulting scores are then used in an iterative k-means like procedure to refine the assignment under capacity constraints. In our experiments on artificial data and two real world datasets our approach outperforms several state-of-the-art mathematical and heuristic solvers from the literature. Moreover, we apply our method in the context of a cluster-first-route-second approach to the Capacitated Vehicle Routing Problem (CVRP) and show competitive results on the well-known Uchoa benchmark.
翻訳日:2023-05-22 19:07:09 公開日:2023-05-19
# 二次記憶は凸最適化における最適クエリ複雑度に必要な:中心はパレート最適

Quadratic Memory is Necessary for Optimal Query Complexity in Convex Optimization: Center-of-Mass is Pareto-Optimal ( http://arxiv.org/abs/2302.04963v2 )

ライセンス: Link先を確認
Mo\"ise Blanchard, Junhui Zhang and Patrick Jaillet(参考訳) 我々は、凸最適化と関連する実現可能性問題に対するクエリ複雑性の低い境界を与える。 一階の凸最適化に最適なオラクルの複雑さを達成するには二次記憶が必要であることを示す。 特にこれは、$\tilde o(d^2)$メモリと$\tilde o(d)$クエリを使用する次元$d$のマスカットプレーンズアルゴリズムが、対数因子による凸最適化と実現可能性問題の両方に対してパレート最適であることを示している。 正確には、単位球上の1ドルのリプシッツ凸関数を1/d^4$精度に最小化するためには、最大$d^{2-\delta}$ビットのメモリを使用する決定論的一階アルゴリズムは、任意の$\delta\in[0,1]$に対して$\tilde\omega(d^{1+\delta/3})$クエリを行なわなければならない。 アルゴリズムが分離オラクルにしかアクセスできない実現可能性問題に対して、我々はより強いトレードオフを示す:少なくとも$d^{2-\delta}$メモリの場合、要求されるクエリの数は$\tilde\Omega(d^{1+\delta})$である。 これにより、woodworth と srebro の colt 2019 open problem が解決される。

We give query complexity lower bounds for convex optimization and the related feasibility problem. We show that quadratic memory is necessary to achieve the optimal oracle complexity for first-order convex optimization. In particular, this shows that center-of-mass cutting-planes algorithms in dimension $d$ which use $\tilde O(d^2)$ memory and $\tilde O(d)$ queries are Pareto-optimal for both convex optimization and the feasibility problem, up to logarithmic factors. Precisely, we prove that to minimize $1$-Lipschitz convex functions over the unit ball to $1/d^4$ accuracy, any deterministic first-order algorithms using at most $d^{2-\delta}$ bits of memory must make $\tilde\Omega(d^{1+\delta/3})$ queries, for any $\delta\in[0,1]$. For the feasibility problem, in which an algorithm only has access to a separation oracle, we show a stronger trade-off: for at most $d^{2-\delta}$ memory, the number of queries required is $\tilde\Omega(d^{1+\delta})$. This resolves a COLT 2019 open problem of Woodworth and Srebro.
翻訳日:2023-05-22 19:06:49 公開日:2023-05-19
# マイグレーションのリフレーム? ウクライナ危機時のヨーロッパにおけるスタンスシフトに関する多言語分析

Migration Reframed? A multilingual analysis on the stance shift in Europe during the Ukrainian crisis ( http://arxiv.org/abs/2302.02813v2 )

ライセンス: Link先を確認
Sergej Wildemann, Claudia Nieder\'ee, Erick Elejalde(参考訳) ウクライナでの戦争は、少なくともウクライナからの難民に向けて、欧州の移住に関する重要な社会問題に対する態度を積極的に変えたようだ。 この印象が、その話題がオンラインニュースやソーシャルメディアにどのように反映されているかによって裏付けられているかを調査し、ウェブ上の問題表現と社会におけるその認識を結びつける。 そこで本研究では,前縁自動テキスト処理を組み合わせることで,新しい多言語姿勢検出手法を提案する。 2021年9月から565の欧州ニュース機関が発行した550万のtwitter投稿から始まり、ヨーロッパおよび選択されたヨーロッパ諸国の移動関連メディアのカバレッジと関連するソーシャルメディアのやりとりを多言語で分析した。 分析の結果,「移民」から「難民」への用語変更や、「現実の難民」などの語句にアクセントを付けた「難民」など,議論のリフレーミングが実際に行われていることが示唆された。 しかし、大衆の認識の姿勢の変化に関して、この絵は予想以上に多様である。 分析されたすべてのケースは、ウクライナでの戦争開始前後に顕著な時間的スタンスの変化を示している。 それでも、このシフトの規模と安定性には明らかに全国的な違いがある。

The war in Ukraine seems to have positively changed the attitude toward the critical societal topic of migration in Europe -- at least towards refugees from Ukraine. We investigate whether this impression is substantiated by how the topic is reflected in online news and social media, thus linking the representation of the issue on the Web to its perception in society. For this purpose, we combine and adapt leading-edge automatic text processing for a novel multilingual stance detection approach. Starting from 5.5M Twitter posts published by 565 European news outlets in one year, beginning September 2021, plus replies, we perform a multilingual analysis of migration-related media coverage and associated social media interaction for Europe and selected European countries. The results of our analysis show that there is actually a reframing of the discussion illustrated by the terminology change, e.g., from "migrant" to "refugee", often even accentuated with phrases such as "real refugees". However, concerning a stance shift in public perception, the picture is more diverse than expected. All analyzed cases show a noticeable temporal stance shift around the start of the war in Ukraine. Still, there are apparent national differences in the size and stability of this shift.
翻訳日:2023-05-22 19:06:21 公開日:2023-05-19
# PubGraph: 大規模科学知識グラフ

PubGraph: A Large-Scale Scientific Knowledge Graph ( http://arxiv.org/abs/2302.02231v2 )

ライセンス: Link先を確認
Kian Ahrabian, Xinwei Du, Richard Delwin Myloth, Arun Baalaaji Sankar Ananthan, Jay Pujara(参考訳) 研究出版物は、新しい発見、方法、技術、洞察の形で科学的進歩を共有するための主要な手段である。 残念ながら、出版物、著者、会場間の無数の関係を捉えた大規模で包括的で使いやすいリソースが欠如していることは、科学をより深く理解するための応用への障壁となっている。 本稿では,385万以上のエンティティ,13Bの主エッジ,1.5Bの等化エッジを持つ大規模知識グラフ(KG)の形式を取り入れた,科学的進歩を研究するための新たなリソースPubGraphを提案する。 PubGraphはWikidata、OpenAlex、Semantic Scholarなど、さまざまなソースからのデータをWikidataオントロジーを使って包括的に統合している。 これらのソースから利用可能なメタデータ以外にも、PubGraphは補助的なコミュニティ検出アルゴリズムと大規模言語モデルからの出力を含んでいる。 科学ネットワーク上の推論研究をさらに支援するために,知識グラフ補完(KGC)のコアタスクとしてPubGraphから抽出した大規模ベンチマークを複数作成する。 これらのベンチマークは、逆コミュニティベースのkgc評価設定、ゼロショットインダクティブ学習、大規模学習など、知識グラフ埋め込みモデルに対する多くの課題を示している。 上記のリソースはすべてhttps://pubgraph.isi.edu/でアクセスでき、CC-BY-SAライセンスでリリースされている。 新しい出版物のリリースに対応するため、PubGraphを四半期毎に更新する予定です。

Research publications are the primary vehicle for sharing scientific progress in the form of new discoveries, methods, techniques, and insights. Unfortunately, the lack of a large-scale, comprehensive, and easy-to-use resource capturing the myriad relationships between publications, their authors, and venues presents a barrier to applications for gaining a deeper understanding of science. In this paper, we present PubGraph, a new resource for studying scientific progress that takes the form of a large-scale knowledge graph (KG) with more than 385M entities, 13B main edges, and 1.5B qualifier edges. PubGraph is comprehensive and unifies data from various sources, including Wikidata, OpenAlex, and Semantic Scholar, using the Wikidata ontology. Beyond the metadata available from these sources, PubGraph includes outputs from auxiliary community detection algorithms and large language models. To further support studies on reasoning over scientific networks, we create several large-scale benchmarks extracted from PubGraph for the core task of knowledge graph completion (KGC). These benchmarks present many challenges for knowledge graph embedding models, including an adversarial community-based KGC evaluation setting, zero-shot inductive learning, and large-scale learning. All of the aforementioned resources are accessible at https://pubgraph.isi.edu/ and released under the CC-BY-SA license. We plan to update PubGraph quarterly to accommodate the release of new publications.
翻訳日:2023-05-22 19:06:03 公開日:2023-05-19
# バックドア攻撃に対する防御のためのサルエント条件拡散

Salient Conditional Diffusion for Defending Against Backdoor Attacks ( http://arxiv.org/abs/2301.13862v2 )

ライセンス: Link先を確認
Brandon B. May, N. Joseph Tatro, Dylan Walker, Piyush Kumar, Nathan Shnidman(参考訳) 本研究では,バックドア攻撃に対する最先端の防御手法であるSalient Conditional Diffusion (Sancdifi)を提案する。 Sancdifi は denoising diffusion probabilistic model (DDPM) を用いて、ノイズのある画像を分解し、学習した逆拡散を用いてその画像を復元する。 重要な点として,我々は高感度マップベースのマスクを計算して拡散を条件付け,DDPMによる最も高精細なピクセルへの拡散を強くする。 その結果、Sancdifiはバックドア攻撃によるデータのトリガーを拡散させるのに非常に効果的である。 同時に、クリーンなデータに適用した際の健全な特徴を確実に回復する。 この性能は、トロイの木馬ネットワークのモデルパラメータにアクセスする必要がなく、つまり、サンディフィはブラックボックスディフェンスとして動作する。

We propose a novel algorithm, Salient Conditional Diffusion (Sancdifi), a state-of-the-art defense against backdoor attacks. Sancdifi uses a denoising diffusion probabilistic model (DDPM) to degrade an image with noise and then recover said image using the learned reverse diffusion. Critically, we compute saliency map-based masks to condition our diffusion, allowing for stronger diffusion on the most salient pixels by the DDPM. As a result, Sancdifi is highly effective at diffusing out triggers in data poisoned by backdoor attacks. At the same time, it reliably recovers salient features when applied to clean data. This performance is achieved without requiring access to the model parameters of the Trojan network, meaning Sancdifi operates as a black-box defense.
翻訳日:2023-05-22 19:05:21 公開日:2023-05-19
# ゼロショット因果学習

Zero-shot causal learning ( http://arxiv.org/abs/2301.12292v2 )

ライセンス: Link先を確認
Hamed Nilforoshan, Michael Moor, Yusuf Roohani, Yining Chen, Anja \v{S}urina, Michihiro Yasunaga, Sara Oblak, Jure Leskovec(参考訳) パーソナライズされた医療、公共政策、オンラインマーケティングなど様々な分野において、異なる介入が特定の個人に因果的にどのように影響するかを予測することは重要である。 既往の介入の効果を予測する方法は,それを受けた個人からの履歴データに基づいて多数存在する。 しかし、多くの場面において、これらの方法が対処しない新しい介入(例えば、新しく発明された薬物)の効果を予測することが重要である。 ここではゼロショット因果学習を考察し,新しい介入のパーソナライズ効果を予測する。 タスクとして各介入の効果のパーソナライズされた予測を定式化する因果メタラーニングフレームワークであるCaMLを提案する。 camlは、何千ものタスクにまたがる単一のメタモデルを訓練し、それぞれが介入をサンプリングし、受信者や非受信者とともに構築する。 介入情報(例えば薬物の属性)と個々の特徴~(例えば患者の歴史)の両方を活用することで、CaMLはトレーニング時に存在しない新規介入のパーソナライズされた効果を予測することができる。 大規模医療クレームとセルライン摂動における実世界データセットの実験結果は,本手法の有効性を示している。 最も驚くべきことに、CaMLのゼロショット予測は、テスト介入から直接トレーニングされた強力なベースラインよりも優れています。

Predicting how different interventions will causally affect a specific individual is important in a variety of domains such as personalized medicine, public policy, and online marketing. There are a large number of methods to predict the effect of an existing intervention based on historical data from individuals who received it. However, in many settings it is important to predict the effects of novel interventions (\emph{e.g.}, a newly invented drug), which these methods do not address. Here, we consider zero-shot causal learning: predicting the personalized effects of a novel intervention. We propose CaML, a causal meta-learning framework which formulates the personalized prediction of each intervention's effect as a task. CaML trains a single meta-model across thousands of tasks, each constructed by sampling an intervention, along with its recipients and nonrecipients. By leveraging both intervention information (\emph{e.g.}, a drug's attributes) and individual features~(\emph{e.g.}, a patient's history), CaML is able to predict the personalized effects of novel interventions that do not exist at the time of training. Experimental results on real world datasets in large-scale medical claims and cell-line perturbations demonstrate the effectiveness of our approach. Most strikingly, CaML's zero-shot predictions outperform even strong baselines trained directly on data from the test interventions.
翻訳日:2023-05-22 19:04:49 公開日:2023-05-19
# TinyMLは持続可能か? マイクロコントローラにおける機械学習の環境影響評価

Is TinyML Sustainable? Assessing the Environmental Impacts of Machine Learning on Microcontrollers ( http://arxiv.org/abs/2301.11899v2 )

ライセンス: Link先を確認
Shvetank Prakash, Matthew Stewart, Colby Banbury, Mark Mazumder, Pete Warden, Brian Plancher, Vijay Janapa Reddi(参考訳) 炭素排出量とグローバル廃棄物の持続的成長は、環境の将来に重大な持続可能性の懸念をもたらす。 モノのインターネット(IoT)は、この問題を悪化させる可能性がある。 しかし、Tiny Machine Learning(TinyML)と呼ばれる新興分野は、持続可能なコンピューティングプラクティスを通じて、これらの環境課題に対処する機会を持っている。 低コストで低消費電力のマイクロコントローラシステムに機械学習(ML)アルゴリズムをデプロイするTinyMLは、デバイス上のセンサー分析を可能にし、多くの常時オンのMLアプリケーションをアンロックする。 この記事では、これらのTinyMLアプリケーションが重要な持続可能性課題に対処する可能性と、この新興技術の環境フットプリントについて論じる。 完全なライフサイクル分析(LCA)を通して、TinyMLシステムは、他のセクターの排出量を減らすアプリケーションを可能にすることによって、炭素排出量を相殺する機会を与える。 それにもかかわらず、グローバルにスケールすると、tinymlシステムのカーボンフットプリントは無視できない。 最後に、tinymlのさらなる持続可能な貢献を可能にするための研究の方向性について概説する。

The sustained growth of carbon emissions and global waste elicits significant sustainability concerns for our environment's future. The growing Internet of Things (IoT) has the potential to exacerbate this issue. However, an emerging area known as Tiny Machine Learning (TinyML) has the opportunity to help address these environmental challenges through sustainable computing practices. TinyML, the deployment of machine learning (ML) algorithms onto low-cost, low-power microcontroller systems, enables on-device sensor analytics that unlocks numerous always-on ML applications. This article discusses both the potential of these TinyML applications to address critical sustainability challenges, as well as the environmental footprint of this emerging technology. Through a complete life cycle analysis (LCA), we find that TinyML systems present opportunities to offset their carbon emissions by enabling applications that reduce the emissions of other sectors. Nevertheless, when globally scaled, the carbon footprint of TinyML systems is not negligible, necessitating that designers factor in environmental impact when formulating new devices. Finally, we outline research directions to enable further sustainable contributions of TinyML.
翻訳日:2023-05-22 19:04:25 公開日:2023-05-19
# ドメインシフトによる白血球分類のベンチマーク

Benchmarking White Blood Cell Classification Under Domain Shift ( http://arxiv.org/abs/2303.01777v2 )

ライセンス: Link先を確認
Satoshi Tsutsui, Zhengyang Su, Bihan Wen(参考訳) ヒト血液スミアの顕微鏡像における白血球(WBC)のタイプを認識することは、病理学と血液学の分野における基本的な課題である。 これまでの研究はメソッドやデータセットの開発に多大な貢献をしてきたが、他者が容易に参照できるベンチマークやベースラインを調査した論文はほとんどない。 例えば、同じ畳み込みニューラルネットワーク(CNN)モデルの報告された精度において、様々な研究で顕著なばらつきが見られたが、これらの結果を再現するための公開実装は存在しない。 本稿では,WBC認識のためのベンチマークを確立する。 以上の結果から,CNNモデルと類似の撮像条件下でのトレーニングおよびテストにより,精度の高いCNNモデルが得られた。 しかし、異なる条件下でテストすると、パフォーマンスは大幅に低下する。 また,先行研究で広く採用されているresnet分類器は,バッチ正規化による領域シフト下では不当な一般化能力を示す。 この問題を調査し,それを軽減する代替正規化手法を提案する。 完全に再現可能なコードは、github.com/apple2373/wbc-benchmark}} で公開されている。

Recognizing the types of white blood cells (WBCs) in microscopic images of human blood smears is a fundamental task in the fields of pathology and hematology. Although previous studies have made significant contributions to the development of methods and datasets, few papers have investigated benchmarks or baselines that others can easily refer to. For instance, we observed notable variations in the reported accuracies of the same Convolutional Neural Network (CNN) model across different studies, yet no public implementation exists to reproduce these results. In this paper, we establish a benchmark for WBC recognition. Our results indicate that CNN-based models achieve high accuracy when trained and tested under similar imaging conditions. However, their performance drops significantly when tested under different conditions. Moreover, the ResNet classifier, which has been widely employed in previous work, exhibits an unreasonably poor generalization ability under domain shifts due to batch normalization. We investigate this issue and suggest some alternative normalization techniques that can mitigate it. We make fully-reproducible code publicly available\footnote{\url{https://github.com/apple2373/wbc-benchmark}}.
翻訳日:2023-05-22 18:56:59 公開日:2023-05-19
# UniFLG:テキストや音声から一元化した顔のランドマーク生成装置

UniFLG: Unified Facial Landmark Generator from Text or Speech ( http://arxiv.org/abs/2302.14337v2 )

ライセンス: Link先を確認
Kentaro Mitsui, Yukiya Hono, Kei Sawada(参考訳) 顔の生成は、その幅広い適用性のために広く研究されている。 話し顔生成に使用される2つの主要なフレームワークは、テキストから同期された音声と話し顔を生成するテキスト駆動フレームワークと、音声から話す顔を生成する音声駆動フレームワークからなる。 これらのフレームワークを統合するため,本稿では統一顔ランドマーク生成器 (uniflg) を提案する。 提案システムは、音声合成だけでなく、テキストや音声に共通する一連の潜在表現の抽出にも利用し、ランドマークデコーダに入力して顔のランドマークを生成する。 本研究では, 音声合成と顔のランドマーク生成において, 最先端のテキスト駆動方式よりも自然性が高いことを示す。 さらに, 顔画像データや音声データなしに, 話者の音声から顔のランドマークを生成できることを実証した。

Talking face generation has been extensively investigated owing to its wide applicability. The two primary frameworks used for talking face generation comprise a text-driven framework, which generates synchronized speech and talking faces from text, and a speech-driven framework, which generates talking faces from speech. To integrate these frameworks, this paper proposes a unified facial landmark generator (UniFLG). The proposed system exploits end-to-end text-to-speech not only for synthesizing speech but also for extracting a series of latent representations that are common to text and speech, and feeds it to a landmark decoder to generate facial landmarks. We demonstrate that our system achieves higher naturalness in both speech synthesis and facial landmark generation compared to the state-of-the-art text-driven method. We further demonstrate that our system can generate facial landmarks from speech of speakers without facial video data or even speech data.
翻訳日:2023-05-22 18:56:41 公開日:2023-05-19
# シャープネスを意識した最小化の統計的特性:確率的保証

On Statistical Properties of Sharpness-Aware Minimization: Provable Guarantees ( http://arxiv.org/abs/2302.11836v3 )

ライセンス: Link先を確認
Kayhan Behdin, Rahul Mazumder(参考訳) Sharpness-Aware Minimization (SAM)は、フラットな(よりシャープでない)ソリューションを得ることによって、ディープニューラルネットワークの一般化を改善することを目的とした、最近の最適化フレームワークである。 SAM が数値的に成功したため、最近の論文ではフレームワークの理論的な側面を研究し、SAM の解が実際に平坦であることを示した。 しかし、SAMの統計的性質に関する理論的研究は限られている。 本研究では,SAMの統計的性能を直接研究し,SAMの一般化の理由を理論的に説明する。 この目的のために,隠れ層とカーネル回帰を持つニューラルネットワークの2つの統計的問題を調査し,特定の条件下でsamは勾配降下による予測誤差(gd)が小さいことを証明した。 結果は凸と非凸の両方に関係しており,SAMは非凸問題に特に適していることを示す。 さらに、私たちの設定ではSAMソリューションもシャープにならず、その結果が以前の作業と一致していることを示す。 深層ニューラルネットワークを含む多数のシナリオにおける数値実験を用いて理論的知見を検証した。

Sharpness-Aware Minimization (SAM) is a recent optimization framework aiming to improve the deep neural network generalization, through obtaining flatter (i.e. less sharp) solutions. As SAM has been numerically successful, recent papers have studied the theoretical aspects of the framework and have shown SAM solutions are indeed flat. However, there has been limited theoretical exploration regarding statistical properties of SAM. In this work, we directly study the statistical performance of SAM, and present a new theoretical explanation of why SAM generalizes well. To this end, we study two statistical problems, neural networks with a hidden layer and kernel regression, and prove under certain conditions, SAM has smaller prediction error over Gradient Descent (GD). Our results concern both convex and non-convex settings, and show that SAM is particularly well-suited for non-convex problems. Additionally, we prove that in our setup, SAM solutions are less sharp as well, showing our results are in agreement with the previous work. Our theoretical findings are validated using numerical experiments on numerous scenarios, including deep neural networks.
翻訳日:2023-05-22 18:55:55 公開日:2023-05-19
# 知っておくべきことすべては「サム」だ

Some Might Say All You Need Is Sum ( http://arxiv.org/abs/2302.11603v2 )

ライセンス: Link先を確認
Eran Rosenbluth, Jan Toenshoff, Martin Grohe(参考訳) グラフニューラルネットワーク(gnns)の表現性は、それらが採用する集約関数に依存する。 理論的な研究は、他のすべてのGNNを仮定する Sumアグリゲーション GNN に向けられているが、ある実践的な研究は、Mean と Max を使うことに対する明確な優位性を観察している。 理論的保証の検証は2つの注意事項を識別する。 第一に、それはサイズ制限され、すなわち、特定のGNNのパワーは特定のサイズのグラフに制限される。 より大きなグラフを処理するには、他のGNNなどが必要になる。 第二に、グラフ上の一般函数を近似する力ではなく、非同型グラフを区別する力に関係しており、前者は必ずしも後者を含まない。 GNNのユーザビリティは、特定のサイズのグラフに制限されないことが望ましい。 したがって,非制限サイズ表現の領域を探索する。 我々は,Mean や Max GNN によって正確に計算できる基本関数が任意の Sum GNN によって近似できないことを証明した。 一定の制限の下では、すべての平均または最大 GNN は Sum GNN によって近似できるが、そこでさえも (Sum, [Mean/Max]) の組み合わせは Sum 単独よりも表現力が高い。 最後に,広範に集約されたGNNに対して,さらなる表現性制限を証明した。

The expressivity of Graph Neural Networks (GNNs) is dependent on the aggregation functions they employ. Theoretical works have pointed towards Sum aggregation GNNs subsuming every other GNNs, while certain practical works have observed a clear advantage to using Mean and Max. An examination of the theoretical guarantee identifies two caveats. First, it is size-restricted, that is, the power of every specific GNN is limited to graphs of a specific size. Successfully processing larger graphs may require an other GNN, and so on. Second, it concerns the power to distinguish non-isomorphic graphs, not the power to approximate general functions on graphs, and the former does not necessarily imply the latter. It is desired that a GNN's usability will not be limited to graphs of any specific size. Therefore, we explore the realm of unrestricted-size expressivity. We prove that basic functions, which can be computed exactly by Mean or Max GNNs, are inapproximable by any Sum GNN. We prove that under certain restrictions, every Mean or Max GNN can be approximated by a Sum GNN, but even there, a combination of (Sum, [Mean/Max]) is more expressive than Sum alone. Lastly, we prove further expressivity limitations for GNNs with a broad class of aggregations.
翻訳日:2023-05-22 18:55:34 公開日:2023-05-19
# 関数近似による強化学習:線形から非線形へ

Reinforcement Learning with Function Approximation: From Linear to Nonlinear ( http://arxiv.org/abs/2302.09703v2 )

ライセンス: Link先を確認
Jihao Long and Jiequn Han(参考訳) 関数近似は、高次元の大きな状態空間の問題に対処するために設計された現代の強化学習アルゴリズムにおいて欠かせない要素である。 本稿では、線形あるいは非線形近似設定におけるこれらの強化学習アルゴリズムの誤差解析に関する最近の結果について、近似誤差と推定誤差/サンプル複雑性を強調する。 近似誤差に関する諸性質について考察し,これらの性質が真である遷移確率と報酬関数に関する具体的な条件について述べる。 強化学習におけるサンプル複雑性解析は、主に分布ミスマッチ現象のため、教師あり学習よりも複雑である。 問題の線形構造を仮定すると、多くのアルゴリズムが特徴数、エピソード長、正確性に関して多項式のサンプル複雑性を達成するが、最小化速度はまだ達成されていない。 これらの結果は、分布ミスマッチ現象を処理できる推定誤差の$l^\infty$およびucb推定に依存する。 L^\infty$ と UCB の推定の両方が高次元での誤差の有界化に不適切であるため、非線形関数近似の設定において問題と解析がかなり困難になる。 分散ミスマッチに対処するために必要な追加の仮定について検討し,非線形rl問題に対して有意義な結果を導出する。

Function approximation has been an indispensable component in modern reinforcement learning algorithms designed to tackle problems with large state spaces in high dimensions. This paper reviews recent results on error analysis for these reinforcement learning algorithms in linear or nonlinear approximation settings, emphasizing approximation error and estimation error/sample complexity. We discuss various properties related to approximation error and present concrete conditions on transition probability and reward function under which these properties hold true. Sample complexity analysis in reinforcement learning is more complicated than in supervised learning, primarily due to the distribution mismatch phenomenon. With assumptions on the linear structure of the problem, numerous algorithms in the literature achieve polynomial sample complexity with respect to the number of features, episode length, and accuracy, although the minimax rate has not been achieved yet. These results rely on the $L^\infty$ and UCB estimation of estimation error, which can handle the distribution mismatch phenomenon. The problem and analysis become substantially more challenging in the setting of nonlinear function approximation, as both $L^\infty$ and UCB estimation are inadequate for bounding the error with a favorable rate in high dimensions. We discuss additional assumptions necessary to address the distribution mismatch and derive meaningful results for nonlinear RL problems.
翻訳日:2023-05-22 18:55:11 公開日:2023-05-19
# 大きな小さなトランスフォーマデコーダ

Big Little Transformer Decoder ( http://arxiv.org/abs/2302.07863v2 )

ライセンス: Link先を確認
Sehoon Kim, Karttikeya Mangalam, Suhong Moon, John Canny, Jitendra Malik, Michael W. Mahoney, Amir Gholami, Kurt Keutzer(参考訳) トランスフォーマーアーキテクチャに基づく大規模言語モデルの近年の出現は、自然言語処理の分野で劇的な進歩を可能にしている。 しかし、これらのモデルには長い推論遅延があり、デプロイメントが制限されるため、様々なリアルタイムアプリケーションにとって非常にコストがかかる。 モデルがトークンレベルの並列化を生かさずに連続的にトークンを生成するために反復的に実行する必要があるため、推論の遅延は自己回帰的な生成タスクによってさらに悪化する。 そこで本研究では,幅広いテキスト生成アプリケーションに対して,推論効率と遅延性を向上するフレームワークであるBig Little Decoder (BiLD)を提案する。 BiLDフレームワークには、テキストを共同生成する大きさの異なる2つのモデルが含まれている。 小モデルは、推論コストの低いテキストを生成するために自己回帰的に動作し、大モデルは、非自己回帰的な方法で小モデルの不正確な予測を洗練するために時々のみ呼び出される。 小型モデルと大規模モデルの調整には,(1)大モデルにいつ制御を委譲するかを決定するフォールバックポリシ,(2)大モデルの不正確な予測をいつ修正する必要があるかを決定するロールバックポリシ,の2つの簡単な方法を導入する。 IWSLT 2017 De-En と WMT 2014 De-En の機械翻訳と XSUM と CNN/DailyMail の要約を含む様々なテキスト生成シナリオに BiLD を適用する。 NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。 さらに、我々のフレームワークは完全にプラグアンドプレイされており、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。 私たちのコードはオープンソースです

The recent emergence of Large Language Models based on the Transformer architecture has enabled dramatic advancements in the field of Natural Language Processing. However, these models have long inference latency, which limits their deployment, and which makes them prohibitively expensive for various real-time applications. The inference latency is further exacerbated by autoregressive generative tasks, as models need to run iteratively to generate tokens sequentially without leveraging token-level parallelization. To address this, we propose Big Little Decoder (BiLD), a framework that can improve inference efficiency and latency for a wide range of text generation applications. The BiLD framework contains two models with different sizes that collaboratively generate text. The small model runs autoregressively to generate text with a low inference cost, and the large model is only invoked occasionally to refine the small model's inaccurate predictions in a non-autoregressive manner. To coordinate the small and large models, BiLD introduces two simple yet effective policies: (1) the fallback policy that determines when to hand control over to the large model; and (2) the rollback policy that determines when the large model needs to correct the small model's inaccurate predictions. To evaluate our framework across different tasks and models, we apply BiLD to various text generation scenarios encompassing machine translation on IWSLT 2017 De-En and WMT 2014 De-En, and summarization on XSUM and CNN/DailyMail. On an NVIDIA T4 GPU, our framework achieves a speedup of up to 2.12x speedup with minimal generation quality degradation. Furthermore, our framework is fully plug-and-play and can be applied without any modifications in the training process or model architecture. Our code is open-sourced
翻訳日:2023-05-22 18:54:48 公開日:2023-05-19
# ゼロショットバッチレベル異常検出

Zero-Shot Batch-Level Anomaly Detection ( http://arxiv.org/abs/2302.07849v2 )

ライセンス: Link先を確認
Aodong Li, Chen Qiu, Marius Kloft, Padhraic Smyth, Maja Rudolph, Stephan Mandt(参考訳) 異常検出(AD)は多くの安全クリティカルなアプリケーション領域において重要な役割を果たす。 異常検知器を正常なデータ分布にドリフトさせるという課題は、特に「新しい正規」のためのトレーニングデータが得られない場合は、ゼロショットAD技術の開発に繋がる。 本稿では,ゼロショットバッチレベルのADに対して,適応中心表現(ACR)と呼ばれるシンプルで効果的な手法を提案する。 本手法では, バッチ正規化と組み合わせて, 深部SVDD(Deep SVDD)などの深部異常検出装置を訓練することにより, 未知のADタスクに対するゼロショット自動一般化を実現する。 この単純なレシピ、バッチ正規化とメタトレーニングは、非常に効果的で多用途なツールです。 以上の結果から,特定領域の画像データに対するゼロショット異常検出およびセグメンテーションにおいて,表データおよび既存手法を上回った最初のゼロショット広告結果を示す。

Anomaly detection (AD) plays a crucial role in many safety-critical application domains. The challenge of adapting an anomaly detector to drift in the normal data distribution, especially when no training data is available for the "new normal," has led to the development of zero-shot AD techniques. In this paper, we propose a simple yet effective method called Adaptive Centered Representations (ACR) for zero-shot batch-level AD. Our approach trains off-the-shelf deep anomaly detectors (such as deep SVDD) to adapt to a set of inter-related training data distributions in combination with batch normalization, enabling automatic zero-shot generalization for unseen AD tasks. This simple recipe, batch normalization plus meta-training, is a highly effective and versatile tool. Our results demonstrate the first zero-shot AD results for tabular data and outperform existing methods in zero-shot anomaly detection and segmentation on image data from specialized domains.
翻訳日:2023-05-22 18:54:20 公開日:2023-05-19
# 非ラベルデータをベイズニューラルネットワークに組み込む

Incorporating Unlabelled Data into Bayesian Neural Networks ( http://arxiv.org/abs/2304.01762v2 )

ライセンス: Link先を確認
Mrinank Sharma, Tom Rainforth, Yee Whye Teh, Vincent Fortuin(参考訳) 従来のベイズニューラルネットワーク (BNN) は、予測を改善するために、ラベルのないデータを利用できない。 この制限を克服するために,教師なし事前学習段階における証拠の上限を最大化することにより,非ラベル付きデータを用いて事前予測分布の改善を学習するセルフスーパービジョンベイズニューラルネットワークを導入する。 先行予測分布をよりよく理解するために開発された新しい手法を用いて,自己教師付き先行予測が従来のbnn予測よりも画像意味を捉えていることを示す。 実験結果から,自己教師付きbnnは,自己教師付き手法のラベル効率とベイズ法の不確実性推定,特に低-中型データレジームにおける従来のbnnよりも優れることがわかった。

Conventional Bayesian Neural Networks (BNNs) cannot leverage unlabelled data to improve their predictions. To overcome this limitation, we introduce Self-Supervised Bayesian Neural Networks, which use unlabelled data to learn improved prior predictive distributions by maximising an evidence lower bound during an unsupervised pre-training step. With a novel methodology developed to better understand prior predictive distributions, we then show that self-supervised prior predictives capture image semantics better than conventional BNN priors. In our empirical evaluations, we see that self-supervised BNNs offer the label efficiency of self-supervised methods and the uncertainty estimates of Bayesian methods, particularly outperforming conventional BNNs in low-to-medium data regimes.
翻訳日:2023-05-22 18:47:48 公開日:2023-05-19
# 速度歪み最適化を用いたリアルタイム6K画像再構成

Real-time 6K Image Rescaling with Rate-distortion Optimization ( http://arxiv.org/abs/2304.01064v2 )

ライセンス: Link先を確認
Chenyang Qi, Xin Yang, Ka Leong Cheng, Ying-Cong Chen, Qifeng Chen(参考訳) 現代の画像再構成は、HR画像再構成のための埋め込み情報を含む低解像度(LR)サムネイル画像に高解像度(HR)画像を埋め込むことを目的としている。 従来の超解像とは異なり、LRサムネイルに埋め込まれた情報から、元の画像に忠実な高忠実なHR画像復元を可能にする。 しかし、最先端画像再スケーリング手法では、lr画像ファイルサイズを最適化せず、超高解像度(例えば6k)画像再構成のリアルタイム性能を低下させる。 これら2つの課題に対処するために、リアルタイム6Kレート歪み認識画像再スケーリングのための新しいフレームワーク(HyperThumbnail)を提案する。 提案する量子化予測モジュールにより,まずHR画像のJPEG LRサムネイルへの埋め込みを行い,HR再構成の品質を最大化しながら,埋め込みLR JPEGサムネイルのファイルサイズを最小化する。 そして、効率的な周波数認識復号器は、LR1から高忠実度HR画像をリアルタイムに再構成する。 広範な実験により,従来の画像再スケーリングベースラインよりも性能が優れており,リアルタイムに6k画像再構成が可能となった。

Contemporary image rescaling aims at embedding a high-resolution (HR) image into a low-resolution (LR) thumbnail image that contains embedded information for HR image reconstruction. Unlike traditional image super-resolution, this enables high-fidelity HR image restoration faithful to the original one, given the embedded information in the LR thumbnail. However, state-of-the-art image rescaling methods do not optimize the LR image file size for efficient sharing and fall short of real-time performance for ultra-high-resolution (e.g., 6K) image reconstruction. To address these two challenges, we propose a novel framework (HyperThumbnail) for real-time 6K rate-distortion-aware image rescaling. Our framework first embeds an HR image into a JPEG LR thumbnail by an encoder with our proposed quantization prediction module, which minimizes the file size of the embedding LR JPEG thumbnail while maximizing HR reconstruction quality. Then, an efficient frequency-aware decoder reconstructs a high-fidelity HR image from the LR one in real time. Extensive experiments demonstrate that our framework outperforms previous image rescaling baselines in rate-distortion performance and can perform 6K image reconstruction in real time.
翻訳日:2023-05-22 18:47:33 公開日:2023-05-19
# YOLOの総合的なレビュー: YOLOv1とBeyond

A Comprehensive Review of YOLO: From YOLOv1 and Beyond ( http://arxiv.org/abs/2304.00501v2 )

ライセンス: Link先を確認
Juan Terven and Diana Cordova-Esparza(参考訳) YOLOは、ロボット工学、無人運転車、ビデオ監視アプリケーションのための中心的なリアルタイムオブジェクト検出システムになっている。 本稿では, YOLOの進化を総合的に分析し, 元のYOLOからYOLOv8, YOLO-NASまでの各イテレーションにおけるイノベーションとコントリビューションについて考察する。 まず、標準メトリクスと後処理を説明し、次に、ネットワークアーキテクチャにおける大きな変化と各モデルに対するトレーニングトリックについて論じる。 最後に, YOLOの開発から重要な教訓を要約し, リアルタイム物体検出システムの実現に向けた研究の方向性を明らかにする。

YOLO has become a central real-time object detection system for robotics, driverless cars, and video monitoring applications. We present a comprehensive analysis of YOLO's evolution, examining the innovations and contributions in each iteration from the original YOLO to YOLOv8 and YOLO-NAS. We start by describing the standard metrics and postprocessing; then, we discuss the major changes in network architecture and training tricks for each model. Finally, we summarize the essential lessons from YOLO's development and provide a perspective on its future, highlighting potential research directions to enhance real-time object detection systems.
翻訳日:2023-05-22 18:47:13 公開日:2023-05-19
# EITに基づく中性原子のスケーラブルなヘテロ核構造

Scalable Heteronuclear Architecture of Neutral Atoms Based on EIT ( http://arxiv.org/abs/2303.16432v2 )

ライセンス: Link先を確認
Ahmed M. Farouk, I.I. Beterov, Peng Xu, I.I. Ryabtsev(参考訳) 最近の論文 [arxiv:2206.12176 (2022)] に基づき、量子情報処理のためのアルカリ金属中性原子配列におけるcnotゲートの並列実装のスケーラブルなヘテロ核アーキテクチャを提案する。 1つの原子種の原子配列(アンシラ量子ビット)を2Dアコスト光偏向器(AOD)によって生成された移動型双極子トラップの配列を用いてコヒーレントに搬送することで、隣り合う量子ビットのペア間で連続的にCNOTゲートを並列に実行する方式を検討した。 第2原子種の原子(データ量子ビット)は、空間光変調器(SLM)によって生成された静的光学双極子トラップの配列に保持される。 移動したアンシラはコヒーレンスを失うことなく論理的な基底状態の重ね合わせにとどまるが、移動経路はデータ原子の空間的位置と重なり合うのを避ける。 我々は,実験可能な条件に対して,$\mathcal{F}=95\%$の並列実装CNOTゲートの忠実度を実現するために,システムパラメータを数値的に最適化した。 本設計は, 量子誤差補正のための表面符号の実装に有用である。 ゲート性能を特徴付けるために,レニエントロピーと相互情報についても検討した。

Based on our recent paper [arXiv:2206.12176 (2022)], we propose a scalable heteronuclear architecture of parallel implementation of CNOT gates in arrays of alkali-metal neutral atoms for quantum information processing. We considered a scheme where we perform CNOT gates in a parallel manner within the array, while they are performed sequentially between the pairs of neighboring qubits by coherently transporting an array of atoms of one atomic species (ancilla qubits) using an array of mobile optical dipole traps generated by a 2D acousto-optic deflector (AOD). The atoms of the second atomic species (data qubits) are kept in the array of static optical dipole traps generated by spatial light modulator (SLM). The moving ancillas remain in the superposition of their logical ground states without loss of coherence, while their transportation paths avoid overlaps with the spatial positions of data atoms. We numerically optimized the system parameters to achieve the fidelity for parallelly implemented CNOT gates around $\mathcal{F}=95\%$ for the experimentally feasible conditions. Our design can be useful for implementation of surface codes for quantum error correction. Renyi entropy and mutual information are also investigated to characterize the gate performance.
翻訳日:2023-05-22 18:46:35 公開日:2023-05-19
# 論理推論における言語モデルを支援する明示的計画法

Explicit Planning Helps Language Models in Logical Reasoning ( http://arxiv.org/abs/2303.15714v2 )

ライセンス: Link先を確認
Hongyu Zhao, Kangrui Wang, Mo Yu, Hongyuan Mei(参考訳) 言語モデルは、幅広い自然言語処理タスクで驚くほどよく機能することが示されている。 本稿では,多段階論理推論を行うために言語モデルを用いた新しいシステムを提案する。 本システムでは,明示的な計画手法を推論手順に組み込むことで,各ステップにおける推論決定をより情報的に行うことができる。 さらに,計画プロセスがスプリアスな特徴によって引き起こされるのを防止できるトレーニング戦略を提案する。 当社の全システムは、複数の標準データセットで競合する他のメソッドを大幅に上回っています。 コアコンポーネントとしてT5モデルを使用する場合,約1Bパラメータ(GPT-3の175倍小さい)しか持たないにもかかわらず,GPT-3と比較して競合的に動作する。 GPT-3.5を使用する場合、挑戦的なPrOntoQAデータセットにおいて、チェーン・オブ・シークレットを著しく上回る。 我々は,システムの性能において明示的な計画が重要な役割を担っていることを示すために,広範な実証研究を行った。

Language models have been shown to perform remarkably well on a wide range of natural language processing tasks. In this paper, we propose a novel system that uses language models to perform multi-step logical reasoning. Our system incorporates explicit planning into its inference procedure, thus able to make more informed reasoning decisions at each step by looking ahead into their future effects. Moreover, we propose a training strategy that safeguards the planning process from being led astray by spurious features. Our full system significantly outperforms other competing methods on multiple standard datasets. When using a T5 model as its core component, our system performs competitively compared to GPT-3 despite having only about 1B parameters (i.e., 175 times smaller than GPT-3). When using GPT-3.5, it significantly outperforms chain-of-thought prompting on the challenging PrOntoQA dataset. We have conducted extensive empirical studies to demonstrate that explicit planning plays a crucial role in the system's performance.
翻訳日:2023-05-22 18:46:10 公開日:2023-05-19
# ハミルトン力学の高階量子変換

Higher-order quantum transformations of Hamiltonian dynamics ( http://arxiv.org/abs/2303.09788v2 )

ライセンス: Link先を確認
Tatsuki Odake, Hl\'er Kristj\'ansson, Akihito Soeda, Mio Murao(参考訳) 我々は,ハミルトニアンダイナミクスの高次変換を実現する量子アルゴリズムを提案する。 すなわち、アルゴリズムは有限個のクエリをブラックボックスシードハミルトン力学に入力し、所望のハミルトン力学をシミュレートする。 このアルゴリズムは任意の局所シードハミルトニアンの線形変換を効率的にシミュレートし、制御されたパウリゲートと時間相関ランダム性のみを利用する。 このアルゴリズムは量子関数プログラミングの例であり、所望の関数は高階量子変換の連結として指定される。 例えば、負の時間進化と時間反転のシミュレーションを実演し、ハミルトン学習タスクを実行する。

We present a quantum algorithm to achieve higher-order transformations of Hamiltonian dynamics. Namely, the algorithm takes as input a finite number of queries to a black-box seed Hamiltonian dynamics to simulate a desired Hamiltonian. Our algorithm efficiently simulates linear transformations of any local seed Hamiltonian, making use of only controlled-Pauli gates and time-correlated randomness. This algorithm is an instance of quantum functional programming, where the desired function is specified as a concatenation of higher-order quantum transformations. By way of example, we demonstrate the simulation of negative time-evolution and time-reversal, and perform a Hamiltonian learning task.
翻訳日:2023-05-22 18:45:43 公開日:2023-05-19
# STEM高等教育における3Dプリントバッジによる学生成績の向上とドロップアウト率の低減

Using 3D printed badges to improve student performance and reduce dropout rates in STEM higher education ( http://arxiv.org/abs/2303.08939v2 )

ライセンス: Link先を確認
Ra\'ul Lara-Cabrera and Fernando Ortega and Edgar Talavera and Daniel L\'opez-Fern\'andez(参考訳) 学生のSTEMの過度な困難に対する認識は、モチベーションを低下させ、パフォーマンスに影響を与える。 先行研究によると、ゲーミフィケーション技術の使用は、学習時のエンゲージメント、モチベーション、楽しみを促進する。 バッジは、学生に報酬として与えられる区別であり、よく知られたゲーミフィケーションツールである。 この貢献は、物理的にも仮想的にもバッジを使うことが学生のパフォーマンスを向上し、ドロップアウト率を低下させると仮定している。 この仮説を検証するために、コンピュータ工学の学位データベースに登録された99人の学生を対象に、ケーススタディを行った。 その結果,バッジの使用により学生の成績が向上し,ドロップアウト率も低下した。 しかし、異なる種類のバッジの使用には不可解な違いが見られた。

Students' perception of excessive difficulty in STEM degrees lowers their motivation and therefore affects their performance. According to prior research, the use of gamification techniques promote engagement, motivation and fun when learning. Badges, which are a distinction that is given as a reward to students, are a well-known gamification tool. This contribution hypothesizes that the use of badges, both physical and virtual, improves student performance and reduces dropout rates. To verify that hypothesis, a case study involving 99 students enrolled in a Databases course of computer engineering degrees was conducted. The results show that the usage of badges improves student performance and reduces dropout rates. However, negligible differences were found between the use of different kind of badges.
翻訳日:2023-05-22 18:45:32 公開日:2023-05-19
# Spikingformer: トランスフォーマーに基づくスパイクニューラルネットワークのためのスパイク駆動残差学習

Spikingformer: Spike-driven Residual Learning for Transformer-based Spiking Neural Network ( http://arxiv.org/abs/2304.11954v3 )

ライセンス: Link先を確認
Chenlin Zhou, Liutao Yu, Zhaokun Zhou, Zhengyu Ma, Han Zhang, Huihui Zhou, Yonghong Tian(参考訳) スパイキングニューラルネットワーク(SNN)は、イベント駆動のスパイキング計算のために、人工ニューラルネットワークに代わる有望なエネルギー効率を提供する。 しかし、現在最先端の深層SNN(SpikformerやSEW ResNetなど)は、その残余接続構造に起因する非スパイク計算(整数-フロート乗法)に悩まされている。 これらの非スパイク計算はSNNの消費電力を増大させ、スパイク操作のみをサポートする主流のニューロモルフィックハードウェアへの展開に適さないものにする。 本稿では,非スパイク計算を回避するため,SNNのためのハードウェアフレンドリーなスパイク駆動残差学習アーキテクチャを提案する。 この残差設計に基づき、純粋なトランスベースのスパイキングニューラルネットワークであるspikingformerを開発した。 我々は、ImageNet, CIFAR10, CIFAR100, CIFAR10-DVS, DVS128 Gestureデータセット上でSpkingformerを評価し、Spkingformerが、新しい高度なバックボーンとして、直接訓練された純粋なSNNの最先端技術よりも優れていることを示した。 さらに,spikingformer は非スパイク計算を効果的に回避し,imagenet の spikformer と比較して 57.34$\%$ のエネルギー消費を大幅に削減できることを確認した。 私たちの知る限りでは、純粋なイベント駆動トランスフォーマーベースのSNNが開発されたのは今回が初めてです。

Spiking neural networks (SNNs) offer a promising energy-efficient alternative to artificial neural networks, due to their event-driven spiking computation. However, state-of-the-art deep SNNs (including Spikformer and SEW ResNet) suffer from non-spike computations (integer-float multiplications) caused by the structure of their residual connection. These non-spike computations increase SNNs' power consumption and make them unsuitable for deployment on mainstream neuromorphic hardware, which only supports spike operations. In this paper, we propose a hardware-friendly spike-driven residual learning architecture for SNNs to avoid non-spike computations. Based on this residual design, we develop Spikingformer, a pure transformer-based spiking neural network. We evaluate Spikingformer on ImageNet, CIFAR10, CIFAR100, CIFAR10-DVS and DVS128 Gesture datasets, and demonstrate that Spikingformer outperforms the state-of-the-art in directly trained pure SNNs as a novel advanced backbone (75.85$\%$ top-1 accuracy on ImageNet, + 1.04$\%$ compared with Spikformer). Furthermore, our experiments verify that Spikingformer effectively avoids non-spike computations and significantly reduces energy consumption by 57.34$\%$ compared with Spikformer on ImageNet. To our best knowledge, this is the first time that a pure event-driven transformer-based SNN has been developed.
翻訳日:2023-05-22 18:38:08 公開日:2023-05-19
# サービス拒否とファイングラインド制御--フレキシブルモデルによるフェデレート学習への攻撃に向けて

Denial-of-Service or Fine-Grained Control: Towards Flexible Model Poisoning Attacks on Federated Learning ( http://arxiv.org/abs/2304.10783v2 )

ライセンス: Link先を確認
Hangtao Zhang, Zeming Yao, Leo Yu Zhang, Shengshan Hu, Chao Chen, Alan Liew, Zhetao Li(参考訳) フェデレーション学習(fl)は中毒攻撃に対して脆弱であり、敵はグローバルな集約結果を破壊し、dos(denial-of-service)を引き起こす。 特定方向の悪意的摂動の振幅を最適化してDoSを発生させる最近のモデル中毒攻撃とは違って,汎用的な攻撃目標を達成するフレキシブルモデル中毒攻撃(FMPA)を提案する。 我々は、FLシステムに関する余分な知識(例えば、良性のデバイスに関する集約ルールや更新)が敵に利用できない現実的な脅威シナリオを考える。 FMPAは、グローバルな歴史的情報を利用して、グローバルモデルの次のラウンドを良心的な参照として予測する推定器を構築する。 その後、基準モデルを微調整し、低い精度と小さな摂動で所望の有毒モデルを得る。 DoSを発生させる目的の他に、FMPAを自然に拡張して、きめ細かい制御可能な攻撃を発射することで、グローバルな精度を正確に低減することができる。 厳格なコントロールで武装した悪意のあるFLサービスプロバイダは、注意を払わずに競合相手に対してアドバンテージを得られるため、DoS以外のFLに新たな攻撃サーフェスを開くことができる。 DoS の目的においても,FMPA は https://github.com/ZhangHangTao/Poisoning-Attack-on-FL

Federated learning (FL) is vulnerable to poisoning attacks, where adversaries corrupt the global aggregation results and cause denial-of-service (DoS). Unlike recent model poisoning attacks that optimize the amplitude of malicious perturbations along certain prescribed directions to cause DoS, we propose a Flexible Model Poisoning Attack (FMPA) that can achieve versatile attack goals. We consider a practical threat scenario where no extra knowledge about the FL system (e.g., aggregation rules or updates on benign devices) is available to adversaries. FMPA exploits the global historical information to construct an estimator that predicts the next round of the global model as a benign reference. It then fine-tunes the reference model to obtain the desired poisoned model with low accuracy and small perturbations. Besides the goal of causing DoS, FMPA can be naturally extended to launch a fine-grained controllable attack, making it possible to precisely reduce the global accuracy. Armed with precise control, malicious FL service providers can gain advantages over their competitors without getting noticed, hence opening a new attack surface in FL other than DoS. Even for the purpose of DoS, experiments show that FMPA significantly decreases the global accuracy, outperforming six state-of-the-art attacks.The code can be found at https://github.com/ZhangHangTao/Poisoning-Attack-on-FL.
翻訳日:2023-05-22 18:37:19 公開日:2023-05-19
# DNNベースのアプリケーションの著作権保護のためのプラグアンドプレイ保護摂動

A Plug-and-Play Defensive Perturbation for Copyright Protection of DNN-based Applications ( http://arxiv.org/abs/2304.10679v2 )

ライセンス: Link先を確認
Donghua Wang, Wen Yao, Tingsong Jiang, Weien Zhou, Lang Lin, and Xiaoqian Chen(参考訳) ディープニューラルネットワーク(DNN)ベースのアプリケーション(スタイル転送、漫画化など)の広範な展開は、そのようなアプリケーションの生産に対する著作権保護の必要性を刺激する。 従来の可視性のある著作権技術もいくつかあるが、望ましくないトレースを導入し、ユーザエクスペリエンスを損なうことになる。 本稿では,DNNベースのアプリケーション(スタイル転送)に対する防御的摂動に基づく,新しいプラグイン・アンド・プレイ型著作権保護手法を提案する。 DNNモデルを攻撃するために摂動を適用するのではなく、著作権保護における摂動の利用の可能性を探る。 具体的には,保護対象の画像に付加されるデザインされた著作権エンコーダを用いて,著作権情報を防御的摂動に投影する。 そして,発明した著作権復号器を用いて,符号化された著作権画像から著作権情報を抽出する。 さらに,ユーザがソーシャルメディアに投稿する際に発生する様々な歪み(jpeg圧縮など)を有する画像に対して,デコーダの復号能力を強化するためにロバスト性モジュールを用いる。 符号化画像と復号著作権画像の画質を確保するため,ロス関数を精巧に考案した。 目的および主観的な実験結果から,提案手法の有効性が示された。 我々はまた、エンコードされた著作権画像を投稿することで、ソーシャルメディア(WechatやTwitterなど)の物理的な世界テストも行ってきた。 その結果、ソーシャルメディアから保存したエンコード画像の著作権情報を正しく抽出できることが判明した。

Wide deployment of deep neural networks (DNNs) based applications (e.g., style transfer, cartoonish), stimulating the requirement of copyright protection of such application's production. Although some traditional visible copyright techniques are available, they would introduce undesired traces and result in a poor user experience. In this paper, we propose a novel plug-and-play invisible copyright protection method based on defensive perturbation for DNN-based applications (i.e., style transfer). Rather than apply the perturbation to attack the DNNs model, we explore the potential utilization of perturbation in copyright protection. Specifically, we project the copyright information to the defensive perturbation with the designed copyright encoder, which is added to the image to be protected. Then, we extract the copyright information from the encoded copyrighted image with the devised copyright decoder. Furthermore, we use a robustness module to strengthen the decoding capability of the decoder toward images with various distortions (e.g., JPEG compression), which may be occurred when the user posts the image on social media. To ensure the image quality of encoded images and decoded copyright images, a loss function was elaborately devised. Objective and subjective experiment results demonstrate the effectiveness of the proposed method. We have also conducted physical world tests on social media (i.e., Wechat and Twitter) by posting encoded copyright images. The results show that the copyright information in the encoded image saved from social media can still be correctly extracted.
翻訳日:2023-05-22 18:36:48 公開日:2023-05-19
# Progressive-Hint Promptingは大規模言語モデルの推論を改善する

Progressive-Hint Prompting Improves Reasoning in Large Language Models ( http://arxiv.org/abs/2304.09797v4 )

ライセンス: Link先を確認
Chuanyang Zheng, Zhengying Liu, Enze Xie, Zhenguo Li, Yu Li(参考訳) 推論タスクにおける大規模言語モデル(llm)のパフォーマンスは、プロンプトデザインに大きく依存しており、chain-of-thought (cot) と self-consistency はこの能力を高める重要な方法である。 しかし、これらの手法はLLMが生成した回答を十分に活用していない。 本稿では,これまで生成した回答をヒントとして,ユーザとLLMの対話を自動的に行うためのプロンプトプロンプト手法であるプログレッシブ・ヒント・プロンプト(PHP)を提案する。 PHPはCoTと自己整合性に直交しているため、最新技術と組み合わせてパフォーマンスをさらに向上することができる。 7つのベンチマークで広範囲で包括的な実験を行った。 その結果,phpは高い効率を維持しながら精度を大幅に向上した。 例えば、text-davinci-003では、複雑なCoTに比べてGSM8Kが4.2%向上し、自己整合性のあるサンプルパスが46.17%減少した。 GPT-4とPHPでは、SVAMP(89.1% -> 91.9%)、GSM8K(92% -> 95.5%)、AQuA(76.4% -> 79.9%)、MATH(50.3% -> 53.9%)の最先端のパフォーマンスを実現している。

The performance of Large Language Models (LLMs) in reasoning tasks depends heavily on prompt design, with Chain-of-Thought (CoT) and self-consistency being critical methods that enhance this ability. However, these methods do not fully exploit the answers generated by the LLM to guide subsequent responses. This paper proposes a new prompting method, named Progressive-Hint Prompting (PHP), that enables automatic multiple interactions between users and LLMs by using previously generated answers as hints to progressively guide toward the correct answers. PHP is orthogonal to CoT and self-consistency, making it easy to combine with state-of-the-art techniques to further improve performance. We conducted extensive and comprehensive experiments on seven benchmarks. The results show that PHP significantly improves accuracy while remaining highly efficient. For instance, with text-davinci-003, we observed a 4.2% improvement on GSM8K with greedy decoding compared to Complex CoT, and a 46.17% reduction in sample paths with self-consistency. With GPT-4 and PHP, we achieve state-of-the-art performances on SVAMP (89.1% -> 91.9%), GSM8K (92% -> 95.5%), AQuA (76.4% -> 79.9%) and MATH (50.3% -> 53.9%).
翻訳日:2023-05-22 18:36:22 公開日:2023-05-19
# シーケンシャル転送最適化のためのスケーラブルなテスト問題生成器

A Scalable Test Problem Generator for Sequential Transfer Optimization ( http://arxiv.org/abs/2304.08503v2 )

ライセンス: Link先を確認
Xiaoming Xue and Cuie Yang and Liang Feng and Kai Zhang and Linqi Song and Kay Chen Tan(参考訳) データベースに格納された事前解決された最適化タスクから得られた知識を活用し、最適化性能の向上を目指すシーケンシャル転送最適化(sto)が近年研究の注目を集めている。 しかし、アルゴリズム設計の進歩にもかかわらず、STOの試験問題は十分に設計されていない。 しばしば、それらは同じ最適性を持つ他のベンチマーク関数によってランダムに組み立てられるか、あるいは限られたバリエーションを示す実用的な問題から生成される。 これらの問題におけるソースとターゲットタスクの最適解の間の関係は手動で構成され、従って単調であり、現実世界の問題の多様な関係を表現する能力を制限する。 したがって、これらの問題に対する多くのアルゴリズムによる有望な結果は非常に偏りがあり、他の問題への一般化が困難である。 そこで我々はまず,STO問題(STOP)を特徴付けるための初歩的な概念をいくつか紹介し,従来の研究で見過ごされた重要な問題,すなわち,ソースの最適性と目標タスクの関係を定量的に記述する類似性分布を提示する。 次に,汎用設計ガイドラインと拡張性に優れた問題生成器を提案する。 具体的には、パラメータ化密度関数を変更することで、問題の類似度分布を体系的にカスタマイズすることができ、現実世界の問題の多様な類似性関係に対する幅広い表現が可能となる。 最後に、12個のSTOPからなるベンチマークスイートを、異なるSTOアルゴリズムを比較するためのアリーナとして機能するジェネレータを用いて開発する。 ベンチマークスイートのソースコードはhttps://github.com/xminghsueh/stopにある。

Sequential transfer optimization (STO), which aims to improve optimization performance by exploiting knowledge captured from previously-solved optimization tasks stored in a database, has been gaining increasing research attention in recent years. However, despite significant advancements in algorithm design, the test problems in STO are not well designed. Oftentimes, they are either randomly assembled by other benchmark functions that have identical optima or are generated from practical problems that exhibit limited variations. The relationships between the optimal solutions of source and target tasks in these problems are manually configured and thus monotonous, limiting their ability to represent the diverse relationships of real-world problems. Consequently, the promising results achieved by many algorithms on these problems are highly biased and difficult to be generalized to other problems. In light of this, we first introduce a few rudimentary concepts for characterizing STO problems (STOPs) and present an important problem feature overlooked in previous studies, namely similarity distribution, which quantitatively delineates the relationship between the optima of source and target tasks. Then, we propose general design guidelines and a problem generator with superior extendibility. Specifically, the similarity distribution of a problem can be systematically customized by modifying a parameterized density function, enabling a broad spectrum of representation for the diverse similarity relationships of real-world problems. Lastly, a benchmark suite with 12 individual STOPs is developed using the proposed generator, which can serve as an arena for comparing different STO algorithms. The source code of the benchmark suite is available at https://github.com/XmingHsueh/STOP.
翻訳日:2023-05-22 18:35:53 公開日:2023-05-19
# 量子状態の相関測度と量子チャネルの情報特性

Correlation measures of a quantum state and information characteristics of a quantum channel ( http://arxiv.org/abs/2304.05388v2 )

ライセンス: Link先を確認
M.E. Shirokov(参考訳) 本稿では,2部量子状態の基本相関測度と量子チャネルの基本情報特性の相互関係について論じる。 無限次元二成分系における(最適化されていない)量子ディスコードの性質を記述する。 特に、一般化されたKoashi-Winter関係を用いて、量子不協和がゼロである状態が量子古典的であることを保証する単純な条件が得られる。 無限一方向の古典的相関を持つ状態に対する2つの量子ディスコードの定義を提案し解析した。 Koashi-Winter と Xi-Lu-Wang-Li 関係の一般化されたバージョンは、チャネルの出力と補チャネル(与えられた入力状態のアンサンブルのチャネルの関数として)のホレボ情報に対する高度な連続性境界、ホレボ容量と入力次元または入力エネルギー境界に依存する量子チャネルの非正規化プライベート容量を得るために用いられる。 また、非測定サブシステムに作用する量子チャネルの下での量子不協和の単調性と局所的な測定のエントロピー低減の「ドップペルガンガー」である量子チャネルの性質についても論じる。

We discuss the interconnections between basic correlation measures of a bipartite quantum state and basic information characteristics of a quantum channel, focusing on the benefits of these interconnections for solving specific problems concerning the characteristics of both types. We describe properties of the (unoptimized and optimized) quantum discord in infinite-dimensional bipartite systems. In particular, using the generalized Koashi-Winter relation, a simple condition is obtained that guarantees that a state with zero quantum discord is quantum-classical. Two possible definitions of the quantum discord for states with infinite one-way classical correlation are proposed and analysed. The generalized versions of Koashi-Winter and Xi-Lu-Wang-Li relations are used to obtain advanced continuity bounds for the Holevo information at the output of a channel and its complementary channel (as functions of a channel for a given ensemble of input states), for the Holevo capacity and the unregularized private capacity of a quantum channel depending either on the input dimension or on the input energy bound. We also discuss the properties of quantum channels which are "doppelgangers" of the monotonicity of the quantum discord and the entropy reduction of a local measurement under quantum channels acting on an unmeasured subsystem.
翻訳日:2023-05-22 18:35:28 公開日:2023-05-19
# おそらくほぼ正しい連合学習

Probably Approximately Correct Federated Learning ( http://arxiv.org/abs/2304.04641v4 )

ライセンス: Link先を確認
Xiaojin Zhang, Anbu Huang, Lixin Fan, Kai Chen, Qiang Yang(参考訳) Federated Learning(FL)は、プライバシ、ユーティリティ、効率性を主柱とする、新たな分散学習パラダイムである。 既存の研究は、無限小のプライバシー漏洩、ユーティリティ損失、効率性を同時に達成することは不可能であることを示している。 したがって、FLアルゴリズムを設計する際、最適なトレードオフソリューションを見つける方法が重要な考慮事項である。 共通の方法は、トレードオフ問題を多目的最適化問題として、すなわち、予め定義された値を超えないプライバシー漏洩を抑えながら、ユーティリティ損失と効率の低下を最小限にすることである。 しかし、既存の多目的最適化フレームワークは非常に時間がかかり、パレートフロンティアの存在を保証していないため、より効率的で容易に解決できるため、多目的問題を単一目的に変換する解決策を模索する動機となっている。 そこで本研究では,pac学習を活用し,サンプル複雑性の観点から複数の目的を定量化する統一フレームワークであるfeedpacを提案する。このような定量化により,複数の目的の解空間を共有次元に限定し,単一目的最適化アルゴリズムを用いて解くことができる。 具体的には,pac学習の観点から,ユーティリティ損失,プライバシリーク,プライバシ利用効率トレードオフ,攻撃者のコストの定量化に関する結果と詳細な分析を行う。

Federated learning (FL) is a new distributed learning paradigm, with privacy, utility, and efficiency as its primary pillars. Existing research indicates that it is unlikely to simultaneously attain infinitesimal privacy leakage, utility loss, and efficiency. Therefore, how to find an optimal trade-off solution is the key consideration when designing the FL algorithm. One common way is to cast the trade-off problem as a multi-objective optimization problem, i.e., the goal is to minimize the utility loss and efficiency reduction while constraining the privacy leakage not exceeding a predefined value. However, existing multi-objective optimization frameworks are very time-consuming, and do not guarantee the existence of the Pareto frontier, this motivates us to seek a solution to transform the multi-objective problem into a single-objective problem because it is more efficient and easier to be solved. To this end, we propose FedPAC, a unified framework that leverages PAC learning to quantify multiple objectives in terms of sample complexity, such quantification allows us to constrain the solution space of multiple objectives to a shared dimension, so that it can be solved with the help of a single-objective optimization algorithm. Specifically, we provide the results and detailed analyses of how to quantify the utility loss, privacy leakage, privacy-utility-efficiency trade-off, as well as the cost of the attacker from the PAC learning perspective.
翻訳日:2023-05-22 18:35:04 公開日:2023-05-19
# TransPimLib: メモリ内処理システムにおける効率的な超越関数ライブラリ

TransPimLib: A Library for Efficient Transcendental Functions on Processing-in-Memory Systems ( http://arxiv.org/abs/2304.01951v4 )

ライセンス: Link先を確認
Maurus Item, Juan G\'omez-Luna, Yuxin Guo, Geraldo F. Oliveira, Mohammad Sadrosadati, Onur Mutlu(参考訳) プロセッシング・イン・メモリ(PIM)は、現代のコンピューティングシステムにおけるデータ移動のボトルネックを軽減することを約束する。 しかし、現在の実世界のpimシステムは、メモリの近くで処理要素を構築するのが困難でコストがかかるため、ハードウェアが従来のプロセッサ(cpu、gpu)よりも制約が強いという固有の欠点がある。 その結果、汎用PIMアーキテクチャは、かなり限られた命令セットをサポートし、超越関数などの複雑な操作(例えば平方根)を実行するのに苦労する。 これらの操作は、機械学習アプリケーションにおけるアクティベーション機能など、現代のワークロードにおいて特に重要である。 汎用PIMシステムにおける超越関数(およびその他のハード・トゥ・カルキュレート関数)のサポートを提供するため,CORDICに基づく三角関数,双曲関数,指数関数,対数,平方根などのためのライブラリである \emph{TransPimLib} を提案する。 UPMEM PIMアーキテクチャのためのTransPimLibの実装を開発し、マイクロベンチマークと3つのフルワークロード(Blackscholes, Sigmoid, Softmax)を用いて、TransPimLibの手法を性能と精度で徹底的に評価する。 私たちは、すべてのコードとデータセットを、~\url{https://github.com/CMU-SAFARI/transpimlib}でオープンソースにしています。

Processing-in-memory (PIM) promises to alleviate the data movement bottleneck in modern computing systems. However, current real-world PIM systems have the inherent disadvantage that their hardware is more constrained than in conventional processors (CPU, GPU), due to the difficulty and cost of building processing elements near or inside the memory. As a result, general-purpose PIM architectures support fairly limited instruction sets and struggle to execute complex operations such as transcendental functions and other hard-to-calculate operations (e.g., square root). These operations are particularly important for some modern workloads, e.g., activation functions in machine learning applications. In order to provide support for transcendental (and other hard-to-calculate) functions in general-purpose PIM systems, we present \emph{TransPimLib}, a library that provides CORDIC-based and LUT-based methods for trigonometric functions, hyperbolic functions, exponentiation, logarithm, square root, etc. We develop an implementation of TransPimLib for the UPMEM PIM architecture and perform a thorough evaluation of TransPimLib's methods in terms of performance and accuracy, using microbenchmarks and three full workloads (Blackscholes, Sigmoid, Softmax). We open-source all our code and datasets at~\url{https://github.com/CMU-SAFARI/transpimlib}.
翻訳日:2023-05-22 18:34:40 公開日:2023-05-19
# TaLU: ニューラルネットワークの強化にTanhとrectified Linear Unitを組み合わせたハイブリッド活性化関数

TaLU: A Hybrid Activation Function Combining Tanh and Rectified Linear Unit to Enhance Neural Networks ( http://arxiv.org/abs/2305.04402v2 )

ライセンス: Link先を確認
Md. Mehedi Hasan, Md. Ali Hossain, Azmain Yakin Srizon, Abu Sayeed(参考訳) 分類におけるディープラーニングモデルの適用は、ターゲットオブジェクトの正確な検出において重要な役割を果たす。 しかし、その精度は、隠蔽・出力層における活性化関数に影響される。 本稿では,tanh と rectified linear units (relu) の組み合わせである talu と呼ばれる活性化関数を用いて予測精度を向上させる。 reluアクティベーション関数は、計算効率、実装の容易さ、直感的な性質など、多くのディープラーニング研究者によって使用されている。 しかし、それは衰退する勾配問題に悩まされている。 例えば、入力が負の場合、その勾配がゼロであるため、出力は常にゼロとなる。 多くの研究者がこの問題を解決するために異なるアプローチを用いた。 最も有名なものは、LeakyReLU、Softplus、Softsign、ELU、ThresholdedReLUなどである。 本研究では,TanhとReLUを組み合わせた活性化機能であるTaLUを開発した。 提案したアクティベーション関数を用いた深層学習モデルをMNISTとCIFAR-10でテストし、ReLUや他の研究されたアクティベーション関数を精度で比較した(多くの場合、バッチ正規化と合理的学習率で使用した場合は6%)。

The application of the deep learning model in classification plays an important role in the accurate detection of the target objects. However, the accuracy is affected by the activation function in the hidden and output layer. In this paper, an activation function called TaLU, which is a combination of Tanh and Rectified Linear Units (ReLU), is used to improve the prediction. ReLU activation function is used by many deep learning researchers for its computational efficiency, ease of implementation, intuitive nature, etc. However, it suffers from a dying gradient problem. For instance, when the input is negative, its output is always zero because its gradient is zero. A number of researchers used different approaches to solve this issue. Some of the most notable are LeakyReLU, Softplus, Softsign, ELU, ThresholdedReLU, etc. This research developed TaLU, a modified activation function combining Tanh and ReLU, which mitigates the dying gradient problem of ReLU. The deep learning model with the proposed activation function was tested on MNIST and CIFAR-10, and it outperforms ReLU and some other studied activation functions in terms of accuracy(upto 6% in most cases, when used with Batch Normalization and a reasonable learning rate).
翻訳日:2023-05-22 18:29:19 公開日:2023-05-19
# データ生成とパラメータ歪みによるプライバシー保護型連合学習の至近最適ユーティリティの実現に向けて

Towards Achieving Near-optimal Utility for Privacy-Preserving Federated Learning via Data Generation and Parameter Distortion ( http://arxiv.org/abs/2305.04288v2 )

ライセンス: Link先を確認
Xiaojin Zhang, Kai Chen, Qiang Yang(参考訳) フェデレートラーニング(FL)は、参加者がプライベートデータ情報を開示することなく、強化されたユーティリティでグローバルモデルを構築することを可能にする。 適切な保護機構は、 \textit{privacy} の保存と高モデル \textit{utility} の維持の要件を満たすために採用する必要がある。 広く採用されている保護機構の性質として, モデルパラメータを歪ませることにより, プライバシを保護することが挙げられる。 元のモデルパラメータと歪んだモデルパラメータのギャップを通じて有効性を測定する。 我々は,プライバシ保護フェデレーション学習がデータ生成やパラメータの歪みを通じてほぼ最適に利用できるという,一般的な条件下での認識を望んでいる。 分散還元(distribution-reduction)とモデルパラメータの不一致(model parameter discrepancy)という2つの主な用語を用いて、ユーティリティ損失の上限を別々に測定する。 本分析は,プライバシ要件を同時に満たすために,保護機構の適切な保護パラメータの設計を刺激する。 保護機構の主な技術はパラメータの歪みとデータ生成であり、汎用的で広く適用可能である。 さらに,プライバシとユーティリティのトレードオフを上限として,nflで示される下限とともに最適なトレードオフを実現する条件を提供する。

Federated learning (FL) enables participating parties to collaboratively build a global model with boosted utility without disclosing private data information. Appropriate protection mechanisms have to be adopted to fulfill the requirements in preserving \textit{privacy} and maintaining high model \textit{utility}. The nature of the widely-adopted protection mechanisms including \textit{Randomization Mechanism} and \textit{Compression Mechanism} is to protect privacy via distorting model parameter. We measure the utility via the gap between the original model parameter and the distorted model parameter. We want to identify under what general conditions privacy-preserving federated learning can achieve near-optimal utility via data generation and parameter distortion. To provide an avenue for achieving near-optimal utility, we present an upper bound for utility loss, which is measured using two main terms called variance-reduction and model parameter discrepancy separately. Our analysis inspires the design of appropriate protection parameters for the protection mechanisms to achieve near-optimal utility and meet the privacy requirements simultaneously. The main techniques for the protection mechanism include parameter distortion and data generation, which are generic and can be applied extensively. Furthermore, we provide an upper bound for the trade-off between privacy and utility, which together with the lower bound illustrated in NFL form the conditions for achieving optimal trade-off.
翻訳日:2023-05-22 18:28:57 公開日:2023-05-19
# 制約付きポートフォリオ最適化のためのqaoaパフォーマンスを改善する初期状態とミキサーのアライメント

Alignment between Initial State and Mixer Improves QAOA Performance for Constrained Portfolio Optimization ( http://arxiv.org/abs/2305.03857v2 )

ライセンス: Link先を確認
Zichang He, Ruslan Shaydulin, Shouvanik Chakrabarti, Dylan Herman, Changhao Li, Yue Sun, Marco Pistoia(参考訳) 量子交互演算子アンサッツ(QAOA)は組合せ最適化のための有望な量子アルゴリズムである。 QAOAは断熱アルゴリズムと強く結びついており、十分な深さで近似することができる。 同時に、実際に実施されているQAOA、すなわち、小から中程度の深さにおいて、断熱的体制からの教訓がどの程度適用されるかは明らかでない。 本稿では, adiabaticアルゴリズムからの直観がqaoa初期状態の選択に応用できることを示す。 具体的には, adiabaticアルゴリズムによって要求されるように, qaoaの初期状態が混合ハミルトニアンの基底状態である場合, 最高の性能が得られることを観察する。 我々は、低 (p\leq 3$) および高 (p = 100$) QAOA 深さの制約付きポートフォリオ最適化問題の例を用いて、数値的なエビデンスを示し、ほとんどの場合、初期状態と混合ハミルトンの基底状態との整合が有益であることを示す。 我々は、異なる数のトロッターステップを用いて、正確に、ほぼ両方をシミュレートするハミング重保存XYミキサーの多くのバリエーションを比較した。 我々は,初期状態が(実際に)XYモデルの既定基底状態に設定された場合,低トラッター誤差によりQAOA性能が向上することが観察された。 さらに,32量子ビットの捕捉イオン量子プロセッサ上でのポートフォリオ最適化に,xyミキサーを用いたqaoaを適用することに成功し,短期実験における本研究の意義について考察した。

Quantum alternating operator ansatz (QAOA) is a promising quantum algorithm for combinatorial optimization. QAOA has a strong connection to the adiabatic algorithm, which it can approximate with sufficient depth. At the same time, it is unclear to what extent the lessons from the adiabatic regime apply to QAOA as executed in practice, i.e., with small to moderate depth. In this paper, we demonstrate that the intuition from the adiabatic algorithm applies to the task of choosing the QAOA initial state. Specifically, we observe that the best performance is obtained when the initial state of QAOA is set to be the ground state of the mixing Hamiltonian, as required by the adiabatic algorithm. We provide numerical evidence using the examples of constrained portfolio optimization problems with both low ($p\leq 3$) and high ($p = 100$) QAOA depth, suggesting that the alignment between the initial state and the ground state of the mixing Hamiltonian is beneficial in most cases. We compare many variations of Hamming-weight-preserving XY mixers, which we simulate both exactly and approximately, using different numbers of Trotter steps. We observe that lower Trotter error improves QAOA performance when the initial state is set to be the easy-to-prepare ground state of the (exact) XY model. In addition, we successfully apply QAOA with XY mixer to portfolio optimization on a trapped-ion quantum processor using 32 qubits and discuss the implications of our findings to near-term experiments.
翻訳日:2023-05-22 18:28:34 公開日:2023-05-19
# 因果世界モデルによる説明可能な強化学習

Explainable Reinforcement Learning via a Causal World Model ( http://arxiv.org/abs/2305.02749v3 )

ライセンス: Link先を確認
Zhongwei Yu, Jingqing Ruan, Dengpeng Xing(参考訳) 強化学習(RL)のための説明を生成することは、行動が未来に長期的な影響をもたらす可能性があるため困難である。 本稿では,環境の因果構造を事前に知ることなく,因果世界モデルを学習し,説明可能なRLのための新しい枠組みを開発する。 このモデルは行動の影響を捉え、因果連鎖による行動の長期的な影響を解釈し、行動が環境変数にどのように影響し、最終的に報酬につながるかを示す。 精度の低いほとんどの説明モデルとは異なり、説明可能性を改善しながら精度を保ち、モデルベース学習に適用できる。 その結果,我々の因果モデルが説明可能性と学習の橋渡しとなることを示した。

Generating explanations for reinforcement learning (RL) is challenging as actions may produce long-term effects on the future. In this paper, we develop a novel framework for explainable RL by learning a causal world model without prior knowledge of the causal structure of the environment. The model captures the influence of actions, allowing us to interpret the long-term effects of actions through causal chains, which present how actions influence environmental variables and finally lead to rewards. Different from most explanatory models which suffer from low accuracy, our model remains accurate while improving explainability, making it applicable in model-based learning. As a result, we demonstrate that our causal model can serve as the bridge between explainability and learning.
翻訳日:2023-05-22 18:28:04 公開日:2023-05-19
# 構造スパースを用いたダイナミックスパーストレーニング

Dynamic Sparse Training with Structured Sparsity ( http://arxiv.org/abs/2305.02299v2 )

ライセンス: Link先を確認
Mike Lasby, Anna Golubeva, Utku Evci, Mihai Nica, Yani Ioannou(参考訳) 動的スパーストレーニング(dst)法は、スパースニューラルネットワークトレーニングにおいて最先端の結果を達成し、スパーストレーニングと推論を可能にしながら、密集したモデルの一般化と一致する。 結果のモデルは非常に疎らで、理論上は訓練のコストが安いが、現実のハードウェア上で非構造的な間隔でスピードアップを達成することは困難である。 本研究では,一定のファンイン制約を課すことで,構造的N:M空間の変動を学習するスパース・ツー・スパースDST法を提案する。 理論解析と経験的結果の両方を用いて,ネットワークアーキテクチャにおける最先端のスペア・ツー・スパースな構造化dst性能,パラメータとメモリフットプリントの低減による凝縮表現,凝縮表現のnaive pytorch cpu実装による密集したモデルと比較して推論時間を短縮した。 私たちのソースコードはhttps://github.com/calgaryml/condensed-sparsityで利用可能です。

Dynamic Sparse Training (DST) methods achieve state-of-the-art results in sparse neural network training, matching the generalization of dense models while enabling sparse training and inference. Although the resulting models are highly sparse and theoretically cheaper to train, achieving speedups with unstructured sparsity on real-world hardware is challenging. In this work, we propose a sparse-to-sparse DST method to learn a variant of structured N:M sparsity by imposing a constant fan-in constraint. We demonstrate with both a theoretical analysis and empirical results: state-of-the-art spare-to-sparse structured DST performance on a variety of network architectures, a condensed representation with a reduced parameter and memory footprint, and reduced inference time compared to dense models with a naive PyTorch CPU implementation of the condensed representation. Our source code is available at https://github.com/calgaryml/condensed-sparsity
翻訳日:2023-05-22 18:27:19 公開日:2023-05-19
# CT画像と存在確率マップを用いたCNNによる完全自動僧帽弁抽出

CNN-based fully automatic mitral valve extraction using CT images and existence probability maps ( http://arxiv.org/abs/2305.00627v2 )

ライセンス: Link先を確認
Yukiteru Masuda (1), Ryo Ishikawa (1), Toru Tanaka (1), Gakuto Aoyama (2), Keitaro Kawashima (2), James V. Chapman (3), Masahiko Asami (4), Michael Huy Cuong Pham (5), Klaus Fuglsang Kofoed (5), Takuya Sakaguchi (2), Kiyohide Satoh (1) ((1) Canon Inc., Tokyo, Japan, (2) Canon Medical Systems Corporation, Tochigi, Japan, (3) Canon Medical Informatics, Minnetonka, USA, (4) Division of Cardiology, Mitsui Memorial Hospital, Tokyo, Japan, (5) Department of Cardiology and Radiology, Copenhagen University Hospital - Rigshospitalet & Department of Clinical Medicine, Faculty of Health and Medical Sciences, University of Copenhagen, Copenhagen, Denmark)(参考訳) 臨床断層画像からの僧帽弁形状の正確な抽出は外科的および介入的僧帽弁治療の計画に有用であることが証明された。 しかし,手動による僧帽弁形状の抽出は困難であり,既存の自動抽出法は十分に正確ではない。 本稿では,心循環のすべての段階におけるCT画像から僧帽弁形状を抽出する完全自動抽出法を提案する。 本方法は、u-netにより推定された僧帽弁面積のct画像と存在確率マップの両方を入力として、dungnetに基づく僧帽弁形状を抽出する。 僧帽弁閉鎖不全症(MR)を含む各種心疾患患者204例のCT画像1585枚を収集し,手動で僧帽弁領域を診断した。 提案手法は,収集したデータを用いて10倍のクロス検証を行い,実存確率マップを用いない手法と比較した。 提案手法における形状抽出誤差の平均誤差は 0.88 mm であり, 存在確率マップのない方法と比較して 0.32 mm の改善である。

Accurate extraction of mitral valve shape from clinical tomographic images acquired in patients has proven useful for planning surgical and interventional mitral valve treatments. However, manual extraction of the mitral valve shape is laborious, and the existing automatic extraction methods have not been sufficiently accurate. In this paper, we propose a fully automated method of extracting mitral valve shape from computed tomography (CT) images for the all phases of the cardiac cycle. This method extracts the mitral valve shape based on DenseNet using both the original CT image and the existence probability maps of the mitral valve area inferred by U-Net as input. A total of 1585 CT images from 204 patients with various cardiac diseases including mitral regurgitation (MR) were collected and manually annotated for mitral valve region. The proposed method was trained and evaluated by 10-fold cross validation using the collected data and was compared with the method without the existence probability maps. The mean error of shape extraction error in the proposed method is 0.88 mm, which is an improvement of 0.32 mm compared with the method without the existence probability maps.
翻訳日:2023-05-22 18:26:59 公開日:2023-05-19
# 自由の計算アーキテクチャに向けて : メタバースにおける仮想アーキテクチャ生成のためのディープラーニングに関する包括的調査

Towards Computational Architecture of Liberty: A Comprehensive Survey on Deep Learning for Generating Virtual Architecture in the Metaverse ( http://arxiv.org/abs/2305.00510v2 )

ライセンス: Link先を確認
Anqi Wang, Jiahua Dong, Jiachuan Shen, Lik-Hang Lee, Pan Hui(参考訳) ディープラーニングを利用した3次元形状生成技術は,コンピュータビジョンとアーキテクチャ設計の両方から注目を集めている。 本調査は,3次元オブジェクト生成における最新のアプローチを,GAN(Generative Adversarial Networks),VAE(variantal Autoencoder),3D認識画像,拡散モデルなど,深層生成モデル(DGM)と比較することに焦点を当てる。 我々は、仮想環境におけるアーキテクチャの生成可能性の分野をレビューするために、187の論文(2018年から2022年の間に発行された記事の80.7%)について論じる。 本稿では, 建築研究, 仮想環境, 関連技術アプローチの概要と, 離散ボクセル生成の最近の動向, 2次元画像から生成された3Dモデル, 条件パラメータについて概説する。 我々は、さらなる調査に値する3D生成とパラメータ化制御の未調査問題に注目する。 さらに,データ制限,編集可能性,評価指標,人間とコンピュータの相互作用といった4つの研究課題が,コンピュータ支援設計におけるアーキテクチャにおける没入型システムとのユビキタスな相互作用を実現する上で重要であると推測する。

3D shape generation techniques utilizing deep learning are increasing attention from both computer vision and architectural design. This survey focuses on investigating and comparing the current latest approaches to 3D object generation with deep generative models (DGMs), including Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs), 3D-aware images, and diffusion models. We discuss 187 articles (80.7% of articles published between 2018-2022) to review the field of generated possibilities of architecture in virtual environments, limited to the architecture form. We provide an overview of architectural research, virtual environment, and related technical approaches, followed by a review of recent trends in discrete voxel generation, 3D models generated from 2D images, and conditional parameters. We highlight under-explored issues in 3D generation and parameterized control that is worth further investigation. Moreover, we speculate that four research agendas including data limitation, editability, evaluation metrics, and human-computer interaction are important enablers of ubiquitous interaction with immersive systems in architecture for computer-aided design Our work contributes to researchers' understanding of the current potential and future needs of deep learnings in generating virtual architecture.
翻訳日:2023-05-22 18:26:42 公開日:2023-05-19
# 都市空間時間予測の効率化に向けて:統一図書館と性能ベンチマーク

Towards Efficient and Comprehensive Urban Spatial-Temporal Prediction: A Unified Library and Performance Benchmark ( http://arxiv.org/abs/2304.14343v3 )

ライセンス: Link先を確認
Jingyuan Wang, Jiawei Jiang, Wenjun Jiang, Chengkai Han, Wayne Xin Zhao(参考訳) 深層学習技術が進歩し、都市空間時空間データが蓄積するにつれて、都市空間時空間予測問題を解決するための深層学習モデルが増えている。 しかし、既存の分野には、さまざまなフォーマットで、使いづらいオープンソースのデータ、コードとデータをオープンに利用可能にする論文、さまざまなフレームワークやプラットフォームを使用するオープンソースモデルなど、制限があり、比較が難しい。 これらのメソッドを実装し評価するには、標準化されたフレームワークが緊急に必要です。 これらの課題に対処するため、都市空間時空間予測の総合的なレビューを行い、原子ファイルと呼ばれる空間時空間データの統一記憶形式を提案する。 また、libcityは、研究者に信頼できる実験ツールと便利な開発フレームワークを提供するオープンソースライブラリである。 本図書館では,65の空間-時間予測モデルを再現し,55の空間-時間データセットを収集した。 LibCityを用いて、異なるモデルやコンポーネントの有効性を検証する一連の実験を行い、将来有望な技術開発と研究の方向性を時空間予測のために要約した。 公平なモデル比較を可能にし、統一されたデータストレージフォーマットを設計し、新しいモデルの開発プロセスを簡単にすることで、libcityは空間-時間予測分野に大きな貢献をする準備が整っている。

As deep learning technology advances and more urban spatial-temporal data accumulates, an increasing number of deep learning models are being proposed to solve urban spatial-temporal prediction problems. However, there are limitations in the existing field, including open-source data being in various formats and difficult to use, few papers making their code and data openly available, and open-source models often using different frameworks and platforms, making comparisons challenging. A standardized framework is urgently needed to implement and evaluate these methods. To address these issues, we provide a comprehensive review of urban spatial-temporal prediction and propose a unified storage format for spatial-temporal data called atomic files. We also propose LibCity, an open-source library that offers researchers a credible experimental tool and a convenient development framework. In this library, we have reproduced 65 spatial-temporal prediction models and collected 55 spatial-temporal datasets, allowing researchers to conduct comprehensive experiments conveniently. Using LibCity, we conducted a series of experiments to validate the effectiveness of different models and components, and we summarized promising future technology developments and research directions for spatial-temporal prediction. By enabling fair model comparisons, designing a unified data storage format, and simplifying the process of developing new models, LibCity is poised to make significant contributions to the spatial-temporal prediction field.
翻訳日:2023-05-22 18:26:15 公開日:2023-05-19
# 説明可能なAIのカテゴリ基盤

Categorical Foundations of Explainable AI ( http://arxiv.org/abs/2304.14094v2 )

ライセンス: Link先を確認
Pietro Barbiero, Stefano Fioravanti, Francesco Giannini, Alberto Tonda, Pietro Lio, Elena Di Lavore(参考訳) 説明可能なAI(XAI)は、安全で信頼性の高いAIシステムに対する人間のニーズに対処することを目的としている。 しかし、多くの調査は、重要なxai概念の数学的形式化が存在しないことを強調している -- 注目すべきことに、まだ正確な定義が欠けている ``\textit{explanation}'' という用語が含まれている。 このギャップを埋めるため,本論文では,カテゴリ理論の十分に資金提供された形式的手法を用いて,キーxai概念と過程の数学的に厳密な定義を初めて提示する。 私たちの分類学的枠組みは (i)既存の学習方法や建築をモデル化する。 (ii)「説明」の語を正式に定義する (iii)xai分類の理論的根拠を定め、 (iv)説明方法の見過ごされた側面をよく分析する。 その結果、私たちの分類学的枠組みは、説明可能なAIの健全な理論的基盤に向けた重要なステップであるとして、倫理的かつ安全なAI技術の展開を促進する。

Explainable AI (XAI) aims to address the human need for safe and reliable AI systems. However, numerous surveys emphasize the absence of a sound mathematical formalization of key XAI notions -- remarkably including the term ``\textit{explanation}'' which still lacks a precise definition. To bridge this gap, this paper presents the first mathematically rigorous definitions of key XAI notions and processes, using the well-funded formalism of Category theory. We show that our categorical framework allows to: (i) model existing learning schemes and architectures, (ii) formally define the term ``explanation'', (iii) establish a theoretical basis for XAI taxonomies, and (iv) analyze commonly overlooked aspects of explaining methods. As a consequence, our categorical framework promotes the ethical and secure deployment of AI technologies as it represents a significant step towards a sound theoretical foundation of explainable AI.
翻訳日:2023-05-22 18:25:43 公開日:2023-05-19
# GSB:限られたトレーニングサンプルを用いたビジョントランスのためのグループ重ね合わせ二元化

GSB: Group Superposition Binarization for Vision Transformer with Limited Training Samples ( http://arxiv.org/abs/2305.07931v3 )

ライセンス: Link先を確認
Tian Gao, Cheng-Zhong Xu, Le Zhang, Hui Kong(参考訳) 大量のパラメータの影響を受け、ViTは通常、比較的限られた数のトレーニングサンプルで深刻なオーバーフィット問題に悩まされる。 さらに、ViTは通常、リソース制限されたデバイスへのデプロイメントを制限する重いコンピューティングリソースを必要とする。 モデル圧縮法の一種として、モデル双対化は上記の問題を解決する良い選択である可能性がある。 完全な倍数化法と比較すると、複雑なテンソル乗算を単純なビット単位の2進演算に置き換え、全倍数モデルのパラメータとアクティベーションを1ビットのみで表現し、モデルサイズと計算複雑性の問題をそれぞれ解決する。 本稿では,バイナリViTモデルの精度の低下は,アテンションモジュールと値ベクトルの情報損失が主な原因であることを示す。 そこで本研究では,これらの問題に対処するため,GSB(Group Superposition Binarization)と呼ばれる新しいモデルバイナライゼーション手法を提案する。 さらに,二元化モデルの性能をさらに向上させるために,二元化過程における勾配計算手順を調査し,gsbのより適切な勾配計算式を導出し,勾配ミスマッチの影響を低減した。 次に, モデル2値化による性能劣化を緩和するために, 知識蒸留技術を導入する。 限られたトレーニングサンプル数を持つ3つのデータセットの実験では、提案したGSBモデルがバイナリ量子化スキームの最先端性能を実現し、いくつかの指標でその完全精度を上回ることが示されている。

Affected by the massive amount of parameters, ViT usually suffers from serious overfitting problems with a relatively limited number of training samples. In addition, ViT generally demands heavy computing resources, which limit its deployment on resource-constrained devices. As a type of model-compression method,model binarization is potentially a good choice to solve the above problems. Compared with the full-precision one, the model with the binarization method replaces complex tensor multiplication with simple bit-wise binary operations and represents full-precision model parameters and activations with only 1-bit ones, which potentially solves the problem of model size and computational complexity, respectively. In this paper, we find that the decline of the accuracy of the binary ViT model is mainly due to the information loss of the Attention module and the Value vector. Therefore, we propose a novel model binarization technique, called Group Superposition Binarization (GSB), to deal with these issues. Furthermore, in order to further improve the performance of the binarization model, we have investigated the gradient calculation procedure in the binarization process and derived more proper gradient calculation equations for GSB to reduce the influence of gradient mismatch. Then, the knowledge distillation technique is introduced to alleviate the performance degradation caused by model binarization. Experiments on three datasets with limited numbers of training samples demonstrate that the proposed GSB model achieves state-of-the-art performance among the binary quantization schemes and exceeds its full-precision counterpart on some indicators.
翻訳日:2023-05-22 18:17:16 公開日:2023-05-19
# 構造シミュレーションとブリッジ健康モニタリングのためのニューラルオペレータ

Neural operator for structural simulation and bridge health monitoring ( http://arxiv.org/abs/2305.07889v2 )

ライセンス: Link先を確認
Chawit Kaewnuratchadasorn, Jiaji Wang, Chul-Woo Kim(参考訳) 構造工学による深層学習は,前向き問題(構造シミュレーション)と逆問題(構造健康モニタリング)の両方に広く注目されている。 フーリエ・ニューラル・オペレーターに基づいて,橋梁構造のディジタル双対としてvino(vehicle-bridge interaction neural operator)を提案する。 VINOは構造応答場と損傷場のマッピングを学ぶ。 本研究では, 構造初期損傷場のランダム分布を考慮したパラメータ有限要素(FE)シミュレーションにより, VBI-FEデータセットを構築した。 その後、vbi-expデータセットは4つの損傷シナリオで実験的研究を行った。 VINOはVBI-FEによって事前訓練され、VBI-EXPによって正常状態の橋から微調整された後、以下の2つの改善が達成された。 まず、フォワードVINOは、FEモデルよりも正確に損傷場入力から構造応答を予測できる。 第二に、逆VINOはすべてのシナリオにおけるダメージを決定、ローカライズ、定量化し、データ駆動アプローチの実践性を示唆する。

Infusing deep learning with structural engineering has received widespread attention for both forward problems (structural simulation) and inverse problems (structural health monitoring). Based on Fourier Neural Operator, this study proposes VINO (Vehicle-bridge Interaction Neural Operator) to serve as the digital twin of bridge structures. VINO learns mappings between structural response fields and damage fields. In this study, VBI-FE dataset was established by running parametric finite element (FE) simulations considering a random distribution of structural initial damage field. Subsequently, VBI-EXP dataset was produced by conducting an experimental study under four damage scenarios. After VINO was pre-trained by VBI-FE and fine-tuned by VBI-EXP from the bridge at the healthy state, the model achieved the following two improvements. First, forward VINO can predict structural responses from damage field inputs more accurately than the FE model. Second, inverse VINO can determine, localize, and quantify damages in all scenarios, suggesting the practicality of data-driven approaches.
翻訳日:2023-05-22 18:16:49 公開日:2023-05-19
# エネルギーギャップ評価のための資源効率のよい量子古典ハイブリッドアルゴリズム

A resource-efficient quantum-classical hybrid algorithm for energy gap evaluation ( http://arxiv.org/abs/2305.07382v2 )

ライセンス: Link先を確認
Yongdan Yang, Ying Li, Xiaosi Xu, Xiao Yuan(参考訳) ハミルトン h の固有値やエネルギーギャップの推定は、量子多体系の研究に不可欠である。 特に、量子化学、凝縮物質物理学、核物理学における多くの問題は、2つの固有状態の間のエネルギーギャップを研究する。 したがって、エネルギーギャップを効率的に解く方法は、新しい量子アルゴリズムを研究する上で重要な動機となる。 本研究では,モンテカルロ法と実時間ハミルトンシミュレーションを用いて,一般量子多体系のエネルギーギャップを評価するハイブリッドな非偏差量子アルゴリズムを提案する。 従来の手法と比較して,本アルゴリズムはリアルタイム進化の制御を必要とせず,実装を実験的にフレンドリにする。 我々のアルゴリズムは変分的ではないため、「不規則な高原」問題も含まない。 アルゴリズムの効率性を検証するため,古典的エミュレータ上でハイゼンベルクモデルと分子系の数値シミュレーションを行う。

Estimating the eigenvalue or energy gap of a Hamiltonian H is vital for studying quantum many-body systems. Particularly, many of the problems in quantum chemistry, condensed matter physics, and nuclear physics investigate the energy gap between two eigenstates. Hence, how to efficiently solve the energy gap becomes an important motive for researching new quantum algorithms. In this work, we propose a hybrid non-variational quantum algorithm that uses the Monte Carlo method and real-time Hamiltonian simulation to evaluate the energy gap of a general quantum many-body system. Compared to conventional approaches, our algorithm does not require controlled real-time evolution, thus making its implementation much more experimental-friendly. Since our algorithm is non-variational, it is also free from the "barren plateaus" problem. To verify the efficiency of our algorithm, we conduct numerical simulations for the Heisenberg model and molecule systems on a classical emulator.
翻訳日:2023-05-22 18:16:34 公開日:2023-05-19
# t-former:画像インペインティングのための効率的なトランスフォーマー

T-former: An Efficient Transformer for Image Inpainting ( http://arxiv.org/abs/2305.07239v2 )

ライセンス: Link先を確認
Ye Deng, Siqi Hui, Sanping Zhou, Deyu Meng, Jinjun Wang(参考訳) 強力な畳み込みニューラルネットワーク(cnns)の恩恵を受け、学習に基づくイメージインペインティング手法は、長年にわたって大きなブレークスルーを遂げてきた。 しかし、CNNのいくつかの性質(例えば、局所的な事前、空間的に共有されたパラメータ)は、多様で複雑な画像の面における性能を制限している。 近年,自然言語処理や高レベル視覚タスクにおいて,注目度に基づくネットワークアーキテクチャのクラスであるTransformerが注目されている。 CNNと比較して、アテンション演算子は長距離モデリングに優れ、動的重みを持つが、その計算複雑性は空間分解能において二次的であり、画像のインペイントのような高解像度画像を含むアプリケーションには適さない。 本稿では,テイラー展開による分解能に関連する新しい注意を線形に設計する。 この点を踏まえると、$T$-formerと呼ばれるネットワークは画像のインペイント用に設計されている。 いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。 コードは \href{https://github.com/dengyecode/T-former_image_inpainting}{github.com/dengyecode/T-former\_image\_inpainting} で見ることができる。

Benefiting from powerful convolutional neural networks (CNNs), learning-based image inpainting methods have made significant breakthroughs over the years. However, some nature of CNNs (e.g. local prior, spatially shared parameters) limit the performance in the face of broken images with diverse and complex forms. Recently, a class of attention-based network architectures, called transformer, has shown significant performance on natural language processing fields and high-level vision tasks. Compared with CNNs, attention operators are better at long-range modeling and have dynamic weights, but their computational complexity is quadratic in spatial resolution, and thus less suitable for applications involving higher resolution images, such as image inpainting. In this paper, we design a novel attention linearly related to the resolution according to Taylor expansion. And based on this attention, a network called $T$-former is designed for image inpainting. Experiments on several benchmark datasets demonstrate that our proposed method achieves state-of-the-art accuracy while maintaining a relatively low number of parameters and computational complexity. The code can be found at \href{https://github.com/dengyecode/T-former_image_inpainting}{github.com/dengyecode/T-former\_image\_inpainting}
翻訳日:2023-05-22 18:16:20 公開日:2023-05-19
# エキゾチックなトランスバーサルゲートを持つ量子符号の一家系

A Family of Quantum Codes with Exotic Transversal Gates ( http://arxiv.org/abs/2305.07023v2 )

ライセンス: Link先を確認
Eric Kubischta and Ian Teixeira(参考訳) 近年、二進イコサヘドラル群は、ある畳み込みとともに最も効率的な単量子ユニバーサルゲート集合を形成することが示されている。 これを実現するためには、トランスバーサルゲート群 2,i$ で量子コードを構成する必要があるが、そのようなコードは明示的に証明されていない。 この空白を埋めるには、すべての超越ゲート群 2I$ を持つ新しい量子符号の族を構築する。

Recently it has been shown that the binary icosahedral group $2I$ together with a certain involution forms the most efficient single-qubit universal gate set. In order for this to be viable, one must construct a quantum code with transversal gate group $2I$, however, no such code has ever been demonstrated explicitly. We fill this void by constructing a novel family of quantum codes that all have transversal gate group $2I$.
翻訳日:2023-05-22 18:15:59 公開日:2023-05-19
# 線形および非線形重尾多腕バンディットのクリッピングによる暗黙的正規化予測器

Implicitly normalized forecaster with clipping for linear and non-linear heavy-tailed multi-armed bandits ( http://arxiv.org/abs/2305.06743v2 )

ライセンス: Link先を確認
Yuriy Dorn and Nikita Kornilov and Nikolay Kutuzov and Alexander Nazin and Eduard Gorbunov and Alexander Gasnikov(参考訳) Implicitly Normalized Forecaster (INF)アルゴリズムは、敵対的マルチアームバンディット(MAB)問題に対する最適解であると考えられている。 しかし、INFの既存の複雑さの結果のほとんどは、有界報酬のような制限的な仮定に依存している。 近年,逆向きと確率的重み付きMAB設定の両方で機能する関連アルゴリズムが提案されている。 しかし、このアルゴリズムは利用可能なデータを完全に活用できない。 本稿では,重み付き報酬分布を持つMAB問題に対するクリッピング (INF-clip) を用いた INF の新バージョンである Implicitly Normalized Forecaster を提案する。 報奨分布の軽度な仮定の下で収束結果を確立し, INF-clip が線形重み付き確率MAB問題に最適であることを示す。 さらに,inf-clipは両世界の最良のアルゴリズムよりも優れており,両腕の区別が困難である。

The Implicitly Normalized Forecaster (INF) algorithm is considered to be an optimal solution for adversarial multi-armed bandit (MAB) problems. However, most of the existing complexity results for INF rely on restrictive assumptions, such as bounded rewards. Recently, a related algorithm was proposed that works for both adversarial and stochastic heavy-tailed MAB settings. However, this algorithm fails to fully exploit the available data. In this paper, we propose a new version of INF called the Implicitly Normalized Forecaster with clipping (INF-clip) for MAB problems with heavy-tailed reward distributions. We establish convergence results under mild assumptions on the rewards distribution and demonstrate that INF-clip is optimal for linear heavy-tailed stochastic MAB problems and works well for non-linear ones. Furthermore, we show that INF-clip outperforms the best-of-both-worlds algorithm in cases where it is difficult to distinguish between different arms.
翻訳日:2023-05-22 18:15:51 公開日:2023-05-19
# FactKG:知識グラフの推論によるFact Verification

FactKG: Fact Verification via Reasoning on Knowledge Graphs ( http://arxiv.org/abs/2305.06590v2 )

ライセンス: Link先を確認
Jiho Kim, Sungjin Park, Yeonsu Kwon, Yohan Jo, James Thorne, Edward Choi(参考訳) 現実世界の応用では、知識グラフ(KG)は様々な領域(医学的応用や対話エージェントなど)で広く使われている。 しかし、事実検証のため、KGは知識源として適切に利用されていない。 kgsはその信頼性と幅広い適用性のため、事実検証において貴重な知識ソースとなり得る。 KGはノードとエッジで構成されており、概念がどのようにリンクされているかを明確にし、マシンがトピックの連鎖を推論できるようにする。 しかし、これらの機械可読の概念がいかにしてテキストで情報にマップするかを理解するには多くの課題がある。 コミュニティがKGをより使いやすくするために、知識グラフの推論によるFactKG: Fact Verificationという新しいデータセットを紹介します。 108kの自然言語クレームと5種類の推論(one-hop, conjunction, presence, multi-hop, negation)からなる。 さらに、FactKGには、口語スタイルの主張や実践性を高めるための書体スタイルの主張など、さまざまな言語パターンが含まれている。 最後に,これらの推論型をベースラインとしてFactKGを解析する手法を提案する。 我々は、FactKGがKGに基づく事実検証の信頼性と実用性の両方を向上できると考えている。

In real world applications, knowledge graphs (KG) are widely used in various domains (e.g. medical applications and dialogue agents). However, for fact verification, KGs have not been adequately utilized as a knowledge source. KGs can be a valuable knowledge source in fact verification due to their reliability and broad applicability. A KG consists of nodes and edges which makes it clear how concepts are linked together, allowing machines to reason over chains of topics. However, there are many challenges in understanding how these machine-readable concepts map to information in text. To enable the community to better use KGs, we introduce a new dataset, FactKG: Fact Verification via Reasoning on Knowledge Graphs. It consists of 108k natural language claims with five types of reasoning: One-hop, Conjunction, Existence, Multi-hop, and Negation. Furthermore, FactKG contains various linguistic patterns, including colloquial style claims as well as written style claims to increase practicality. Lastly, we develop a baseline approach and analyze FactKG over these reasoning types. We believe FactKG can advance both reliability and practicality in KG-based fact verification.
翻訳日:2023-05-22 18:15:33 公開日:2023-05-19
# 精密勾配バックプロパゲーションを用いたsnn最適化ダウンサンプリングによるトランスベーススパイクニューラルネットワークの性能向上

Enhancing the Performance of Transformer-based Spiking Neural Networks by SNN-optimized Downsampling with Precise Gradient Backpropagation ( http://arxiv.org/abs/2305.05954v3 )

ライセンス: Link先を確認
Chenlin Zhou, Han Zhang, Zhaokun Zhou, Liutao Yu, Zhengyu Ma, Huihui Zhou, Xiaopeng Fan, Yonghong Tian(参考訳) 近年、低消費電力、生物学的合理性、事象駆動性などにより、ディープスパイクニューラルネットワーク(SNN)が注目されている。 しかし、現在最先端の深層SNN(SpikformerやSpikeformerなど)は、不正確な勾配のバックプロパゲーションに関連する重大な課題に悩まされている。 この問題は、これらのネットワークにおけるダウンサンプリングモジュールの不適切な設計から生じ、全体のモデル性能を著しく損なう。 本稿では,SNN最適化ダウンサンプリングであるConvBN-MaxPooling-LIF(CML)を提案する。 我々はCMLが理論的観点からの勾配逆伝播の精度を効果的に克服できることを証明した。 さらに、ImageNet, CIFAR10, CIFAR100, CIFAR10-DVS, DVS128-Gestureデータセット上でCMLを評価し、Spikeformerと比較して大幅に性能が向上したこれらのデータセットの最先端性能を示す。 例えば、私たちのモデルはImageNetで77.64$\%、CIFAR10で96.04$\%、CIFAR10-DVSで81.4$\%、ImageNetで+1.79$\%、CIFAR100で+1.16$\%である。

Deep spiking neural networks (SNNs) have drawn much attention in recent years because of their low power consumption, biological rationality and event-driven property. However, state-of-the-art deep SNNs (including Spikformer and Spikingformer) suffer from a critical challenge related to the imprecise gradient backpropagation. This problem arises from the improper design of downsampling modules in these networks, and greatly hampering the overall model performance. In this paper, we propose ConvBN-MaxPooling-LIF (CML), an SNN-optimized downsampling with precise gradient backpropagation. We prove that CML can effectively overcome the imprecision of gradient backpropagation from a theoretical perspective. In addition, we evaluate CML on ImageNet, CIFAR10, CIFAR100, CIFAR10-DVS, DVS128-Gesture datasets, and show state-of-the-art performance on all these datasets with significantly enhanced performances compared with Spikingformer. For instance, our model achieves 77.64 $\%$ on ImageNet, 96.04 $\%$ on CIFAR10, 81.4$\%$ on CIFAR10-DVS, with + 1.79$\%$ on ImageNet, +1.16$\%$ on CIFAR100 compared with Spikingformer.
翻訳日:2023-05-22 18:15:15 公開日:2023-05-19
# 分散多目的意思決定

Distributional Multi-Objective Decision Making ( http://arxiv.org/abs/2305.05560v2 )

ライセンス: Link先を確認
Willem R\"opke, Conor F. Hayes, Patrick Mannion, Enda Howley, Ann Now\'e and Diederik M. Roijers(参考訳) 矛盾する目的を持つシナリオにおける効果的な意思決定支援のために、潜在的に最適な解決策のセットを意思決定者に提示することができる。 これらの集合が持つべきポリシーと、そのような集合を効率的に計算する方法を考察する。 このことを念頭に配当的アプローチをとり,政策の帰納分布に関する新たな支配基準を導入する。 この基準に基づき、分布的非支配集合を示し、パレートフロントで無視されている最適ポリシーを含むことを示す。 さらに, 凸分布型非支配集合を提案し, 多変量リスク回避意思決定者に期待できる有用性を最大化するすべての方針を含むことを証明した。 本稿では,分布非支配集合を学習し,その集合を凸分布非支配集合に還元するためのプランニング演算子をさらに貢献する新しいアルゴリズムを提案する。 実験を通じて,これらの手法の有効性と効果を実証し,実世界問題における意思決定支援の新たなアプローチとして有用であることを示す。

For effective decision support in scenarios with conflicting objectives, sets of potentially optimal solutions can be presented to the decision maker. We explore both what policies these sets should contain and how such sets can be computed efficiently. With this in mind, we take a distributional approach and introduce a novel dominance criterion relating return distributions of policies directly. Based on this criterion, we present the distributional undominated set and show that it contains optimal policies otherwise ignored by the Pareto front. In addition, we propose the convex distributional undominated set and prove that it comprises all policies that maximise expected utility for multivariate risk-averse decision makers. We propose a novel algorithm to learn the distributional undominated set and further contribute pruning operators to reduce the set to the convex distributional undominated set. Through experiments, we demonstrate the feasibility and effectiveness of these methods, making this a valuable new approach for decision support in real-world problems.
翻訳日:2023-05-22 18:14:48 公開日:2023-05-19
# NISQはどこへ向かっていますか。

Where are we heading with NISQ? ( http://arxiv.org/abs/2305.09518v2 )

ライセンス: Link先を確認
Olivier Ezratty(参考訳) 2017年、ジョン・プレスキル(John Preskill)は、NISQ(Noisy Intermediate Scale Quantum)コンピュータを大規模なエラー修正故障耐性量子コンピュータ(FTQC)への中間ステップとして定義した。 NISQレシエーションは、従来のスーパーコンピュータよりも高速な商用価値の実際の問題を解決する可能性を持つノイズの多い量子コンピュータに対応している。 5年以上経った今、状況を見直すのがよい時期だ。 量子ハードウェアとアルゴリズム、そして最近の多くの実験的なデモで急速に進歩している一方で、NISQの当初の定義に合致したユースケースの実装は成功していない。 本稿は, NISQアルゴリズムの空間, 忠実度, 時間的資源について検討し, NISQ要求と現実, 将来の量子ハードウェア機能との矛盾点を強調した。 次に、量子ビットフィデリティの改善、様々な種類の量子エラー緩和方法、アナログ/デジタルハイブリッド化、マルチモード光子のような特定の量子ビットタイプ、および量子アンネラやアナログ量子コンピュータ(量子シミュレータやプログラム可能なハミルトンシミュレータ)など、有用なアプリケーションを提供するのに近づきつつある。 これらのさまざまなソリューションのすべての制約を考えると、nisqシステムの実用的なユースケースを期待することは可能だが、さまざまなスケーリング問題が現れる前には、非常に狭いウィンドウがある。 将来的には、nisqがftqcへの道の中間的なステップであるとは限らない、というシナリオを想定できる。 その代わり、両者は異なる要求によって異なる経路に沿って発展する可能性がある。 このことは、将来の量子コンピュータ設計において、量子ビットスケールと量子ビットフィリティの間のトレードオフについて重要な疑問を提起する。

In 2017, John Preskill defined Noisy Intermediate Scale Quantum (NISQ) computers as an intermediate step on the road to large scale error corrected fault-tolerant quantum computers (FTQC). The NISQ regime corresponds to noisy qubit quantum computers with the potential to solve actual problems of some commercial value faster than conventional supercomputers, or consuming less energy. Over five years on, it is a good time to review the situation. While rapid progress is being made with quantum hardware and algorithms, and many recent experimental demonstrations, no one has yet successfully implemented a use case matching the original definition of the NISQ regime. This paper investigates the space, fidelity and time resources of various NISQ algorithms and highlights several contradictions between NISQ requirements and actual as well as future quantum hardware capabilities. It then covers various techniques which could help like qubit fidelities improvements, various breeds of quantum error mitigation methods, analog/digital hybridization, using specific qubit types like multimode photons as well as quantum annealers and analog quantum computers (aka quantum simulators or programmable Hamiltonian simulators) which seem closer to delivering useful applications although they have their own mid to longer-term scalability challenges. Given all the constraints of these various solutions, it seems possible to expect some practical use cases for NISQ systems, but with a very narrow window before various scaling issues show up. Turning to the future, a scenario can be envisioned where NISQ will not necessarily be an intermediate step on the road to FTQC. Instead, the two may develop along different paths, due to their different requirements. This leaves open a key question on the trade-offs that may be necessary to make between qubit scale and qubit fidelities in future quantum computers designs.
翻訳日:2023-05-22 18:08:39 公開日:2023-05-19
# AR拡散:テキスト生成のための自己回帰拡散モデル

AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation ( http://arxiv.org/abs/2305.09515v2 )

ライセンス: Link先を確認
Tong Wu, Zhihao Fan, Xiao Liu, Yeyun Gong, Yelong Shen, Jian Jiao, Hai-Tao Zheng, Juntao Li, Zhongyu Wei, Jian Guo, Nan Duan, Weizhu Chen(参考訳) 拡散モデルはその優れた性能のために画像生成の分野で大きな注目を集めている。 彼らの成功は、シーケンス内のすべてのトークンを同時生成することで、最近テキスト生成に拡大された。 しかし、自然言語は画像と比較してはるかに顕著な依存性を示しており、既存の言語モデルは左から右への自己回帰アプローチで訓練されている。 自然言語の固有な逐次特性を考慮し,自己回帰拡散(AR-Diffusion)を導入する。 AR拡散(AR-Diffusion)は、右のトークンの生成が左の生成されたトークンに依存することを保証します。 この結果、左のトークンは右のトークンよりもデノイングステップが少ないため、より早く生成でき、その後右のトークンの生成に影響を与える。 テキスト要約、機械翻訳、常識生成を含む様々なテキスト生成タスクに関する一連の実験で、ar-diffusionは既存の拡散言語モデルよりも優れていることを明確に証明し、同等の結果を得るには100\times\sim600\times$であることを示した。 私たちのコードはhttps://github.com/microsoft/ProphetNet/tree/master/AR-diffusionで利用可能です。

Diffusion models have gained significant attention in the realm of image generation due to their exceptional performance. Their success has been recently expanded to text generation via generating all tokens within a sequence concurrently. However, natural language exhibits a far more pronounced sequential dependency in comparison to images, and the majority of existing language models are trained with a left-to-right auto-regressive approach. To account for the inherent sequential characteristic of natural language, we introduce Auto-Regressive Diffusion (AR-Diffusion). AR-Diffusion ensures that the generation of tokens on the right depends on the generated ones on the left, a mechanism achieved through employing a dynamic number of denoising steps that vary based on token position. This results in tokens on the left undergoing fewer denoising steps than those on the right, thereby enabling them to generate earlier and subsequently influence the generation of tokens on the right. In a series of experiments on various text generation tasks, including text summarization, machine translation, and common sense generation, AR-Diffusion clearly demonstrated its superiority over existing diffusion language models and that it can be $100\times\sim600\times$ faster when achieving comparable results. Our code is available at https://github.com/microsoft/ProphetNet/tree/master/AR-diffusion.
翻訳日:2023-05-22 18:08:08 公開日:2023-05-19
# 情報抽出のための難易度学習

Easy-to-Hard Learning for Information Extraction ( http://arxiv.org/abs/2305.09193v2 )

ライセンス: Link先を確認
Chang Gao, Wenxuan Zhang, Wai Lam, Lidong Bing(参考訳) 情報抽出(ie)システムは、非構造化テキストから名前付きエンティティ、エンティティ間の関係、イベントなどの構造化情報を自動的に抽出することを目的としている。 既存の作業の多くは特定のIEタスクに対処するが、様々なIEタスクを1つのモデルで普遍的にモデル化することは、最近大きな成功を収めている。 その成功にもかかわらず、彼らは1段階の学習戦略、すなわち、人間の学習プロセスと矛盾する入力テキストが与えられた対象構造を抽出するために直接学習する。 本稿では,人間学習過程を模倣したieの3段階,すなわち,簡単なステージ,難しいステージ,そしてメインステージからなる統一的なハードな学習フレームワークを提案する。 学習プロセスを複数の段階に分割することで,一般のIEタスク知識の獲得と一般化能力の向上が促進される。 4つのIEタスクにわたる大規模な実験は、我々のフレームワークの有効性を示す。 17のデータセットのうち13で最新の結果を得る。 我々のコードは \url{https://github.com/DAMO-NLP-SG/IE-E2H} で入手できる。

Information extraction (IE) systems aim to automatically extract structured information, such as named entities, relations between entities, and events, from unstructured texts. While most existing work addresses a particular IE task, universally modeling various IE tasks with one model has achieved great success recently. Despite their success, they employ a one-stage learning strategy, i.e., directly learning to extract the target structure given the input text, which contradicts the human learning process. In this paper, we propose a unified easy-to-hard learning framework consisting of three stages, i.e., the easy stage, the hard stage, and the main stage, for IE by mimicking the human learning process. By breaking down the learning process into multiple stages, our framework facilitates the model to acquire general IE task knowledge and improve its generalization ability. Extensive experiments across four IE tasks demonstrate the effectiveness of our framework. We achieve new state-of-the-art results on 13 out of 17 datasets. Our code is available at \url{https://github.com/DAMO-NLP-SG/IE-E2H}.
翻訳日:2023-05-22 18:07:47 公開日:2023-05-19
# スキーマ適応型知識グラフ構築

Schema-adaptable Knowledge Graph Construction ( http://arxiv.org/abs/2305.08703v2 )

ライセンス: Link先を確認
Hongbin Ye, Honghao Gui, Xin Xu, Huajun Chen, Ningyu Zhang(参考訳) 従来の知識グラフ構築(KGC)アプローチは、通常、事前定義されたスキーマの閉じたセットで静的情報抽出パラダイムに従う。 その結果、動的なシナリオやドメインに適用した場合、このようなアプローチは短くなりますが、新しいタイプの知識が生まれます。 これは、KGCの情報を取り出すために、進化するスキーマを自動で処理できるシステムを必要とする。 そこで本研究では,動的に変化するスキーマグラフに基づくエンティティ,関係,イベントの連続抽出を目的とした,スキーマ対応型kgcという新たなタスクを提案する。 まず、ベンチマークを構築するための3つの原則、すなわち水平スキーマ拡張、垂直スキーマ拡張、ハイブリッドスキーマ拡張に基づいて既存のデータセットを分割、変換し、その後、Text2Event、TANL、UIE、GPT-3.5といったよく知られたアプローチのスキーマ適応性能を調査した。 我々はさらに,スキーマ拡張型プレフィックスインストラクタとスキーマ条件付き動的デコードを含むadakgcと呼ばれる単純かつ効果的なベースラインを提案する。 総合的な実験結果から、AdaKGCはベースラインより優れているが、改善の余地があることが示された。 提案された作業がコミュニティに利益をもたらすことを願っています。 コードとデータセットはhttps://github.com/zjunlp/AdaKGCで入手できる。

Conventional Knowledge Graph Construction (KGC) approaches typically follow the static information extraction paradigm with a closed set of pre-defined schema. As a result, such approaches fall short when applied to dynamic scenarios or domains, whereas a new type of knowledge emerges. This necessitates a system that can handle evolving schema automatically to extract information for KGC. To address this need, we propose a new task called schema-adaptable KGC, which aims to continually extract entity, relation, and event based on a dynamically changing schema graph without re-training. We first split and convert existing datasets based on three principles to build a benchmark, i.e., horizontal schema expansion, vertical schema expansion, and hybrid schema expansion; then investigate the schema-adaptable performance of several well-known approaches such as Text2Event, TANL, UIE and GPT-3.5. We further propose a simple yet effective baseline dubbed AdaKGC, which contains schema-enriched prefix instructor and schema-conditioned dynamic decoding to better handle evolving schema. Comprehensive experimental results illustrate that AdaKGC can outperform baselines but still have room for improvement. We hope the proposed work can deliver benefits to the community. Code and datasets will be available in https://github.com/zjunlp/AdaKGC.
翻訳日:2023-05-22 18:07:31 公開日:2023-05-19
# 弱教師付き意味セグメンテーションのためのマスキング協調コントラスト

Masked Collaborative Contrast for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2305.08491v2 )

ライセンス: Link先を確認
Fangwen Wu, Jingxuan He, Lechao Cheng, Yufei Yin, Yanbin Hao, Gang Huang(参考訳) 本研究では,弱教師付きセマンティックセマンティックセグメンテーションにおける意味領域を強調するため,Masked Collaborative Contrast (MCC) を提案する。 MCCはマスク付き画像モデリングやコントラスト学習の概念を巧みに取り入れて、意味論的に関連する領域にキーを割り当てるTransformerブロックを考案している。 マスク生成時に入力画像のパッチ領域を直接消去する一般的な手法とは異なり,アフィニティ行列のキーを考慮したマスクを探索することにより,パッチトークンの近傍関係を精査する。 さらに,マスキングローカルアウトプットを活用し,グローバルアウトプットと対比することにより,対照学習において正負のサンプルを生成する。 一般的に使用されるデータセットに関する実験により、提案されたMCCメカニズムが画像内のグローバルとローカルの視点を効果的に整合させ、印象的なパフォーマンスを実現することが証明された。 ソースコードは \url{https://github.com/fwu11/MCC} で入手できる。

This study introduces an efficacious approach, Masked Collaborative Contrast (MCC), to emphasize semantic regions in weakly supervised semantic segmentation. MCC adroitly incorporates concepts from masked image modeling and contrastive learning to devise Transformer blocks that induce keys to contract towards semantically pertinent regions. Unlike prevalent techniques that directly eradicate patch regions in the input image when generating masks, we scrutinize the neighborhood relations of patch tokens by exploring masks considering keys on the affinity matrix. Moreover, we generate positive and negative samples in contrastive learning by utilizing the masked local output and contrasting it with the global output. Elaborate experiments on commonly employed datasets evidences that the proposed MCC mechanism effectively aligns global and local perspectives within the image, attaining impressive performance. The source code is available at \url{https://github.com/fwu11/MCC}.
翻訳日:2023-05-22 18:07:08 公開日:2023-05-19
# 視覚・他領域のセグメンテーションモデルに関する総合的調査

A Comprehensive Survey on Segment Anything Model for Vision and Beyond ( http://arxiv.org/abs/2305.08196v2 )

ライセンス: Link先を確認
Chunhui Zhang, Li Liu, Yawen Cui, Guanjie Huang, Weilin Lin, Yiqian Yang, Yuehong Hu(参考訳) 人工知能(AI)は、AIシステムが幅広いタスクを実行し、人間のものと似たレベルの知性を示す能力を指す人工知能へと進化している。 これは、特定のタスクを高い効率で実行するように設計された、狭いあるいは特殊なAIとは対照的である。 したがって、様々な下流タスクに適応可能な幅広いデータに基づいて訓練された基礎モデルと呼ばれる、一般的なモデルのクラスを設計することが急務である。 最近提案されたセグメンテーションモデル (SAM) は、セグメンテーションの境界を画定し、コンピュータビジョンの基礎モデルの開発を大いに促進している。 SAMを完全に理解するために,我々は調査研究を行う。 ビジョンのためのタスクのセグメンテーションの進捗を、samの基礎モデルに基づいて包括的にレビューするため、本研究は、その歴史的発展、最近の進歩、幅広いアプリケーションへの深い影響について議論することで、様々なタスクやデータタイプへの応用に焦点を当てている。 まず、SAMを含む基礎モデルの背景と用語、およびタスクのセグメンテーションに重要なSAMと同等の最先端の手法について紹介する。 そして,ソフトウェアシーン,現実世界シーン,複雑なシーンなど,様々な画像処理アプリケーションにおけるSAMの利点と限界を分析し,要約する。 重要なことは、将来の研究をガイドして、より汎用的な基礎モデルを開発し、SAMのアーキテクチャを改善するために多くの洞察が導かれることである。 また、SAMの視覚およびそれ以上の素晴らしい応用についてもまとめています。 最後に、継続的に更新されたペーパーリストと foundation model samのオープンソースプロジェクトサマリを、 \href{https://github.com/liliu-avril/awesome-segment-anything}{\color{magenta}{here}}で維持する。

Artificial intelligence (AI) is evolving towards artificial general intelligence, which refers to the ability of an AI system to perform a wide range of tasks and exhibit a level of intelligence similar to that of a human being. This is in contrast to narrow or specialized AI, which is designed to perform specific tasks with a high degree of efficiency. Therefore, it is urgent to design a general class of models, which we term foundation models, trained on broad data that can be adapted to various downstream tasks. The recently proposed segment anything model (SAM) has made significant progress in breaking the boundaries of segmentation, greatly promoting the development of foundation models for computer vision. To fully comprehend SAM, we conduct a survey study. As the first to comprehensively review the progress of segmenting anything task for vision and beyond based on the foundation model of SAM, this work focuses on its applications to various tasks and data types by discussing its historical development, recent progress, and profound impact on broad applications. We first introduce the background and terminology for foundation models including SAM, as well as state-of-the-art methods contemporaneous with SAM that are significant for segmenting anything task. Then, we analyze and summarize the advantages and limitations of SAM across various image processing applications, including software scenes, real-world scenes, and complex scenes. Importantly, many insights are drawn to guide future research to develop more versatile foundation models and improve the architecture of SAM. We also summarize massive other amazing applications of SAM in vision and beyond. Finally, we maintain a continuously updated paper list and an open-source project summary for foundation model SAM at \href{https://github.com/liliu-avril/Awesome-Segment-Anything}{\color{magenta}{here}}.
翻訳日:2023-05-22 18:06:20 公開日:2023-05-19
# フェデレーション学習におけるフェデレーション評価に関する調査

A Survey of Federated Evaluation in Federated Learning ( http://arxiv.org/abs/2305.08070v2 )

ライセンス: Link先を確認
Behnaz Soltani, Yipeng Zhou, Venus Haghighi, John C.S. Lui(参考訳) 従来の機械学習では、すべてのデータサンプルがサーバによって中央管理されているため、モデル評価を行うのは簡単です。 しかし、モデル評価は、この研究でフェデレーション評価と呼ばれるフェデレーション学習(FL)において難しい問題となっている。 これは、クライアントがデータプライバシを保存するために元のデータを公開しないためです。 フェデレーション評価は、クライアント選択、インセンティブ機構設計、悪意のある攻撃検出などにおいて重要な役割を果たす。 本稿では,既存のフェデレーション評価手法の包括的調査を初めて実施する。 さらに,FL性能向上のためのフェデレーション評価の様々な応用について検討し,いくつかの課題を想定して今後の研究の方向性を示す。

In traditional machine learning, it is trivial to conduct model evaluation since all data samples are managed centrally by a server. However, model evaluation becomes a challenging problem in federated learning (FL), which is called federated evaluation in this work. This is because clients do not expose their original data to preserve data privacy. Federated evaluation plays a vital role in client selection, incentive mechanism design, malicious attack detection, etc. In this paper, we provide the first comprehensive survey of existing federated evaluation methods. Moreover, we explore various applications of federated evaluation for enhancing FL performance and finally present future research directions by envisioning some challenges.
翻訳日:2023-05-22 18:05:49 公開日:2023-05-19
# ChatGPTと安定拡散を用いたリッチストーリーによるコヒーレントコミックの生成

Generating coherent comic with rich story using ChatGPT and Stable Diffusion ( http://arxiv.org/abs/2305.11067v2 )

ライセンス: Link先を確認
Ze Jin, Zorina Song(参考訳) 過去の研究では、ニューラルネットワークを使うことで、ミュージシャンの音楽スタイルを維持しながら未完成の音楽を拡張できることを示した。 近年の大規模言語モデルや拡散モデルの発展により,アーティストの芸術スタイルを維持しつつ,面白いストーリーラインで漫画を制作することが可能になった。 本稿では,ChatGPTを用いてストーリーラインと対話を生成し,安定拡散を用いて漫画を生成する。 我々は,AI生成ストーリを評価する新しい手法を導入し,LoRAやControlNetなどを用いた安定した拡散を微調整することで,文字の忠実さとアートスタイルのSOTA性能を実現した。

Past work demonstrated that using neural networks, we can extend unfinished music pieces while maintaining the music style of the musician. With recent advancements in large language models and diffusion models, we are now capable of generating comics with an interesting storyline while maintaining the art style of the artist. In this paper, we used ChatGPT to generate storylines and dialogue and then generated the comic using stable diffusion. We introduced a novel way to evaluate AI-generated stories, and we achieved SOTA performance on character fidelity and art style by fine-tuning stable diffusion using LoRA, ControlNet, etc.
翻訳日:2023-05-22 17:56:03 公開日:2023-05-19
# 詳細な実行コストを伴う効率的な量子線形解法アルゴリズム

Efficient quantum linear solver algorithm with detailed running costs ( http://arxiv.org/abs/2305.11352v1 )

ライセンス: Link先を確認
David Jennings, Matteo Lostaglio, Sam Pallister, Andrew T Sornborger, Yi\u{g}it Suba\c{s}{\i}(参考訳) 量子アルゴリズムの物理的実装に向けて進むにつれ、それらを実行するのに必要な明示的なリソースコストを決定することが不可欠である。 方程式の線形系を解くことは、科学の様々な分野にまたがる幅広い応用の基本的な問題であり、量子線形解法アルゴリズムを開発する努力が増えている。 本稿では, adiabatic quantum computing のアイデアと量子信号処理に基づくフィルタリング手法を組み合わせた量子線形解法を提案する。 線形系行列のブロックエンコーディングへの呼び出しの正確な数を、条件番号$\kappa$、エラー許容度$\epsilon$、ブロックエンコーディングスケーリング係数$\alpha$の関数として、非漸近的クエリ複雑性のクローズド式を与える。 我々のプロトコルは、初期実装において、最先端技術に対する量子線形解決器のコストを桁違いに削減する。 asymptotic scaling は$o(\kappa \log(\kappa/\epsilon))$であり、$o(\kappa \log(1/\epsilon))$ costa et al の漸近的最適アルゴリズムのスケーリングよりやや緩やかである。 しかしながら、我々のアルゴリズムは、最大$\kappa \approx 10^{32}$までの条件数に対して後者よりも優れており、その時点では$Q$は可分に大きい。 現在の最適化された解析は問題非依存かつアーキテクチャ非依存であり、従って線形解法をサブルーチンとして使用する任意の量子アルゴリズムにデプロイすることができる。

As we progress towards physical implementation of quantum algorithms it is vital to determine the explicit resource costs needed to run them. Solving linear systems of equations is a fundamental problem with a wide variety of applications across many fields of science, and there is increasing effort to develop quantum linear solver algorithms. Here we introduce a quantum linear solver algorithm combining ideas from adiabatic quantum computing with filtering techniques based on quantum signal processing. We give a closed formula for the non-asymptotic query complexity $Q$ -- the exact number of calls to a block-encoding of the linear system matrix -- as a function of condition number $\kappa$, error tolerance $\epsilon$ and block-encoding scaling factor $\alpha$. Our protocol reduces the cost of quantum linear solvers over state-of-the-art close to an order of magnitude for early implementations. The asymptotic scaling is $O(\kappa \log(\kappa/\epsilon))$, slightly looser than the $O(\kappa \log(1/\epsilon))$ scaling of the asymptotically optimal algorithm of Costa et al. However, our algorithm outperforms the latter for all condition numbers up to $\kappa \approx 10^{32}$, at which point $Q$ is comparably large, and both algorithms are anyway practically unfeasible. The present optimized analysis is both problem-agnostic and architecture-agnostic, and hence can be deployed in any quantum algorithm that uses linear solvers as a subroutine.
翻訳日:2023-05-22 17:02:07 公開日:2023-05-19
# autotrial: 臨床試験設計のための言語モデルプロンプト

AutoTrial: Prompting Language Models for Clinical Trial Design ( http://arxiv.org/abs/2305.11366v1 )

ライセンス: Link先を確認
Zifeng Wang and Cao Xiao and Jimeng Sun(参考訳) 臨床試験は薬物開発に不可欠である。 適切な適格基準(すなわち、患者採用の包含・排除基準)を構築することは、試験の成功に不可欠である。 臨床治験プロトコルの適切な設計は、患者の十分なカバレッジを確保するために、同様の前例試験とその適格基準を検討するべきである。 本稿では,言語モデルを用いた臨床資格基準の設計を支援するAutoTrialという手法を提案する。 1)離散的およびニューラルプロンプトのハイブリッドによる命令下での制御可能な生成、(2)コンテキスト内学習によるスケーラブルな知識の取り込み、(3)アウトプットを理解するための合理性を提供する明示的推論チェーンを可能にする。 70K以上の臨床試験における実験は、AutoTrialが、流動的で一貫性があり、関連する臨床概念をターゲットトライアルに取得する上で高い精度で高品質な基準テキストを生成することを検証する。 提案手法は, パラメータサイズがはるかに小さいため, 人的評価により, GPT-3.5ベースラインに対して約60倍の勝利率を得る。

Clinical trials are critical for drug development. Constructing the appropriate eligibility criteria (i.e., the inclusion/exclusion criteria for patient recruitment) is essential for the trial's success. Proper design of clinical trial protocols should consider similar precedent trials and their eligibility criteria to ensure sufficient patient coverage. In this paper, we present a method named AutoTrial to aid the design of clinical eligibility criteria using language models. It allows (1) controllable generation under instructions via a hybrid of discrete and neural prompting, (2) scalable knowledge incorporation via in-context learning, and (3) explicit reasoning chains to provide rationales for understanding the outputs. Experiments on over 70K clinical trials verify that AutoTrial generates high-quality criteria texts that are fluent and coherent and with high accuracy in capturing the relevant clinical concepts to the target trial. It is noteworthy that our method, with a much smaller parameter size, gains around 60\% winning rate against the GPT-3.5 baselines via human evaluations.
翻訳日:2023-05-22 16:52:51 公開日:2023-05-19
# エゴセントリックビデオアクションセグメンテーションのためのトランスフォーマーバックボーンの強化

Enhancing Transformer Backbone for Egocentric Video Action Segmentation ( http://arxiv.org/abs/2305.11365v1 )

ライセンス: Link先を確認
Sakib Reza, Balaji Sundareshan, Mohsen Moghaddam, Octavia Camps(参考訳) ビデオにおけるエゴセントリックな時間的アクションセグメンテーションは、混合現実、人間の行動分析、ロボット工学といった様々な分野の応用において、コンピュータビジョンにおいて重要なタスクである。 最近の研究は高度な視覚言語フレームワークを活用しているが、トランスフォーマーはアクションセグメンテーションモデルのバックボーンのままである。 したがって,アクションセグメンテーションモデルの堅牢性を高めるためには,トランスフォーマーの改良が必要である。 本稿では,アクションセグメンテーションのための最先端トランスフォーマーを強化するための2つの新しいアイデアを提案する。 まず,局所的・グローバル的・グローバル的両方の階層的表現を適応的に捉えるために,二重拡張注意機構を導入する。 第二に、デコーダとデコーダブロックの相互接続を組み込んで、デコーダによるローカルコンテキストの損失を防止する。 さらに、最先端のビジュアル言語表現学習技術を用いて、トランスフォーマーのよりリッチでコンパクトな特徴を抽出する。 提案手法は,ジョージア工科大学エゴセントリック活動(gtea)およびhoi4dオフィスツールデータセットにおける他の最先端手法よりも優れており,導入したコンポーネントをアブレーション研究で検証する。 ソースコードと補足資料はhttps://www.sail-nu.com/dxformer.comで公開されている。

Egocentric temporal action segmentation in videos is a crucial task in computer vision with applications in various fields such as mixed reality, human behavior analysis, and robotics. Although recent research has utilized advanced visual-language frameworks, transformers remain the backbone of action segmentation models. Therefore, it is necessary to improve transformers to enhance the robustness of action segmentation models. In this work, we propose two novel ideas to enhance the state-of-the-art transformer for action segmentation. First, we introduce a dual dilated attention mechanism to adaptively capture hierarchical representations in both local-to-global and global-to-local contexts. Second, we incorporate cross-connections between the encoder and decoder blocks to prevent the loss of local context by the decoder. Additionally, we utilize state-of-the-art visual-language representation learning techniques to extract richer and more compact features for our transformer. Our proposed approach outperforms other state-of-the-art methods on the Georgia Tech Egocentric Activities (GTEA) and HOI4D Office Tools datasets, and we validate our introduced components with ablation studies. The source code and supplementary materials are publicly available on https://www.sail-nu.com/dxformer.
翻訳日:2023-05-22 16:52:33 公開日:2023-05-19
# 大規模言語モデルによるテキストデータセットの言語多様性の可視化

Visualizing Linguistic Diversity of Text Datasets Synthesized by Large Language Models ( http://arxiv.org/abs/2305.11364v1 )

ライセンス: Link先を確認
Emily Reif, Minsuk Kahng, Savvas Petridis(参考訳) 大規模言語モデル(LLM)は、ベンチマークや微調整、その他のユースケースのための数ショットプロンプトを通じて、より小さくより洗練されたデータセットを生成するために使用することができる。 しかし、これらのデータセットの理解と評価は困難であり、llm生成データの障害モードはまだよく分かっていない。 特に、データは、意味的にだけでなく、構文的にも、語彙的にも、驚くほど反復的です。 LLM生成したデータセットの構文的多様性を理解し解析するための新しい対話型可視化ツールLinguisticLensを提案する。 languagelensは、構文、語彙、セマンティック軸に沿ってテキストをクラスターする。 テキストデータセットの階層的な視覚化をサポートし、ユーザーは概要をすばやくスキャンし、個々の例を検査できる。 ライブデモは shorturl.at/zHOUV で公開されている。

Large language models (LLMs) can be used to generate smaller, more refined datasets via few-shot prompting for benchmarking, fine-tuning or other use cases. However, understanding and evaluating these datasets is difficult, and the failure modes of LLM-generated data are still not well understood. Specifically, the data can be repetitive in surprising ways, not only semantically but also syntactically and lexically. We present LinguisticLens, a novel inter-active visualization tool for making sense of and analyzing syntactic diversity of LLM-generated datasets. LinguisticLens clusters text along syntactic, lexical, and semantic axes. It supports hierarchical visualization of a text dataset, allowing users to quickly scan for an overview and inspect individual examples. The live demo is available at shorturl.at/zHOUV.
翻訳日:2023-05-22 16:52:11 公開日:2023-05-19
# 放射状パワー様ポテンシャル:bohr-sommerfeld $s$-state energiesから正確なエネルギーへ

Radial power-like potentials: from the Bohr-Sommerfeld $S$-state energies to the exact ones ( http://arxiv.org/abs/2305.11363v1 )

ライセンス: Link先を確認
J.C. del Valle, A.V. Turbiner(参考訳) 1次元の場合のボーア・ソマーフェルト(b-s)量子化条件(del valle \& turbiner (2021) [1])の以前の研究に続いて、これをd$-dimensional power-like radial potentialsに拡張した。 $d$-dimensional radial Schr\"odinger 方程式の$S$状態に対する B-S 量子化条件を提案する。 v(r)=r^m$ with $m \in [-1, \infty)$ のパワー様ポテンシャルのスペクトルについて得られた数値結果に基づいて、提案するb-s量子化条件の正しさを様々な次元のd$に対して確立する。 b-s 量子化条件の r.h.s. に {it wkb correction} $\gamma$ (おそらくは高次 wkb 項から来る) を導入すると、正確なエネルギーを再現する "it exact wkb quantization condition} と呼ばれる条件が現れるが、$\gamma$ は常に非常に小さい。 $m=2$(任意の整数$d$)と$m=-1$($d=2$)の場合、WKB補正は$\gamma=0$:$S$の場合、B-Sスペクトルは正確な値と一致する。 線形, 立方体, クォート, セクシュアル振動子の物理的に重要な症例に対するコンクリート計算と, 次元$d=2,3,6$のクーロンおよび対数ポテンシャルについて述べる。 放射状四波無調波発振器は短時間に検討される。

Following our previous study of the Bohr-Sommerfeld (B-S) quantization condition for one-dimensional case (del Valle \& Turbiner (2021) [1], we extend it to $d$-dimensional power-like radial potentials. The B-S quantization condition for $S$-states of the $d$-dimensional radial Schr\"odinger equation is proposed. Based on numerical results obtained for the spectra of power-like potentials, $V(r)=r^m$ with $m \in [-1, \infty)$, the correctness of the proposed B-S quantization condition is established for various dimensions $d$. It is demonstrated that by introducing the {\it WKB correction} $\gamma$ (supposedly coming from the higher order WKB terms) into the r.h.s. of the B-S quantization condition leads to the so-called {\it exact WKB quantization condition}, which reproduces the exact energies, while $\gamma$ remains always very small. For $m=2$ (any integer $d$) and for $m=-1$ (at $d=2$) the WKB correction $\gamma=0$: for $S$ states the B-S spectra coincides with the exact ones. Concrete calculations for physically important cases of linear, cubic, quartic, and sextic oscillators, as well as Coulomb and logarithmic potentials in dimensions $d=2,3,6$ are presented. Radial quartic anharmonic oscillator is considered briefly.
翻訳日:2023-05-22 16:51:59 公開日:2023-05-19
# 個人用オンラインアイテム価格

Differentially Private Online Item Pricing ( http://arxiv.org/abs/2305.11362v1 )

ライセンス: Link先を確認
Joon Suk Huh(参考訳) 本研究は,購入者のプライバシを保ちながら,反復的かつ無制限のサプライアイテムプライシングオークションにおいて,収益の最大化の問題に対処する。 本稿では,購入者の入力ペアに対する差分プライバシーを提供する新しいアルゴリズムであるアイテム選択と入札を提案する。 特に、私たちのアルゴリズムは、プライバシを保証するサブ線形の$O(\sqrt{T}\log{T})を初めて提供する。 提案手法は指数重みメタアルゴリズムに基づいており, ランダムな摂動による収益関数の不連続の問題を緩和する。 指数的メカニズムと構造的類似性から,本手法は本質的に差分プライバシーを確保する。 また、購入者が連続したラウンドに対して戦略的に入札するシナリオに対応するようにアルゴリズムを拡張します。 固有の差分プライバシーは、この設定においてサブ線形後悔を保証するために、最小限の変更でアルゴリズムを適応することができる。

This work addresses the problem of revenue maximization in a repeated, unlimited supply item-pricing auction while preserving buyer privacy. We present a novel algorithm that provides differential privacy with respect to the buyer's input pair: item selection and bid. Notably, our algorithm is the first to offer a sublinear $O(\sqrt{T}\log{T})$ regret with a privacy guarantee. Our method is based on an exponential weights meta-algorithm, and we mitigate the issue of discontinuities in revenue functions via small random perturbations. As a result of its structural similarity to the exponential mechanism, our method inherently secures differential privacy. We also extend our algorithm to accommodate scenarios where buyers strategically bid over successive rounds. The inherent differential privacy allows us to adapt our algorithm with minimal modification to ensure a sublinear regret in this setting.
翻訳日:2023-05-22 16:51:22 公開日:2023-05-19
# ソーシャルネットワークを用いた人口統計のないグループフェアネス

Group fairness without demographics using social networks ( http://arxiv.org/abs/2305.11361v1 )

ライセンス: Link先を確認
David Liu, Virginie Do, Nicolas Usunier, Maximilian Nickel(参考訳) 集団公平は、人種、性別、障害といった繊細な属性に基づく個人の不利な扱いを防ぐ一般的なアプローチである。 しかしながら、離散的なグループ情報へのアクセスに対するグループフェアネスの依存は、特にプライバシー、交叉性、予期せぬバイアスに関して、いくつかの制限と懸念を引き起こす。 本研究では, 属性に依存せず, その代わりに, ソーシャルネットワークのホモフィリーに基づく「グループフリー」なフェアネス尺度を提案する。 この尺度はグループメンバーシップの任意の形態の回復を回避し、ネットワークのホモフィア構造に対する結果の不等式を定義するために個人間のペアワイズな類似性のみを使用するため、グループフリーである。 理論的には、経済不平等文学における加法的分解可能性の概念と相容れないことを示し、また、非感性共役属性の影響を限定して、我々の測度を正当化する。 さらに,分類,情報アクセスの最大化,レコメンダシステムのための公平なアルゴリズムの開発に本手法を適用した。 提案手法は,属性ラベルの知識がなくても保護クラス間の不平等を低減できることを示す。 最後に、実際の環境で適用した場合のアプローチの制限について論じる。

Group fairness is a popular approach to prevent unfavorable treatment of individuals based on sensitive attributes such as race, gender, and disability. However, the reliance of group fairness on access to discrete group information raises several limitations and concerns, especially with regard to privacy, intersectionality, and unforeseen biases. In this work, we propose a "group-free" measure of fairness that does not rely on sensitive attributes and, instead, is based on homophily in social networks, i.e., the common property that individuals sharing similar attributes are more likely to be connected. Our measure is group-free as it avoids recovering any form of group memberships and uses only pairwise similarities between individuals to define inequality in outcomes relative to the homophily structure in the network. We theoretically justify our measure by showing it is commensurate with the notion of additive decomposability in the economic inequality literature and also bound the impact of non-sensitive confounding attributes. Furthermore, we apply our measure to develop fair algorithms for classification, maximizing information access, and recommender systems. Our experimental results show that the proposed approach can reduce inequality among protected classes without knowledge of sensitive attribute labels. We conclude with a discussion of the limitations of our approach when applied in real-world settings.
翻訳日:2023-05-22 16:51:06 公開日:2023-05-19
# パラメータ効率的な音響モデルのための微分プライベートアダプタ

Differentially Private Adapters for Parameter Efficient Acoustic Modeling ( http://arxiv.org/abs/2305.11360v1 )

ライセンス: Link先を確認
Chun-Wei Ho, Chao-Han Huck Yang, Sabato Marco Siniscalchi(参考訳) 本研究では,言語間音声分類器の適応化に差分プライバシ(DP)を保証するパラメータ効率のソリューションを提案する。 完全モデル微調整を伴わないDP保存音声モデリングのための新しい凍結事前学習適応フレームワークについて検討する。 まず,凍結事前学習音響モデルを用いた従来の適応方式に雑音の多い教師学生のアンサンブルを導入し,DPに基づく確率勾配降下(DPSGD)よりも優れた性能を実現する。 次に,凍結事前学習音響モデルの層間に残留アダプタ(RA)を挿入する。 rasは性能低下によりトレーニングコストと時間を大幅に削減する。 オープンアクセス型マルチリンガル音声単語(MLSW)データセットに基づいて,DP保証を保ちながら言語間音声分類器の微調整を行うため,RAを用いて訓練可能なパラメータ数を97.5%削減する。

In this work, we devise a parameter-efficient solution to bring differential privacy (DP) guarantees into adaptation of a cross-lingual speech classifier. We investigate a new frozen pre-trained adaptation framework for DP-preserving speech modeling without full model fine-tuning. First, we introduce a noisy teacher-student ensemble into a conventional adaptation scheme leveraging a frozen pre-trained acoustic model and attain superior performance than DP-based stochastic gradient descent (DPSGD). Next, we insert residual adapters (RA) between layers of the frozen pre-trained acoustic model. The RAs reduce training cost and time significantly with a negligible performance drop. Evaluated on the open-access Multilingual Spoken Words (MLSW) dataset, our solution reduces the number of trainable parameters by 97.5% using the RAs with only a 4% performance drop with respect to fine-tuning the cross-lingual speech classifier while preserving DP guarantees.
翻訳日:2023-05-22 16:50:41 公開日:2023-05-19
# マルチエージェント強化学習を用いた社会ジレンマ解決の世界理解

Understanding the World to Solve Social Dilemmas Using Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2305.11358v1 )

ライセンス: Link先を確認
Manuel Rios, Nicanor Quijano, Luis Felipe Giraldo(参考訳) 社会的ジレンマ(英: social dilemma)とは、個人の集団が相互協力から利益を得ることができるが、相反する利害関係が彼らを妨げる状況である。 この種の状況は人類の最も重要な課題の多くに似ており、協調行動の出現を促進するメカニズムの発見はまだ未解決の問題である。 本稿では,多エージェント強化学習(RL)環境で世界モデルを学習し,社会的ジレンマが発生する環境において共存する自己関心有理的エージェントの行動について検討する。 シミュレーションの結果,社会的ジレンマが生じるシナリオを扱う場合,世界モデルによって支えられたエージェントのグループは,他のテストモデルよりも優れていた。 我々は,世界モデルアーキテクチャを用いて学習のダイナミクスを定性的に評価し,各エージェントの世界モデルが変化する環境と他のエージェントの行動に関する情報をエンコードできることを確認した。 これは、世界モデルが複雑な協調行動の出現を促進し、相互作用するエージェントが環境と社会のダイナミクスの両方を「理解」できることを示す最初の研究である。

Social dilemmas are situations where groups of individuals can benefit from mutual cooperation but conflicting interests impede them from doing so. This type of situations resembles many of humanity's most critical challenges, and discovering mechanisms that facilitate the emergence of cooperative behaviors is still an open problem. In this paper, we study the behavior of self-interested rational agents that learn world models in a multi-agent reinforcement learning (RL) setting and that coexist in environments where social dilemmas can arise. Our simulation results show that groups of agents endowed with world models outperform all the other tested ones when dealing with scenarios where social dilemmas can arise. We exploit the world model architecture to qualitatively assess the learnt dynamics and confirm that each agent's world model is capable to encode information of the behavior of the changing environment and the other agent's actions. This is the first work that shows that world models facilitate the emergence of complex coordinated behaviors that enable interacting agents to ``understand'' both environmental and social dynamics.
翻訳日:2023-05-22 16:50:24 公開日:2023-05-19
# MD3:対話の多次元データセット

MD3: The Multi-Dialect Dataset of Dialogues ( http://arxiv.org/abs/2305.11355v1 )

ライセンス: Link先を確認
Jacob Eisenstein, Vinodkumar Prabhakaran, Clara Rivera, Dorottya Demszky, Devyani Sharma(参考訳) インド、ナイジェリア、米国からの英語を表現した会話音声のデータセットを新たに紹介する。 Multi-Dialect Dataset of Dialogues (MD3)は、参加者に一連の短い情報共有タスクを実行するよう促すことで、オープンエンドの会話音声とタスク指向対話の新たなバランスを打つ。 これは、方言の特徴の表現を阻害する制限的なタスク構造の導入を回避しつつ、定量的な相互弁別比較を容易にする。 データセットの予備解析は、構文と談話マーカーの使用において大きな違いを示す。 このデータセットは、この論文の公開と共に公開され、20時間以上のオーディオと20万以上の正書法で書き起こされたトークンを含んでいる。

We introduce a new dataset of conversational speech representing English from India, Nigeria, and the United States. The Multi-Dialect Dataset of Dialogues (MD3) strikes a new balance between open-ended conversational speech and task-oriented dialogue by prompting participants to perform a series of short information-sharing tasks. This facilitates quantitative cross-dialectal comparison, while avoiding the imposition of a restrictive task structure that might inhibit the expression of dialect features. Preliminary analysis of the dataset reveals significant differences in syntax and in the use of discourse markers. The dataset, which will be made publicly available with the publication of this paper, includes more than 20 hours of audio and more than 200,000 orthographically-transcribed tokens.
翻訳日:2023-05-22 16:50:07 公開日:2023-05-19
# 閉形式解法を用いた不均一処理効果推定のためのメタラーニング

Meta-learning for heterogeneous treatment effect estimation with closed-form solvers ( http://arxiv.org/abs/2305.11353v1 )

ライセンス: Link先を確認
Tomoharu Iwata, Yoichi Chikahara(参考訳) 本稿では,いくつかの観測データから条件平均処理効果(CATE)を推定するメタラーニング手法を提案する。 提案手法は,複数のタスクからCATEを推定する方法を学習し,未知のタスクの知識を利用する。 提案手法では,meta-learnerフレームワークに基づいてcate推定問題を部分問題に分解する。 各サブプロブレムに対して,タスク共有パラメータとタスク固有パラメータを持つニューラルネットワークを用いて推定モデルを定式化する。 定式化により、タスク共有パラメータに対して異なるクローズドな形で最適なタスク固有パラメータを得ることができるため、効果的なメタ学習が可能となる。 タスク共有パラメータは、大量のデータで推定されたCATEと少数のデータで推定されたCATEとの差を最小化することにより、数ショット設定で期待されるCATE推定性能を改善するように訓練される。 実験の結果,提案手法は既存のメタラーニング手法やCATE推定手法よりも優れていることが示された。

This article proposes a meta-learning method for estimating the conditional average treatment effect (CATE) from a few observational data. The proposed method learns how to estimate CATEs from multiple tasks and uses the knowledge for unseen tasks. In the proposed method, based on the meta-learner framework, we decompose the CATE estimation problem into sub-problems. For each sub-problem, we formulate our estimation models using neural networks with task-shared and task-specific parameters. With our formulation, we can obtain optimal task-specific parameters in a closed form that are differentiable with respect to task-shared parameters, making it possible to perform effective meta-learning. The task-shared parameters are trained such that the expected CATE estimation performance in few-shot settings is improved by minimizing the difference between a CATE estimated with a large amount of data and one estimated with just a few data. Our experimental results demonstrate that our method outperforms the existing meta-learning approaches and CATE estimation methods.
翻訳日:2023-05-22 16:49:54 公開日:2023-05-19
# 情報ボトルネック理論の司法

Justices for Information Bottleneck Theory ( http://arxiv.org/abs/2305.11387v1 )

ライセンス: Link先を確認
Faxian Cao, Yongqiang Cheng, Adil Mehmood Khan, Zhijing Yang(参考訳) この研究は、情報ボトルネック(IB)理論に対する批判の高まりに対するタイムリーな反応であり、誤解を是正し、その妥当性を再確認するために新しい視点を注入する。 まず, ib理論の特殊かつ局所的な最適場合として, 最大符号化率低減法を再解釈する補助関数を導入する。 この補助的機能を通じて,深層学習(DL)ネットワークにおけるReLUアクティベーション適用時の相互情報の減少のパラドックスを明らかにする。 第二に、補助関数のレンズを通して見た場合、隠れた層に線形活性化関数を持つ圧縮位相が存在しないことを説明する能力を示すことにより、ib理論の適用性に疑問を呈する。 最後に、新しい理論的なスタンスを採り、IB理論を用いてDLネットワークの内部組織を解釈し、最近の実験的証拠と整合させる新しい方法を提案する。 そこで本論文は,IDB理論の正義の行為として機能し,その立位とDLおよびコミュニケーションや生物医学研究などの分野への応用を活性化する可能性がある。

This study comes as a timely response to mounting criticism of the information bottleneck (IB) theory, injecting fresh perspectives to rectify misconceptions and reaffirm its validity. Firstly, we introduce an auxiliary function to reinterpret the maximal coding rate reduction method as a special yet local optimal case of IB theory. Through this auxiliary function, we clarify the paradox of decreasing mutual information during the application of ReLU activation in deep learning (DL) networks. Secondly, we challenge the doubts about IB theory's applicability by demonstrating its capacity to explain the absence of a compression phase with linear activation functions in hidden layers, when viewed through the lens of the auxiliary function. Lastly, by taking a novel theoretical stance, we provide a new way to interpret the inner organizations of DL networks by using IB theory, aligning them with recent experimental evidence. Thus, this paper serves as an act of justice for IB theory, potentially reinvigorating its standing and application in DL and other fields such as communications and biomedical research.
翻訳日:2023-05-22 16:42:35 公開日:2023-05-19
# 電子健康記録におけるAIモデルの公正性向上--フェデレートラーニング手法を事例として

Improving Fairness in AI Models on Electronic Health Records: The Case for Federated Learning Methods ( http://arxiv.org/abs/2305.11386v1 )

ライセンス: Link先を確認
Raphael Poulain, Mirza Farhan Bin Tarek and Rahmatollah Beheshti(参考訳) 公平性を維持するAIツールの開発は、特に医療などの高度な応用において、非常に重要である。 しかしながら、ヘルスAIモデルの全体的な予測性能は、そのようなモデルが持つ可能性のあるバイアスよりも優先されることが多い。 本研究では,医療機関が連携学習パラダイム(fl;医療現場で一般的な選択である)を通じて協調させることによって,バイアスの懸念を軽減するための1つのアプローチを示す。 フェアネスを重視したflメソッドは以前にも提案されてきたが、その基礎となるモデルとローカル実装技術、および医療領域への応用の可能性については、広く調査されていない。 そこで本研究では,電子健康記録が使用される医療領域において,様々な公平度指標に適合する,敵対的デバイアスと公平なアグリゲーションを用いた包括的flアプローチを提案する。 私たちのアプローチは、最適化プロセスの一部としてバイアスを明示的に緩和するだけでなく、FLベースのパラダイムは、データ不均衡に対処し、データサイズを増やす上でも暗黙的に役立ち、医療アプリケーションに実用的なソリューションを提供します。 大規模実世界のシナリオをシミュレートした複数の実験において,本手法の優れた性能を実証し,複数のベースラインと比較した。 提案手法は,全体的な識別性能(正確性)に最も影響の少ない公平性性能を達成している。

Developing AI tools that preserve fairness is of critical importance, specifically in high-stakes applications such as those in healthcare. However, health AI models' overall prediction performance is often prioritized over the possible biases such models could have. In this study, we show one possible approach to mitigate bias concerns by having healthcare institutions collaborate through a federated learning paradigm (FL; which is a popular choice in healthcare settings). While FL methods with an emphasis on fairness have been previously proposed, their underlying model and local implementation techniques, as well as their possible applications to the healthcare domain remain widely underinvestigated. Therefore, we propose a comprehensive FL approach with adversarial debiasing and a fair aggregation method, suitable to various fairness metrics, in the healthcare domain where electronic health records are used. Not only our approach explicitly mitigates bias as part of the optimization process, but an FL-based paradigm would also implicitly help with addressing data imbalance and increasing the data size, offering a practical solution for healthcare applications. We empirically demonstrate our method's superior performance on multiple experiments simulating large-scale real-world scenarios and compare it to several baselines. Our method has achieved promising fairness performance with the lowest impact on overall discrimination performance (accuracy).
翻訳日:2023-05-22 16:42:16 公開日:2023-05-19
# モデルは本当に指示に従うことを学ぶのか? 命令調律に関する経験的研究

Do Models Really Learn to Follow Instructions? An Empirical Study of Instruction Tuning ( http://arxiv.org/abs/2305.11383v1 )

ライセンス: Link先を確認
Po-Nien Kung and Nanyun Peng(参考訳) 命令チューニング(IT)に関する最近の研究は、目に見えないタスクに対してゼロショットの一般化性で大きな成果を上げている。 微調整のためのモデルに追加のコンテキスト(例えばタスク定義、例)を提供することで、未調整モデルよりもはるかに高いパフォーマンスを実現した。 しかし、優れたパフォーマンス向上にもかかわらず、ITが機能するための基盤となるメカニズムはまだ検討されていない。 本研究は、モデルトレーニングと修正命令の比較により、モデルがIT中にどのようにインストラクションを利用するかを分析する。 具体的には、すべてのセマンティックコンポーネントを削除し、出力空間情報のみを残すことで、単純化されたタスク定義を作成する。 私たちの実験では、単純化されたタスク定義やごまかしの例で訓練されたモデルが、元の命令や例で訓練されたモデルと同等の性能を達成できることを示しました。 さらに,ゼロショット分類タスクを行うためのランダムベースラインを導入し,同様の性能(40%精度)を達成した(48%精度)。 要約すると、我々の分析は、現在のITモデルの印象的なパフォーマンス向上が、出力フォーマットの学習や推測といった表面的なパターンを拾い上げることによってもたらされることを示す。 本研究は,より信頼性の高いIT手法と評価の必要性を強調した。

Recent works on instruction tuning (IT) have achieved great performance with zero-shot generalizability to unseen tasks. With additional context (e.g., task definition, examples) provided to models for fine-tuning, they achieved much higher performance than untuned models. However, despite impressive performance gains, the underlying mechanism for IT to work remains understudied. In this work, we analyze how models utilize instructions during IT by comparing model training with altered vs. original instructions. Specifically, we create simplified task definitions by removing all semantic components and only leaving the output space information, and delusive examples that contain incorrect input-output mapping. Our experiments show that models trained on simplified task definition or delusive examples can achieve comparable performance to the ones trained on the original instructions and examples. Furthermore, we introduce a random baseline to perform zero-shot classification tasks, and find it achieves similar performance (40% accuracy) as IT does (48% accuracy). In summary, our analysis provides evidence that the impressive performance gain of current IT models can come from picking up superficial patterns, such as learning the output format and guessing. Our study highlights the urgent need for more reliable IT methods and evaluation.
翻訳日:2023-05-22 16:41:55 公開日:2023-05-19
# クリエーター経済におけるオンライン学習

Online Learning in a Creator Economy ( http://arxiv.org/abs/2305.11381v1 )

ライセンス: Link先を確認
Banghua Zhu, Sai Praneeth Karimireddy, Jiantao Jiao, Michael I. Jordan(参考訳) クリエーター経済は、オンラインプラットフォームを通じて個人が利益を得る方法に革命をもたらした。 本稿では,創造者経済をユーザ,プラットフォーム,コンテンツクリエーター間の三者間ゲームとしてモデル化することで,創造者経済におけるオンライン学習の研究を開始する。 さらに、プラットフォームはユーザーと対話して、新しいコンテンツを推薦し、評価を受け、最終的にコンテンツから利益を得る。 本研究の目的は,オンライン学習方式の実用性を最大化するために,プラットフォームがコントラクトとレコメンデーションシステムを共同で最適化する方法を検討することである。 主に、リターンベースの契約とフィーチャーベースの契約の2つのファミリーを分析し比較します。 返却ベースの契約は、プラットフォームが得る報酬のごく一部をコンテンツクリエーターに支払う。 対照的に、機能ベースの契約は、プラットフォームが受け取る報酬に関係なく、コンテンツの品質や特徴に基づいてコンテンツクリエーターに支払う。 スムーズな仮定の下では、リターンベースの契約とレコメンデーションポリシーの合同最適化は、後悔する$\Theta(T^{2/3})$を提供する。 特徴に基づく契約について、本質的な次元を$d$と定義し、契約の学習の難しさを特徴づけ、後悔する$\mathcal{O}(T^{(d+1)/(d+2)})$に上限を与える。 上限は線形族に対して厳密である。

The creator economy has revolutionized the way individuals can profit through online platforms. In this paper, we initiate the study of online learning in the creator economy by modeling the creator economy as a three-party game between the users, platform, and content creators, with the platform interacting with the content creator under a principal-agent model through contracts to encourage better content. Additionally, the platform interacts with the users to recommend new content, receive an evaluation, and ultimately profit from the content, which can be modeled as a recommender system. Our study aims to explore how the platform can jointly optimize the contract and recommender system to maximize the utility in an online learning fashion. We primarily analyze and compare two families of contracts: return-based contracts and feature-based contracts. Return-based contracts pay the content creator a fraction of the reward the platform gains. In contrast, feature-based contracts pay the content creator based on the quality or features of the content, regardless of the reward the platform receives. We show that under smoothness assumptions, the joint optimization of return-based contracts and recommendation policy provides a regret $\Theta(T^{2/3})$. For the feature-based contract, we introduce a definition of intrinsic dimension $d$ to characterize the hardness of learning the contract and provide an upper bound on the regret $\mathcal{O}(T^{(d+1)/(d+2)})$. The upper bound is tight for the linear family.
翻訳日:2023-05-22 16:41:36 公開日:2023-05-19
# 非パラメトリックマルコフネットワークのスケーラブル推定のための一般化精度行列

Generalized Precision Matrix for Scalable Estimation of Nonparametric Markov Networks ( http://arxiv.org/abs/2305.11379v1 )

ライセンス: Link先を確認
Yujia Zheng, Ignavier Ng, Yewen Fan, Kun Zhang(参考訳) マルコフネットワークは、確率変数の集合の中で条件独立構造またはマルコフ特性を特徴づける。 既存の研究は分布の特定の族(例えば指数関数的族)とグラフの特定の構造に焦点を当てており、そのほとんどは単一のデータ型(連続的または離散的)の変数しか扱えない。 本研究では,すべてのデータ型(例えば連続型,離散型,混合型)の一般分布における条件付き独立構造を一般化精度行列(gpm)で特徴づける。 さらに,変数間の一般関数関係も可能とし,マルコフネットワーク構造学習アルゴリズムを最も一般的な設定の1つとして提案する。 この問題の計算問題に対処するため、特に大きなグラフでは、正規化スコアマッチングフレームワークと同じ傘の下で全てのケースを統合する。 理論結果を検証し,様々な環境で経験的に拡張性を示す。

A Markov network characterizes the conditional independence structure, or Markov property, among a set of random variables. Existing work focuses on specific families of distributions (e.g., exponential families) and/or certain structures of graphs, and most of them can only handle variables of a single data type (continuous or discrete). In this work, we characterize the conditional independence structure in general distributions for all data types (i.e., continuous, discrete, and mixed-type) with a Generalized Precision Matrix (GPM). Besides, we also allow general functional relations among variables, thus giving rise to a Markov network structure learning algorithm in one of the most general settings. To deal with the computational challenge of the problem, especially for large graphs, we unify all cases under the same umbrella of a regularized score matching framework. We validate the theoretical results and demonstrate the scalability empirically in various settings.
翻訳日:2023-05-22 16:41:11 公開日:2023-05-19
# GraphFC:ラベルスカルシティによる不正検出のカスタム

GraphFC: Customs Fraud Detection with Label Scarcity ( http://arxiv.org/abs/2305.11377v1 )

ライセンス: Link先を確認
Karandeep Singh, Yu-Che Tsai, Cheng-Te Li, Meeyoug Cha, Shou-De Lin(参考訳) 世界中の税関職員が大量の取引に遭遇する。 接続性の向上とグローバル化により、税関取引は毎年増加を続けている。 税関取引に関連するのは税関詐欺であり、税や義務を避けるために商品宣言を意図的に操作することである。 人員が限られているため、税関は限られた数の宣言を手作業で検査できるのみである。 これにより、機械学習(ML)技術による税関不正検出を自動化する必要が生じる。 新しい宣言をラベル付けするための手動検査が限られているため、MLアプローチはラベル付きデータの不足による堅牢なパフォーマンスを持つべきである。 しかし、現在の税関不正検出のアプローチは、この現実世界の設定にはあまり適していない。 本稿では,モデル非依存,ドメイン固有,半教師付きグラフニューラルネットワークに基づく,セミ教師付きかつ帰納的能力を持つカスタムス不正検出アルゴリズムである,$\textbf{graphfc}$ ($\textbf{graph}$ neural networks for $\textbf{c}$ustoms $\textbf{f}$raudを提案する。 最新技術に対するリコールは252%まで増加しており、3つの異なる国の税関管理からの実際の税関データに関する広範囲な実験は、graphfcが一貫して様々な基準値や現在の技術水準を上回っていることを示している。

Custom officials across the world encounter huge volumes of transactions. With increased connectivity and globalization, the customs transactions continue to grow every year. Associated with customs transactions is the customs fraud - the intentional manipulation of goods declarations to avoid the taxes and duties. With limited manpower, the custom offices can only undertake manual inspection of a limited number of declarations. This necessitates the need for automating the customs fraud detection by machine learning (ML) techniques. Due the limited manual inspection for labeling the new-incoming declarations, the ML approach should have robust performance subject to the scarcity of labeled data. However, current approaches for customs fraud detection are not well suited and designed for this real-world setting. In this work, we propose $\textbf{GraphFC}$ ($\textbf{Graph}$ neural networks for $\textbf{C}$ustoms $\textbf{F}$raud), a model-agnostic, domain-specific, semi-supervised graph neural network based customs fraud detection algorithm that has strong semi-supervised and inductive capabilities. With upto 252% relative increase in recall over the present state-of-the-art, extensive experimentation on real customs data from customs administrations of three different countries demonstrate that GraphFC consistently outperforms various baselines and the present state-of-art by a large margin.
翻訳日:2023-05-22 16:40:56 公開日:2023-05-19
# マルチエージェントシステムにおける言語教育と実演のトレードオフ

Characterizing tradeoffs between teaching via language and demonstrations in multi-agent systems ( http://arxiv.org/abs/2305.11374v1 )

ライセンス: Link先を確認
Dhara Yu, Noah D. Goodman, and Jesse Mu(参考訳) 人間は言語とデモンストレーションを通じて世界について他の人に教えます。 これらのモダリティの一方が他方よりも効果的になるのはいつでしょうか? 本研究では,人間のコミュニケーションをモデル化するマルチエージェントシステムを用いて,言語の有効性と実演の効果を調節する要因について検討する。 具体的には,ニューラルネットワークエージェントを訓練して,言語や実演を通じて,基礎的なコミュニケーションタスクで教示し,操作する。 1)タスクの固有の難しさと課題 2)教師の能力。 実演による指導は、最も簡単な設定でより効果的であることがわかったが、タスクの難しさが増すにつれ、言語はより効果的であることが判明した。 全体として、これらの結果は、人間のモダリティを教えることとしての言語と実演のトレードオフの確固たる証拠を提供し、そして、実演は簡単なタスクに最適であり、言語はより困難な環境での一般化を可能にする、という新しい予測を与える。

Humans teach others about the world through language and demonstration. When might one of these modalities be more effective than the other? In this work, we study the factors that modulate the effectiveness of language vs. demonstration using multi-agent systems to model human communication. Specifically, we train neural network agents to teach via language or demonstration in a grounded communication task, manipulating 1) the inherent difficulty of the task and 2) the competence of the teacher. We find that teaching by demonstration is more effective in the simplest settings, but language is more effective as task difficulty increases, due to its ability to generalize more effectively to unseen scenarios. Overall, these results provide converging evidence for a tradeoff between language and demonstration as teaching modalities in humans, and make the novel predictions that demonstration may be optimal for easy tasks, while language enables generalization in more challenging settings.
翻訳日:2023-05-22 16:40:30 公開日:2023-05-19
# シーンテキスト品質評価を用いた深部画像圧縮

Deep Image Compression Using Scene Text Quality Assessment ( http://arxiv.org/abs/2305.11373v1 )

ライセンス: Link先を確認
Shohei Uchigasaki, Tomo Miyazaki, Shinichiro Omachi(参考訳) 画像圧縮はインターネット通信工学の基本技術である。 しかし、一般的な方法で高い圧縮率で画像が劣化し、読めないテキストが得られる。 本稿では,テキスト品質を維持するための画像圧縮手法を提案する。 圧縮画像のテキスト品質を評価するためのシーンテキスト品質評価モデルを開発した。 評価モデルは、高品質テキストを保持するベスト圧縮画像を反復的に検索する。 その結果,提案手法は既存手法よりも優れていることがわかった。 さらに,提案手法は,他のディープラーニング回帰モデルよりも優れていた。

Image compression is a fundamental technology for Internet communication engineering. However, a high compression rate with general methods may degrade images, resulting in unreadable texts. In this paper, we propose an image compression method for maintaining text quality. We developed a scene text image quality assessment model to assess text quality in compressed images. The assessment model iteratively searches for the best-compressed image holding high-quality text. Objective and subjective results showed that the proposed method was superior to existing methods. Furthermore, the proposed assessment model outperformed other deep-learning regression models.
翻訳日:2023-05-22 16:40:15 公開日:2023-05-19
# 静的量子多体傷の周期二重応答への利用

Leveraging static quantum many-body scars into period-doubled responses ( http://arxiv.org/abs/2305.11368v1 )

ライセンス: Link先を確認
Wentai Deng, Zhi-Cheng Yang(参考訳) 本稿では,量子多体傷を負うハミルトニアンを周期的に駆動することで周期二重応答を生成する手法を提案する。 我々の構成は、静的量子スカーレッドハミルトニアンに付随するsu(2)スペクトル生成代数を利用しており、適切に選択された駆動パラメータである期間の進化の後、スカー部分空間内で$\pi$-rotationを実行する。 これにより、スカー部分空間に存在する初期状態の任意の選択に対して、局所観測可能な周期倍(サブハーモニック)応答が得られる。 準エネルギースペクトルは、非定型的な$\pi$-pairedの固有状態が完全に熱スペクトルに埋め込まれており、このプロトコルは大きな駆動周波数や大きな駆動振幅を必要としない。 本研究では,su(2)スペクトル生成代数を持つスピン1/2およびスピン-1量子スカーレッドモデルと,su(2)代数が近似である対称性変形型pxpモデルを用いて,このスキームを実証する。 実験結果は,周期的駆動下での時間結晶挙動を発生させる量子多体傷をホストするモデルのクラスを拡張した。

We propose a scheme that generates period-doubled responses via periodically driving certain Hamiltonians hosting quantum many-body scars, akin to recent experimental observations in driven Rydberg atom arrays. Our construction takes advantage of an su(2) spectrum generating algebra associated with the static quantum-scarred Hamiltonian, which enacts a $\pi$-rotation within the scar subspace after one period of time evolution with appropriately chosen driving parameters. This yields period-doubled (subharmonic) responses in local observables for any choice of initial state residing in the scar subspace. The quasienergy spectrum features atypical $\pi$-paired eigenstates embedded in an otherwise fully thermal spectrum.The protocol requires neither a large driving frequency nor a large driving amplitude, and is thus distinct from the prethermalization physics in previous investigations of the driven PXP model. We demonstrate our scheme using several spin-1/2 and spin-1 quantum scarred models possessing an exact su(2) spectrum generating algebra, as well as a symmetry-deformed PXP model, where the su(2) algebra is only approximate. Our results extend the class of models hosting quantum many-body scars that can be leveraged to yield time-crystalline behaviors under periodic driving.
翻訳日:2023-05-22 16:40:09 公開日:2023-05-19
# 睡眠姿勢と動的活動認識のためのスマート圧力e-mat

Smart Pressure e-Mat for Human Sleeping Posture and Dynamic Activity Recognition ( http://arxiv.org/abs/2305.11367v1 )

ライセンス: Link先を確認
Liangqi Yuan and Yuan Wei and Jia Li(参考訳) 医療、幼児教育、フィットネスに重点が置かれ、非侵襲的な計測と認識方法が注目されている。 圧力センシングは、単純な構造、容易なアクセス、可視化アプリケーション、無害性などの利点により、広く研究されてきた。 本稿では,睡眠姿勢,スポーツ,ヨガ認識などの人体監視用ピエゾ抵抗性材料であるヴェロスタットを用いたスマートプレッシャe-mat(SPeM)システムを提案する。 サブシステムがe-mat読み込みをスキャンして信号を処理すると、圧力画像ストリームを生成する。 ディープニューラルネットワーク(DNN)は、圧力画像ストリームに適合し、トレーニングし、対応する人間の行動を認識するために使用される。 提案するSPeMシステムの予備検証として,Nintendo Switch Ring Fit Adventure (RFA) にインスパイアされた4つの睡眠姿勢と5つの動的活動を用いた。 SPeMシステムは両方のアプリケーションで高い精度を達成し、モデルの精度と一般化能力を示す。 他の圧力センサベースのシステムと比較すると、SPeMはより柔軟なアプリケーションと商用アプリケーションがあり、信頼性があり、堅牢で、繰り返し可能な特性を持っている。

With the emphasis on healthcare, early childhood education, and fitness, non-invasive measurement and recognition methods have received more attention. Pressure sensing has been extensively studied due to its advantages of simple structure, easy access, visualization application, and harmlessness. This paper introduces a smart pressure e-mat (SPeM) system based on a piezoresistive material Velostat for human monitoring applications, including sleeping postures, sports, and yoga recognition. After a subsystem scans e-mat readings and processes the signal, it generates a pressure image stream. Deep neural networks (DNNs) are used to fit and train the pressure image stream and recognize the corresponding human behavior. Four sleeping postures and five dynamic activities inspired by Nintendo Switch Ring Fit Adventure (RFA) are used as a preliminary validation of the proposed SPeM system. The SPeM system achieves high accuracies on both applications, which demonstrates the high accuracy and generalization ability of the models. Compared with other pressure sensor-based systems, SPeM possesses more flexible applications and commercial application prospects, with reliable, robust, and repeatable properties.
翻訳日:2023-05-22 16:39:44 公開日:2023-05-19
# AlignAtt:同時音声翻訳ガイドとしての注意に基づく音声翻訳アライメント

AlignAtt: Using Attention-based Audio-Translation Alignments as a Guide for Simultaneous Speech Translation ( http://arxiv.org/abs/2305.11408v1 )

ライセンス: Link先を確認
Sara Papi, Marco Turchi, Matteo Negri(参考訳) 自然言語処理に今日最も使われているアーキテクチャの中核的なメカニズムは注意であり、機械翻訳関連タスクの有効性を含む多くの観点から分析されてきた。 これらの研究の中で、音声翻訳(ST)タスクのように、入力テキストを音声セグメントに置き換えた場合にも、単語アライメントに関する洞察を得るのに役立つ情報源として注意が向けられた。 本稿では,提案するAlignAttを提案する。このAlignAttは,アテンション情報を利用して推論時にモデルを誘導するソース・ターゲットアライメントを生成する,同時ST(SimulST)のための新しいポリシーである。 8言語対の MuST-C v1.0 の実験により、AlignAtt はオフライン学習モデルに適用された従来の最先端の SimulST ポリシーよりも優れており、BLEU は 2 点のBLEU で、レイテンシは 8 言語で0.5 から0.8 の範囲で減少している。

Attention is the core mechanism of today's most used architectures for natural language processing and has been analyzed from many perspectives, including its effectiveness for machine translation-related tasks. Among these studies, attention resulted to be a useful source of information to get insights about word alignment also when the input text is substituted with audio segments, as in the case of the speech translation (ST) task. In this paper, we propose AlignAtt, a novel policy for simultaneous ST (SimulST) that exploits the attention information to generate source-target alignments that guide the model during inference. Through experiments on the 8 language pairs of MuST-C v1.0, we show that AlignAtt outperforms previous state-of-the-art SimulST policies applied to offline-trained models with gains in terms of BLEU of 2 points and latency reductions ranging from 0.5s to 0.8s across the 8 languages.
翻訳日:2023-05-22 16:34:28 公開日:2023-05-19
# LATTE: 縦断的電子健康記録からのラベル効率の高いインシデント診断

LATTE: Label-efficient Incident Phenotyping from Longitudinal Electronic Health Records ( http://arxiv.org/abs/2305.11407v1 )

ライセンス: Link先を確認
Jun Wen, Jue Hou, Clara-Lea Bonzel, Yihan Zhao, Victor M. Castro, Vivian S. Gainer, Dana Weisenfeld, Tianrun Cai, Yuk-Lam Ho, Vidul A. Panickan, Lauren Costa, Chuan Hong, J. Michael Gaziano, Katherine P. Liao, Junwei Lu, Kelly Cho, Tianxi Cai(参考訳) 電子健康記録(EHR)データは、現実世界のエビデンス(RWE)研究を支援するためにますます利用されている。 しかし、信頼性の高いRWEを生成する能力は、心不全の発症時間などの臨床イベントのタイミングに関する正確な情報が手に入らないために制限されている。 本稿では, LATTEアルゴリズムを用いて, 経時的EHRデータから臨床イベントのタイミングを正確にアノテートする手法を提案する。 大規模EHRデータからの事前学習されたセマンティック埋め込みベクトルを事前知識として活用することにより、LATTEは、目標イベントとの関係をマイニングして概念再重み付けモジュール内の予測EHR特徴を選択し、訪問注意学習ネットワークを介して、それらの情報を縦方向の訪問埋め込みに圧縮する。 LATTEは、リカレントニューラルネットワークを使用して、ターゲットイベント間のシーケンシャルな依存関係をキャプチャし、その前後の埋め込みを訪問する。 ラベル効率を向上させるため、LATTEは大規模未ラベル患者から高度に有意な縦型銀標準ラベルを構築し、教師なしトレーニングおよび半教師なし共同トレーニングを行う。 最後に、LATTEはコントラスト表現学習を通じてクロスサイトポータビリティを向上させる。 LATTEは2型糖尿病の発症、心不全、多発性硬化症の発症と再発の3つの分析に基づいて評価された。 我々は,ABC_{gain}$,観測された事象指標と予測累積発生率との面積の減少率など,文献に現れる様々な評価指標を用いて,事故発生率の予測について検討した。 LATTEは、すべての設定でSAMGEPやRETAINといったベンチマークメソッドよりも大幅に改善されている。

Electronic health record (EHR) data are increasingly used to support real-world evidence (RWE) studies. Yet its ability to generate reliable RWE is limited by the lack of readily available precise information on the timing of clinical events such as the onset time of heart failure. We propose a LAbel-efficienT incidenT phEnotyping (LATTE) algorithm to accurately annotate the timing of clinical events from longitudinal EHR data. By leveraging the pre-trained semantic embedding vectors from large-scale EHR data as prior knowledge, LATTE selects predictive EHR features in a concept re-weighting module by mining their relationship to the target event and compresses their information into longitudinal visit embeddings through a visit attention learning network. LATTE employs a recurrent neural network to capture the sequential dependency between the target event and visit embeddings before/after it. To improve label efficiency, LATTE constructs highly informative longitudinal silver-standard labels from large-scale unlabeled patients to perform unsupervised pre-training and semi-supervised joint training. Finally, LATTE enhances cross-site portability via contrastive representation learning. LATTE is evaluated on three analyses: the onset of type-2 diabetes, heart failure, and the onset and relapses of multiple sclerosis. We use various evaluation metrics present in the literature including the $ABC_{gain}$, the proportion of reduction in the area between the observed event indicator and the predicted cumulative incidences in reference to the prediction per incident prevalence. LATTE consistently achieves substantial improvement over benchmark methods such as SAMGEP and RETAIN in all settings.
翻訳日:2023-05-22 16:34:07 公開日:2023-05-19
# 単一画像超解像用高能率混合変圧器

Efficient Mixed Transformer for Single Image Super-Resolution ( http://arxiv.org/abs/2305.11403v1 )

ライセンス: Link先を確認
Ling Zheng, Jinchen Zhu, Jinpeng Shi, Shizhuang Weng(参考訳) 近年,変圧器を用いた手法は単一画像超解像法 (sisr) で印象的な結果を得ている。 しかし、局所性機構の欠如と高複雑性は超解像(SR)の分野における応用を制限する。 これらの問題を解決するため,本研究ではEMT(Efficient Mixed Transformer)を提案する。 具体的には,複数の連続トランス層からなるMixed Transformer Block (MTB)を提案する。 PMはピクセルシフト操作によって局所的な知識集約を強化することができる。 pmにはパラメータや浮動小数点演算がないため、追加の複雑さは導入されない。 さらに、画像異方性を利用して、効率的なグローバル依存モデリングを実現するために、SA(SWSA)のストライプウィンドウを用いる。 実験結果から,EMTはベンチマークデータセット上で既存の手法よりも優れ,最先端の性能を達成した。 コードはhttps://github.comで入手できる。 Fried-Rice-Lab/EMT.git.com

Recently, Transformer-based methods have achieved impressive results in single image super-resolution (SISR). However, the lack of locality mechanism and high complexity limit their application in the field of super-resolution (SR). To solve these problems, we propose a new method, Efficient Mixed Transformer (EMT) in this study. Specifically, we propose the Mixed Transformer Block (MTB), consisting of multiple consecutive transformer layers, in some of which the Pixel Mixer (PM) is used to replace the Self-Attention (SA). PM can enhance the local knowledge aggregation with pixel shifting operations. At the same time, no additional complexity is introduced as PM has no parameters and floating-point operations. Moreover, we employ striped window for SA (SWSA) to gain an efficient global dependency modelling by utilizing image anisotropy. Experimental results show that EMT outperforms the existing methods on benchmark dataset and achieved state-of-the-art performance. The Code is available at https://github. com/Fried-Rice-Lab/EMT.git.
翻訳日:2023-05-22 16:33:39 公開日:2023-05-19
# 条件付き生成型adversarial networkのためのマイナショット連続学習

Few-Shot Continual Learning for Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2305.11400v1 )

ライセンス: Link先を確認
Cat P. Le, Juncheng Dong, Ahmed Aloui, Vahid Tarokh(参考訳) 生成モデルに対する数ショット連続学習では、予め学習したモードに悪影響を及ぼすことなく、限られたサンプルで目標モードを学習しなければならない。 本稿では,生成モデルのための新しいモード親和性尺度に基づく条件付き生成逆ネットワーク(cgan)のための連続学習手法を提案する。 我々の測度は、完全にcGANの判別器に基づいており、ターゲットと最もよく似た既存のモードを識別することができる。 その後、最も近いモードから派生した重み付きラベルを用いて目標モードを含む連続学習モデルを拡張した。 そこで我々はまず, cGAN のジェネレータを用いてラベル付きデータサンプルを生成し, 生成したデータをメモリで再生しながら, ターゲットモードの cGAN モデルを訓練する。 実験結果から,本手法がベースラインを超越した生成性能向上と,各種標準データセットに対する最先端手法の有効性を実証し,トレーニングサンプルの削減を図った。

In few-shot continual learning for generative models, a target mode must be learned with limited samples without adversely affecting the previously learned modes. In this paper, we propose a new continual learning approach for conditional generative adversarial networks (cGAN) based on a new mode-affinity measure for generative modeling. Our measure is entirely based on the cGAN's discriminator and can identify the existing modes that are most similar to the target. Subsequently, we expand the continual learning model by including the target mode using a weighted label derived from those of the closest modes. To prevent catastrophic forgetting, we first generate labeled data samples using the cGAN's generator, and then train the cGAN model for the target mode while memory replaying with the generated data. Our experimental results demonstrate the efficacy of our approach in improving the generation performance over the baselines and the state-of-the-art approaches for various standard datasets while utilizing fewer training samples.
翻訳日:2023-05-22 16:33:23 公開日:2023-05-19
# 快適食品とコミュニティコネクテッドネス:twitter上のyoutubeビデオによるcovid-19時の食生活の変化の調査

Comfort Foods and Community Connectedness: Investigating Diet Change during COVID-19 Using YouTube Videos on Twitter ( http://arxiv.org/abs/2305.11398v1 )

ライセンス: Link先を確認
Yelena Mejova, Lydia Manikonda(参考訳) 新型コロナウイルス(COVID-19)のパンデミックの開始に先立つロックダウンは、何百万人もの人々のルーチンを大きく変えた。 本研究では、COVID-19前後に投稿された食事、運動、フィットネスに関するツイートに埋め込まれたYouTubeビデオを用いて、パンデミックのロックダウンが食事と栄養に与える影響を調査する。 特に,6種類の大栄養素 (タンパク質, エネルギー, 脂肪, ナトリウム, 糖, 飽和脂肪) を用いて, それぞれのビデオの転写, 記述, タイトルに記載された食品の栄養プロファイルについて検討した。 これらのマクロ栄養値は、健康な食品の供給源にアクセスできない可能性がある人々に特定の影響があるかどうかを評価するために、人口統計学にさらに関連づけられた。 断続的時系列分析では、新型コロナウイルス前後のマクロ栄養値がかなり変化した。 特に,低所得地域ではエネルギー,脂肪,飽和脂肪の減少がみられたが,高率のアフリカ系アメリカ人ではナトリウムの上昇がみられた。 Word2Vecの単語の類似性とオッズ比分析は、ロックダウン前の人気ダイエットやライフスタイルブロガーから、様々な健康食品への関心、迅速で簡単なレシピの共有、快適な食品への新たな重点へのシフトを示唆した。 私たちの知る限りでは、この研究はツイートの注意信号、ビデオのコンテンツ、栄養素プロファイル、ユーザーの総人口統計をリンクするという点で斬新だ。 この資源の組み合わせによって可能になった洞察は、社会的距離の二次的健康効果を監視し、これらの効果を緩和するために設計された社会プログラムに知らせるために重要である。

Unprecedented lockdowns at the start of the COVID-19 pandemic have drastically changed the routines of millions of people, potentially impacting important health-related behaviors. In this study, we use YouTube videos embedded in tweets about diet, exercise and fitness posted before and during COVID-19 to investigate the influence of the pandemic lockdowns on diet and nutrition. In particular, we examine the nutritional profile of the foods mentioned in the transcript, description and title of each video in terms of six macronutrients (protein, energy, fat, sodium, sugar, and saturated fat). These macronutrient values were further linked to demographics to assess if there are specific effects on those potentially having insufficient access to healthy sources of food. Interrupted time series analysis revealed a considerable shift in the aggregated macronutrient scores before and during COVID-19. In particular, whereas areas with lower incomes showed decrease in energy, fat, and saturated fat, those with higher percentage of African Americans showed an elevation in sodium. Word2Vec word similarities and odds ratio analysis suggested a shift from popular diets and lifestyle bloggers before the lockdowns to the interest in a variety of healthy foods, communal sharing of quick and easy recipes, as well as a new emphasis on comfort foods. To the best of our knowledge, this work is novel in terms of linking attention signals in tweets, content of videos, their nutrients profile, and aggregate demographics of the users. The insights made possible by this combination of resources are important for monitoring the secondary health effects of social distancing, and informing social programs designed to alleviate these effects.
翻訳日:2023-05-22 16:33:08 公開日:2023-05-19
# 重要なこと:人間の動作予測のための因子的マルチヘッド検索と補助記憶安定化スキーム

Remembering What Is Important: A Factorised Multi-Head Retrieval and Auxiliary Memory Stabilisation Scheme for Human Motion Prediction ( http://arxiv.org/abs/2305.11394v1 )

ライセンス: Link先を確認
Tharindu Fernando and Harshala Gammulle and Sridha Sridharan and Simon Denman and Clinton Fookes(参考訳) 人間は、実行しているタスク、従事する相互作用、および主題固有の嗜好によって異なる複雑な動きを示す。 したがって、過去の動きの履歴に基づく将来の動きを予測することは難しい課題である。 本稿では、歴史的知識のモデリングを改善するために、革新的な補助記憶を用いたディープニューラルネットワークフレームワークを提案する。 具体的には、観察したポーズシーケンスから主題別、タスク別、およびその他の補助情報を抽出し、これらの因子化された特徴を利用して記憶を照会する。 新たなマルチヘッド知識検索手法では,これらの特徴埋め込みを利用して,補助メモリ内でキャプチャされた履歴観測に対して複数のクエリ処理を行う。 さらに,提案する動的マスキング戦略により,この特徴の絡み合いが動的になる。 データの不均衡や入力データ分布の多様性によらず、将来の動作の長期予測を支援するために、サレント情報を探索し記憶することができるようにし、補助メモリ内の多様性を促進するために2つの新しい損失関数を導入する。 Human3.6M と CMU-Mocap の2つの公開ベンチマークで実施された広範な実験により、これらの設計選択によって、提案されたアプローチが現在の最先端の手法よりも大きなマージンで優れていることが実証された。

Humans exhibit complex motions that vary depending on the task that they are performing, the interactions they engage in, as well as subject-specific preferences. Therefore, forecasting future poses based on the history of the previous motions is a challenging task. This paper presents an innovative auxiliary-memory-powered deep neural network framework for the improved modelling of historical knowledge. Specifically, we disentangle subject-specific, task-specific, and other auxiliary information from the observed pose sequences and utilise these factorised features to query the memory. A novel Multi-Head knowledge retrieval scheme leverages these factorised feature embeddings to perform multiple querying operations over the historical observations captured within the auxiliary memory. Moreover, our proposed dynamic masking strategy makes this feature disentanglement process dynamic. Two novel loss functions are introduced to encourage diversity within the auxiliary memory while ensuring the stability of the memory contents, such that it can locate and store salient information that can aid the long-term prediction of future motion, irrespective of data imbalances or the diversity of the input data distribution. With extensive experiments conducted on two public benchmarks, Human3.6M and CMU-Mocap, we demonstrate that these design choices collectively allow the proposed approach to outperform the current state-of-the-art methods by significant margins: $>$ 17\% on the Human3.6M dataset and $>$ 9\% on the CMU-Mocap dataset.
翻訳日:2023-05-22 16:32:36 公開日:2023-05-19
# Fast-StrucTexT: 文書理解のためのモダリティ誘導動的トーケンマージを用いた高効率フールグラストランス

Fast-StrucTexT: An Efficient Hourglass Transformer with Modality-guided Dynamic Token Merge for Document Understanding ( http://arxiv.org/abs/2305.11392v1 )

ライセンス: Link先を確認
Mingliang Zhai, Yulin Li, Xiameng Qin, Chen Yi, Qunyi Xie, Chengquan Zhang, Kun Yao, Yuwei Wu, Yunde Jia(参考訳) 変換器はその有効性が高いため文書理解において有望な性能を達成し、シークエンス長の2次計算複雑性に悩まされている。 一般的な効率的なトランスフォーマーは、モデル文書に直接適応することが困難である。 彼らは、単語、行、段落などの文書のレイアウト表現を異なる粒度レベルで扱うことができず、効率と性能の良好なトレードオフを達成できないように思える。 そこで本研究では,砂時計トランスフォーマーアーキテクチャを用いた構造体アルゴリズムに基づく効率的なマルチモーダルフレームワークであるfast-structextを提案する。 具体的には、モーダリティ誘導型動的トークンマージブロックを設計し、モデルを多粒度表現を学習させ、冗長トークンを創発する。 さらに,マルチモーダル融合を考慮し,トークンマージを効率的に導くために,対称クロスアテンション(sca)と呼ばれるマルチモーダルインタラクションモジュールを提案する。 SCAでは、クエリとして1つのモダリティ入力を2つのフェーズで別のモダリティでクロスアテンションを計算することができる。 FUNSD, SROIE, CORDデータセットの大規模な実験により、我々のモデルは最先端の手法よりも1.9倍高速な推論時間を実現することが示された。

Transformers achieve promising performance in document understanding because of their high effectiveness and still suffer from quadratic computational complexity dependency on the sequence length. General efficient transformers are challenging to be directly adapted to model document. They are unable to handle the layout representation in documents, e.g. word, line and paragraph, on different granularity levels and seem hard to achieve a good trade-off between efficiency and performance. To tackle the concerns, we propose Fast-StrucTexT, an efficient multi-modal framework based on the StrucTexT algorithm with an hourglass transformer architecture, for visual document understanding. Specifically, we design a modality-guided dynamic token merging block to make the model learn multi-granularity representation and prunes redundant tokens. Additionally, we present a multi-modal interaction module called Symmetry Cross Attention (SCA) to consider multi-modal fusion and efficiently guide the token mergence. The SCA allows one modality input as query to calculate cross attention with another modality in a dual phase. Extensive experiments on FUNSD, SROIE, and CORD datasets demonstrate that our model achieves the state-of-the-art performance and almost 1.9X faster inference time than the state-of-the-art methods.
翻訳日:2023-05-22 16:32:12 公開日:2023-05-19
# 検証・検証のレンズによる大規模言語モデルの安全性と信頼性調査

A Survey of Safety and Trustworthiness of Large Language Models through the Lens of Verification and Validation ( http://arxiv.org/abs/2305.11391v1 )

ライセンス: Link先を確認
Xiaowei Huang, Wenjie Ruan, Wei Huang, Gaojie Jin, Yi Dong, Changshun Wu, Saddek Bensalem, Ronghui Mu, Yi Qi, Xingyu Zhao, Kaiwen Cai, Yanghao Zhang, Sihao Wu, Peipei Xu, Dengyu Wu, Andre Freitas, Mustafa A. Mustafa(参考訳) 大規模言語モデル(LLM)がAIの新たな熱波を爆発させ、エンドユーザーを人間レベルの会話に巻き込み、多くの知識領域にわたって詳細な回答を得られるようにした。 多くの産業アプリケーションで急速に採用されているこの調査は、安全性と信頼性を懸念している。 まず、llmの既知の脆弱性をレビューし、固有の問題、意図した攻撃、意図しないバグに分類します。 次に、従来のソフトウェアや畳み込みニューラルネットワークなどのディープラーニングモデルで広く開発されている検証検証(V&V)技術が、LCMのライフサイクルを通じて統合され、さらに拡張され、LCMの安全性と信頼性に関する厳密な分析が可能であるかを検討する。 具体的には、ファルシフィケーションと評価、検証、実行監視、倫理的利用の4つの補完手法を検討する。 LLMの急速な開発を考えると、この調査は(300件の参考資料を含むが)完成するつもりはなく、特に各分野におけるLCMの適用に関して、V&Vの観点からの安全性と信頼性の問題の迅速な理解を支援するため、組織化された文献レビューや議論の収集である。

Large Language Models (LLMs) have exploded a new heatwave of AI, for their ability to engage end-users in human-level conversations with detailed and articulate answers across many knowledge domains. In response to their fast adoption in many industrial applications, this survey concerns their safety and trustworthiness. First, we review known vulnerabilities of the LLMs, categorising them into inherent issues, intended attacks, and unintended bugs. Then, we consider if and how the Verification and Validation (V&V) techniques, which have been widely developed for traditional software and deep learning models such as convolutional neural networks, can be integrated and further extended throughout the lifecycle of the LLMs to provide rigorous analysis to the safety and trustworthiness of LLMs and their applications. Specifically, we consider four complementary techniques: falsification and evaluation, verification, runtime monitoring, and ethical use. Considering the fast development of LLMs, this survey does not intend to be complete (although it includes 300 references), especially when it comes to the applications of LLMs in various domains, but rather a collection of organised literature reviews and discussions to support the quick understanding of the safety and trustworthiness issues from the perspective of V&V.
翻訳日:2023-05-22 16:31:48 公開日:2023-05-19
# ALT:ロングテールシナリオモデリングのための自動システム

ALT: An Automatic System for Long Tail Scenario Modeling ( http://arxiv.org/abs/2305.11390v1 )

ライセンス: Link先を確認
Ya-Lin Zhang, Jun Zhou, Yankun Ren, Yue Zhang, Xinxing Yang, Meng Li, Qitao Shi, Longfei Li(参考訳) 本稿では,モデルトレーニング段階における人的資源不足や,モデル推論段階における時間と計算資源不足といった,予算制限を伴う長期シナリオモデリングの問題について考察する。 この問題は様々なアプリケーションで広く認識されているが、今のところは注目されていない。 この問題に対処するために,ALTという自動システムを提案する。 様々な機械学習関連手法の活用、メタ学習哲学の活用、本質的な予算制限型ニューラルネットワーク探索法の提案など、システムで使用されるアルゴリズムの改善にいくつかの取り組みがなされている。 さらに、システムを構築するには、体系的な観点から多くの最適化が行われ、本質的なモジュールは武装しており、システムをより実現可能かつ効率的にする。 我々は,システムの有効性を検証し,システムにおけるクリティカルモジュールの有用性を実証するために,豊富な実験を行った。 さらに,本システムの有効性を十分に検証したオンライン結果も提供される。

In this paper, we consider the problem of long tail scenario modeling with budget limitation, i.e., insufficient human resources for model training stage and limited time and computing resources for model inference stage. This problem is widely encountered in various applications, yet has received deficient attention so far. We present an automatic system named ALT to deal with this problem. Several efforts are taken to improve the algorithms used in our system, such as employing various automatic machine learning related techniques, adopting the meta learning philosophy, and proposing an essential budget-limited neural architecture search method, etc. Moreover, to build the system, many optimizations are performed from a systematic perspective, and essential modules are armed, making the system more feasible and efficient. We perform abundant experiments to validate the effectiveness of our system and demonstrate the usefulness of the critical modules in our system. Moreover, online results are provided, which fully verified the efficacy of our system.
翻訳日:2023-05-22 16:31:26 公開日:2023-05-19
# ドメインの一般化 ディープグラフ変換

Domain Generalization Deep Graph Transformation ( http://arxiv.org/abs/2305.11389v1 )

ライセンス: Link先を確認
Shiyu Wang, Guangji Bai, Qingyang Zhu, Zhaohui Qin, Liang Zhao(参考訳) あるモードから別のモードへのグラフ遷移を予測するグラフ変換は、重要かつ一般的な問題である。 近年の高度なグラフ変換技術の進歩にもかかわらず、機械学習モデルにおいて一般的に必要とされる基本的な前提は、テストデータとトレーニングデータが同じ分布を保持するとは限らないことである。 その結果、トレーニングデータで使用できないグラフを予測するドメイン一般化グラフ変換は、(1)すべての入出力モードの組み合わせでトレーニングする場合の極端な空間複雑性、(2)入力モードと出力モードの間のグラフトポロジの違い、(3)トレーニングデータにないターゲットドメインへのモデル(見当たらない)一般化の方法、など、いくつかの課題に対処しなければならない。 このギャップを埋めるために,入力モードと出力モードの位相を符号化するエンコーダとデコーダと,グラフ変換タスクを強化する半教師付きリンク予測を用いた,マルチインプット,マルチアウトプット,ハイパーネットワークベースのグラフニューラルネットワーク(multihypergnn)を提案する。 すべてのモードの組み合わせでトレーニングする代わりに、multihypergnnは、2つの新しいハイパーネットワークによって生成されるエンコーダとデコーダとの一定の空間複雑性を保持する。 総合的な実験により、MultiHyperGNNは予測タスクとドメイン一般化タスクの両方で競合するモデルよりも優れた性能を示している。

Graph transformation that predicts graph transition from one mode to another is an important and common problem. Despite much progress in developing advanced graph transformation techniques in recent years, the fundamental assumption typically required in machine-learning models that the testing and training data preserve the same distribution does not always hold. As a result, domain generalization graph transformation that predicts graphs not available in the training data is under-explored, with multiple key challenges to be addressed including (1) the extreme space complexity when training on all input-output mode combinations, (2) difference of graph topologies between the input and the output modes, and (3) how to generalize the model to (unseen) target domains that are not in the training data. To fill the gap, we propose a multi-input, multi-output, hypernetwork-based graph neural network (MultiHyperGNN) that employs a encoder and a decoder to encode topologies of both input and output modes and semi-supervised link prediction to enhance the graph transformation task. Instead of training on all mode combinations, MultiHyperGNN preserves a constant space complexity with the encoder and the decoder produced by two novel hypernetworks. Comprehensive experiments show that MultiHyperGNN has a superior performance than competing models in both prediction and domain generalization tasks.
翻訳日:2023-05-22 16:31:12 公開日:2023-05-19
# RGB-Dと熱センサーフュージョン:システム文献レビュー

RGB-D And Thermal Sensor Fusion: A Systematic Literature Review ( http://arxiv.org/abs/2305.11427v1 )

ライセンス: Link先を確認
Martin Brenner, Napoleon H. Reyes, Teo Susnjak, Andre L.C. Barczak(参考訳) 過去10年間、コンピュータビジョン分野は、深度、赤外線、視覚を含む複数のセンサーが様々な範囲の環境を捉えるために使用されるマルチモーダルデータ融合と学習において、大きな進歩を遂げてきた。 これらの進歩にもかかわらず、これまでRGB-Dと熱モダリティを融合させる体系的かつ包括的な評価は行われていない。 ライダー、レーダー、rgb、その他のセンサーを用いた自律運転は、rgbと深度モードの融合と共に、かなりの研究の関心を集めているが、サーマルカメラ、特にrgb-dとサーマルデータの融合は、比較的注目されていない。 これは部分的には、そのようなアプリケーションで利用可能な公開データセットの数が限られているためかもしれない。 本稿では,rgb-dデータとサーマルカメラデータを用いて,現場検査や人的追跡,障害検出など,様々な用途に適用する手法について概観する。 レビューされた文献は、3次元再構成、セグメンテーション、オブジェクト検出、利用可能なデータセット、その他の関連するトピックに分類されている。 方法論の簡単な紹介と概要に続いて,本研究はキャリブレーションと登録手法を掘り下げ,熱可視化と3次元再構成を考察し,古典的特徴に基づく手法と近代的な深層学習アプローチの応用について論じる。 この論文は、現在の限界と将来の研究方向に関する談話で締めくくっている。 この調査は、最新の進歩に精通し、RGB-DT研究分野に貢献することを目指す研究者にとって貴重な参考となるものと期待されている。

In the last decade, the computer vision field has seen significant progress in multimodal data fusion and learning, where multiple sensors, including depth, infrared, and visual, are used to capture the environment across diverse spectral ranges. Despite these advancements, there has been no systematic and comprehensive evaluation of fusing RGB-D and thermal modalities to date. While autonomous driving using LiDAR, radar, RGB, and other sensors has garnered substantial research interest, along with the fusion of RGB and depth modalities, the integration of thermal cameras and, specifically, the fusion of RGB-D and thermal data, has received comparatively less attention. This might be partly due to the limited number of publicly available datasets for such applications. This paper provides a comprehensive review of both, state-of-the-art and traditional methods used in fusing RGB-D and thermal camera data for various applications, such as site inspection, human tracking, fault detection, and others. The reviewed literature has been categorised into technical areas, such as 3D reconstruction, segmentation, object detection, available datasets, and other related topics. Following a brief introduction and an overview of the methodology, the study delves into calibration and registration techniques, then examines thermal visualisation and 3D reconstruction, before discussing the application of classic feature-based techniques as well as modern deep learning approaches. The paper concludes with a discourse on current limitations and potential future research directions. It is hoped that this survey will serve as a valuable reference for researchers looking to familiarise themselves with the latest advancements and contribute to the RGB-DT research field.
翻訳日:2023-05-22 16:25:03 公開日:2023-05-19
# 言語モデルのポストホック説明は言語モデルを改善することができる

Post Hoc Explanations of Language Models Can Improve Language Models ( http://arxiv.org/abs/2305.11426v1 )

ライセンス: Link先を確認
Satyapriya, Krishna, Jiaqi Ma, Dylan Slack, Asma Ghandeharioun, Sameer Singh, Himabindu Lakkaraju(参考訳) 大規模言語モデル(LLM)は複雑なタスクの実行において顕著な能力を示した。 さらに、近年の研究では、コンテキスト内学習中に人間の注釈付き合理性(例えば、連鎖的思考促進)を組み込むことで、これらのモデル、特に推論能力を必要とするタスクのパフォーマンスが大幅に向上することが示されている。 しかし、このような合理性の導入は、高い人間的関与を必要とするため、スケーラビリティの面での課題となる。 そこで本研究では, 論理生成のプロセスを自動化することで, 上記の課題に対処する, AMPLIFY(Post Hoc Explanations)を用いたインテクスト学習の活用によるモデルパフォーマンスの増幅手法を提案する。 この目的のために,各入力特徴がモデル予測に与える影響を捉えた帰属スコア(説明)を出力するポストホックな説明手法を利用する。 より具体的には、ポストホックな説明から洞察を埋め込み、llmに補正信号を提供する自動自然言語理論を構築する。 現実世界のデータセットによる大規模な実験により、私たちのフレームワークAMPLIFYは、Chain-of-Thoughtのような注釈付き論理に依存した従来のアプローチが不足するなど、幅広いタスクに対して約10~25%の精度の向上をもたらすことが示されています。 本研究は,LLMの有効性を高める貴重なツールとして,ポストホック説明の可能性を強調した最初の試みである。 さらに、AMPLIFYの各コンポーネントの影響を実証するために、実験的な分析とアブレーション研究を行い、その結果として、文脈内学習を洗練するための重要な洞察をもたらす。

Large Language Models (LLMs) have demonstrated remarkable capabilities in performing complex tasks. Moreover, recent research has shown that incorporating human-annotated rationales (e.g., Chain-of- Thought prompting) during in-context learning can significantly enhance the performance of these models, particularly on tasks that require reasoning capabilities. However, incorporating such rationales poses challenges in terms of scalability as this requires a high degree of human involvement. In this work, we present a novel framework, Amplifying Model Performance by Leveraging In-Context Learning with Post Hoc Explanations (AMPLIFY), which addresses the aforementioned challenges by automating the process of rationale generation. To this end, we leverage post hoc explanation methods which output attribution scores (explanations) capturing the influence of each of the input features on model predictions. More specifically, we construct automated natural language rationales that embed insights from post hoc explanations to provide corrective signals to LLMs. Extensive experimentation with real-world datasets demonstrates that our framework, AMPLIFY, leads to prediction accuracy improvements of about 10-25% over a wide range of tasks, including those where prior approaches which rely on human-annotated rationales such as Chain-of-Thought prompting fall short. Our work makes one of the first attempts at highlighting the potential of post hoc explanations as valuable tools for enhancing the effectiveness of LLMs. Furthermore, we conduct additional empirical analyses and ablation studies to demonstrate the impact of each of the components of AMPLIFY, which, in turn, lead to critical insights for refining in-context learning.
翻訳日:2023-05-22 16:24:33 公開日:2023-05-19
# グラフ表現学習のためのグラフ伝搬トランス

Graph Propagation Transformer for Graph Representation Learning ( http://arxiv.org/abs/2305.11424v1 )

ライセンス: Link先を確認
Zhe Chen, Hao Tan, Tao Wang, Tianrun Shen, Tong Lu, Qiuying Peng, Cheng Cheng, Yue Qi(参考訳) 本稿では,グラフ表現学習のためのトランスフォーマーアーキテクチャを提案する。 本手法の中核となる洞察は,変圧器ブロックにアテンションモジュールを構築する際に,グラフ内のノードとエッジ間の情報伝達を十分に考慮することである。 具体的には,グラフ伝搬注意(GPA)と呼ばれる新しい注意機構を提案する。 ノード間、ノード間、ノード間、ノード間、ノード間、ノード間という3つの方法で、グラフ構造化データの学習に不可欠な情報を明示的に渡します。 本研究では,グラフデータ学習を支援するために,GPTrans (Graph Propagation Transformer) という効果的なトランスアーキテクチャを設計する。 いくつかのベンチマークデータセットにおいて,GPTransの性能を広範囲にわたるグラフ学習実験で検証する。 これらの結果から,本手法は,最先端のトランスフォーマーベースのグラフモデルよりも優れた性能を持つことを示す。 コードはhttps://github.com/czczup/GPTransでリリースされる。

This paper presents a novel transformer architecture for graph representation learning. The core insight of our method is to fully consider the information propagation among nodes and edges in a graph when building the attention module in the transformer blocks. Specifically, we propose a new attention mechanism called Graph Propagation Attention (GPA). It explicitly passes the information among nodes and edges in three ways, i.e. node-to-node, node-to-edge, and edge-to-node, which is essential for learning graph-structured data. On this basis, we design an effective transformer architecture named Graph Propagation Transformer (GPTrans) to further help learn graph data. We verify the performance of GPTrans in a wide range of graph learning experiments on several benchmark datasets. These results show that our method outperforms many state-of-the-art transformer-based graph models with better performance. The code will be released at https://github.com/czczup/GPTrans.
翻訳日:2023-05-22 16:24:04 公開日:2023-05-19
# PastNet:時空間映像予測のための物理的誘導バイアスの導入

PastNet: Introducing Physical Inductive Biases for Spatio-temporal Video Prediction ( http://arxiv.org/abs/2305.11421v1 )

ライセンス: Link先を確認
Hao Wu, Wei Xion, Fan Xu, Xiao Luo, Chong Chen, Xian-Sheng Hua and Haixin Wang(参考訳) 本稿では,過去のデータストリームに基づく将来の映像生成を伴う時空間的ビデオ予測の課題について検討する。 既存のアプローチでは、典型的にはセマンティックマップなどの外部情報を使用して、ビデオに埋め込まれた物理的知識を無視するビデオ予測を強化する。 さらに、高い計算要求は高解像度ビデオの応用を阻害する可能性がある。 これらの制約に対処するために,我々は,物理支援時空間ネットワーク (pastnet) と呼ばれる,高品質ビデオ予測のための新しい手法を提案する。 私たちのパスネットの中核は、フーリエ領域にスペクトル畳み込み作用素を組み込むことで、基礎となる物理法則からの帰納的バイアスを効率的に導入することにあります。 さらに,複雑な時空間信号の処理中に局所的な特徴を識別するために,推定固有次元のメモリバンクを用いて計算コストを低減し,高解像度映像の予測を容易にする。 様々な広範に使用されるデータセットに関する広範囲な実験は、特に高解像度シナリオにおいて、最先端の手法と比較して提案するパスネットの有効性と効率を示す。

In this paper, we investigate the challenge of spatio-temporal video prediction, which involves generating future videos based on historical data streams. Existing approaches typically utilize external information such as semantic maps to enhance video prediction, which often neglect the inherent physical knowledge embedded within videos. Furthermore, their high computational demands could impede their applications for high-resolution videos. To address these constraints, we introduce a novel approach called Physics-assisted Spatio-temporal Network (PastNet) for generating high-quality video predictions. The core of our PastNet lies in incorporating a spectral convolution operator in the Fourier domain, which efficiently introduces inductive biases from the underlying physical laws. Additionally, we employ a memory bank with the estimated intrinsic dimensionality to discretize local features during the processing of complex spatio-temporal signals, thereby reducing computational costs and facilitating efficient high-resolution video prediction. Extensive experiments on various widely-used datasets demonstrate the effectiveness and efficiency of the proposed PastNet compared with state-of-the-art methods, particularly in high-resolution scenarios.
翻訳日:2023-05-22 16:23:49 公開日:2023-05-19
# 指数グラフを超えて:有限時間収束による分散学習のための通信効率の高いトポロジー

Beyond Exponential Graph: Communication-Efficient Topologies for Decentralized Learning via Finite-time Convergence ( http://arxiv.org/abs/2305.11420v1 )

ライセンス: Link先を確認
Yuki Takezawa, Ryoma Sato, Han Bao, Kenta Niwa, Makoto Yamada(参考訳) 分散学習は、並列計算とプライバシ保護におけるその応用に注目が集まっている。 最近の多くの研究は、より高速なコンセンサス率(スペクトルギャップ)を持つネットワークトポロジーは、分散学習においてより良い収束率と精度をもたらすと述べている。 しかし、例えば指数グラフのような高速なコンセンサスレートを持つトポロジーは、一般的に大きな最大次数を持ち、大きな通信コストがかかる。 したがって、高速なコンセンサス率と小さい最大度の両方を持つ位相を求めることが重要である。 本研究では,高速なコンセンサス率とBase-$(k + 1)$ Graphと呼ばれる最小次を併用した新しいトポロジーを提案する。 既存のトポロジとは異なり、base-$(k + 1)$ graph は全てのノードが任意のノード数と最大次数 k に対して有限個の反復の後に正確なコンセンサスに達することができる。 この好ましい性質のおかげで、Base-$(k + 1)$ Graph は指数グラフよりも高速収束率と通信効率の高い分散 SGD (DSGD) を提供する。 そこで我々は,Base-$(k + 1)$ Graph を用いて様々なトポロジを用いた実験を行い,既存のトポロジよりも高い通信効率で,分散学習を実現できることを示した。

Decentralized learning has recently been attracting increasing attention for its applications in parallel computation and privacy preservation. Many recent studies stated that the underlying network topology with a faster consensus rate (a.k.a. spectral gap) leads to a better convergence rate and accuracy for decentralized learning. However, a topology with a fast consensus rate, e.g., the exponential graph, generally has a large maximum degree, which incurs significant communication costs. Thus, seeking topologies with both a fast consensus rate and small maximum degree is important. In this study, we propose a novel topology combining both a fast consensus rate and small maximum degree called the Base-$(k + 1)$ Graph. Unlike the existing topologies, the Base-$(k + 1)$ Graph enables all nodes to reach the exact consensus after a finite number of iterations for any number of nodes and maximum degree k. Thanks to this favorable property, the Base-$(k + 1)$ Graph endows Decentralized SGD (DSGD) with both a faster convergence rate and more communication efficiency than the exponential graph. We conducted experiments with various topologies, demonstrating that the Base-$(k + 1)$ Graph enables various decentralized learning methods to achieve higher accuracy with better communication efficiency than the existing topologies.
翻訳日:2023-05-22 16:23:30 公開日:2023-05-19
# JetSeg: 低消費電力GPU組み込みシステムのための効率的なリアルタイムセマンティックセマンティックセグメンテーションモデル

JetSeg: Efficient Real-Time Semantic Segmentation Model for Low-Power GPU-Embedded Systems ( http://arxiv.org/abs/2305.11419v1 )

ライセンス: Link先を確認
Miguel Lopez-Montiel, Daniel Alejandro Lopez, Oscar Montiel(参考訳) リアルタイムセマンティクスセグメンテーションは、参照時間の少ない高精度なモデルを必要とする困難なタスクである。 組み込みシステム上でのこれらのモデルの実装は、ハードウェア機能とメモリ使用量によって制限され、ボトルネックが発生する。 本稿では,JetNetと呼ばれるエンコーダと改良されたRegSegデコーダからなる,JetSegと呼ばれるリアルタイムセマンティックセマンティックセマンティクスの効率的なモデルを提案する。 The JetNet is designed for GPU-Embedded Systems and includes two main components: a new light-weight efficient block called JetBlock, that reduces the number of parameters minimizing memory usage and inference time without sacrificing accuracy; a new strategy that involves the combination of asymmetric and non-asymmetric convolutions with depthwise-dilated convolutions called JetConv, a channel shuffle operation, light-weight activation functions, and a convenient number of group convolutions for embedded systems, and an innovative loss function named JetLoss, which integrates the Precision, Recall, and IoUB losses to improve semantic segmentation and reduce computational complexity. 実験によると、JetSegはワークステーションデバイスでははるかに高速で、リアルタイムセマンティックセグメンテーションのための既存の最先端モデルよりも低消費電力GPU組み込みシステムに適している。 我々のアプローチは46.70Mパラメータと5.14%のGFLOPを削減して最先端のリアルタイムエンコーダデコーダモデルより優れており、NVIDIA Titan RTX GPUとJetson Xavierの2倍高速なJetSegを実現している。 jetsegコードはhttps://github.com/mmontielpz/jetsegで入手できる。

Real-time semantic segmentation is a challenging task that requires high-accuracy models with low-inference times. Implementing these models on embedded systems is limited by hardware capability and memory usage, which produces bottlenecks. We propose an efficient model for real-time semantic segmentation called JetSeg, consisting of an encoder called JetNet, and an improved RegSeg decoder. The JetNet is designed for GPU-Embedded Systems and includes two main components: a new light-weight efficient block called JetBlock, that reduces the number of parameters minimizing memory usage and inference time without sacrificing accuracy; a new strategy that involves the combination of asymmetric and non-asymmetric convolutions with depthwise-dilated convolutions called JetConv, a channel shuffle operation, light-weight activation functions, and a convenient number of group convolutions for embedded systems, and an innovative loss function named JetLoss, which integrates the Precision, Recall, and IoUB losses to improve semantic segmentation and reduce computational complexity. Experiments demonstrate that JetSeg is much faster on workstation devices and more suitable for Low-Power GPU-Embedded Systems than existing state-of-the-art models for real-time semantic segmentation. Our approach outperforms state-of-the-art real-time encoder-decoder models by reducing 46.70M parameters and 5.14% GFLOPs, which makes JetSeg up to 2x faster on the NVIDIA Titan RTX GPU and the Jetson Xavier than other models. The JetSeg code is available at https://github.com/mmontielpz/jetseg.
翻訳日:2023-05-22 16:23:08 公開日:2023-05-19
# 関数同値の観点から見たフィードフォワードニューラルネットワークの複雑性

Complexity of Feed-Forward Neural Networks from the Perspective of Functional Equivalence ( http://arxiv.org/abs/2305.11417v1 )

ライセンス: Link先を確認
Guohao Shen(参考訳) 本稿では,機能的等価性の概念を考察することにより,フィードフォワードニューラルネットワークの複雑さを考察し,異なるネットワークパラメータ化が同じ機能をもたらすことを示唆する。 この特性を利用してニューラルネットワークの複雑性を低減できることを示すフィードフォワードニューラルネットワークのクラスにバインドされた新しいカバー番号を導出するために、置換不変性を利用する。 さらに、パラメータ空間の対称構造に基づいて、ランダムパラメータ初期化の適切な戦略が最適化のための収束確率を増加させることを実証する。 過パラメータ化ネットワークは、ニューラルネットワークの幅が大きくなると、有効パラメータ空間の容量が消滅するという意味で、訓練がより容易であることがわかった。 今回の知見は,過剰パラメータ化に対する新たな洞察を提供し,ディープラーニングの一般化と最適化を理解する上で重要な意味を持つ。

In this paper, we investigate the complexity of feed-forward neural networks by examining the concept of functional equivalence, which suggests that different network parameterizations can lead to the same function. We utilize the permutation invariance property to derive a novel covering number bound for the class of feedforward neural networks, which reveals that the complexity of a neural network can be reduced by exploiting this property. Furthermore, based on the symmetric structure of parameter space, we demonstrate that an appropriate strategy of random parameter initialization can increase the probability of convergence for optimization. We found that overparameterized networks tend to be easier to train in the sense that increasing the width of neural networks leads to a vanishing volume of the effective parameter space. Our findings offer new insights into overparameterization and have significant implications for understanding generalization and optimization in deep learning.
翻訳日:2023-05-22 16:22:25 公開日:2023-05-19
# フェデレーションモデル:大規模モデルのプライバシ保護と協調学習

Federated Foundation Models: Privacy-Preserving and Collaborative Learning for Large Models ( http://arxiv.org/abs/2305.11414v1 )

ライセンス: Link先を確認
Sixing Yu, J. Pablo Mu\~noz, Ali Jannesari(参考訳) BERT、GPT、ViT、CLIPといったファンデーションモデル(FM)は、事前トレーニングに大量のデータを活用する能力によって、幅広いアプリケーションで顕著な成功を収めている。 しかし、FMを最適化するには、機密データへのアクセス、プライバシー上の懸念の高まり、特定のドメインでの適用性を制限する必要がある。 本稿では、FMとFederated Learning(FL)の利点を組み合わせた新しいアプローチであるFederated Foundation Models(FFMs)の概念を導入し、複数の機関におけるプライバシー保護と協調学習を実現する。 我々は,FMの寿命にFLを組み込むことの潜在的なメリットと課題について論じ,事前学習,微調整,応用について論じる。 さらに、FFM事前訓練、FFM微調整、フェデレートされたプロンプトエンジニアリングを含むFFMタスクの正式な定義を提供し、データプライバシを維持しながら、よりパーソナライズされたコンテキスト対応モデルを可能にする。 さらに、エッジでの計算能力の増大は、エッジで新たに生成されたプライベートデータを用いてFMを最適化する可能性を解放する。 本研究では,FFMと従来のFMの性能を比較する実験と評価を行い,プライバシの保護,過度な適合の低減,モデル一般化性の向上といったアプローチの有効性を実証する。 提案するフェデレーション基盤モデルは,大規模言語モデルをプライバシ保護方法でトレーニングするためのフレキシブルでスケーラブルなフレームワークを提供し,fmプリトレーニングとフェデレーション学習の両方において,今後の進歩への道を開くものだ。

Foundation Models (FMs), such as BERT, GPT, ViT, and CLIP, have demonstrated remarkable success in a wide range of applications, driven by their ability to leverage vast amounts of data for pre-training. However, optimizing FMs often requires access to sensitive data, raising privacy concerns and limiting their applicability in certain domains. In this paper, we introduce the concept of Federated Foundation Models (FFMs), a novel approach that combines the benefits of FMs and Federated Learning (FL) to enable privacy-preserving and collaborative learning across multiple institutions. We discuss the potential benefits and challenges of integrating FL into the lifespan of FMs, covering pre-training, fine-tuning, and application. We further provide formal definitions of FFM tasks, including FFM pre-training, FFM fine-tuning, and federated prompt engineering, allowing for more personalized and context-aware models while maintaining data privacy. Moreover, we explore the possibility of continual/lifelong learning in FFMs, as increased computational power at the edge unlocks the potential for optimizing FMs using newly generated private data at edges. We present experiments and evaluations comparing the performance of FFMs to traditional FMs on various downstream tasks, demonstrating the effectiveness of our approach in preserving privacy, reducing overfitting, and improving model generalizability. The proposed Federated Foundation Models offer a flexible and scalable framework for training large language models in a privacy-preserving manner, paving the way for future advancements in both FM pre-training and federated learning.
翻訳日:2023-05-22 16:21:48 公開日:2023-05-19
# DUB: 音声翻訳のための離散単位逆翻訳

DUB: Discrete Unit Back-translation for Speech Translation ( http://arxiv.org/abs/2305.11411v1 )

ライセンス: Link先を確認
Dong Zhang, Rong Ye, Tom Ko, Mingxuan Wang, Yaqian Zhou(参考訳) 音声テキスト翻訳(ST)と機械翻訳(MT)はどのように機能するのか? 音声とテキストのモダリティギャップを橋渡しし,有用なmt手法をstに適用することのキーポイントである。最近,教師なし離散単位を用いた音声表現のアプローチが,モダリティ問題を緩和するための新たな方法を生み出している。 これは、(1)直接STにおける連続的な特徴よりも、離散単位による発話を表現する方がよいか? 2) MT技術がSTにどの程度の恩恵をもたらすか。 DUBでは、バックトランスレーション技術が直接STに適用され、MuST-C En-De/Fr/Es上で平均5.5BLEUを得る。 低リソースの言語シナリオでは,大規模な外部データに依存する既存手法と同等の性能を実現する。 コードとモデルはhttps://github.com/0nutation/dub.comで入手できる。

How can speech-to-text translation (ST) perform as well as machine translation (MT)? The key point is to bridge the modality gap between speech and text so that useful MT techniques can be applied to ST. Recently, the approach of representing speech with unsupervised discrete units yields a new way to ease the modality problem. This motivates us to propose Discrete Unit Back-translation (DUB) to answer two questions: (1) Is it better to represent speech with discrete units than with continuous features in direct ST? (2) How much benefit can useful MT techniques bring to ST? With DUB, the back-translation technique can successfully be applied on direct ST and obtains an average boost of 5.5 BLEU on MuST-C En-De/Fr/Es. In the low-resource language scenario, our method achieves comparable performance to existing methods that rely on large-scale external data. Code and models are available at https://github.com/0nutation/DUB.
翻訳日:2023-05-22 16:21:14 公開日:2023-05-19
# ECDLP用拡張ショアアルゴリズムの量子回路におけるCNOT数最小化

Minimizing CNOT-count in quantum circuit of the extended Shor's algorithm for ECDLP ( http://arxiv.org/abs/2305.11410v1 )

ライセンス: Link先を確認
Xia Liu, Huan Yang, Li Yang(参考訳) 楕円曲線離散対数問題 (ECDLP) が提案されて以来、強力なセキュリティのために暗号システムで広く使われている。 拡張Shorのアルゴリズムの提案はECDLPのクラックを期待するが、実際にそのアルゴリズムが脅威となるかどうかは議論の余地がある。 アルゴリズムの量子回路の観点から、イオントラップ量子コンピュータを用いて、改良された量子回路を用いてECDLPのクラックの可能性を分析する。 拡張ショアのアルゴリズムに対して高精度量子回路を与え、モジュラス減算、3つの異なるモジュラス乗算、モジュラス逆算術、ウィンドウ演算を含む素体上の楕円曲線上の離散対数を計算する。 従来の研究では、量子ビット数や回路深さの最小化に重点を置いていたが、CNOTの数を最小化することは、イオントラップ量子コンピュータ上でアルゴリズムを実行する時間に大きな影響を与える。 まず,最小数の CNOT を用いた基本演算の実装と,改良されたモジュラー逆数,点加算,ウィンドウ化技術の構築について述べる。 そこで我々は,nビット整数を分解するShorアルゴリズムの拡張に必要な改良量子回路の数を正確に推定する。 イオントラップ量子コンピュータ上で拡張されたshorアルゴリズムの実行時間と実行可能性について,cnot数に応じて解析する。 最後に、拡張されたshorアルゴリズムを実装するのに必要なcnotの数の下限について論じた。

Since the elliptic curve discrete logarithms problem (ECDLP) was proposed, it has been widely used in cryptosystem because of its strong security. Although the proposal of the extended Shor's algorithm offers hope for cracking ECDLP, it is debatable whether the algorithm can actually pose a threat in practice. From the perspective of the quantum circuit of the algorithm, we analyze the feasibility of cracking ECDLP with improved quantum circuits using an ion trap quantum computer. We give precise quantum circuits for extended Shor's algorithm to calculate discrete logarithms on elliptic curves over prime fields, including modulus subtraction, three different modulus multiplication, modulus inverse, and windowed arithmetic. Whereas previous studies mostly focused on minimizing the number of qubits or the depth of the circuit, we minimize the number of CNOTs, which greatly affects the time to run the algorithm on an ion trap quantum computer. First, we give the implementation of the basic arithmetic with the lowest known number of CNOTs and the construction of an improved modular inverse, point addition, and the windowing technique. Then, we precisely estimate the number of improved quantum circuits needed to perform the extended Shor's algorithm for factoring an n-bit integer. We analyze the running time and feasibility of the extended Shor's algorithm on an ion trap quantum computer according to the number of CNOTs. Finally, we discussed the lower bound of the number of CNOTs needed to implement the extended Shor's algorithm.
翻訳日:2023-05-22 16:20:58 公開日:2023-05-19
# 微調整速度, 速さによる言語間移動における性能ギャップの解析と低減

Analyzing and Reducing the Performance Gap in Cross-Lingual Transfer with Fine-tuning Slow and Fast ( http://arxiv.org/abs/2305.11449v1 )

ライセンス: Link先を確認
Yiduo Guo, Yaobo Liang, Dongyan Zhao, Bing Liu, Duan Nan(参考訳) 既存の研究によると、1つの(ソース)言語で微調整された多言語事前学習言語モデルは、これらの言語では微調整が行われなくても、非ソース言語の下流タスクでもうまく機能している。 しかし、ソース言語のパフォーマンスと非ソース言語のパフォーマンスの間には明確なギャップがある。 本稿では、微調整プロセスを分析し、パフォーマンスギャップがいつ変化するかを分析し、ネットワークの重みが全体のパフォーマンスに最も影響するかを特定する。 さらに, 紙は, 忘れを減らし, ギャップを減らそうとしている。 分析結果から,4つの学習方針を組み込んだ微調整方式であるslow and fastが提案されている。 実験結果から,提案手法はベースラインをクリアマージンで上回った。

Existing research has shown that a multilingual pre-trained language model fine-tuned with one (source) language also performs well on downstream tasks for non-source languages, even though no fine-tuning is done on these languages. However, there is a clear gap between the performance of the source language and that of the non-source languages. This paper analyzes the fine-tuning process, discovers when the performance gap changes and identifies which network weights affect the overall performance most. Additionally, the paper seeks to answer to what extent the gap can be reduced by reducing forgetting. Based on the analysis results, a method named Fine-tuning slow and fast with four training policies is proposed to address these issues. Experimental results show the proposed method outperforms baselines by a clear margin.
翻訳日:2023-05-22 16:15:06 公開日:2023-05-19
# 音響と電磁の時空幾何学

Spacetime geometry of acoustics and electromagnetism ( http://arxiv.org/abs/2305.11448v1 )

ライセンス: Link先を確認
Lucas Burns, Tatsuya Daniel, Stephon Alexander, Justin Dressel(参考訳) 音響と電磁界は、動的ポテンシャル場の観点から測定可能な場を表す。 電磁力場は、動的エネルギー運動量4-ベクトルポテンシャル場で表される時空のベクトルを形成する。 音圧と速度場は、動的作用スカラーポテンシャル場によって表されるエネルギー-運動密度4-ベクトル場を形成する。 驚くべきことに、これらの従来のポテンシャル表現に基づくスピン角運動量の標準場理論解析は、両方の理論を慎重に再評価する動機となる最近の実験と矛盾する。 真空波伝搬によって強制される本質的対称性を尊重するために時空の全幾何構造を用いる両理論の拡張を分析する。 結果として得られる拡張は、幾何学的に完全かつ位相不変(すなわち双対称)な定式化であり、時空ベクトル微分(すなわち量子ディラック作用素)によって関連づけられた相補的な階数(英語版)にまたがる力学ポテンシャルと測定可能な場を持つ。 これらの完全な表現は運動方程式、エネルギー-運動量テンソル、プローブで経験した力、ラグランジュ密度、ゲージ自由度を補正し、相対論的場の量子論に深い構造的関係を示す。 最後に,これらの補正が実験実験に与える影響について考察する。

Both acoustics and electromagnetism represent measurable fields in terms of dynamical potential fields. Electromagnetic force-fields form a spacetime bivector that is represented by a dynamical energy-momentum 4-vector potential field. Acoustic pressure and velocity fields form an energy-momentum density 4-vector field that is represented by a dynamical action scalar potential field. Surprisingly, standard field theory analyses of spin angular momentum based on these traditional potential representations contradict recent experiments, which motivates a careful reassessment of both theories. We analyze extensions of both theories that use the full geometric structure of spacetime to respect essential symmetries enforced by vacuum wave propagation. The resulting extensions are geometrically complete and phase-invariant (i.e., dual-symmetric) formulations that span all five grades of spacetime, with dynamical potentials and measurable fields spanning complementary grades that are related by a spacetime vector derivative (i.e., the quantum Dirac operator). These complete representations correct the equations of motion, energy-momentum tensors, forces experienced by probes, Lagrangian densities, and allowed gauge freedoms, while making manifest the deep structural connections to relativistic quantum field theories. Finally, we discuss the implications of these corrections to experimental tests.
翻訳日:2023-05-22 16:14:51 公開日:2023-05-19
# arukikata travelogueデータセット

Arukikata Travelogue Dataset ( http://arxiv.org/abs/2305.11444v1 )

ライセンス: Link先を確認
Hiroki Ouchi, Hiroyuki Shindo, Shoko Wakamiya, Yuki Matsuda, Naoya Inoue, Shohei Higashiyama, Satoshi Nakamura, Taro Watanabe(参考訳) 我々は,arukikata travelogueデータセットを構築し,学術研究のための無償公開を行った。 このデータセットは、国内旅行4,672件、海外旅行9,607件からなる、合計3100万語以上の日本語テキストデータセットである。 データセットを提供する前は、研究目的のために広く利用可能なトラベローグデータが少なく、各研究者は独自のデータを用意する必要があった。 これにより、既存の研究の再現と実験結果の公平な比較分析が妨げられる。 当社のデータセットでは、研究者が同じデータを調査し、研究における透明性と再現性を確保することができます。 本稿では,データセットの学術的意義,特徴,今後の展望について述べる。

We have constructed Arukikata Travelogue Dataset and released it free of charge for academic research. This dataset is a Japanese text dataset with a total of over 31 million words, comprising 4,672 Japanese domestic travelogues and 9,607 overseas travelogues. Before providing our dataset, there was a scarcity of widely available travelogue data for research purposes, and each researcher had to prepare their own data. This hinders the replication of existing studies and fair comparative analysis of experimental results. Our dataset enables any researchers to conduct investigation on the same data and to ensure transparency and reproducibility in research. In this paper, we describe the academic significance, characteristics, and prospects of our dataset.
翻訳日:2023-05-22 16:14:26 公開日:2023-05-19
# 等変多モード画像融合

Equivariant Multi-Modality Image Fusion ( http://arxiv.org/abs/2305.11443v1 )

ライセンス: Link先を確認
Zixiang Zhao, Haowen Bai, Jiangshe Zhang, Yulun Zhang, Kai Zhang, Shuang Xu, Dongdong Chen, Radu Timofte, Luc Van Gool(参考訳) マルチモダリティ画像融合(multi-modality image fusion)は、異なるセンサーやモダリティの情報を組み合わせて、機能的なハイライトやテクスチャの詳細といった各モダリティから補完的な特徴を保持する技術である。 しかし,地上真理融合データの欠如により,効果的に核融合モデルを訓練することは困難である。 この問題に対処するため,エンド・ツー・エンドの自己教師型学習のためのEMMA(Equivariant Multi-Modality imAge fusion)パラダイムを提案する。 我々のアプローチは、自然画像が特定の変換に同値であるという事前の知識に基づいている。 そこで本研究では,統合モジュールと学習可能な擬似センシングモジュールを含む新たなトレーニングフレームワークを導入する。これにより,ネットワークトレーニングは物理センシングおよび撮像プロセスの原則に従うことができ,一方,自然画像の同変を満たすことができる。 提案手法は, 赤外線画像と医用画像の両方に対して高品質な融合結果を生成するとともに, 下流のマルチモーダルセグメンテーションおよび検出作業を容易にする。 コードはリリースされます。

Multi-modality image fusion is a technique used to combine information from different sensors or modalities, allowing the fused image to retain complementary features from each modality, such as functional highlights and texture details. However, effectively training such fusion models is difficult due to the lack of ground truth fusion data. To address this issue, we propose the Equivariant Multi-Modality imAge fusion (EMMA) paradigm for end-to-end self-supervised learning. Our approach is based on the prior knowledge that natural images are equivariant to specific transformations. Thus, we introduce a novel training framework that includes a fusion module and a learnable pseudo-sensing module, which allow the network training to follow the principles of physical sensing and imaging process, and meanwhile satisfy the equivariant prior for natural images. Our extensive experiments demonstrate that our method produces high-quality fusion results for both infrared-visible and medical images, while facilitating downstream multi-modal segmentation and detection tasks. The code will be released.
翻訳日:2023-05-22 16:14:17 公開日:2023-05-19
# 自己監督型チューニングによるゼロショットテキスト分類

Zero-Shot Text Classification via Self-Supervised Tuning ( http://arxiv.org/abs/2305.11442v1 )

ライセンス: Link先を確認
Chaoqun Liu, Wenxuan Zhang, Guizhen Chen, Xiaobao Wu, Anh Tuan Luu, Chip Hong Chang, Lidong Bing(参考訳) 既存のゼロショットテキスト分類のソリューションは、テンプレートの選択に敏感な事前訓練された言語モデルでプロンプトを行うか、あるいはメタチューニングに関連するタスクの大規模アノテートデータに依存する。 本研究では,自己教師付きチューニングと呼ばれるラベルなしデータを用いて言語モデルをチューニングすることにより,ゼロショットテキスト分類タスクを解決するための,自己教師付き学習に基づく新しいパラダイムを提案する。 自由テキストの本質的な構造を探索することにより,未ラベルデータとテキスト分類タスクのギャップを埋める第1文予測という新たな学習目標を提案する。 モデルをチューニングして、残りに基づいて段落で最初の文を予測するように学習した後、モデルはトピック分類や感情分析のような目に見えないタスクに対してゼロショット推論を行うことができる。 実験の結果,本モデルは10タスク中7タスクで最先端のベースラインを上回った。 さらに,分析結果から,モデルがプロンプト設計に対する感度が低いことが判明した。 私たちのコードと事前トレーニングされたモデルはhttps://github.com/DAMO-NLP-SG/SSTuningで公開されています。

Existing solutions to zero-shot text classification either conduct prompting with pre-trained language models, which is sensitive to the choices of templates, or rely on large-scale annotated data of relevant tasks for meta-tuning. In this work, we propose a new paradigm based on self-supervised learning to solve zero-shot text classification tasks by tuning the language models with unlabeled data, called self-supervised tuning. By exploring the inherent structure of free texts, we propose a new learning objective called first sentence prediction to bridge the gap between unlabeled data and text classification tasks. After tuning the model to learn to predict the first sentence in a paragraph based on the rest, the model is able to conduct zero-shot inference on unseen tasks such as topic classification and sentiment analysis. Experimental results show that our model outperforms the state-of-the-art baselines on 7 out of 10 tasks. Moreover, the analysis reveals that our model is less sensitive to the prompt design. Our code and pre-trained models are publicly available at https://github.com/DAMO-NLP-SG/SSTuning .
翻訳日:2023-05-22 16:13:58 公開日:2023-05-19
# 視覚分布校正とクロスモーダル分布アライメントを用いたFew-Shot Learning

Few-Shot Learning with Visual Distribution Calibration and Cross-Modal Distribution Alignment ( http://arxiv.org/abs/2305.11439v1 )

ライセンス: Link先を確認
Runqi Wang, Hao Zheng, Xiaoyue Duan, Jianzhuang Liu, Yuning Lu, Tian Wang, Songcen Xu, Baochang Zhang(参考訳) 事前訓練された視覚言語モデルは、数ショット学習に関する多くの研究にインスピレーションを与えている。 しかし、いくつかの訓練画像では、(1)視覚特徴分布は、画像中のクラス非関連情報によって容易に邪魔され、(2)視覚特徴分布と言語特徴分布のアライメントは困難である。 そこで本研究では,画像の空間的注意マップを生成して,クラス非関連領域に対する攻撃を誘導する,訓練可能なアダプタで構成される選択攻撃モジュールを提案する。 これらの領域を乱すことで、重要な特徴を捉え、画像の特徴の視覚的分布を校正する。 そこで我々は,同じオブジェクトクラスを記述した視覚的特徴分布と言語的特徴分布の整合性を改善するために,各クラスに対する視覚言語型プロトタイプを導入し,プロトタイプを最適化するためにEarth Mover's Distance (EMD)を採用した。 効率的な計算のために、emdの上限を導出する。 さらに,画像とテキストプロンプトの多様性を高めるための拡張戦略を提案する。 11のデータセットに対する広範囲な実験により,本手法は,小数点学習において,先行技術よりも常に優れていることが証明された。 実装コードはhttps://github.com/bhrqw/SADAで公開される。

Pre-trained vision-language models have inspired much research on few-shot learning. However, with only a few training images, there exist two crucial problems: (1) the visual feature distributions are easily distracted by class-irrelevant information in images, and (2) the alignment between the visual and language feature distributions is difficult. To deal with the distraction problem, we propose a Selective Attack module, which consists of trainable adapters that generate spatial attention maps of images to guide the attacks on class-irrelevant image areas. By messing up these areas, the critical features are captured and the visual distributions of image features are calibrated. To better align the visual and language feature distributions that describe the same object class, we propose a cross-modal distribution alignment module, in which we introduce a vision-language prototype for each class to align the distributions, and adopt the Earth Mover's Distance (EMD) to optimize the prototypes. For efficient computation, the upper bound of EMD is derived. In addition, we propose an augmentation strategy to increase the diversity of the images and the text prompts, which can reduce overfitting to the few-shot training images. Extensive experiments on 11 datasets demonstrate that our method consistently outperforms prior arts in few-shot learning. The implementation code will be available at https://github.com/bhrqw/SADA.
翻訳日:2023-05-22 16:13:40 公開日:2023-05-19
# 韻律的・韻律的自己教師付き学習手法による非母語流束スコアリング

Phonetic and Prosody-aware Self-supervised Learning Approach for Non-native Fluency Scoring ( http://arxiv.org/abs/2305.11438v1 )

ライセンス: Link先を確認
Kaiqi Fu, Shaojun Gao, Shuju Shi, Xiaohai Tian, Wei Li, Zejun Ma(参考訳) 音韻的特徴と韻律的特徴を解析することにより、音声のフルーレンス/ディフルエンシーを評価することができる。 ディープニューラルネットワークは一般的に、フラレンシーに関連する特徴を人間のスコアにマッピングするために訓練される。 しかし、深層学習モデルの有効性はラベル付きトレーニングサンプルの限られた量によって制限されている。 そこで本稿では,音声と韻律の認識を考慮した自己教師型学習(SSL)手法を提案する。 具体的には,大量のラベルなし音声とテキストプロンプトで携帯電話とその継続時間を同時にマスキングすることで,復元損失関数を用いてモデルを事前学習した。 次に、人間の注釈スコアデータを用いて事前学習したモデルを微調整する。 本研究では,pearson correlation coefficients (pcc) を用いて,提案手法がベースラインシステムを上回ることを示す。 また,前訓練段階における音声的および韻律的要因の寄与をよりよく理解するために,アブレーション研究を行った。

Speech fluency/disfluency can be evaluated by analyzing a range of phonetic and prosodic features. Deep neural networks are commonly trained to map fluency-related features into the human scores. However, the effectiveness of deep learning-based models is constrained by the limited amount of labeled training samples. To address this, we introduce a self-supervised learning (SSL) approach that takes into account phonetic and prosody awareness for fluency scoring. Specifically, we first pre-train the model using a reconstruction loss function, by masking phones and their durations jointly on a large amount of unlabeled speech and text prompts. We then fine-tune the pre-trained model using human-annotated scoring data. Our experimental results, conducted on datasets such as Speechocean762 and our non-native datasets, show that our proposed method outperforms the baseline systems in terms of Pearson correlation coefficients (PCC). Moreover, we also conduct an ablation study to better understand the contribution of phonetic and prosody factors during the pre-training stage.
翻訳日:2023-05-22 16:13:14 公開日:2023-05-19
# PS-FedGAN - データプライバシのための部分共有ジェネレータネットワークに基づく効率的なフェデレーション学習フレームワーク

PS-FedGAN: An Efficient Federated Learning Framework Based on Partially Shared Generative Adversarial Networks For Data Privacy ( http://arxiv.org/abs/2305.11437v1 )

ライセンス: Link先を確認
Achintha Wijesinghe, Songyang Zhang, Zhi Ding(参考訳) 分散学習(federated learning, fl)は,データのプライバシを保ちながら,基礎となるデータ統計を捉える強力な可能性から,分散計算の効果的な学習パラダイムとして登場した。 しかし、FLクライアント間での実用的なデータ不均一性の場合、既存のFLフレームワークは、異なる分布を示すローカルクライアントデータの全体的な特徴特性を捉えるのに不足している。 その結果,GANは生データを公開せずにデータ再生に利用できるため,データ不均一性に対処するため,GAN(Generative Adversarial Network)が最近FLで活用されている。 いくつかの成功にもかかわらず、既存のGAN関連のFLフレームワークは、しばしば大きな通信コストを発生させ、他のプライバシー上の懸念も引き起こす。 そこで本研究では,部分的なGANモデル共有のみを必要とする新しいFLフレームワークを提案する。 PS-FedGANと名付けられたこの新しいフレームワークは、クライアント間の異種データ分散に対処し、特に無線ネットワーク上での通信コストの低減によるプライバシー保護を強化するため、GANリリースおよびトレーニングメカニズムを強化する。 本分析は,提案したPS-FEdGANフレームワークの収束とプライバシの利点を示す。 複数の有名なベンチマークデータセットに基づく実験結果から,提案するps-fedganは,データプライバシの確保と通信オーバーヘッドの低減を両立しつつ,非iidクライアントデータ分散下でflに取り組むという大きな期待を示す。

Federated Learning (FL) has emerged as an effective learning paradigm for distributed computation owing to its strong potential in capturing underlying data statistics while preserving data privacy. However, in cases of practical data heterogeneity among FL clients, existing FL frameworks still exhibit deficiency in capturing the overall feature properties of local client data that exhibit disparate distributions. In response, generative adversarial networks (GANs) have recently been exploited in FL to address data heterogeneity since GANs can be integrated for data regeneration without exposing original raw data. Despite some successes, existing GAN-related FL frameworks often incur heavy communication cost and also elicit other privacy concerns, which limit their applications in real scenarios. To this end, this work proposes a novel FL framework that requires only partial GAN model sharing. Named as PS-FedGAN, this new framework enhances the GAN releasing and training mechanism to address heterogeneous data distributions across clients and to strengthen privacy preservation at reduced communication cost, especially over wireless networks. Our analysis demonstrates the convergence and privacy benefits of the proposed PS-FEdGAN framework. Through experimental results based on several well-known benchmark datasets, our proposed PS-FedGAN shows great promise to tackle FL under non-IID client data distributions, while securing data privacy and lowering communication overhead.
翻訳日:2023-05-22 16:12:58 公開日:2023-05-19
# 視覚的接地・自己監督型音声モードにおけるシラブル発見と言語間一般化

Syllable Discovery and Cross-Lingual Generalization in a Visually Grounded, Self-Supervised Speech Mode ( http://arxiv.org/abs/2305.11435v1 )

ライセンス: Link先を確認
Puyuan Peng, Shang-Wen Li, Okko R\"as\"anen, Abdelrahman Mohamed, David Harwath(参考訳) 本稿では,視座訓練目標を用いた自己教師あり音声モデルの訓練において,音節単位を捉えた表現が出現することを示す。 マスク付き言語モデリング損失で訓練されたほぼ同一のモデルアーキテクチャ(HuBERT)が、このような能力を示していないことを実証し、この現象の出現に視覚的基盤が関与していることを示す。 本研究では,音声中の音節境界を自動的に予測する最小カットアルゴリズムと,同一音節をグループ化する2段階クラスタリング法を提案する。 我々のモデルは、訓練された言語(英語)で最先端の音節セグメンテーション法を上回っているだけでなく、ゼロショット方式でエストニア語に一般化している。 最後に,Zerospeech Challengeの他の4言語に対する単語分割タスクに対して,同じモデルでゼロショットの一般化が可能であることを示す。

In this paper, we show that representations capturing syllabic units emerge when training a self-supervised speech model with a visually-grounded training objective. We demonstrate that a nearly identical model architecture (HuBERT) trained with a masked language modeling loss does not exhibit this same ability, suggesting that the visual grounding objective is responsible for the emergence of this phenomenon. We propose the use of a minimum cut algorithm to automatically predict syllable boundaries in speech, followed by a 2-stage clustering method to group identical syllables together. We show that our model not only outperforms a state-of-the-art syllabic segmentation method on the language it was trained on (English), but also generalizes in a zero-shot fashion to Estonian. Finally, we show that the same model is capable of zero-shot generalization for a word segmentation task on 4 other languages from the Zerospeech Challenge, in some cases beating the previous state-of-the-art.
翻訳日:2023-05-22 16:12:33 公開日:2023-05-19
# TELeR:複雑なタスクのベンチマークのためのLLMプロンプトの一般的な分類法

TELeR: A General Taxonomy of LLM Prompts for Benchmarking Complex Tasks ( http://arxiv.org/abs/2305.11430v1 )

ライセンス: Link先を確認
Shubhra Kanti Karmaker Santu and Dongji Feng(参考訳) LLMは従来の会話環境におけるテキストの理解と生成に大きな成功を収めてきたが、不明確な複雑なタスクを実行する可能性はほとんど研究されていない。 実際、我々は複雑なタスクにのみ焦点を絞った複数のLSMを用いて包括的なベンチマーク研究を行っていません。 しかし,このようなベンチマーク研究を行うことは,プロンプトタイプやスタイルが異なる場合や,プロンプトで詳細度が異なる場合,llmsの性能のばらつきが大きいため,困難である。 この問題に対処するため,本論文では,様々な複雑なタスクを実行するために,特定の特性を持つプロンプトを設計できる汎用分類法を提案する。 この分類は、将来のベンチマーク研究が研究の一部として使用される特定のカテゴリのプロンプトを報告し、異なる研究間で有意義な比較を可能にする。 また、この分類学を通じて共通標準を確立することで、研究者は特定の複雑なタスクにおいてLLMのパフォーマンスについてより正確な結論を導き出すことができる。

While LLMs have shown great success in understanding and generating text in traditional conversational settings, their potential for performing ill-defined complex tasks is largely under-studied. Indeed, we are yet to conduct comprehensive benchmarking studies with multiple LLMs that are exclusively focused on a complex task. However, conducting such benchmarking studies is challenging because of the large variations in LLMs' performance when different prompt types/styles are used and different degrees of detail are provided in the prompts. To address this issue, the paper proposes a general taxonomy that can be used to design prompts with specific properties in order to perform a wide range of complex tasks. This taxonomy will allow future benchmarking studies to report the specific categories of prompts used as part of the study, enabling meaningful comparisons across different studies. Also, by establishing a common standard through this taxonomy, researchers will be able to draw more accurate conclusions about LLMs' performance on a specific complex task.
翻訳日:2023-05-22 16:12:12 公開日:2023-05-19
# Rieszカーネルを用いたジェネレーションスライスMD流れ

Generative Sliced MMD Flows with Riesz Kernels ( http://arxiv.org/abs/2305.11463v1 )

ライセンス: Link先を確認
Johannes Hertrich, Christian Wald, Fabian Altekr\"uger, Paul Hagemann(参考訳) 最大平均誤差(MMD)フローは大規模計算において高い計算コストを被る。 本稿では, Riesz カーネルでの MMD フローが $K(x,y) = - \|x-y\|^r$, $r \in (0,2)$ であることを示す。 まず、RieszカーネルのMDDは、スライスされたバージョンのMDDと一致する。 その結果、MDDの勾配の計算は1次元の設定で行うことができる。 ここでは、$r=1$の場合、単純なソートアルゴリズムを用いて複雑さを$O(MN+N^2)$から$O((M+N)\log(M+N))$に減らすことができる。 実装のために、スライスした mmd の勾配を有限個のスライス数 $p$ だけを用いて近似する。 結果の誤差は複雑さ$O(\sqrt{d/P})$であり、$d$はデータ次元である。 これらの結果から,大規模応用においてもニューラルネットワークによるmmd勾配流を近似して生成モデルの訓練が可能となった。 MNIST, FashionMNIST, CIFAR10の画像生成によるモデルの有効性を示す。

Maximum mean discrepancy (MMD) flows suffer from high computational costs in large scale computations. In this paper, we show that MMD flows with Riesz kernels $K(x,y) = - \|x-y\|^r$, $r \in (0,2)$ have exceptional properties which allow for their efficient computation. First, the MMD of Riesz kernels coincides with the MMD of their sliced version. As a consequence, the computation of gradients of MMDs can be performed in the one-dimensional setting. Here, for $r=1$, a simple sorting algorithm can be applied to reduce the complexity from $O(MN+N^2)$ to $O((M+N)\log(M+N))$ for two empirical measures with $M$ and $N$ support points. For the implementations we approximate the gradient of the sliced MMD by using only a finite number $P$ of slices. We show that the resulting error has complexity $O(\sqrt{d/P})$, where $d$ is the data dimension. These results enable us to train generative models by approximating MMD gradient flows by neural networks even for large scale applications. We demonstrate the efficiency of our model by image generation on MNIST, FashionMNIST and CIFAR10.
翻訳日:2023-05-22 16:06:02 公開日:2023-05-19
# 言語モデリングのためのメモリ拡張

Extending Memory for Language Modelling ( http://arxiv.org/abs/2305.11462v1 )

ライセンス: Link先を確認
Anupiya Nugaliyadde(参考訳) ディープラーニングとメモリネットワークのブレークスルーは、自然言語理解に大きな進歩をもたらした。 言語はシーケンシャルであり、シーケンシャルを通じて運ばれる情報はメモリネットワークを介してキャプチャできる。 シーケンスを学ぶことは、言語を学ぶ上で重要な側面の1つです。 しかし、メモリネットワークは無限に長いシーケンスを記憶に保持できず、消滅や爆発といった様々な制約によって制限される。 したがって、長い逐次テキストを提示する場合、自然言語理解モデルが影響を受ける。 無限に長いシーケンスから学習するためにLong Term Memory Network (LTM)を導入する。 LTMは現在の入力に優先順位を与え、高いインパクトを与える。 言語モデリングは自然言語理解において重要な要素である。 LTMは長期記憶を必要とする言語モデリングでテストされた。 ltmはpenn tree bank dataset、google billion word dataset、wikitext-2 datasetでテストされている。 ltmを長期記憶を必要とする他の言語モデルと比較する。

Breakthroughs in deep learning and memory networks have made major advances in natural language understanding. Language is sequential and information carried through the sequence can be captured through memory networks. Learning the sequence is one of the key aspects in learning the language. However, memory networks are not capable of holding infinitely long sequences in their memories and are limited by various constraints such as the vanishing or exploding gradient problem. Therefore, natural language understanding models are affected when presented with long sequential text. We introduce Long Term Memory network (LTM) to learn from infinitely long sequences. LTM gives priority to the current inputs to allow it to have a high impact. Language modeling is an important factor in natural language understanding. LTM was tested in language modeling, which requires long term memory. LTM is tested on Penn Tree bank dataset, Google Billion Word dataset and WikiText-2 dataset. We compare LTM with other language models which require long term memory.
翻訳日:2023-05-22 16:05:42 公開日:2023-05-19
# SelfzCoT: セマンティックレベルからコードレベルへの自己プロンプトゼロショットCoTによるLCMのより良い利用

SelfzCoT: a Self-Prompt Zero-shot CoT from Semantic-level to Code-level for a Better Utilization of LLMs ( http://arxiv.org/abs/2305.11461v1 )

ライセンス: Link先を確認
IokTong Lei and ZhiDong Deng(参考訳) 本稿では,自己プロンプトゼロショットCoTであるSelfzCoTを用いたLCMの有効利用について述べる。 特にゼロショット算術推論タスクでは、提案されたSelfzCoTの精度は、GSM8Kを40.50%から82.34%に改善し、MultiArithを79.3%から94.7%、ADDSUBを74.70%から94.10%、SingleEqを78.70%から91.30%、Aquaを31.90%から82.33%、SVAMPを63.70%から79.70%に改善した。 LLMへの最初の2つのパスアクティベート、特にコードレベルのセルフプロンプトを使用して、SelfzCoTは6つのゼロショット算術推論タスクを大幅に改善した。 さらに,修正したゼロショットCoT (MzCoT) も推論タスクにおいて顕著な性能を発揮する。 提案されたMzCoTの精度はGSM8Kが40.50%から76.32%、MultiArithが79.3%から96.97%、ABDSUBが74.70%から92.39%、SingleEqが78.70%から94.60%、AQUAが31.90%から79.90%、SVAMPが63.70%から81.50%に向上した。 特にSelfzCoTは、最近のゼロショットメソッドの中でもGSM8Kで最高のパフォーマンスを示している。

This paper show a work on better use of LLMs with SelfzCoT a self-prompt zero-shot CoT. Specifically, on the zero-shot arithmetic reasoning tasks, the accuracy of the proposed SelfzCoT is improved with GSM8K from 40.50% to 82.34%, with MultiArith from 79.3% to 94.7%, with ADDSUB from 74.70% to 94.10%, with SingleEq from 78.70% to 91.30%, with AQUA from 31.90% to 82.33%, and with SVAMP from 63.70% to 79.70%. Totally, using the first two lasting path activations to LLM and particularly, the code-level self-prompt, the SelfzCoT has a huge improvement on all six zero-shot arithmetic reasoning tasks. Additionally, our modified zero-shot CoT (MzCoT) also achieves remarkable performance in the reasoning tasks. The accuracy of the proposed MzCoT is enhanced with GSM8K from 40.50% to 76.32%, with MultiArith from 79.3% to 96.97%, with ADDSUB from 74.70% to 92.39%, with SingleEq from 78.70% to 94.60%, with AQUA from 31.90% to 79.90%, and with SVAMP from 63.70% to 81.50%. Notably, SelfzCoT has the best performance on GSM8K among all the recent zero-shot methods.
翻訳日:2023-05-22 16:05:30 公開日:2023-05-19
# 自己アグリメント: さまざまな意見の一致を見つけるための微調整言語モデルのためのフレームワーク

Self-Agreement: A Framework for Fine-tuning Language Models to Find Agreement among Diverse Opinions ( http://arxiv.org/abs/2305.11460v1 )

ライセンス: Link先を確認
Shiyao Ding and Takayuki Ito(参考訳) 多様な意見の合意を見つけることは、マルチエージェントシステムにおいて難しいトピックである。 近年,大きな言語モデル (LLM) は,人的意見の理解や人間的な文章の生成に際し,この課題に対処する大きな可能性を示している。 しかし、一般的には人間の注釈付きデータに依存する。 本稿では,LLM自体が生成するデータを用いて合意を自律的に見つけるための,微調整LDMのための新しいフレームワークであるSelf-Agreementを提案する。 具体的には,質問データセットの各質問に対して複数の意見を生成し,これらの意見の中から複数の合意候補を作成するために,生成前訓練トランスフォーマ3(gpt-3)を用いる。 そして、変換器(BERT)ベースのモデルから双方向エンコーダ表現を行い、各合意候補の合意スコアを評価し、最も合意スコアの高いものを選択する。 このプロセスは、様々な意見の合意を発見するために、事前学習されたLLMを微調整するために使用する質問-回答-アグリメントのデータセットを生成する。 注目すべきは、我々のセルフアグリメントフレームワークによって微調整されたLLMは、パラメータの1/25しか持たないGPT-3に匹敵する性能を達成し、人間に注釈付けされたデータを必要としない様々な意見の合意を識別する能力を示していることである。

Finding an agreement among diverse opinions is a challenging topic in multiagent systems. Recently, large language models (LLMs) have shown great potential in addressing this challenge due to their remarkable capabilities in comprehending human opinions and generating human-like text. However, they typically rely on extensive human-annotated data. In this paper, we propose Self-Agreement, a novel framework for fine-tuning LLMs to autonomously find agreement using data generated by LLM itself. Specifically, our approach employs the generative pre-trained transformer-3 (GPT-3) to generate multiple opinions for each question in a question dataset and create several agreement candidates among these opinions. Then, a bidirectional encoder representations from transformers (BERT)-based model evaluates the agreement score of each agreement candidate and selects the one with the highest agreement score. This process yields a dataset of question-opinion-agreements, which we use to fine-tune a pre-trained LLM for discovering agreements among diverse opinions. Remarkably, a pre-trained LLM fine-tuned by our Self-Agreement framework achieves comparable performance to GPT-3 with only 1/25 of its parameters, showcasing its ability to identify agreement among various opinions without the need for human-annotated data.
翻訳日:2023-05-22 16:04:52 公開日:2023-05-19
# 不正確なランク推定に対するロバスト性を有する新しいテンソル因子分解法

A Novel Tensor Factorization-Based Method with Robustness to Inaccurate Rank Estimation ( http://arxiv.org/abs/2305.11458v1 )

ライセンス: Link先を確認
Jingjing Zheng, Wenzhe Wang, Xiaoqin Zhang, Xianta Jiang(参考訳) 本研究では,標準テンソル分解に基づくテンソル回復におけるランク推定戦略と,標準t-svdに基づくテンソル回復における大きな計算コストの問題に過度に依存することを目的とする。 そこで本研究では,低ランク先行情報とランク情報を同時に利用する2つの低ランク制約を持つ新しいテンソルノルムを提案する。 提案するテンソルノルムでは、テンソルチューバルランクの一連のサロゲート関数は、テンソルデータ内の低ランク性を活用するための優れた性能を達成するために使用できる。 結果のテンソル完成モデルが不正確なランク推定による性能劣化を効果的に回避できることが理論的に証明されている。 一方、提案した2つの低ランク制約により、元の大小ではなく小さなテンソルの t-SVD はサンプルトリックを用いて計算される。 これに基づいて、最適化アルゴリズムの各イテレーションの合計コストは、標準メソッドで達成された$\mathcal{o}(n^3\log n +kn^3)$から$\mathcal{o}(n^4)$に削減される。 本手法は合成および実世界のデータを用いて評価し,既存のテンソル補完法よりも優れた性能と効率を示した。

This study aims to solve the over-reliance on the rank estimation strategy in the standard tensor factorization-based tensor recovery and the problem of a large computational cost in the standard t-SVD-based tensor recovery. To this end, we proposes a new tensor norm with a dual low-rank constraint, which utilizes the low-rank prior and rank information at the same time. In the proposed tensor norm, a series of surrogate functions of the tensor tubal rank can be used to achieve better performance in harness low-rankness within tensor data. It is proven theoretically that the resulting tensor completion model can effectively avoid performance degradation caused by inaccurate rank estimation. Meanwhile, attributed to the proposed dual low-rank constraint, the t-SVD of a smaller tensor instead of the original big one is computed by using a sample trick. Based on this, the total cost at each iteration of the optimization algorithm is reduced to $\mathcal{O}(n^3\log n +kn^3)$ from $\mathcal{O}(n^4)$ achieved with standard methods, where $k$ is the estimation of the true tensor rank and far less than $n$. Our method was evaluated on synthetic and real-world data, and it demonstrated superior performance and efficiency over several existing state-of-the-art tensor completion methods.
翻訳日:2023-05-22 16:04:28 公開日:2023-05-19
# 課題形成における進化的多様性の最適化

Evolutionary Diversity Optimisation in Constructing Satisfying Assignments ( http://arxiv.org/abs/2305.11457v1 )

ライセンス: Link先を確認
Adel Nikfarjam and Ralf Rothenberger and Frank Neumann and Tobias Friedrich(参考訳) 与えられた問題に対する多様な解、特に進化的多様性最適化(EDO)は、進化的計算コミュニティにおいてホットな研究トピックである。 本稿では,EDOの文脈におけるブール充足可能性問題(SAT)について検討する。 SATは計算機科学において非常に重要であり、KPやTSPといったEDO文献で研究されている他の問題とは異なる。 SATは制約が強く、従来の進化作用素はSAT溶液を生成するのに非効率である。 SATの特徴は以下の通りである。 1)解を禁止したり,変数を修正したりする問題に,より多くの制約を加える可能性 2)ミニサットなどの文学における強力な問題解決者。 このような解法を多種多様な解集合の構築に利用する。 さらに、多様性の最大化は、あるSAT問題の解空間に関する貴重な情報を与えてくれる。 本研究では,一組のSAT解の多様性を明示的に最大化するためによく知られたSATソルバを用いた進化的アルゴリズム(EA)を提案する。 実験の結果,SATソリューション間の多様性を最大化するアルゴリズムの能力が示唆された。

Computing diverse solutions for a given problem, in particular evolutionary diversity optimisation (EDO), is a hot research topic in the evolutionary computation community. This paper studies the Boolean satisfiability problem (SAT) in the context of EDO. SAT is of great importance in computer science and differs from the other problems studied in EDO literature, such as KP and TSP. SAT is heavily constrained, and the conventional evolutionary operators are inefficient in generating SAT solutions. Our approach avails of the following characteristics of SAT: 1) the possibility of adding more constraints (clauses) to the problem to forbid solutions or to fix variables, and 2) powerful solvers in the literature, such as minisat. We utilise such a solver to construct a diverse set of solutions. Moreover, maximising diversity provides us with invaluable information about the solution space of a given SAT problem, such as how large the feasible region is. In this study, we introduce evolutionary algorithms (EAs) employing a well-known SAT solver to maximise diversity among a set of SAT solutions explicitly. The experimental investigations indicate the introduced algorithms' capability to maximise diversity among the SAT solutions.
翻訳日:2023-05-22 16:04:01 公開日:2023-05-19
# ベクトルモデル波動関数:量子力学角モータの空間記述とウェーブパレット形成

The Vector-Model Wavefunction: spatial description and wavepacket formation of quantum-mechanical angular momenta ( http://arxiv.org/abs/2305.11456v1 )

ライセンス: Link先を確認
T. Peter Rakitzis, Michail E. Koutrakis, George E. Katsoprinakis(参考訳) 量子力学において、空間波動関数は粒子の位置や運動量の分布を記述するが、角運動量$j$ではない。 これとは対照的に、空間波動関数 $j_m (\phi,\theta,\chi)=~e^{i m \phi} \delta (\theta - \theta_m) ~e^{i(j+1/2)\chi}$ は3次元の実体として$|jm>$状態を扱うもので、角運動作用素の漸近固有函数である。 j_m (\phi,\theta,\chi)$は、粒子と軌道角波束の計算学的に単純な記述($j$と$m$のガウス分布から構成される)を与え、$\Delta m \Delta \phi $, $\Delta j \Delta \chi$, $\Delta\phi\Delta\theta$の効果的な波束角不確実性関係と軌道面上の粒子-波束角運動の位置を予測する。 粒子波の回転は、連続的および非破壊的な$j$回転測定によって実験的に観測することができる。 また、Clebsch-Gordan係数、ウィグナーd関数、素粒子のジャイロ磁性比$g=2$、m状態相関行列要素$<j_3m_3|j_{1X} j_{2X}|j_3m_3>$のよく知られた漸近式を決定するために$j_m(\phi,\theta,\chi)$を用いる。 興味深いことに、低い j に対して、$j=1/2$ であるとしても、これらの式は正確(最後の2つ)または優れた近似(最初の2つ)であり、$j_m (\phi,\theta,\chi)$ は量子力学的角運動量の有用な空間的記述を与え、古典的角運動量との滑らかな接続を提供する。

In quantum mechanics, spatial wavefunctions describe distributions of a particle's position or momentum, but not of angular momentum $j$. In contrast, here we show that a spatial wavefunction, $j_m (\phi,\theta,\chi)=~e^{i m \phi} \delta (\theta - \theta_m) ~e^{i(j+1/2)\chi}$, which treats $j$ in the $|jm>$ state as a three-dimensional entity, is an asymptotic eigenfunction of angular-momentum operators; $\phi$, $\theta$, $\chi$ are the Euler angles, and $cos \theta_m=(m/|j|)$ is the Vector-Model polar angle. The $j_m (\phi,\theta,\chi)$ gives a computationally simple description of particle and orbital-angular-momentum wavepackets (constructed from Gaussian distributions in $j$ and $m$) which predicts the effective wavepacket angular uncertainty relations for $\Delta m \Delta \phi $, $\Delta j \Delta \chi$, and $\Delta\phi\Delta\theta$, and the position of the particle-wavepacket angular motion on the orbital plane. The particle-wavepacket rotation can be experimentally probed through continuous and non-destructive $j$-rotation measurements. We also use the $j_m (\phi,\theta,\chi)$ to determine well-known asymptotic expressions for Clebsch-Gordan coefficients, Wigner d-functions, the gyromagnetic ratio of elementary particles, $g=2$, and the m-state-correlation matrix elements, $<j_3 m_3|j_{1X} j_{2X}|j_3 m_3>$. Interestingly, for low j, even down to $j=1/2$, these expressions are either exact (the last two) or excellent approximations (the first two), showing that $j_m (\phi,\theta,\chi)$ gives a useful spatial description of quantum-mechanical angular momentum, and provides a smooth connection with classical angular momentum.
翻訳日:2023-05-22 16:03:44 公開日:2023-05-19
# インクルーシブ言語モデルの微調整のためのエージェント環境インタフェースの粉々化

Shattering the Agent-Environment Interface for Fine-Tuning Inclusive Language Models ( http://arxiv.org/abs/2305.11455v1 )

ライセンス: Link先を確認
Wanqiao Xu, Shi Dong, Dilip Arumugam, Benjamin Van Roy(参考訳) 人的フィードバック(RLHF)による細調整型自己回帰言語モデルへのアプローチの中心は、人的フィードバックをエミュレートする報酬モデルの明示的な訓練であり、言語モデル自体とは異なっている。 この報酬モデルは、言語モデル出力と所望の応答とのアライメントを劇的に改善するポリシー段階の手法と結合される。 本研究では,事前学習された言語モデル自体が方針,報酬関数,トランジッション関数である新しい視点を採用する。 即ち、報酬学習と言語モデルの微調整は、さらに下流のポリシー最適化を必要とせずに、共同で直接行うことができる。 この観点は従来のエージェント・環境インタフェースを損なうが、強化学習から従来のアルゴリズムの概念を身につけることで、膨大な統計的な利益が得られると我々は主張している。 本実験は,認識的不確かさの表現と解決に基づく効率的な探索を通じて,その具体例を示す。 これらのアイデアを透明に説明するために,我々は単純なディダクティックなデータ生成プロセスに注意を向け,実用規模のシステムへの今後の作業拡張に留意する。

A centerpiece of the ever-popular reinforcement learning from human feedback (RLHF) approach to fine-tuning autoregressive language models is the explicit training of a reward model to emulate human feedback, distinct from the language model itself. This reward model is then coupled with policy-gradient methods to dramatically improve the alignment between language model outputs and desired responses. In this work, we adopt a novel perspective wherein a pre-trained language model is itself simultaneously a policy, reward function, and transition function. An immediate consequence of this is that reward learning and language model fine-tuning can be performed jointly and directly, without requiring any further downstream policy optimization. While this perspective does indeed break the traditional agent-environment interface, we nevertheless maintain that there can be enormous statistical benefits afforded by bringing to bear traditional algorithmic concepts from reinforcement learning. Our experiments demonstrate one concrete instance of this through efficient exploration based on the representation and resolution of epistemic uncertainty. In order to illustrate these ideas in a transparent manner, we restrict attention to a simple didactic data generating process and leave for future work extension to systems of practical scale.
翻訳日:2023-05-22 16:02:52 公開日:2023-05-19
# ReDirTrans: Gaze と Head Redirection の潜時翻訳

ReDirTrans: Latent-to-Latent Translation for Gaze and Head Redirection ( http://arxiv.org/abs/2305.11452v1 )

ライセンス: Link先を確認
Shiwei Jin, Zhen Wang, Lei Wang, Ning Bi, Truong Nguyen(参考訳) 学習に基づく視線推定法は、正確な視線アノテーションを用いた大量の訓練データを必要とする。 このような視線データ収集と注記の要求に対して,複数の画像合成手法が提案され,与えられた条件により視線方向を高精度にリダイレクトすることに成功した。 しかし、これらの手法は、被写体の視線方向を変えることに焦点を当てており、例えばヘアなどの他の属性からの干渉を減らすために、解像度が低く(128\times 128$以下)、用途シナリオを制限する。 この制限に対処するため,我々は,視線方向と頭部方向を解釈可能な方法でリダイレクトするための潜在翻訳を実現する,redertransと呼ばれる携帯ネットワークを提案した。 redirtransプロジェクトは、潜在ベクトルをターゲティング-属性埋め込みに入力し、これらの埋め込みを割り当てられたピッチとyaw値でリダイレクトする。 次に、初期および編集された埋め込みを初期潜伏空間に投影し(デジェクト)、入力潜伏ベクトルを減算と加算によって修正し、古い状態除去と新しい状態付加を表す。 目的属性のみの投影と状態置換のための減算付加操作は、本質的に他の属性に対する影響と潜在ベクトルの分布を緩和する。 そこで,プリトレーニングされたe4e-styleganペアとredirtransを組み合わせることで,同一性,表現性,髪型などの他の属性を保ちながら,フルフェイス画像中の視線を正確に1024\times1024$解像度でリダイレクトできるredirtrans-ganを開発した。 さらに,リダイレクトサンプルをデータセット拡張として,下流学習に基づく視線推定タスクの改善も行った。

Learning-based gaze estimation methods require large amounts of training data with accurate gaze annotations. Facing such demanding requirements of gaze data collection and annotation, several image synthesis methods were proposed, which successfully redirected gaze directions precisely given the assigned conditions. However, these methods focused on changing gaze directions of the images that only include eyes or restricted ranges of faces with low resolution (less than $128\times128$) to largely reduce interference from other attributes such as hairs, which limits application scenarios. To cope with this limitation, we proposed a portable network, called ReDirTrans, achieving latent-to-latent translation for redirecting gaze directions and head orientations in an interpretable manner. ReDirTrans projects input latent vectors into aimed-attribute embeddings only and redirects these embeddings with assigned pitch and yaw values. Then both the initial and edited embeddings are projected back (deprojected) to the initial latent space as residuals to modify the input latent vectors by subtraction and addition, representing old status removal and new status addition. The projection of aimed attributes only and subtraction-addition operations for status replacement essentially mitigate impacts on other attributes and the distribution of latent vectors. Thus, by combining ReDirTrans with a pretrained fixed e4e-StyleGAN pair, we created ReDirTrans-GAN, which enables accurately redirecting gaze in full-face images with $1024\times1024$ resolution while preserving other attributes such as identity, expression, and hairstyle. Furthermore, we presented improvements for the downstream learning-based gaze estimation task, using redirected samples as dataset augmentation.
翻訳日:2023-05-22 16:02:31 公開日:2023-05-19
# SurgMAE:長期手術用ビデオ分析用マスク付きオートエンコーダ

SurgMAE: Masked Autoencoders for Long Surgical Video Analysis ( http://arxiv.org/abs/2305.11451v1 )

ライセンス: Link先を確認
Muhammad Abdullah Jamal, Omid Mohareri(参考訳) ワークフロー効率のツールやアプリケーションを可能にするメトリクスを抽出し、臨床・手術活動を自動的に検出するために、長い手術ビデオの処理にディープラーニングモデルを使用することへの関心が高まっている。 しかし、そのようなモデルのトレーニングには膨大な量のラベル付きデータが必要です。 近年,コンピュータビジョンコミュニティにおいて,アノテーションコストの負担を軽減するために,自己教師付き学習が研究されている。 Masked Autoencoders (MAE) は、画像やビデオクリップの可視パッチからランダムにマスキングされた領域を予測することで、視覚変換器(ViT)の自己監督パラダイムに注目され、ベンチマークデータセット上で優れたパフォーマンスを示している。 しかし, 外科的データへのMAEの適用は未定である。 本稿では, mae が手術ビデオ領域で転送可能表現を学習できるかどうかを最初に検討する。 本稿では,MAEのための高時空間トークンのサンプリングに基づくマスキング戦略を備えた新しいアーキテクチャであるSurgMAEを提案する。 本研究では,SurgMAEを2つの大規模長期手術用ビデオデータセット上で実証的に検討し,本手法が低データレシエーションにおいていくつかのベースラインを上回っていることを見出した。 本研究は,本手法の有効性を示すため,広範囲にわたるアブレーション研究を行い,UCF-101の優れた性能を示した。

There has been a growing interest in using deep learning models for processing long surgical videos, in order to automatically detect clinical/operational activities and extract metrics that can enable workflow efficiency tools and applications. However, training such models require vast amounts of labeled data which is costly and not scalable. Recently, self-supervised learning has been explored in computer vision community to reduce the burden of the annotation cost. Masked autoencoders (MAE) got the attention in self-supervised paradigm for Vision Transformers (ViTs) by predicting the randomly masked regions given the visible patches of an image or a video clip, and have shown superior performance on benchmark datasets. However, the application of MAE in surgical data remains unexplored. In this paper, we first investigate whether MAE can learn transferrable representations in surgical video domain. We propose SurgMAE, which is a novel architecture with a masking strategy based on sampling high spatio-temporal tokens for MAE. We provide an empirical study of SurgMAE on two large scale long surgical video datasets, and find that our method outperforms several baselines in low data regime. We conduct extensive ablation studies to show the efficacy of our approach and also demonstrate it's superior performance on UCF-101 to prove it's generalizability in non-surgical datasets as well.
翻訳日:2023-05-22 16:01:59 公開日:2023-05-19
# ccgen:eコマースにおける補完的な概念生成

CCGen: Explainable Complementary Concept Generation in E-Commerce ( http://arxiv.org/abs/2305.11480v1 )

ライセンス: Link先を確認
Jie Huang, Yifan Gao, Zheng Li, Jingfeng Yang, Yangqiu Song, Chao Zhang, Zining Zhu, Haoming Jiang, Kevin Chen-Chuan Chang, Bing Yin(参考訳) 我々は,補完的概念生成(CCGen)を提案し,研究し,例えば「デジタルカメラ」のような興味ある概念を付与し,補完的概念のリストを作成する。 1)カメラレンズ 2)電池 3)カメラケース 4)メモリカード 5) 電池充電器。 CCGenは、クエリ提案やアイテムレコメンデーションといった様々なアプリケーション、特にeコマースドメインに有用である。 CCGenを解決するために,2段階の学習戦略を用いて概念のランク付けリストを生成する言語モデルを提案する。 また,大規模な教師モデルから抽出した説明を取り入れて説明文を生成するモデルも指導する。 大規模な実験と分析により,我々のモデルは入力概念に相補的な高品質な概念を生成できることを示した。

We propose and study Complementary Concept Generation (CCGen): given a concept of interest, e.g., "Digital Cameras", generating a list of complementary concepts, e.g., 1) Camera Lenses 2) Batteries 3) Camera Cases 4) Memory Cards 5) Battery Chargers. CCGen is beneficial for various applications like query suggestion and item recommendation, especially in the e-commerce domain. To solve CCGen, we propose to train language models to generate ranked lists of concepts with a two-step training strategy. We also teach the models to generate explanations by incorporating explanations distilled from large teacher models. Extensive experiments and analysis demonstrate that our model can generate high-quality concepts complementary to the input concept while producing explanations to justify the predictions.
翻訳日:2023-05-22 15:56:05 公開日:2023-05-19
# 集団型セルフプレイにおける異種リスクの学習

Learning Diverse Risk Preferences in Population-based Self-play ( http://arxiv.org/abs/2305.11476v1 )

ライセンス: Link先を確認
Yuhua Jiang, Qihan Liu, Xiaoteng Ma, Chenghao Li, Yiqin Yang, Jun Yang, Bin Liang, Qianchuan Zhao(参考訳) 強化学習(Reinforcement Learning, RL)の成功のうち, セルフプレイアルゴリズムは, 競争ゲームを解く上で重要な役割を担っている。 現在の自己再生アルゴリズムは、エージェントを最適化して、現在のまたは歴史的なコピーに対する期待のウィンレートを最大化し、しばしば局所的最適化と戦略スタイルをシンプルで均質に保ちます。 可能な解決策は、ポリシーの多様性を改善することである。これはエージェントが停滞状態を打ち破るのを手助けし、異なる敵と向き合う際の堅牢性を高める。 しかし,自己再生アルゴリズムの多様性の向上は容易ではない。 本稿では,不確実性に直面したエージェントが多様なリスク嗜好を持つという観点から多様性を導入することを目的とする。 具体的には,リスクに敏感な近位政策最適化 (rppo) と呼ばれる新しい強化学習アルゴリズムを考案した。 RPPOと人口ベースのセルフプレイをシームレスに統合したエージェントは、多様な対戦相手と対戦した経験から、動的にリスクに敏感な目標を最適化する。 実験の結果,本手法は競争ゲームにおいて同等または優れた性能を達成し,多様な行動モードが出現することが示された。 私たちのコードは \url{https://github.com/Jackory/RPBT} で公開されています。

Among the great successes of Reinforcement Learning (RL), self-play algorithms play an essential role in solving competitive games. Current self-play algorithms optimize the agent to maximize expected win-rates against its current or historical copies, making it often stuck in the local optimum and its strategy style simple and homogeneous. A possible solution is to improve the diversity of policies, which helps the agent break the stalemate and enhances its robustness when facing different opponents. However, enhancing diversity in the self-play algorithms is not trivial. In this paper, we aim to introduce diversity from the perspective that agents could have diverse risk preferences in the face of uncertainty. Specifically, we design a novel reinforcement learning algorithm called Risk-sensitive Proximal Policy Optimization (RPPO), which smoothly interpolates between worst-case and best-case policy learning and allows for policy learning with desired risk preferences. Seamlessly integrating RPPO with population-based self-play, agents in the population optimize dynamic risk-sensitive objectives with experiences from playing against diverse opponents. Empirical results show that our method achieves comparable or superior performance in competitive games and that diverse modes of behaviors emerge. Our code is public online at \url{https://github.com/Jackory/RPBT}.
翻訳日:2023-05-22 15:55:51 公開日:2023-05-19
# curve your enthusiasm: 微分可能一般化加法モデルにおけるconcurvity regularization

Curve Your Enthusiasm: Concurvity Regularization in Differentiable Generalized Additive Models ( http://arxiv.org/abs/2305.11475v1 )

ライセンス: Link先を確認
Julien Siems, Konstantin Ditschuneit, Winfried Ripken, Alma Lindborg, Maximilian Schambach, Johannes S. Otterbach, Martin Genzel(参考訳) 一般化加法モデル(GAM)は、最近、その解釈可能性によって、特徴の非線形変換の和として目的値を表現することから、人気が回復した。 GAMに対する現在の熱意にもかかわらず、その不確実性への感受性、すなわち機能間の(おそらく非線形ではない)依存関係は、ほとんど見過ごされてしまった。 本稿では, コンカービリティがガンの解釈可能性に悪影響を及ぼすことを実証し, 非線型変換された特徴変数の対関係をペナライズする概念的単純かつ効果的な正則化法を提案する。 この手順は、Neural Additive ModelsやNeuralProphetなど、任意の微分可能な付加モデルに適用でき、自己キャンセル機能によるあいまいさを排除して解釈性を高める。 時系列および表データのための実世界のデータセットと合成実験における正規化器の有効性を検証する。 実験の結果,GAMの精度は予測品質を著しく損なうことなく低下し,解釈性が向上し,特徴量のばらつきを低減できることがわかった。

Generalized Additive Models (GAMs) have recently experienced a resurgence in popularity due to their interpretability, which arises from expressing the target value as a sum of non-linear transformations of the features. Despite the current enthusiasm for GAMs, their susceptibility to concurvity - i.e., (possibly non-linear) dependencies between the features - has hitherto been largely overlooked. Here, we demonstrate how concurvity can severly impair the interpretability of GAMs and propose a remedy: a conceptually simple, yet effective regularizer which penalizes pairwise correlations of the non-linearly transformed feature variables. This procedure is applicable to any differentiable additive model, such as Neural Additive Models or NeuralProphet, and enhances interpretability by eliminating ambiguities due to self-canceling feature contributions. We validate the effectiveness of our regularizer in experiments on synthetic as well as real-world datasets for time-series and tabular data. Our experiments show that concurvity in GAMs can be reduced without significantly compromising prediction quality, improving interpretability and reducing variance in the feature importances.
翻訳日:2023-05-22 15:55:27 公開日:2023-05-19
# RAMiT:軽量画像復元用相互注意混合変換器

RAMiT: Reciprocal Attention Mixing Transformer for Lightweight Image Restoration ( http://arxiv.org/abs/2305.11474v1 )

ライセンス: Link先を確認
Haram Choi, Cheolwoong Na, Jihyeon Oh, Seungjae Lee, Jinseop Kim, Subeen Choe, Jeongmin Lee, Taehoon Kim, Jihoon Yang(参考訳) 近年の多くの作品は画像復元(ir)の分野で進歩を遂げているが、パラメータの多さに苦しむことが多い。 もうひとつの問題は、ほとんどのTransformerベースのIRメソッドがローカルまたはグローバルな機能にのみ焦点をあてていることだ。 そこで本稿では,軽量irネットワークであるreciprocal attention mixed transformer (ramit)を提案する。 提案する次元相互注意混合トランス(d-ramit)ブロックを用いて,複数ヘッドの異なる数に並列に2次元(空間的およびチャネル的)自己アテンションを計算する。 二次元の注意は互いの欠点を補うのに役立ち、その後混合される。 さらに,画素レベルの情報損失を補償し,効率的な階層構造を維持しつつ意味情報を利用する階層的相互注意混合(h-rami)層を導入する。 さらに,提案するコンポーネントに効率的な畳み込みをアタッチするためにmobilenet v1とv2を再検討し,修正する。 実験の結果,RAMiTは高分解能,カラーデノナイジング,グレースケールデノナイジング,低照度エンハンスメント,デラナイジングなど,複数の軽量IRタスクにおいて最先端性能を実現することが示された。 コードはもうすぐ入手できる。

Although many recent works have made advancements in the image restoration (IR) field, they often suffer from an excessive number of parameters. Another issue is that most Transformer-based IR methods focus only on either local or global features, leading to limited receptive fields or deficient parameter issues. To address these problems, we propose a lightweight IR network, Reciprocal Attention Mixing Transformer (RAMiT). It employs our proposed dimensional reciprocal attention mixing Transformer (D-RAMiT) blocks, which compute bi-dimensional (spatial and channel) self-attentions in parallel with different numbers of multi-heads. The bi-dimensional attentions help each other to complement their counterpart's drawbacks and are then mixed. Additionally, we introduce a hierarchical reciprocal attention mixing (H-RAMi) layer that compensates for pixel-level information losses and utilizes semantic information while maintaining an efficient hierarchical structure. Furthermore, we revisit and modify MobileNet V1 and V2 to attach efficient convolutions to our proposed components. The experimental results demonstrate that RAMiT achieves state-of-the-art performance on multiple lightweight IR tasks, including super-resolution, color denoising, grayscale denoising, low-light enhancement, and deraining. Codes will be available soon.
翻訳日:2023-05-22 15:55:08 公開日:2023-05-19
# graphologue:インタラクティブダイアグラムによる大規模言語モデル応答の検討

Graphologue: Exploring Large Language Model Responses with Interactive Diagrams ( http://arxiv.org/abs/2305.11473v1 )

ライセンス: Link先を確認
Peiling Jiang, Jude Rayan, Steven P. Dow, Haijun Xia(参考訳) 大規模言語モデル(llm)は最近、アクセスの容易さと、様々なアプリケーションで前例のない知性によって人気が高まっている。 しかし、ChatGPTのようなLLMは、テキストベースメディアと線形会話構造が不十分なため、複雑な情報タスクをサポートするのに重大な制限がある。 10人の参加者によるフォーマティブな調査を通じて,llmインタフェースは長めの応答をしばしば呈し,特に複雑なタスクにおいて,情報を迅速に理解し,柔軟に操作することが困難であることを見出した。 本稿では,LLMからのテキストベースの応答を図形に変換する対話型システムであるGraphologueについて述べる。 Graphologueは、LCM応答からエンティティと関係を抽出し、ノードリンク図をリアルタイムで構築する新しいプロンプト戦略とインターフェース設計を採用している。 さらに、ユーザは図と対話して、グラフィカルなプレゼンテーションを柔軟に調整し、さらに情報を得るためにコンテキスト固有のプロンプトを提出することができる。 図を利用して、グラフィカルで非線形な人間とLLMの対話を可能にし、情報探索、組織化、理解を容易にする。

Large language models (LLMs) have recently soared in popularity due to their ease of access and the unprecedented intelligence exhibited on diverse applications. However, LLMs like ChatGPT present significant limitations in supporting complex information tasks due to the insufficient affordances of the text-based medium and linear conversational structure. Through a formative study with ten participants, we found that LLM interfaces often present long-winded responses, making it difficult for people to quickly comprehend and interact flexibly with various pieces of information, particularly during more complex tasks. We present Graphologue, an interactive system that converts text-based responses from LLMs into graphical diagrams to facilitate information-seeking and question-answering tasks. Graphologue employs novel prompting strategies and interface designs to extract entities and relationships from LLM responses and constructs node-link diagrams in real-time. Further, users can interact with the diagrams to flexibly adjust the graphical presentation and to submit context-specific prompts to obtain more information. Utilizing diagrams, Graphologue enables graphical, non-linear dialogues between humans and LLMs, facilitating information exploration, organization, and comprehension.
翻訳日:2023-05-22 15:54:41 公開日:2023-05-19
# システムインテリジェンスのテスト

Testing System Intelligence ( http://arxiv.org/abs/2305.11472v1 )

ライセンス: Link先を確認
Joseph Sifakis(参考訳) 本稿では,インテリジェントシステムにおけるテストの妥当性と,その実装による実践的問題について議論する。 そこで本研究では,ある状況下でタスクを遂行する他のシステムを置き換えるシステムの能力として,代替テストを提案する。 チューリングテストでは考慮できない人間の知性の突出した側面をいかに特徴付けるかを示す。 我々は、置換テストに合格するインテリジェントなシステムの構築には、現在のAIの範囲外にある一連の技術的な問題が含まれると主張している。 提案するテストを実装し,インテリジェントシステムの特性を検証するためのフレームワークを提案する。 知的システム検証の固有の限界を議論し、既存の厳密なテスト手法を拡張するための新しい理論的基礎を提唱する。 我々は、人間と機械のスキルの相補性に基づいて、代替テストが、データベースと記号的知識を様々な程度に組み合わせる能力を反映した、多種多様な知性概念をもたらすことを示唆する。

We discuss the adequacy of tests for intelligent systems and practical problems raised by their implementation. We propose the replacement test as the ability of a system to replace successfully another system performing a task in a given context. We show how it can characterize salient aspects of human intelligence that cannot be taken into account by the Turing test. We argue that building intelligent systems passing the replacement test involves a series of technical problems that are outside the scope of current AI. We present a framework for implementing the proposed test and validating the properties of the intelligent systems. We discuss the inherent limitations of intelligent system validation and advocate new theoretical foundations for extending existing rigorous test methods. We suggest that the replacement test, based on the complementarity of skills between human and machine, can lead to a multitude of intelligence concepts reflecting the ability to combine data-based and symbolic knowledge to varying degrees.
翻訳日:2023-05-22 15:54:21 公開日:2023-05-19
# 具体的な量子チャネルと抽象量子チャネルの代数構造

Concrete Quantum Channels and Algebraic Structure of Abstract Quantum Channels ( http://arxiv.org/abs/2305.11471v1 )

ライセンス: Link先を確認
M. N. N. Namboodiri(参考訳) 正の線形近似のコロフキンの古典的な定理を用いたtoeplitz/block toeplitz行列の前条件の構成とテストが知られている。 後にプリコンディショナーを実装する写像は完全に正の写像であることが観測され、この構造は非可換な設定でコロフキン型定理の抽象的定式化につながった。 興味深いことに、これらの前提条件写像の性質は量子情報理論における抽象量子チャネルの性質を満たす。 本稿では,クラウス表現,チャネル容量,忠実度などの関連する量を計算することにより,この視点を考察する。 さらに、量子チャネルのクラスの代数的性質についても論じる。

Construction and testing of preconditioners of Toeplitz/block Toeplitz matrices using Korovkin's classic theorems of positive linear approximations are known. Later the map implementing preconditioners was observed to be a completely positive map, and this structure led to an abstract formulation of Korovkin-type theorems in a non-commutative setting. Interestingly enough, these preconditioner maps' properties satisfy the properties of an abstract quantum channel in quantum information theory. In this short article, this viewpoint is discussed by computing related quantities such as Kraus representation, channel capacity, fidelity etc. Moreover, the algebraic properties of the class of quantum channels are also discussed.
翻訳日:2023-05-22 15:54:06 公開日:2023-05-19
# 強化学習によるテンソルネットワーク符号の最適化

Optimization of Tensor Network Codes with Reinforcement Learning ( http://arxiv.org/abs/2305.11470v1 )

ライセンス: Link先を確認
Caroline Mauron, Terry Farrelly, Thomas M. Stace(参考訳) テンソルネットワークコードは、小さなシードコードからスタビライザコードの構造構築と操作を可能にする。 ここではテンソルネットワークコードジオメトリに強化学習を適用し,最適安定化符号を見出す方法を示す。 我々の強化学習エージェントは、投影型シミュレーションフレームワークを用いて、複数の論理量子ビットを持つコードを含む、環境と許容される一連のアクションが与えられた最高のコードを見つける。 エージェントはまた、1000回の試行後に10\%の周波数で最適なコードを見つけるのに対して、ランダム検索から0.16\%の確率で、65の係数で改善するなど、ランダム検索を一貫して上回る。

Tensor network codes enable structured construction and manipulation of stabilizer codes out of small seed codes. Here, we apply reinforcement learning to tensor network code geometries and demonstrate how optimal stabilizer codes can be found. Using the projective simulation framework, our reinforcement learning agent consistently finds the best possible codes given an environment and set of allowed actions, including for codes with more than one logical qubit. The agent also consistently outperforms a random search, for example finding an optimal code with a $10\%$ frequency after 1000 trials, vs a theoretical $0.16\%$ from random search, an improvement by a factor of 65.
翻訳日:2023-05-22 15:53:56 公開日:2023-05-19
# トポロジック・アグノシズムを克服する: 骨格トポロジカル・アウェアネスによる骨格に基づく行動認識の強化

Overcoming Topology Agnosticism: Enhancing Skeleton-Based Action Recognition through Redefined Skeletal Topology Awareness ( http://arxiv.org/abs/2305.11468v1 )

ライセンス: Link先を確認
Yuxuan Zhou, Zhi-Qi Cheng, Jun-Yan He, Bin Luo, Yifeng Geng, Xuansong Xie, Margret Keuper(参考訳) グラフ畳み込みネットワーク(GCN)は、長い間、骨格に基づく行動認識の最先端を定義しており、グラフの隣接行列を通して人間の関節トポロジーの複雑なダイナミクスを解き放つ能力を活用してきた。 しかし、これらの最先端モデルには固有の欠陥があり、モデルの重みとともに隣接行列を最適化する傾向がある。 このプロセスは、一見効率的だが、骨の接続データが徐々に崩壊し、マップに求めていたトポロジーとは無関係なモデルで終わる。 そこで我々は,(1) 骨結合を符号化する革新的な経路を, グラフ距離のパワーを利用して構築する3つの戦略を提案する。 このアプローチは、従来のGCNでしばしば失われる重要なトポロジカルニュアンスを保存する。 2) 骨格配列の時間的平均は, 控えめな視線にもかかわらず, 行動特異的な情報を持っている。 3) 異なる行動にまたがる共同対共同関係の強い変動がみられた。 この発見は、人間の動きを象徴する関係構成のバリエーションを捉えるための単一の隣接行列の限界を明らかにする。 この進化は、パラメータを実質的なマージン(40%以上)で削減し、元のGCNよりもパフォーマンスを高めます。 私たちのフルモデルであるblockgcnは、小さなモデルサイズに対するスケルトンベースのアクション認識の新しい標準を確立します。 その高精度、特に大規模なNTU RGB+D 120データセットは、BlockGCNの有効性の説得力のある証明である。 ソースコードとモデルはhttps://github.com/ZhouYuxuanYX/BlockGCNで見ることができる。

Graph Convolutional Networks (GCNs) have long defined the state-of-the-art in skeleton-based action recognition, leveraging their ability to unravel the complex dynamics of human joint topology through the graph's adjacency matrix. However, an inherent flaw has come to light in these cutting-edge models: they tend to optimize the adjacency matrix jointly with the model weights. This process, while seemingly efficient, causes a gradual decay of bone connectivity data, culminating in a model indifferent to the very topology it sought to map. As a remedy, we propose a threefold strategy: (1) We forge an innovative pathway that encodes bone connectivity by harnessing the power of graph distances. This approach preserves the vital topological nuances often lost in conventional GCNs. (2) We highlight an oft-overlooked feature - the temporal mean of a skeletal sequence, which, despite its modest guise, carries highly action-specific information. (3) Our investigation revealed strong variations in joint-to-joint relationships across different actions. This finding exposes the limitations of a single adjacency matrix in capturing the variations of relational configurations emblematic of human movement, which we remedy by proposing an efficient refinement to Graph Convolutions (GC) - the BlockGC. This evolution slashes parameters by a substantial margin (above 40%), while elevating performance beyond original GCNs. Our full model, the BlockGCN, establishes new standards in skeleton-based action recognition for small model sizes. Its high accuracy, notably on the large-scale NTU RGB+D 120 dataset, stand as compelling proof of the efficacy of BlockGCN. The source code and model can be found at https://github.com/ZhouYuxuanYX/BlockGCN.
翻訳日:2023-05-22 15:53:44 公開日:2023-05-19
# 時空間注意に基づく視覚的位置認識のための学習シーケンス記述子

Learning Sequence Descriptor based on Spatiotemporal Attention for Visual Place Recognition ( http://arxiv.org/abs/2305.11467v1 )

ライセンス: Link先を確認
Fenglin Zhang, Junqiao Zhao, Yingfeng Cai, Gengxuan Tian, Wenjie Mu, Chen Ye(参考訳) シーケンスベースの視覚的位置認識(sVPR)は、フレームシーケンスと参照マップに格納されたフレームとのマッチングを目的とする。 既存の方法はシーケンスマッチングとシーケンスディスクリプタベースの検索である。 前者は、実際のシナリオでは保持が困難であり、本質的な単一フレーム記述子ミスマッチを排除できない定数速度の仮定に基づいている。 後者はシーケンス全体の記述子を抽出することでこの問題を解決するが、現在のシーケンス記述子は時間的情報相互作用のない多フレームの特徴集約によってのみ構成される。 本稿では,時空間情報を効果的に融合し,識別的記述子を生成する逐次記述子抽出手法を提案する。 具体的には、同じフレームfocu上の類似した機能同士が互いに空間構造を学習し、異なるフレームの同じローカル領域が時間とともに局所的な特徴変化を学習する。 また、スライディングウィンドウを用いて時間的自己注意範囲を制御し、相対的な位置エンコーディングを付加し、異なる特徴間の位置関係を構築することにより、ディスクリプタはフレームシーケンスと局所的特徴運動の固有ダイナミクスをキャプチャできる。

Sequence-based visual place recognition (sVPR) aims to match frame sequences with frames stored in a reference map for localization. Existing methods include sequence matching and sequence descriptor-based retrieval. The former is based on the assumption of constant velocity, which is difficult to hold in real scenarios and does not get rid of the intrinsic single frame descriptor mismatch. The latter solves this problem by extracting a descriptor for the whole sequence, but current sequence descriptors are only constructed by feature aggregation of multi-frames, with no temporal information interaction. In this paper, we propose a sequential descriptor extraction method to fuse spatiotemporal information effectively and generate discriminative descriptors. Specifically, similar features on the same frame focu on each other and learn space structure, and the same local regions of different frames learn local feature changes over time. And we use sliding windows to control the temporal self-attention range and adpot relative position encoding to construct the positional relationships between different features, which allows our descriptor to capture the inherent dynamics in the frame sequence and local feature motion.
翻訳日:2023-05-22 15:53:12 公開日:2023-05-19
# 可逆拡散による大域的非凸最適化における収束の促進

Accelerating Convergence in Global Non-Convex Optimization with Reversible Diffusion ( http://arxiv.org/abs/2305.11493v1 )

ライセンス: Link先を確認
Ryo Fujino(参考訳) ランジュバンダイナミクスは、低温でのポテンシャル関数の極小付近で定常分布が集中するため、大域的な非凸最適化に広く用いられている。 本稿では,可逆拡散(reversible diffusion)と呼ばれるより包括的な確率過程のクラスを活用し,大域的非凸最適化にオイラー・マルヤマ離散化を適用することを提案する。 本研究では, 地形変化にインスパイアされた戦略である, 離散化誤差を規制しながら, 収束速度を促進できるような拡散係数を設計する。 提案手法はLangevin Dynamicsの時間的変化と見なすことができ,KLの発散に関して収束を証明し,収束速度と離散化誤差のトレードオフについて検討する。 提案手法の有効性を数値実験により実証した。

Langevin Dynamics has been extensively employed in global non-convex optimization due to the concentration of its stationary distribution around the global minimum of the potential function at low temperatures. In this paper, we propose to utilize a more comprehensive class of stochastic processes, known as reversible diffusion, and apply the Euler-Maruyama discretization for global non-convex optimization. We design the diffusion coefficient to be larger when distant from the optimum and smaller when near, thus enabling accelerated convergence while regulating discretization error, a strategy inspired by landscape modifications. Our proposed method can also be seen as a time change of Langevin Dynamics, and we prove convergence with respect to KL divergence, investigating the trade-off between convergence speed and discretization error. The efficacy of our proposed method is demonstrated through numerical experiments.
翻訳日:2023-05-22 15:45:57 公開日:2023-05-19
# スプリットエキシトン-ポーラリトン凝縮体における絡み合い生成と検出

Entanglement generation and detection in split exciton-polariton condensates ( http://arxiv.org/abs/2305.11491v1 )

ライセンス: Link先を確認
Jingyan Feng, Hui Li, Zheng Sun, and Tim Byrnes(参考訳) 本研究では,空間的に分離された2つのエキシトンポラリトンボース・アインシュタイン凝縮体(becs)の定常状態における絡み合いの発生と検出法を提案する。 このスキームでは、まずスピノルポラリトンBECを作成し、1軸ねじれ相互作用の下で定常なスクイーズを得る。 その後、凝縮体は物理的にまたは実質的に分裂し、2つの部分間の絡み合いが生じる。 仮想分割は、凝縮体が物理的に分裂しないことを意味するが、その近接場像は2つの部分に分けられ、スピン相関は各部分における偏光測定から推定される。 理論上, 対数ネガティビティ基準といくつかの相関に基づく基準をモデル化し, 実験可能なパラメータ下での絡み合いが存在することを示す。

We propose a method of generating and detecting entanglement in two spatially separated excitonpolariton Bose-Einstein condensates (BECs) at steady-state. In our scheme we first create a spinor polariton BEC, such that steady-state squeezing is obtained under a one-axis twisting interaction. Then the condensate is split either physically or virtually, which results in entanglement generated between the two parts. A virtual split means that the condensate is not physically split, but its near-field image is divided into two parts and the spin correlations are deduced from polarization measurements in each half. We theoretically model and examine logarithmic negativity criterion and several correlation-based criteria to show that entanglement exists under experimentally achievable parameters.
翻訳日:2023-05-22 15:45:42 公開日:2023-05-19
# LLM、CXR画像の読み書きが可能に

LLM Itself Can Read and Generate CXR Images ( http://arxiv.org/abs/2305.11490v1 )

ライセンス: Link先を確認
Suhyeon Lee, Won Jun Kim, Jong Chul Ye(参考訳) 近年の大規模言語モデル(LLM)の顕著な発展を基盤として,LLMの実用性をマルチモーダルタスクに拡張する試みが活発に行われている。 これまでも言語と視覚情報を結びつける努力が続けられており、LLMに視覚機能を追加する試みも進行中である。 しかし、既存の試みは画像デコーダとしてのみllmを使用し、自然言語と同じ行で画像を生成する試みは行われていない。 画像の潜在表現をテキストトークンの一種として扱うvq-ganフレームワークを採用することにより,事前学習されたllmを微調整し,構造的な変更や追加のトレーニング目標,アドホックネットワークのトレーニングの必要性をなくし,llmの命令追従能力を維持しつつ,テキストなどの画像の読み書きを行う新しい手法を提案する。 このフレームワークを胸部x線(cxr)画像とレポート生成タスクに適用し,視覚領域と言語領域間の複雑な情報の変換が重要となる領域であることを示す。 コードは間もなく公開される予定だ。

Building on the recent remarkable development of large language models (LLMs), active attempts are being made to extend the utility of LLMs to multimodal tasks. There have been previous efforts to link language and visual information, and attempts to add visual capabilities to LLMs are ongoing as well. However, existing attempts use LLMs only as image decoders and no attempt has been made to generate images in the same line as the natural language. By adopting a VQ-GAN framework in which latent representations of images are treated as a kind of text tokens, we present a novel method to fine-tune a pre-trained LLM to read and generate images like text without any structural changes, extra training objectives, or the need for training an ad-hoc network while still preserving the of the instruction-following capability of the LLM. We apply this framework to chest X-ray (CXR) image and report generation tasks as it is a domain in which translation of complex information between visual and language domains is important. The code will soon be made publicly available.
翻訳日:2023-05-22 15:45:30 公開日:2023-05-19
# 拡散完了による不完全多視点クラスタリング

Incomplete Multi-view Clustering via Diffusion Completion ( http://arxiv.org/abs/2305.11489v1 )

ライセンス: Link先を確認
Sifan Fang(参考訳) 不完全なマルチビュークラスタリングは、実世界の大量の未ラベルデータに対して効果的なデータ分析を提供するための、困難かつ非自明なタスクである。 不完全なマルチビュークラスタリング手法はすべて、ビューの欠如の影響を減らす方法の問題に対処する必要がある。 この問題に対処するために,不完全なマルチビュークラスタリングフレームワークに組み込まれた行方不明なビューを復元する拡散補完を提案する。 観測可能なビュー情報に基づいて、拡散モデルを用いて、欠落したビューを復元し、マルチビューデータの一貫性情報をコントラスト学習により学習し、マルチビュークラスタリングの性能を向上させる。 私たちの知る限りでは、拡散モデルを不完全なマルチビュークラスタリングフレームワークに組み込む最初の作業になるかもしれません。 提案手法は,最先端手法に比べて優れたクラスタリング性能を実現しつつ,行方不明のビューの復元に有効であることを示す。

Incomplete multi-view clustering is a challenging and non-trivial task to provide effective data analysis for large amounts of unlabeled data in the real world. All incomplete multi-view clustering methods need to address the problem of how to reduce the impact of missing views. To address this issue, we propose diffusion completion to recover the missing views integrated into an incomplete multi-view clustering framework. Based on the observable views information, the diffusion model is used to recover the missing views, and then the consistency information of the multi-view data is learned by contrastive learning to improve the performance of multi-view clustering. To the best of our knowledge, this may be the first work to incorporate diffusion models into an incomplete multi-view clustering framework. Experimental results show that the proposed method performs well in recovering the missing views while achieving superior clustering performance compared to state-of-the-art methods.
翻訳日:2023-05-22 15:45:10 公開日:2023-05-19
# AttriCLIP : インクリメンタル知識学習のための非インクリメンタル学習システム

AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning ( http://arxiv.org/abs/2305.11488v1 )

ライセンス: Link先を確認
Runqi Wang, Xiaoyue Duan, Guoliang Kang, Jianzhuang Liu, Shaohui Lin, Songcen Xu, Jinhu Lv, Baochang Zhang(参考訳) 連続学習は、モデルが逐次到着したデータから徐々に知識を学習できるようにすることを目的としている。 以前の作品は、特徴抽出器と分類器からなる従来の分類アーキテクチャを採用している。 特徴抽出器は順次到着したタスクやクラス間で共有されるが、新しいクラスに対応する分類器の重みの1つの特定のグループをインクリメンタルに拡張する必要がある。 その結果、連続学習者のパラメータは徐々に増加する。 さらに、分類器は歴史的に到達した全てのクラスを含んでいるため、記憶の特定のサイズは、分類器バイアスと破滅的な忘れを緩和するためにリハーサルデータを格納する必要がある。 本稿では,新しいクラスやタスクの知識を段階的に抽出する,AttriCLIPという非インクリメンタル学習手法を提案する。 具体的には、AttriCLIPは事前訓練されたビジュアル言語モデルCLIPに基づいている。 画像エンコーダとテキストエンコーダは、画像とテキストの両方から特徴を抽出するために固定されている。 テキストはカテゴリ名と,設計した属性単語バンクから選択され,属性として機能する,一定の数の学習可能なパラメータから構成される。 分類のための視覚的およびテキスト的類似性を計算すると、AttriCLIPは非インクリメンタル学習者となる。 属性プロンプトは、分類に有用な共通知識をエンコードし、壊滅的な忘れを効果的に軽減し、リプレイメモリの構築を避けることができる。 我々はAttriCLIPを評価し,CLIPをベースとした従来の最先端の連続学習手法と比較した。 その結果,本手法は従来の最先端技術に対して良好に動作することがわかった。 実装コードはhttps://github.com/bhrqw/AttriCLIPで入手できる。

Continual learning aims to enable a model to incrementally learn knowledge from sequentially arrived data. Previous works adopt the conventional classification architecture, which consists of a feature extractor and a classifier. The feature extractor is shared across sequentially arrived tasks or classes, but one specific group of weights of the classifier corresponding to one new class should be incrementally expanded. Consequently, the parameters of a continual learner gradually increase. Moreover, as the classifier contains all historical arrived classes, a certain size of the memory is usually required to store rehearsal data to mitigate classifier bias and catastrophic forgetting. In this paper, we propose a non-incremental learner, named AttriCLIP, to incrementally extract knowledge of new classes or tasks. Specifically, AttriCLIP is built upon the pre-trained visual-language model CLIP. Its image encoder and text encoder are fixed to extract features from both images and text. Text consists of a category name and a fixed number of learnable parameters which are selected from our designed attribute word bank and serve as attributes. As we compute the visual and textual similarity for classification, AttriCLIP is a non-incremental learner. The attribute prompts, which encode the common knowledge useful for classification, can effectively mitigate the catastrophic forgetting and avoid constructing a replay memory. We evaluate our AttriCLIP and compare it with CLIP-based and previous state-of-the-art continual learning methods in realistic settings with domain-shift and long-sequence learning. The results show that our method performs favorably against previous state-of-the-arts. The implementation code can be available at https://github.com/bhrqw/AttriCLIP.
翻訳日:2023-05-22 15:44:54 公開日:2023-05-19
# PointGPT: ポイントクラウドからの自動回帰生成事前トレーニング

PointGPT: Auto-regressively Generative Pre-training from Point Clouds ( http://arxiv.org/abs/2305.11487v1 )

ライセンス: Link先を確認
Guangyan Chen, Meiling Wang, Yi Yang, Kai Yu, Li Yuan, Yufeng Yue(参考訳) GPT(generative pre-training transformer)に基づく大規模言語モデル(LLM)は、様々な下流タスクにおいて顕著な効果を示した。 GPTの進歩にインスパイアされたPointGPTは、GPTの概念をポイントクラウドに拡張し、障害特性、低情報密度、タスクギャップに関連する課題に対処する新しいアプローチである。 具体的には、変圧器モデルの事前学習にポイントクラウド自動回帰生成タスクが提案されている。 提案手法は,入力点雲を複数の点パッチに分割し,その空間的近接に基づいて順序順に配置する。 そして、抽出器ジェネレータをベースとしたトランスフォーマーデコーダを2つのマスキング戦略により、先行する点パッチに条件付き潜時表現を学習し、次の点を自動回帰的に予測する。 当社のスケーラブルなアプローチでは、さまざまな下流タスクで最先端のパフォーマンスを実現することによって、一般化された高容量モデルを学ぶことができます。 特に,ModelNet40データセットでは94.9%,ScanObjectNNデータセットでは93.4%の分類精度を達成し,他のトランスフォーマーモデルよりも優れている。 さらに,本手法は,4つの数発の学習ベンチマークにおいて,最先端の精度を新たに達成する。

Large language models (LLMs) based on the generative pre-training transformer (GPT) have demonstrated remarkable effectiveness across a diverse range of downstream tasks. Inspired by the advancements of the GPT, we present PointGPT, a novel approach that extends the concept of GPT to point clouds, addressing the challenges associated with disorder properties, low information density, and task gaps. Specifically, a point cloud auto-regressive generation task is proposed to pre-train transformer models. Our method partitions the input point cloud into multiple point patches and arranges them in an ordered sequence based on their spatial proximity. Then, an extractor-generator based transformer decoder, with a dual masking strategy, learns latent representations conditioned on the preceding point patches, aiming to predict the next one in an auto-regressive manner. Our scalable approach allows for learning high-capacity models that generalize well, achieving state-of-the-art performance on various downstream tasks. In particular, our approach achieves classification accuracies of 94.9% on the ModelNet40 dataset and 93.4% on the ScanObjectNN dataset, outperforming all other transformer models. Furthermore, our method also attains new state-of-the-art accuracies on all four few-shot learning benchmarks.
翻訳日:2023-05-22 15:44:27 公開日:2023-05-19
# 神経異質性のパワーへの期待

Dive into the Power of Neuronal Heterogeneity ( http://arxiv.org/abs/2305.11484v1 )

ライセンス: Link先を確認
Guobin Shen, Dongcheng Zhao, Yiting Dong, Yang Li, Yi Zeng(参考訳) 生物学的ニューラルネットワークは巨大で多様な構造であり、高い神経異質性を持つ。 従来のニューラルネットワーク(anns)は、トレーニングを通じて接続の重み付けを変更することに集中し、ニューロンを高度に均質な実体としてモデル化し、神経の不均一性の探索を欠いている。 神経特性と接続重みを最適化し、ネットワーク性能を確保することで神経不均一性に対処した研究はわずかである。 しかし、この戦略は神経異質性の特定の寄与に影響を及ぼす。 本稿では,スパイクニューラルネットワーク(snn)の最適化において,バックプロパゲーションに基づく手法が直面する課題を最初に提示し,進化戦略(es)を用いたランダムネットワークにおける異種ニューロンのより堅牢な最適化を実現する。 作業記憶、連続制御、画像認識などのタスクの実験は、特に長いシーケンスタスクにおいて、神経の不均一性がパフォーマンスを向上させることを示す。 さらに, 膜時間定数は神経異質性において重要な役割を担っており, その分布は生物学的実験で観察されたものと類似している。 したがって、無視された神経の異質性は、生物学における神経の異質性を探究するための新しいアプローチと、より生物学的に妥当なニューラルネットワークを設計するための新しい方法を提供する。

The biological neural network is a vast and diverse structure with high neural heterogeneity. Conventional Artificial Neural Networks (ANNs) primarily focus on modifying the weights of connections through training while modeling neurons as highly homogenized entities and lacking exploration of neural heterogeneity. Only a few studies have addressed neural heterogeneity by optimizing neuronal properties and connection weights to ensure network performance. However, this strategy impact the specific contribution of neuronal heterogeneity. In this paper, we first demonstrate the challenges faced by backpropagation-based methods in optimizing Spiking Neural Networks (SNNs) and achieve more robust optimization of heterogeneous neurons in random networks using an Evolutionary Strategy (ES). Experiments on tasks such as working memory, continuous control, and image recognition show that neuronal heterogeneity can improve performance, particularly in long sequence tasks. Moreover, we find that membrane time constants play a crucial role in neural heterogeneity, and their distribution is similar to that observed in biological experiments. Therefore, we believe that the neglected neuronal heterogeneity plays an essential role, providing new approaches for exploring neural heterogeneity in biology and new ways for designing more biologically plausible neural networks.
翻訳日:2023-05-22 15:44:07 公開日:2023-05-19
# Sensecape: 大規模言語モデルによるマルチレベル探索とセンスメイキングの実現

Sensecape: Enabling Multilevel Exploration and Sensemaking with Large Language Models ( http://arxiv.org/abs/2305.11483v1 )

ライセンス: Link先を確認
Sangho Suh, Bryan Min, Srishti Palani, Haijun Xia(参考訳) 人々は、学術研究や他の都市への移動計画といった複雑な情報処理のために、大きな言語モデル(LLM)に目を向けている。 しかし、例えば、情報を空間的に配置して整理し、理解するためには、しばしば非線型な方法で作業する必要があるが、LLMと対話するための現在のインターフェースは、一般的には会話の相互作用をサポートするために線形である。 この制限に対処し、LLMによる探索とセンスメイキングを支援するために、Sensecapeを開発した。Sensecapeは、LLMで複雑な情報タスクをサポートするための対話型システムであり、ユーザーは(1)多段階の抽象化を通して情報の複雑さを管理し、(2)飼料とセンスメイキングをシームレスに切り替えることができる。 Sensecapeはユーザーがより多くのトピックを探索し、知識を階層的に構造化することを可能にする。 我々は、情報処理のためのLLMベースのワークフローとインタフェースに寄与する。

People are increasingly turning to large language models (LLMs) for complex information tasks like academic research or planning a move to another city. However, while they often require working in a nonlinear manner - e.g., to arrange information spatially to organize and make sense of it, current interfaces for interacting with LLMs are generally linear to support conversational interaction. To address this limitation and explore how we can support LLM-powered exploration and sensemaking, we developed Sensecape, an interactive system designed to support complex information tasks with an LLM by enabling users to (1) manage the complexity of information through multilevel abstraction and (2) seamlessly switch between foraging and sensemaking. Our within-subject user study reveals that Sensecape empowers users to explore more topics and structure their knowledge hierarchically. We contribute implications for LLM-based workflows and interfaces for information tasks.
翻訳日:2023-05-22 15:43:44 公開日:2023-05-19
# 比較潜在変数による個人化対話生成の促進:スパースとディエンスペルソナの組み合わせ

Enhancing Personalized Dialogue Generation with Contrastive Latent Variables: Combining Sparse and Dense Persona ( http://arxiv.org/abs/2305.11482v1 )

ライセンス: Link先を確認
Yihong Tang, Bo Wang, Miao Fang, Dongming Zhao, Kun Huang, Ruifang He, Yuexian Hou(参考訳) パーソナライズされた対話は、対話生成とパーソナリティの一貫性を探求する。 既存のパーソナライズされた対話エージェントは、3つのリソースからペルソナプロファイルをモデル化する。 しかしながら、スパースな構造化ペルソナ属性は明示的だが非形式的で、密集したペルソナテキストは、ノイズの多い豊富なパーソナ記述を含み、対話履歴クエリは、ペルソナモデリングにおいてノイズと非形式の両方である。 本研究では,3つの資源の利点を組み合わせて,より豊かで正確なペルソナを得る。 本研究では,高密度なペルソナ記述をスパースカテゴリにクラスタリングするContrastive Latent Variable-based Model(CLV)を設計し,履歴クエリと組み合わせてパーソナライズされた応答を生成する。 中国語と英語のデータセットに対する実験結果は、パーソナライゼーションにおけるモデルの優位性を示している。

The personalized dialogue explores the consistent relationship between dialogue generation and personality. Existing personalized dialogue agents model persona profiles from three resources: sparse or dense persona descriptions and dialogue histories. However, sparse structured persona attributes are explicit but uninformative, dense persona texts contain rich persona descriptions with much noise, and dialogue history query is both noisy and uninformative for persona modeling. In this work, we combine the advantages of the three resources to obtain a richer and more accurate persona. We design a Contrastive Latent Variable-based model (CLV) that clusters the dense persona descriptions into sparse categories, which are combined with the history query to generate personalized responses. Experimental results on Chinese and English datasets demonstrate our model's superiority in personalization.
翻訳日:2023-05-22 15:43:28 公開日:2023-05-19
# CM-MaskSD:画像セグメント参照のためのクロスモダリティ仮設自己蒸留

CM-MaskSD: Cross-Modality Masked Self-Distillation for Referring Image Segmentation ( http://arxiv.org/abs/2305.11481v1 )

ライセンス: Link先を確認
Wenxuan Wang, Jing Liu, Xingjian He, Yisi Zhang, Chen Chen, Jiachen Shen, Yan Zhang, Jiangyun Li(参考訳) 参照画像セグメンテーション(RIS)は、所与の自然言語表現に基づいた画像から所望のオブジェクトをセグメントする基本的な視覚言語タスクである。 画像とテキストの間に本質的に異なるデータ特性があるため、既存の手法のほとんどは、細粒度の視覚言語アライメントに向けた複雑な設計を導入するか、あるいは高密度なアライメントが欠如しているため、スケーラビリティの問題や過度なセグメンテーションやアンダーセグメンテーションのようなミスセグメンテーションの問題を引き起こす。 risタスクで効果的かつ効率的な細粒化機能アライメントを実現するために, 自己蒸留を併用したマスク型マルチモーダルモデリングの可能性を検討し, cm-masksdと呼ばれる新しいクロスモダリティマスク型自己蒸留フレームワークを提案し, クリップモデルから画像テキスト意味アライメントの伝達知識を継承し, セグメント精度を向上させるためのパッチワード特徴アライメントを実現する。 さらに,本手法では,主セグメント分割枝と導入した自己蒸留枝との重みを共有でき,マルチモーダル特徴をコーディネートするための無視可能なパラメータのみを導入するため,モデル性能をほぼパラメータフリーで大幅に向上させることができる。 RISタスクに対する3つのベンチマークデータセット(RefCOCO、RefCOCO+、G-Ref)の総合的な実験により、提案したフレームワークが従来の最先端手法よりも優れていることを示す。

Referring image segmentation (RIS) is a fundamental vision-language task that intends to segment a desired object from an image based on a given natural language expression. Due to the essentially distinct data properties between image and text, most of existing methods either introduce complex designs towards fine-grained vision-language alignment or lack required dense alignment, resulting in scalability issues or mis-segmentation problems such as over- or under-segmentation. To achieve effective and efficient fine-grained feature alignment in the RIS task, we explore the potential of masked multimodal modeling coupled with self-distillation and propose a novel cross-modality masked self-distillation framework named CM-MaskSD, in which our method inherits the transferred knowledge of image-text semantic alignment from CLIP model to realize fine-grained patch-word feature alignment for better segmentation accuracy. Moreover, our CM-MaskSD framework can considerably boost model performance in a nearly parameter-free manner, since it shares weights between the main segmentation branch and the introduced masked self-distillation branches, and solely introduces negligible parameters for coordinating the multimodal features. Comprehensive experiments on three benchmark datasets (i.e. RefCOCO, RefCOCO+, G-Ref) for the RIS task convincingly demonstrate the superiority of our proposed framework over previous state-of-the-art methods.
翻訳日:2023-05-22 15:42:59 公開日:2023-05-19
# 距離測度空間におけるランダム探索からバンディット学習へ

From Random Search to Bandit Learning in Metric Measure Spaces ( http://arxiv.org/abs/2305.11509v1 )

ライセンス: Link先を確認
Chuying Han, Yasong Feng, Tianyu Wang(参考訳) ランダム検索はハイパーパラメータ最適化の最も広く使われている手法の1つであり、ディープラーニングモデルの成功に不可欠である。 驚くべき性能にもかかわらず、基礎となる作用機構を記述するために非ヒューリスティック理論はほとんど開発されていない。 本稿ではランダム探索に関する理論的考察を行う。 本稿では,基礎となる関数のランドスケープを記述する「emph{scattering dimension}」の概念を導入し,ランダム探索の性能を定量化する。 環境がノイズのない場合、ランダム探索の出力はレート $ \widetilde{\mathcal{o}} \left( \left( \frac{1}{t} \right)^{ \frac{1}{d_s} } \right) $ の確率において最適値に収束する。 観測された関数値が有界な$iid$ノイズによって破損した場合、ランダム探索の出力は、$ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s + 1} } \right)$で確率の最適値に収束する。 さらに、ランダム探索の原理に基づき、ボレル測度を具現化した計量空間におけるリプシッツの帯域幅を2倍にするアルゴリズム「BLiN-MOS」を導入し、BLiN-MOSが次数$ \widetilde{\mathcal{O}} \left(T^{ \frac{d_z}{d_z + 1} } \right)$であることを示す。 この結果は、ボレル測度を持つ距離空間において、リプシッツバンドイットの古典的な理論が改善可能であることを示している。 この結果は、測度空間における上界が測度構造を持たない計量空間におけるリプシッツ包帯の既知の情報理論的下界を破るので、アルゴリズムの観点から距離空間と計量測度空間の間の固有の公理的ギャップが示唆される。

Random Search is one of the most widely-used method for Hyperparameter Optimization, and is critical to the success of deep learning models. Despite its astonishing performance, little non-heuristic theory has been developed to describe the underlying working mechanism. This paper gives a theoretical accounting of Random Search. We introduce the concept of \emph{scattering dimension} that describes the landscape of the underlying function, and quantifies the performance of random search. We show that, when the environment is noise-free, the output of random search converges to the optimal value in probability at rate $ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s} } \right) $, where $ d_s \ge 0 $ is the scattering dimension of the underlying function. When the observed function values are corrupted by bounded $iid$ noise, the output of random search converges to the optimal value in probability at rate $ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s + 1} } \right) $. In addition, based on the principles of random search, we introduce an algorithm, called BLiN-MOS, for Lipschitz bandits in doubling metric spaces that are also emdowed with a Borel measure, and show that BLiN-MOS achieves a regret rate of order $ \widetilde{\mathcal{O}} \left( T^{ \frac{d_z}{d_z + 1} } \right) $, where $d_z$ is the zooming dimension of the problem instance. Our results show that in metric spaces with a Borel measure, the classic theory of Lipschitz bandits can be improved. This result suggests an intrinsic axiomatic gap between metric spaces and metric measure spaces from an algorithmic perspective, since the upper bound in a metric measure space breaks the known information-theoretical lower bounds for Lipschitz bandits in a metric space with no measure structure.
翻訳日:2023-05-22 15:37:59 公開日:2023-05-19
# プラグアンドプレイ医療対話システム

Plug-and-Play Medical Dialogue System ( http://arxiv.org/abs/2305.11508v1 )

ライセンス: Link先を確認
Chengfeng Dou, Zhi Jin, Wenping Jiao, Haiyan Zhao, Zhenwei Tao, Yongqiang Zhao(参考訳) 医療対話システムは、特定のドメイン知識を必要とする患者に正確な回答を提供することを目的としている。 近年のLarge Language Models (LLMs) の進歩は、医学的Q&A領域におけるその例外的な能力を実証しており、常識の深い理解を示している。 しかし, LLMは診断戦略が欠如しているため, 直接診断には不十分である。 この課題に対処する従来のアプローチは、高価なllmの微調整を伴う。 あるいは、より魅力的なソリューションは、llmが医療会話タスクを実行できるプラグインの開発である。 In-context Learning からインスピレーションを得た PlugMed は,LLM による適切な対話動作を容易にするプラグイン・アンド・プレイ型医療対話システムであり,プロンプト生成 (PG) モジュールと応答ランキング (RR) モジュールである。 PGモジュールは、グローバルとローカルの両方の観点から対話情報をキャプチャするように設計されている。 患者の症状によってグループ化された対話履歴と最近の発話との類似性を評価することで、適切なプロンプトを選択する。 さらに、RRモジュールは細調整されたSLMを応答フィルタとして組み込み、LLMが生成する適切な応答を選択する。 さらに,医療対話における対話戦略の有効性をより効果的に評価するために,意図に基づく新しい評価手法と医療機関を考案する。 自動評価と手動評価の両方を含む3つのラベルなしの医療対話データセットで行った実験評価により,本モデルが強力な微調整基準を超えることが示された。

Medical dialogue systems aim to provide accurate answers to patients, necessitating specific domain knowledge. Recent advancements in Large Language Models (LLMs) have demonstrated their exceptional capabilities in the medical Q&A domain, indicating a rich understanding of common sense. However, LLMs are insufficient for direct diagnosis due to the absence of diagnostic strategies. The conventional approach to address this challenge involves expensive fine-tuning of LLMs. Alternatively, a more appealing solution is the development of a plugin that empowers LLMs to perform medical conversation tasks. Drawing inspiration from in-context learning, we propose PlugMed, a Plug-and-Play Medical Dialogue System that facilitates appropriate dialogue actions by LLMs through two modules: the prompt generation (PG) module and the response ranking (RR) module. The PG module is designed to capture dialogue information from both global and local perspectives. It selects suitable prompts by assessing their similarity to the entire dialogue history and recent utterances grouped by patient symptoms, respectively. Additionally, the RR module incorporates fine-tuned SLMs as response filters and selects appropriate responses generated by LLMs. Moreover, we devise a novel evaluation method based on intent and medical entities matching to assess the efficacy of dialogue strategies in medical conversations more effectively. Experimental evaluations conducted on three unlabeled medical dialogue datasets, including both automatic and manual assessments, demonstrate that our model surpasses the strong fine-tuning baselines.
翻訳日:2023-05-22 15:37:10 公開日:2023-05-19
# jointrans: 光学ディスク/カップセグメンテーションとfovea検出のための事前誘導マルチタスクトランス

JOINEDTrans: Prior Guided Multi-task Transformer for Joint Optic Disc/Cup Segmentation and Fovea Detection ( http://arxiv.org/abs/2305.11504v1 )

ライセンス: Link先を確認
Huaqing He, Li Lin, Zhiyuan Cai, Pujin Cheng, Xiaoying Tang(参考訳) 深層学習に基づく画像セグメンテーションと検出モデルは、光学ディスク(OD)、光学カップ(OC)、フォビアなどの網膜のランドマークを分析する効率を大幅に改善した。 しかし,眼疾患関連病変や画像品質の低下などの要因は,自動OD/OCセグメンテーションや卵胞検出を著しく複雑にする可能性がある。 現存する作品の多くは、各ランドマークの識別を1つのタスクとして扱い、事前の情報を考慮しない。 これらの問題に対処するため,我々はジョイントod/ocセグメンテーションとfovea検出のための事前誘導型マルチタスクトランスフォーマーフレームワークであるjointransを提案する。 jointransは、眼底画像の様々な空間的特徴を効果的に結合し、病変やその他の画像問題によって引き起こされる構造的歪みを緩和する。 セグメンテーションブランチと検出ブランチを含む。 本稿では,血管分割作業で予め訓練されたエンコーダを用いて,血管の位置関係,OD/OC,foveaを効果的に活用し,提案したJOINEDTransフレームワークに空間的事前を組み込むことに成功した。 JOINEDTransには粗いステージと細かいステージがある。 粗い段階では、ジョイントセグメンテーション及び検出モジュールを介してOD/OC粗いセグメンテーション及び葉熱マップの局在を得る。 微細な段階では、粗い段階で得られた改良と利用予測のために興味のある領域を収穫し、より良い性能とより高速な収束のための追加情報を提供する。 実験の結果,JOINEDTrans は GAMMA, REFUGE, PALM 画像データセットにおいて既存の最先端手法よりも優れていた。 コードはhttps://github.com/HuaqingHe/JOINEDTransで公開しています。

Deep learning-based image segmentation and detection models have largely improved the efficiency of analyzing retinal landmarks such as optic disc (OD), optic cup (OC), and fovea. However, factors including ophthalmic disease-related lesions and low image quality issues may severely complicate automatic OD/OC segmentation and fovea detection. Most existing works treat the identification of each landmark as a single task, and take into account no prior information. To address these issues, we propose a prior guided multi-task transformer framework for joint OD/OC segmentation and fovea detection, named JOINEDTrans. JOINEDTrans effectively combines various spatial features of the fundus images, relieving the structural distortions induced by lesions and other imaging issues. It contains a segmentation branch and a detection branch. To be noted, we employ an encoder pretrained in a vessel segmentation task to effectively exploit the positional relationship among vessel, OD/OC, and fovea, successfully incorporating spatial prior into the proposed JOINEDTrans framework. There are a coarse stage and a fine stage in JOINEDTrans. In the coarse stage, OD/OC coarse segmentation and fovea heatmap localization are obtained through a joint segmentation and detection module. In the fine stage, we crop regions of interest for subsequent refinement and use predictions obtained in the coarse stage to provide additional information for better performance and faster convergence. Experimental results demonstrate that JOINEDTrans outperforms existing state-of-the-art methods on the publicly available GAMMA, REFUGE, and PALM fundus image datasets. We make our code available at https://github.com/HuaqingHe/JOINEDTrans
翻訳日:2023-05-22 15:36:46 公開日:2023-05-19
# モーダルサイド情報が異なるトピックアウェアな要約フレームワーク

A Topic-aware Summarization Framework with Different Modal Side Information ( http://arxiv.org/abs/2305.11503v1 )

ライセンス: Link先を確認
Xiuying Chen, Mingzhe Li, Shen Gao, Xin Cheng, Qiang Yang, Qishen Zhang, Xin Gao, Xiangliang Zhang(参考訳) ウェブ上の指数関数的文書成長において,自動要約が重要な役割を担っている。 CNN.com や WikiHow.com などのコンテンツサイトでは、ビデオ、画像、クエリなど、注意喚起や理解の容易化のための主要な文書とともに、様々な種類のサイド情報が存在することが多い。 このような情報は、しばしば記事の本質を明示的にまたは暗黙的に言及するため、より良い要約に使用できる。 しかし、既存のサイドアウェアの要約手法のほとんどは、シングルモーダルまたはマルチモーダルのサイド情報を組み込むように設計されており、互いに効果的に適応できない。 本稿では,様々な側面情報を柔軟に組み込む汎用的な要約フレームワークを提案する。 側面情報を持つ柔軟な要約モデルを設計する際の主な課題は、(1)サイド情報はテキスト的または視覚的なフォーマットであり、そのモデルが文書を同じ意味空間に整列して統一する必要があること、(2)サイドインプットに様々な側面の情報が含まれること、そして、モデルが要約に有用な側面を認識すること、である。 この2つの課題に対処するために,我々はまず,文書から潜在トピックと各種のサイド情報を同時に発見する統一トピックエンコーダを提案する。 学習したトピックは、トピック認識インタラクションを通じて、グラフエンコーダ内の複数の入力間の情報フローを柔軟にブリッジし、ガイドする。 第2に、文書と側情報をよりよく理解することで要約品質を向上させる統一意味空間に、単一のモーダルまたはマルチモーダル情報を整合させる3重対向学習機構を提案する。 その結果,本モデルは3つの公開シングルモーダル・マルチモーダルベンチマーク集計データセットにおいて,強いベースラインを著しく上回っていることがわかった。

Automatic summarization plays an important role in the exponential document growth on the Web. On content websites such as CNN.com and WikiHow.com, there often exist various kinds of side information along with the main document for attention attraction and easier understanding, such as videos, images, and queries. Such information can be used for better summarization, as they often explicitly or implicitly mention the essence of the article. However, most of the existing side-aware summarization methods are designed to incorporate either single-modal or multi-modal side information, and cannot effectively adapt to each other. In this paper, we propose a general summarization framework, which can flexibly incorporate various modalities of side information. The main challenges in designing a flexible summarization model with side information include: (1) the side information can be in textual or visual format, and the model needs to align and unify it with the document into the same semantic space, (2) the side inputs can contain information from various aspects, and the model should recognize the aspects useful for summarization. To address these two challenges, we first propose a unified topic encoder, which jointly discovers latent topics from the document and various kinds of side information. The learned topics flexibly bridge and guide the information flow between multiple inputs in a graph encoder through a topic-aware interaction. We secondly propose a triplet contrastive learning mechanism to align the single-modal or multi-modal information into a unified semantic space, where the summary quality is enhanced by better understanding the document and side information. Results show that our model significantly surpasses strong baselines on three public single-modal or multi-modal benchmark summarization datasets.
翻訳日:2023-05-22 15:36:14 公開日:2023-05-19
# アライメントからエンテーメントへ:エンティティアライメントのための統一テキストエンテーメントフレームワーク

From Alignment to Entailment: A Unified Textual Entailment Framework for Entity Alignment ( http://arxiv.org/abs/2305.11501v1 )

ライセンス: Link先を確認
Yu Zhao, Yike Wu, Xiangrui Cai, Ying Zhang, Haiwei Zhang, Xiaojie Yuan(参考訳) エンティティアライメント(EA)は、2つの知識グラフ(KG)の間に同等のエンティティを見つけることを目的としている。 既存のメソッドは通常、エンティティのトリプルを埋め込みとしてエンコードし、埋め込みの調整を学ぶ。 さらに、不均一な埋め込み空間における実体の3重項と属性の3重項を符号化し、互いに助け合うのを防ぐ。 本稿では,両トリプルを統一されたテキストシーケンスに変換し,EAタスクをクロスKGエンティティのシーケンス間の双方向テキスト補完タスクとしてモデル化する。 具体的には、2つのエンティティのシーケンスを同時に事前学習した言語モデル (plm) に供給し、シーケンス間の帰属確率をエンティティ間の類似性としてモデル化する2種類のplmベースのエンティティアライナーを提案する。 提案手法は,エンティティ間の2種類の情報の統合相関パターンを捕捉し,元のエンティティ情報間のきめ細かい相互作用をモデル化する。 5つの言語横断型eaデータセットの実験により、このアプローチは最先端のea手法よりも優れており、相互に異種情報の強化が可能となった。 コードはhttps://github.com/oreozhao/teaで入手できる。

Entity Alignment (EA) aims to find the equivalent entities between two Knowledge Graphs (KGs). Existing methods usually encode the triples of entities as embeddings and learn to align the embeddings, which prevents the direct interaction between the original information of the cross-KG entities. Moreover, they encode the relational triples and attribute triples of an entity in heterogeneous embedding spaces, which prevents them from helping each other. In this paper, we transform both triples into unified textual sequences, and model the EA task as a bi-directional textual entailment task between the sequences of cross-KG entities. Specifically, we feed the sequences of two entities simultaneously into a pre-trained language model (PLM) and propose two kinds of PLM-based entity aligners that model the entailment probability between sequences as the similarity between entities. Our approach captures the unified correlation pattern of two kinds of information between entities, and explicitly models the fine-grained interaction between original entity information. The experiments on five cross-lingual EA datasets show that our approach outperforms the state-of-the-art EA methods and enables the mutual enhancement of the heterogeneous information. Codes are available at https://github.com/OreOZhao/TEA.
翻訳日:2023-05-22 15:35:47 公開日:2023-05-19
# 小型・高温気相セルにおける光偏光原子の壁面衝突効果

Wall-Collision Effect on Optically-Polarized Atoms in Small and Hot Vapor Cells ( http://arxiv.org/abs/2305.11500v1 )

ライセンス: Link先を確認
Yue Chang and Jie Qin(参考訳) 原子の蒸気細胞では、原子は内部の表面と衝突し、スピンが壁上でランダムになる。 この壁脱分極効果は拡散性があり、高温下ではより小さな蒸気電池で顕著になる。 本研究では,光励起アルカリ金属原子の偏光を150ドルのセシウスに加熱したミリサイズのセルで調べる。 我々は,完全非分極化と非分極化の2つの極限境界条件を検討し,それらの境界間の分極差の解析的推定を行う。 非偏極の場合、ポンプビームの吸収は平均的な原子偏極に比例する。 しかし、完全な偏極壁の場合、吸収ピークは極性最小値に対応できる。 壁効果を軽減するため, ポンプパワーを維持しながらポンプビームの直径を小さくし, セル壁の照明を防止し, 中央のポンプ強度を高めることを提案する。 これは、レーザー周波数が吸収ピークにロックされているため、分解できない小型の蒸気セルデバイスにとって重要である。 さらに, スピン交換緩和系で作動するアルカリ金属原子磁気センサの性能に及ぼす壁偏極効果を解析した。 信号強度は壁面衝突によって非常に制限されていることを示し,その上界を提供する。

In atomic vapor cells, atoms collide with the inner surface, causing their spin to randomize on the walls. This wall-depolarizing effect is diffusive, and it becomes more pronounced in smaller vapor cells under high temperatures. In this work, we investigate the polarization of optically-pumped alkali-metal atoms in a millimeter-sized cell heated to $% 150 $ Celsius. We consider two extreme boundary conditions: fully depolarizing and nondepolarizing boundaries, and we provide an analytical estimation of the polarization difference between them. In the nondepolarizing case, the pump beam's absorption is proportional to the average atomic polarization. However, for fully depolarizing walls, the absorption peak may correspond to a polarization minimum. To mitigate the wall effect, we propose reducing the pump beam's diameter while maintaining the pump power to prevent illumination of the cell wall and increase the pump intensity in the central area. This is crucial for compact vapor-cell devices where the laser frequency can not be detuned since it is locked to the absorption peaks. Additionally, we analyze the wall-depolarizing effect on the performance of an alkali-metal atomic magnetometer operating in the spin-exchange relaxation-free regime. We show that the signal strength is highly limited by wall collisions, and we provide an upper bound for it.
翻訳日:2023-05-22 15:35:25 公開日:2023-05-19
# RCOT:思考の連鎖逆転による推論の不整合の検出と抑制

RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought ( http://arxiv.org/abs/2305.11499v1 )

ライセンス: Link先を確認
Tianci Xue, Ziqi Wang, Zhenhailong Wang, Chi Han, Pengfei Yu, Heng Ji(参考訳) 大規模言語モデル(LLM)は、ステップ・バイ・ステップ・チェーン・オブ・シークレット(CoT)プロンプトを導入し、算術推論タスクにおいて有望な性能を達成した。 しかし、LLMは、推論中の事実整合性の維持、条件見落としの傾向、疑わしい解釈、与えられた問題に対する条件幻覚といった課題に直面している。 既存の方法は、粗いフィードバック(例えば、答えが正しいかどうか)を使って、事実整合性を改善する。 本研究では,LLMの生成したソリューションにおける現実的矛盾を自動的に検出し,修正することにより,LLMの推論能力を向上させる新しい手法であるRCoT(Reversing Chain-of-Thought)を提案する。 事実整合性を検出するために、RCoT はまず LLM に対して、生成した解に基づいて問題を再構築するよう要求する。 そして、元の問題と再構成された問題の細かな比較は、元の解の事実的矛盾を露呈する。 解を正すために、RCoT式は、実際の矛盾を検出してきめ細かいフィードバックを与え、解の修正にLSMを導く。 実験により、7つの算術データセット間で標準CoTよりも一貫した改善が示された。 さらに、手書きのきめ細かいフィードバックは、LCMの推論能力(例えば、ChatGPTはGSM8Kで94.6%の精度に達する)を劇的に向上させ、よりきめ細かいフィードバック生成方法の探求を促している。

Large language Models (LLMs) have achieved promising performance on arithmetic reasoning tasks by incorporating step-by-step chain-of-thought (CoT) prompting. However, LLMs face challenges in maintaining factual consistency during reasoning, exhibiting tendencies to condition overlooking, question misinterpretation, and condition hallucination over given problems. Existing methods use coarse-grained feedback (e.g., whether the answer is correct) to improve factual consistency. In this work, we propose RCoT (Reversing Chain-of-Thought), a novel method to improve LLMs' reasoning abilities by automatically detecting and rectifying factual inconsistency in LLMs' generated solutions. To detect factual inconsistency, RCoT first asks LLMs to reconstruct the problem based on generated solutions. Then fine-grained comparisons between the original problem and the reconstructed problem expose the factual inconsistency in the original solutions. To rectify the solution, RCoT formulates detected factual inconsistency into fine-grained feedback to guide LLMs in revising solutions. Experimental results demonstrate consistent improvements of RCoT over standard CoT across seven arithmetic datasets. Moreover, we find that manually written fine-grained feedback can dramatically improve LLMs' reasoning abilities (e.g., ChatGPT reaches 94.6% accuracy on GSM8K), encouraging the community to further explore the fine-grained feedback generation methods.
翻訳日:2023-05-22 15:35:04 公開日:2023-05-19
# 事象抽出のための確率バイアスによるイベントフィールドの再結合

Recouple Event Field via Probabilistic Bias for Event Extraction ( http://arxiv.org/abs/2305.11498v1 )

ライセンス: Link先を確認
Xingyu Bai, Taiqiang Wu, Han Guo, Zhe Zhao, Xuefeng Yang, Jiayi Li, Weijie Liu, Qi Ju, Weigang Guo, Yujiu Yang(参考訳) イベントトリガとイベント参照からの引数の識別と分類を目的としたイベント抽出(EE)は、事前訓練された言語モデル(PLM)の恩恵を受けている。 しかし、既存のPLMベースの手法は、イベントスキーマを理解するのに不可欠であるトリガー/引数フィールドの情報を無視している。 この目的のために,確率的再結合モデル拡張イベント抽出フレームワーク(ProCE)を提案する。 具体的には,構文関連イベントフィールドを確率バイアスとしてモデル化し,あいまいな絡み合いからイベントフィールドを明らかにする。 さらに、脳内の同じトリガ/引数の複数発生を考慮し、同一トリガ/引数の複数のフィールド間の確率的相互作用戦略を探索し、対応する明確化分布を再定義し、より潜時的な情報フィールドをキャプチャする。 eeデータセットに関する実験は、提案手法の有効性と一般化を示しています。

Event Extraction (EE), aiming to identify and classify event triggers and arguments from event mentions, has benefited from pre-trained language models (PLMs). However, existing PLM-based methods ignore the information of trigger/argument fields, which is crucial for understanding event schemas. To this end, we propose a Probabilistic reCoupling model enhanced Event extraction framework (ProCE). Specifically, we first model the syntactic-related event fields as probabilistic biases, to clarify the event fields from ambiguous entanglement. Furthermore, considering multiple occurrences of the same triggers/arguments in EE, we explore probabilistic interaction strategies among multiple fields of the same triggers/arguments, to recouple the corresponding clarified distributions and capture more latent information fields. Experiments on EE datasets demonstrate the effectiveness and generalization of our proposed approach.
翻訳日:2023-05-22 15:34:36 公開日:2023-05-19
# TreePrompt: 説明可能なビジュアルグラウンドのためのツリープロンプを学習する

TreePrompt: Learning to Compose Tree Prompts for Explainable Visual Grounding ( http://arxiv.org/abs/2305.11497v1 )

ライセンス: Link先を確認
Chenchi Zhang, Jun Xiao, Lei Chen, Jian Shao, Long Chen(参考訳) プロンプトチューニングは、大きな事前訓練されたビジョン言語モデルの知識をダウンストリームタスクに移すことで大きな成功を収め、視覚グラウンド(vg)のパフォーマンスを支配した。 しかし、ほとんどの既存のプロンプトチューニングパラダイムは、解釈性に乏しい。 本稿では,それらの解釈の貧弱さが,総合的なプロンプト生成と推論のプロセスに起因していると主張する。 総称的」とは、通常、一連のベクトルをプロンプト(即ちプロンプト生成)として直接学習し、学習されたグローバルプロンプトを使用して、vgモデルのテキスト入力(即ちプロンプト推論)を増強することを意味する。 この目的のために,treeprompt という明示的な説明能力を持つ新しいプロンプト構築パラダイムを提案する。 具体的には、まず複雑な文を木に分解し、それは人間の推論と一致する。 次に、構文木に従い、ボトムアップ方式で構造化されたプロンプトを構成する。 このステップバイステップのプロンプト構築プロセスのおかげで、各中間プロンプト(つまりツリーノード)は推論プロセスを理解することができる。 さまざまなバックボーンやベンチマークに対する大規模な改善は、TreePromptの有効性と解釈性を一貫して示しています。

Prompt tuning has achieved great success in transferring the knowledge from large pretrained vision-language models into downstream tasks, and has dominated the performance on visual grounding (VG). However, almost all existing prompt tuning paradigms suffer from poor interpretability. In this paper, we argue that their poor interpretability is attributed to the holistic prompt generation and inference process. By "holistic", we mean that they usually directly learn a set of vectors as the prompt (i.e., prompt generation), and use the learned global prompt to augment the textual input for the VG model (i.e., prompt inference). To this end, we propose a new prompt construction paradigm with explicit explainable ability, named TreePrompt. Specifically, we first deconstruct a complex sentence into a tree, that is consistent with human reasoning. Then, following the syntax tree, we compose a structured prompt in a bottom-up manner. Thanks to this step-by-step prompt construction process, each intermediate prompt (i.e., tree node) permits us to understand the reasoning process. Extensive ablations on various backbones and benchmarks consistently demonstrate the effectiveness and interpretability of our TreePrompt.
翻訳日:2023-05-22 15:34:20 公開日:2023-05-19
# ランダム化低ランク近似を用いた非凸ロバスト高次テンソル補完

Nonconvex Robust High-Order Tensor Completion Using Randomized Low-Rank Approximation ( http://arxiv.org/abs/2305.11495v1 )

ライセンス: Link先を確認
Wenjin Qin, Hailin Wang, Feng Zhang, Weijun Ma, Jianjun Wang, and Tingwen Huang(参考訳) テンソル特異値分解(T-SVD)フレームワークでは、既存の堅牢な低ランクテンソル完備化アプローチが科学や工学の分野で大きな成果を上げている。 しかしながら、これらの手法は、大規模テンソルデータを扱う場合の計算コストが高いT-SVDベースの低ランク近似を含む。 さらに、それらのほとんどは三階テンソルにのみ適用できる。 これらの問題に対して,本稿では,ランダム化手法を用いた2つの効率的な低ランクテンソル近似手法を,次数 d (d >= 3) t-svd の枠組みを用いて考案した。 そこで本研究では,高次テンソル補完法(rhtc)問題をさらに検討し,収束保証付き高速最適化アルゴリズムとともに2重非凸モデルを開発した。 我々の知る限りでは、このランダム化された低ランク近似をrhtc問題に組み込んだ最初の研究である。 大規模合成および実テンソルデータに関する実証研究は,提案手法が計算効率と推定精度の両方の観点から,他の最先端手法よりも優れていることを示している。

Within the tensor singular value decomposition (T-SVD) framework, existing robust low-rank tensor completion approaches have made great achievements in various areas of science and engineering. Nevertheless, these methods involve the T-SVD based low-rank approximation, which suffers from high computational costs when dealing with large-scale tensor data. Moreover, most of them are only applicable to third-order tensors. Against these issues, in this article, two efficient low-rank tensor approximation approaches fusing randomized techniques are first devised under the order-d (d >= 3) T-SVD framework. On this basis, we then further investigate the robust high-order tensor completion (RHTC) problem, in which a double nonconvex model along with its corresponding fast optimization algorithms with convergence guarantees are developed. To the best of our knowledge, this is the first study to incorporate the randomized low-rank approximation into the RHTC problem. Empirical studies on large-scale synthetic and real tensor data illustrate that the proposed method outperforms other state-of-the-art approaches in terms of both computational efficiency and estimated precision.
翻訳日:2023-05-22 15:33:59 公開日:2023-05-19
# 経路積分法による励起状態に対する一般化量子幾何テンソル

Generalized quantum geometric tensor for excited states using the path integral approach ( http://arxiv.org/abs/2305.11525v1 )

ライセンス: Link先を確認
Sergio B. Ju\'arez, Diego Gonzalez, Daniel Guti\'errez-Ruiz and J. David Vergara(参考訳) 量子計量テンソルとベリー曲率からなる量子幾何学テンソルは、物理系のパラメータ空間幾何学を完全に符号化する。 まず、基底状態と励起状態の両方を扱える経路積分形式論における量子幾何学的テンソルの定式化を行い、励起状態の量子相転移(ESQPT)を特徴づけるのに有用である。 この設定では、量子幾何学的テンソルを一般化し、系パラメータと位相空間座標のバリエーションを取り込む。 これにより、純度やフォン・ノイマンエントロピーのようなツールによってガウス状態の量子絡み合いに関する情報を得ることができる量子共分散行列への別のアプローチが導かれる。 第二に、経路積分形式と他の既存手法における量子幾何テンソルの定式化の等価性を示す。 さらに、いくつかの量子系に対するリッチテンソルとスカラー曲率を計算し、一般化された量子計量テンソルの幾何学的性質を深く探究し、この幾何学的情報への洞察を与える。

The quantum geometric tensor, composed of the quantum metric tensor and Berry curvature, fully encodes the parameter space geometry of a physical system. We first provide a formulation of the quantum geometrical tensor in the path integral formalism that can handle both the ground and excited states, making it useful to characterize excited state quantum phase transitions (ESQPT). In this setting, we also generalize the quantum geometric tensor to incorporate variations of the system parameters and the phase-space coordinates. This gives rise to an alternative approach to the quantum covariance matrix, from which we can get information about the quantum entanglement of Gaussian states through tools such as purity and von Neumann entropy. Second, we demonstrate the equivalence between the formulation of the quantum geometric tensor in the path integral formalism and other existing methods. Furthermore, we explore the geometric properties of the generalized quantum metric tensor in depth by calculating the Ricci tensor and scalar curvature for several quantum systems, providing insight into this geometric information.
翻訳日:2023-05-22 15:26:42 公開日:2023-05-19
# DSFNet:Occlusion-Robust 3D Dense Faceアライメントのためのデュアルスペースフュージョンネットワーク

DSFNet: Dual Space Fusion Network for Occlusion-Robust 3D Dense Face Alignment ( http://arxiv.org/abs/2305.11522v1 )

ライセンス: Link先を確認
Heyuan Li, Bo Wang, Yu Cheng, Mohan Kankanhalli, Robby T. Tan(参考訳) 重度の閉塞と大きな視角に対する感度は、既存のモノクル3D高密度顔アライメント法の使用シナリオを制限する。 最先端の3DMMベースの手法では、モデルの係数を直接回帰し、低レベルな2次元空間情報と意味情報を活用する。 本研究では,画像空間とモデル空間における3次元顔形状のモデリングが咬合と視野角の問題をどのように解決するかを実証する。 顔全体を直接予測する代わりに、まず濃密な予測により、目に見える顔領域における画像空間の特徴を回帰する。 次に,可視領域の回帰的特徴に基づいてモデル係数を予測し,モーファブルモデルから全体の顔形状に関する事前知識を活用し,可視領域を完成させる。 さらに,画像とモデル空間予測の利点を組み合わせて,制約のないシナリオにおいて高い堅牢性と精度を実現する融合ネットワークを提案する。 提案する融合モジュールにより,画像空間アプローチの利点であるオクルージョンと大きなピッチとロールビュー角だけでなく,ノイズや大きなヨーアングルにもロバストな手法が提案されている。 本手法の総合評価は,最先端手法と比較して優れた性能を示す。 3次元高密度顔アライメントタスクでは,aflw2000-3dデータセット上で3.80%のnmeを達成し,最先端手法を5.5%上回った。 コードはhttps://github.com/lhyfst/DSFNetで入手できる。

Sensitivity to severe occlusion and large view angles limits the usage scenarios of the existing monocular 3D dense face alignment methods. The state-of-the-art 3DMM-based method, directly regresses the model's coefficients, underutilizing the low-level 2D spatial and semantic information, which can actually offer cues for face shape and orientation. In this work, we demonstrate how modeling 3D facial geometry in image and model space jointly can solve the occlusion and view angle problems. Instead of predicting the whole face directly, we regress image space features in the visible facial region by dense prediction first. Subsequently, we predict our model's coefficients based on the regressed feature of the visible regions, leveraging the prior knowledge of whole face geometry from the morphable models to complete the invisible regions. We further propose a fusion network that combines the advantages of both the image and model space predictions to achieve high robustness and accuracy in unconstrained scenarios. Thanks to the proposed fusion module, our method is robust not only to occlusion and large pitch and roll view angles, which is the benefit of our image space approach, but also to noise and large yaw angles, which is the benefit of our model space method. Comprehensive evaluations demonstrate the superior performance of our method compared with the state-of-the-art methods. On the 3D dense face alignment task, we achieve 3.80% NME on the AFLW2000-3D dataset, which outperforms the state-of-the-art method by 5.5%. Code is available at https://github.com/lhyfst/DSFNet.
翻訳日:2023-05-22 15:26:23 公開日:2023-05-19
# 制御可能な画像合成のための遅延制約拡散誘導

Late-Constraint Diffusion Guidance for Controllable Image Synthesis ( http://arxiv.org/abs/2305.11520v1 )

ライセンス: Link先を確認
Chang Liu, Dong Liu(参考訳) 拡散モデルは、テキスト条件の有無にかかわらず、数語または全くの単語を与えられたフォトリアリスティック画像の合成能力を示す。 通常のユーザーやアーティストは、全体的なレイアウト、色、構造、オブジェクトの形状など、特定のガイダンスで合成画像を制御するつもりなので、これらのモデルはユーザーのニーズを十分に満たさないかもしれない。 制御可能な画像合成に拡散モデルを適用するために,拡散復調ネットワークの中間特性を正則化するためのいくつかの手法が提案されている。 本稿では, 早期制約法として知られ, 単一解法で複数の条件を扱うのに困難がある。 彼らは、多くのトレーニングコストと一般化不可能なソリューションを必要とする、特定の条件ごとに別々のモデルをトレーニングすることを意図している。 これらの問題に対処するために,我々は拡散ネットワークをそのまま残しながら,その出力が要求条件に合致するように制約するという,遅延制約という新しいアプローチを提案する。 具体的には,外部条件と拡散モデルの内部表現との相関性を確立するために,軽量条件アダプタを訓練する。 反復分別処理の間、条件付きガイダンスを対応する条件アダプタに送信してサンプリングプロセスを確立された相関で操作する。 さらに,提案手法に準拠した合成画像の品質向上を図るため,時間ステップリサンプリング法と早期停止法を用いて,導入した遅延制約戦略を導入する。 提案手法は,既存の早期制約法よりも優れ,未確認条件の一般化に優れる。

Diffusion models, either with or without text condition, have demonstrated impressive capability in synthesizing photorealistic images given a few or even no words. These models may not fully satisfy user need, as normal users or artists intend to control the synthesized images with specific guidance, like overall layout, color, structure, object shape, and so on. To adapt diffusion models for controllable image synthesis, several methods have been proposed to incorporate the required conditions as regularization upon the intermediate features of the diffusion denoising network. These methods, known as early-constraint ones in this paper, have difficulties in handling multiple conditions with a single solution. They intend to train separate models for each specific condition, which require much training cost and result in non-generalizable solutions. To address these difficulties, we propose a new approach namely late-constraint: we leave the diffusion networks unchanged, but constrain its output to be aligned with the required conditions. Specifically, we train a lightweight condition adapter to establish the correlation between external conditions and internal representations of diffusion models. During the iterative denoising process, the conditional guidance is sent into corresponding condition adapter to manipulate the sampling process with the established correlation. We further equip the introduced late-constraint strategy with a timestep resampling method and an early stopping technique, which boost the quality of synthesized image meanwhile complying with the guidance. Our method outperforms the existing early-constraint methods and generalizes better to unseen condition.
翻訳日:2023-05-22 15:25:57 公開日:2023-05-19
# アダム・スミスの公平な観察者としての人工知能道徳エージェント

Artificial intelligence moral agent as Adam Smith's impartial spectator ( http://arxiv.org/abs/2305.11519v1 )

ライセンス: Link先を確認
Nikodem Tomczak(参考訳) アダム・スミスは道徳的哲学を考案し、我々の中に公平な観客を尋問することでより良い判断を下した。 我々は、内的精神プロセスを強化し、公平なオブザーバーの役割を担う外部非人間ベースの代替ツールを使用することの可能性について議論する。 そのようなツールは、世界に関するより多くの知識を持ち、より公平であり、道徳的評価に関するより包括的な視点を提供するだろう。

Adam Smith developed a version of moral philosophy where better decisions are made by interrogating an impartial spectator within us. We discuss the possibility of using an external non-human-based substitute tool that would augment our internal mental processes and play the role of the impartial spectator. Such tool would have more knowledge about the world, be more impartial, and would provide a more encompassing perspective on moral assessment.
翻訳日:2023-05-22 15:25:32 公開日:2023-05-19
# 粒子物理学のための量子センシング

Quantum sensing for particle physics ( http://arxiv.org/abs/2305.11518v1 )

ライセンス: Link先を確認
Steven D. Bass and Michael Doser(参考訳) 量子センシングは、基礎物理学を探索するための急速に成長するアプローチであり、物質の深い構造とその相互作用を理解するために、精密な測定によってフロンティアを推し進めている。 この分野は、検出器における量子力学の特性を利用して、従来の測定技術を超える。 量子センシングが重要な役割を果たす主要な素粒子物理学のトピックは、ニュートリノの性質、基本対称性の試験(ローレンツ不変性と等価原理)、基本定数の可能な変動の探索、電気双極子モーメントの探索を含む)、ダークマターの探索、ダークエネルギーの性質に関するテストなどである。 興味深い新しいセンサー技術としては、原子干渉計、オプティメカルデバイス、そして絡み合いを含む原子と原子の時計がある。このパースペクティブは、将来の粒子物理学実験におけるこれらの技術の可能性を探り、宇宙の構造に新しい窓を開く。

Quantum sensing is a rapidly growing approach to probe fundamental physics, pushing the frontiers with precision measurements in our quest to understand the deep structure of matter and its interactions. This field uses properties of quantum mechanics in the detectors to go beyond traditional measurement techniques. Key particle physics topics where quantum sensing can play a vital role include neutrino properties, tests of fundamental symmetries (Lorentz invariance and the equivalence principle including searches for possible variations in fundamental constants as well as searches for electric dipole moments), the search for dark matter and testing ideas about the nature of dark energy. Interesting new sensor technologies include atom interferometry, optomechanical devices, and atomic and nuclear clocks including with entanglement.This Perspective explores the opportunities for these technologies in future particle physics experiments, opening new windows on the structure of the Universe.
翻訳日:2023-05-22 15:25:24 公開日:2023-05-19
# DiffuSIA:エンコーダ-デコーダテキスト拡散のためのスパイラルインタラクションアーキテクチャ

DiffuSIA: A Spiral Interaction Architecture for Encoder-Decoder Text Diffusion ( http://arxiv.org/abs/2305.11517v1 )

ライセンス: Link先を確認
Chao-Hong Tan, Jia-Chen Gu, Zhen-Hua Ling(参考訳) 拡散モデルが、深層生成モデルの新たな最先端ファミリーとして登場し、テキスト生成の有望なポテンシャルが最近注目を集めている。 既存の研究では、条件付きテキスト生成のために部分的にノーミングプロセスを持つ単一のエンコーダアーキテクチャを採用することが多いが、条件付きモデリングの柔軟性は限られている。 実際、エンコーダ-デコーダアーキテクチャは、条件や対象テキストに対する多言語およびマルチモーダル生成タスクに拡張可能な、分離可能なエンコーダとデコーダモジュールに対して、自然に柔軟である。 しかし、条件付きテキストの符号化プロセスは、ターゲットテキストの理解に欠ける。 この目的のために、エンコーダ-デコーダテキスト拡散(DiffuSIA)のためのスパイラル相互作用アーキテクチャを提案する。 具体的には、エンコーダの条件情報は拡散復号器によってキャプチャされるように設計され、デコーダの目標情報は条件エンコーダによってキャプチャされるように設計されている。 これら2種類の情報フローは、深い融合と理解のために多層的な相互作用をスパイラルに流れる。 diffusiaは、パラフレーズ、テキスト単純化、質問生成、オープンドメイン対話生成を含む4つのテキスト生成タスクで評価される。 実験結果から,DiffuSIAは従来の4つの課題すべてにおいて競合性能を達成し,提案手法の有効性と一般化能力を実証した。

Diffusion models have emerged as the new state-of-the-art family of deep generative models, and their promising potentials for text generation have recently attracted increasing attention. Existing studies mostly adopt a single encoder architecture with partially noising processes for conditional text generation, but its degree of flexibility for conditional modeling is limited. In fact, the encoder-decoder architecture is naturally more flexible for its detachable encoder and decoder modules, which is extensible to multilingual and multimodal generation tasks for conditions and target texts. However, the encoding process of conditional texts lacks the understanding of target texts. To this end, a spiral interaction architecture for encoder-decoder text diffusion (DiffuSIA) is proposed. Concretely, the conditional information from encoder is designed to be captured by the diffusion decoder, while the target information from decoder is designed to be captured by the conditional encoder. These two types of information flow run through multilayer interaction spirally for deep fusion and understanding. DiffuSIA is evaluated on four text generation tasks, including paraphrase, text simplification, question generation, and open-domain dialogue generation. Experimental results show that DiffuSIA achieves competitive performance among previous methods on all four tasks, demonstrating the effectiveness and generalization ability of the proposed method.
翻訳日:2023-05-22 15:25:06 公開日:2023-05-19
# 学習や単語アライメントを伴わない意味的差異発見のための文脈化単語ベクトルに基づく手法

Contextualized Word Vector-based Methods for Discovering Semantic Differences with No Training nor Word Alignment ( http://arxiv.org/abs/2305.11516v1 )

ライセンス: Link先を確認
Ryo Nagata, Hiroya Takamura, Naoki Otani, and Yoshifumi Kawasaki(参考訳) 本稿では,文脈化された単語ベクトルの規範に基づいて,二つのコーパスに出現する単語の意味的差異を検出する手法を提案する。 重要な考え方は、意味の範囲が平均語ベクトルのノルムに反映されるということである。 提案手法は,従来の手法と比較して,単語やコーパスに関する仮定を必要としない。 必要となるのは、文脈化された単語ベクトルの平均ベクトルとその単語タイプごとのノルムを計算することである。 しかし、それらは (i)コーパスサイズにおけるスキューの堅牢性 二 少ない単語の意味的差異を検出することができること、及び (iii)比較のために2つのコーパスのうちの1つに欠けている意味を持つ単語をピンポイントするのに有効である。 これらの利点は、母国英語のコーパスや歴史的コーパスにも見られる。

In this paper, we propose methods for discovering semantic differences in words appearing in two corpora based on the norms of contextualized word vectors. The key idea is that the coverage of meanings is reflected in the norm of its mean word vector. The proposed methods do not require the assumptions concerning words and corpora for comparison that the previous methods do. All they require are to compute the mean vector of contextualized word vectors and its norm for each word type. Nevertheless, they are (i) robust for the skew in corpus size; (ii) capable of detecting semantic differences in infrequent words; and (iii) effective in pinpointing word instances that have a meaning missing in one of the two corpora for comparison. We show these advantages for native and non-native English corpora and also for historical corpora.
翻訳日:2023-05-22 15:24:43 公開日:2023-05-19
# SAMがシャドー検出に出会ったとき

When SAM Meets Shadow Detection ( http://arxiv.org/abs/2305.11513v1 )

ライセンス: Link先を確認
Leiping Jie, Hui Zhang(参考訳) プロンプト可能な汎用オブジェクトセグメンテーションモデルとして、S segment Any Model (SAM) が最近注目され、その強力なパフォーマンスを示している。 それでも、医用画像のセグメンテーション、カモフラージュされた物体検出など、いくつかのタスクに遭遇すると、まだウォータールーを満たしている。 本報告では、探索されていない一般的なタスクであるシャドー検出についてSAMを試す。 具体的には、4つのベンチマークが選択され、広く使用されているメトリクスで評価された。 実験結果から,特に精巧なモデルと比較した場合,SAMを用いた影検出の性能は良好ではないことがわかった。 コードはhttps://github.com/LeipingJie/SAMSh.comで入手できる。

As a promptable generic object segmentation model, segment anything model (SAM) has recently attracted significant attention, and also demonstrates its powerful performance. Nevertheless, it still meets its Waterloo when encountering several tasks, e.g., medical image segmentation, camouflaged object detection, etc. In this report, we try SAM on an unexplored popular task: shadow detection. Specifically, four benchmarks were chosen and evaluated with widely used metrics. The experimental results show that the performance for shadow detection using SAM is not satisfactory, especially when comparing with the elaborate models. Code is available at https://github.com/LeipingJie/SAMSh.
翻訳日:2023-05-22 15:24:29 公開日:2023-05-19
# 絡み合いの強化:メトリクスの定義

Enriching Disentanglement: Definitions to Metrics ( http://arxiv.org/abs/2305.11512v1 )

ライセンス: Link先を確認
Yivan Zhang, Masashi Sugiyama(参考訳) 分散表現学習は、複雑なデータの変動の複数の要因を分離する難題である。 不整合表現の学習と評価のための様々な指標が提案されているが、これらの指標が真に何を定量化し、どのように比較するかは定かではない。 本研究は,一階方程式述語が与える絡み合いの定義を考察し,等式の定義を富化圏理論に基づく相溶性のある量的計量に変換するための体系的アプローチを提案する。 具体的には どのように置き換えるか (i)メートル法または分岐法との等式 (ii)順序演算による論理接続 三 集約を伴う普遍的定量化器、及び (iv)最良の近似を持つ存在量化器。 提案手法は,不整合表現抽出器の所望特性を測定するための指標を導出し,合成データ上での有効性を示す。 提案手法は,適切な評価指標を選定し,不連続表現学習のための効果的な学習アルゴリズムを設計するための実践的ガイダンスを提供する。

Disentangled representation learning is a challenging task that involves separating multiple factors of variation in complex data. Although various metrics for learning and evaluating disentangled representations have been proposed, it remains unclear what these metrics truly quantify and how to compare them. In this work, we study the definitions of disentanglement given by first-order equational predicates and introduce a systematic approach for transforming an equational definition into a compatible quantitative metric based on enriched category theory. Specifically, we show how to replace (i) equality with metric or divergence, (ii) logical connectives with order operations, (iii) universal quantifier with aggregation, and (iv) existential quantifier with the best approximation. Using this approach, we derive metrics for measuring the desired properties of a disentangled representation extractor and demonstrate their effectiveness on synthetic data. Our proposed approach provides practical guidance for researchers in selecting appropriate evaluation metrics and designing effective learning algorithms for disentangled representation learning.
翻訳日:2023-05-22 15:24:18 公開日:2023-05-19
# Terraforming - マルチエージェントピックアップとデリバリのための障害時の環境操作

Terraforming -- Environment Manipulation during Disruptions for Multi-Agent Pickup and Delivery ( http://arxiv.org/abs/2305.11510v1 )

ライセンス: Link先を確認
David Vainshtein, Yaakov Sherma, Kiril Solovey and Oren Salzman(参考訳) 自動倉庫では、在庫ポッドを指定されたワークステーションに移動させ、密集したポッドで形成された狭い通路を航行することで、移動ロボットのチームがパッケージングプロセスを満たす。 この問題は一般的にMAPD(Multi-Agent Pickup and Delivery)問題としてモデル化され、RHCR(Rolling-Horizon Collision Resolution)アルゴリズムのように、固定グラフ上のエージェントに対する衝突のない経路を繰り返し計画することで解決される。 しかし、既存のアプローチでは、エージェントは現在のタスクに対応するポッドのみを移動でき、他のポッドは(すべてのポッドが移動可能であっても)静止した障害として考慮できるという限定的な仮定となっている。 この挙動は、ポッド操作によって追加の廊下を開くことで避けられるような不要な長い経路をもたらす可能性がある。 この目的のために,エージェントが動的にポッドを移動させることの柔軟性について検討する。 我々はこの新たな問題をTerraforming MAPD (tMAPD)と呼び、それに取り組むためのRHCRベースのアプローチを開発します。 terraformの余分な柔軟性が大きな計算コストになるため、ソリューションの品質に大きな影響を与える可能性のある状況を特定することで、この機能を公平に活用します。 特に、アイテムがpodからドロップされたり、エージェントが機能不全になったりするなど、自動化された倉庫でしばしば発生する混乱に対応して、terraformを起動します。 実例では,確率的プロセスで破壊をモデル化するtMAPDの手法を用いてスループットを10%以上改善し,最大サービス時間(ドロップオフ時間とポッドのピックアップ時間の違い)を最大50%以上削減する。

In automated warehouses, teams of mobile robots fulfill the packaging process by transferring inventory pods to designated workstations while navigating narrow aisles formed by tightly packed pods. This problem is typically modeled as a Multi-Agent Pickup and Delivery (MAPD) problem, which is then solved by repeatedly planning collision-free paths for agents on a fixed graph, as in the Rolling-Horizon Collision Resolution (RHCR) algorithm. However, existing approaches make the limiting assumption that agents are only allowed to move pods that correspond to their current task, while considering the other pods as stationary obstacles (even though all pods are movable). This behavior can result in unnecessarily long paths which could otherwise be avoided by opening additional corridors via pod manipulation. To this end, we explore the implications of allowing agents the flexibility of dynamically relocating pods. We call this new problem Terraforming MAPD (tMAPD) and develop an RHCR-based approach to tackle it. As the extra flexibility of terraforming comes at a significant computational cost, we utilize this capability judiciously by identifying situations where it could make a significant impact on the solution quality. In particular, we invoke terraforming in response to disruptions that often occur in automated warehouses, e.g., when an item is dropped from a pod or when agents malfunction. Empirically, using our approach for tMAPD, where disruptions are modeled via a stochastic process, we improve throughput by over 10%, reduce the maximum service time (the difference between the drop-off time and the pickup time of a pod) by more than 50%, without drastically increasing the runtime, compared to the MAPD setting.
翻訳日:2023-05-22 15:24:02 公開日:2023-05-19
# 解釈可能な言語モデルのための連想的知識関係を考慮した単語文脈結合空間の構築

Constructing Word-Context-Coupled Space Aligned with Associative Knowledge Relations for Interpretable Language Modeling ( http://arxiv.org/abs/2305.11543v1 )

ライセンス: Link先を確認
Fanyu Wang and Zhenping Xie(参考訳) 現在の自然言語処理手法の基礎として、事前学習された言語モデルは優れた性能を達成している。 しかし、事前訓練された言語モデルにおけるディープニューラルネットワークのブラックボックス構造は、言語モデリングプロセスの解釈可能性を大幅に制限する。 言語モデリングにおけるディープニューラル表現とセマンティクス論理の結合要件を再考した後,非解釈型ニューラル表現と解釈型統計論理のアライメント処理を導入することで,Word-Context-Coupled Space(W2CSpace)を提案する。 さらに、単語と文脈レベルのセマンティクスを接続するクラスタリングプロセスも設計されている。 具体的には、単語レベルの意味論のアライメントプロセスにおいて、解釈可能な統計論理と見なされる連想知識ネットワーク(AKN)を導入する。 さらに、文脈相対距離は、事前学習されたモデルの現在の解釈不能なセマンティック表現とは大きく異なる下流分類器のセマンティック特徴として使用される。 SIGHAN, Weibo, ChnSenti など, 複数種類のデータセットに対して, 性能評価と解釈解析を行う実験を行った。 一方,機械学習モデルの解釈可能性に関する新たな評価戦略が提案されている。 実験結果によると,我々の言語モデルは,関連する最先端手法と比較して,優れた性能と信頼性の高い解釈能力が得られる。

As the foundation of current natural language processing methods, pre-trained language model has achieved excellent performance. However, the black-box structure of the deep neural network in pre-trained language models seriously limits the interpretability of the language modeling process. After revisiting the coupled requirement of deep neural representation and semantics logic of language modeling, a Word-Context-Coupled Space (W2CSpace) is proposed by introducing the alignment processing between uninterpretable neural representation and interpretable statistical logic. Moreover, a clustering process is also designed to connect the word- and context-level semantics. Specifically, an associative knowledge network (AKN), considered interpretable statistical logic, is introduced in the alignment process for word-level semantics. Furthermore, the context-relative distance is employed as the semantic feature for the downstream classifier, which is greatly different from the current uninterpretable semantic representations of pre-trained models. Our experiments for performance evaluation and interpretable analysis are executed on several types of datasets, including SIGHAN, Weibo, and ChnSenti. Wherein a novel evaluation strategy for the interpretability of machine learning models is first proposed. According to the experimental results, our language model can achieve better performance and highly credible interpretable ability compared to related state-of-the-art methods.
翻訳日:2023-05-22 15:18:03 公開日:2023-05-19
# 大規模言語モデルによる産業ドメイン固有の質問応答の性能向上

Empower Large Language Model to Perform Better on Industrial Domain-Specific Question Answering ( http://arxiv.org/abs/2305.11541v1 )