このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230519となっている論文です。

PDF登録状況(公開日: 20230519)

TitleAuthorsAbstract論文公表日・翻訳日
# デザインによる信頼できる透明性

Trustworthy Transparency by Design ( http://arxiv.org/abs/2103.10769v2 )

ライセンス: Link先を確認
Valentin Zieglmeier and Alexander Pretschner(参考訳) 個人はデータを処理するシステムに対する監視を欠いている。 これは識別と発見が難しい隠れバイアスにつながる可能性がある。 最近のデータ保護法はこれらの問題に取り組みますが、不十分です。 データに対する適切なユースケースを排除しながらも、データの誤用を防ぎません。 データ保護とデータベースのシステムとの対立は、異なる方法で解決すべきだと考えています。 データへのアクセスが与えられると、すべての使用法をデータ主題に対して透過的にすべきである。 これによりデータの主権が実現し、個人はデータ誤用による潜在的に有害な結果に対処しながら、賢明なデータ使用の恩恵を受けることができる。 我々は、技術的概念と経験的評価でこれを貢献する。 まず,ユーザ信頼と経験に関する研究を取り入れ,ソフトウェア設計のための透明性フレームワークを概念化する。 第2に,ユーザ視点を中心とした3ヶ月間のフォーカスグループ調査において,フレームワークをインスタンス化し,経験的に評価する。 私たちの透明性フレームワークは、その設計に透明性を取り入れたソフトウェア開発を可能にします。 この評価は、ユーザビリティと信頼性の要件を満たすことを示している。 提供された透明性は有益なものとして経験され、参加者はそれを力づけられていると感じます。 これは、我々のフレームワークが設計による信頼できる透明性を可能にしていることを示している。

Individuals lack oversight over systems that process their data. This can lead to discrimination and hidden biases that are hard to uncover. Recent data protection legislation tries to tackle these issues, but it is inadequate. It does not prevent data misusage while stifling sensible use cases for data. We think the conflict between data protection and increasingly data-based systems should be solved differently. When access to data is given, all usages should be made transparent to the data subjects. This enables their data sovereignty, allowing individuals to benefit from sensible data usage while addressing potentially harmful consequences of data misusage. We contribute to this with a technical concept and an empirical evaluation. First, we conceptualize a transparency framework for software design, incorporating research on user trust and experience. Second, we instantiate and empirically evaluate the framework in a focus group study over three months, centering on the user perspective. Our transparency framework enables developing software that incorporates transparency in its design. The evaluation shows that it satisfies usability and trustworthiness requirements. The provided transparency is experienced as beneficial and participants feel empowered by it. This shows that our framework enables Trustworthy Transparency by Design.
翻訳日:2023-10-24 16:00:38 公開日:2023-05-19
# Webテストにおける非同期ウェイトフレークテストの時間的修復

Time-based Repair for Asynchronous Wait Flaky Tests in Web Testing ( http://arxiv.org/abs/2305.08592v2 )

ライセンス: Link先を確認
Yu Pei (1), Jeongju Sohn (1), Sarra Habchi (2), Mike Papadakis (1) ((1) University of Luxembourg, (2) Ubisoft)(参考訳) 非同期待ちは、不安定なテストの最も一般的な根本原因の1つであり、webアプリケーションテストの主要な時間的影響要因である。 非同期待ち時間テストの特徴とwebテストにおける修正を調べるために、我々は、非同期待ちによって引き起こされる26のオープンソースプロジェクトから、49の再現性のあるテストのデータセットと、対応する開発者による修正を構築します。 これらの不安定なテストに関する調査から、約63%(49件中31件)の開発者が、ルート原因が他にある場合であっても、待ち時間に適応することで非同期なwaitflakyテストに対処できることが分かりました。 そこで本研究では,Webアプリケーションにおける非同期待ちフレキテストのための時間ベースの自動修復手法TRafを提案する。 TRafは、コードの類似性と過去の変更履歴を使用して、Webアプリケーション内の非同期呼び出し毎に適切な待ち時間を提案することで、フレキネスの問題に取り組む。 中心となる洞察は、開発者がしばしば同じ間違いを何度も犯すので、現在のコードベースや過去のコードベースに効率的な待ち時間が存在することをヒントにしている。 我々の分析によると、TRafは開発者による修正よりも、テストのフレキネスを解決するための待ち時間が短く、テストの実行時間を11.1%削減できる。 新しい待ち時間を動的にチューニングすることで、TRafはさらに実行時間を20.2%削減する。

Asynchronous waits are one of the most prevalent root causes of flaky tests and a major time-influential factor of web application testing. To investigate the characteristics of asynchronous wait flaky tests and their fixes in web testing, we build a dataset of 49 reproducible flaky tests, from 26 open-source projects, caused by asynchronous waits, along with their corresponding developer-written fixes. Our study of these flaky tests reveals that in approximately 63% of them (31 out of 49), developers addressed Asynchronous Wait flaky tests by adapting the wait time, even for cases where the root causes lie elsewhere. Based on this finding, we propose TRaf, an automated time-based repair method for asynchronous wait flaky tests in web applications. TRaf tackles the flakiness issues by suggesting a proper waiting time for each asynchronous call in a web application, using code similarity and past change history. The core insight is that as developers often make similar mistakes more than once, hints for the efficient wait time exist in the current or past codebase. Our analysis shows that TRaf can suggest a shorter wait time to resolve the test flakiness compared to developer-written fixes, reducing the test execution time by 11.1%. With additional dynamic tuning of the new wait time, TRaf further reduces the execution time by 20.2%.
翻訳日:2023-10-24 08:43:22 公開日:2023-05-19
# ファズしたらどうなる? OSS-Fuzzバグ履歴の調査

What Happens When We Fuzz? Investigating OSS-Fuzz Bug History ( http://arxiv.org/abs/2305.11433v1 )

ライセンス: Link先を確認
Brandon Keller, Andrew Meneely, Benjamin Meyers(参考訳) 背景: ソフトウェアエンジニアは、脆弱性やその他の重大なバグの予防と修正に警戒しなければならない。 このニーズを満たすために、多くのツールと技術が開発されている。 Fuzzersは、テストプログラムへのインプットを自律的に生成することによって、メモリの破損、入力ハンドリング、例外ケース、その他の問題を検出することで、時間の節約を約束する。 AIMS: この作業の目標は、OSS-Fuzzが生成したバグ履歴を分析して、開発者が品質保証を優先できるようにすることです。 具体的には,バグの寿命,学習機会,バグタイプを測定することによって,ファジィングを品質保証プラクティスとして採用した場合に何が起こったかを検討した。 方法:2022年3月12日までにOSS-Fuzzが公表した44,102件の問題を解析した。 繰り返しfuzzテストによって報告されたgitコミット範囲を、ソースコードリポジトリにトレースして、システム内にどれくらいのバグが残っているか、バグを修正した人、そして、fuzzersがこれまで見つけてきた問題の種類を特定しました。 コードを含むバグの発生時期を推定するために,バグ貢献のコミットを特定し,検出から修正までのタイムラインを測定した。 結果: oss-fuzz で検出されたバグは平均寿命が324日であったが,一度検出されたバグは,平均寿命が2日であった。 さらに、ソースコミットの著者が特定できる8,099件のうち、バグを導入した同じ著者によって、問題の半数以下(45.9%)が修正されていることがわかった。 結論: 結果から、ファジングは、製品のリリース前にミスを修正するための時間枠内のバグに対処する能力というメリットを生かしたプロジェクトに対して、ポジティブな影響を与えることができることが分かる。

BACKGROUND: Software engineers must be vigilant in preventing and correcting vulnerabilities and other critical bugs. In servicing this need, numerous tools and techniques have been developed to assist developers. Fuzzers, by autonomously generating inputs to test programs, promise to save time by detecting memory corruption, input handling, exception cases, and other issues. AIMS: The goal of this work is to empower developers to prioritize their quality assurance by analyzing the history of bugs generated by OSS-Fuzz. Specifically, we examined what has happened when a project adopts fuzzing as a quality assurance practice by measuring bug lifespans, learning opportunities, and bug types. METHOD: We analyzed 44,102 reported issues made public by OSS-Fuzz prior to March 12, 2022. We traced the Git commit ranges reported by repeated fuzz testing to the source code repositories to identify how long fuzzing bugs remained in the system, who fixes these bugs, and what types of problems fuzzers historically have found. We identified the bug-contributing commits to estimate when the bug containing code was introduced, and measure the timeline from introduction to detection to fix. RESULTS: We found that bugs detected in OSS-Fuzz have a median lifespan of 324 days, but that bugs, once detected, only remain unaddressed for a median of 2 days. Further, we found that of the 8,099 issues for which a source committing author can be identified, less than half (45.9%) of issues were fixed by the same author that introduced the bug. CONCLUSIONS: The results show that fuzzing can be used to makes a positive impact on a project that takes advantage in terms of their ability to address bugs in a time frame conducive to fixing mistakes prior to a product release.
翻訳日:2023-10-24 08:24:30 公開日:2023-05-19
# DNN4SE実験における落とし穴 : 実践状況の分析

Pitfalls in Experiments with DNN4SE: An Analysis of the State of the Practice ( http://arxiv.org/abs/2305.11556v1 )

ライセンス: Link先を確認
Sira Vegas, Sebastian Elbaum(参考訳) ソフトウェアエンジニアリングのテクニックは、バグトリージングからコード生成まで、多くのソフトウェアエンジニアリングタスクをサポートするためのディープラーニングのアプローチにますます依存しています。 このような手法の有効性を評価するために、研究者は一般に制御された実験を行う。 しかし、これらの実験を行うことは、専門的で複雑なアーキテクチャやアルゴリズムから多数のトレーニングハイパーパラメータ、進化するデータセットの選択に至るまで、関連する変数の空間の複雑さを考えると、特に困難である。 本研究は,ソフトウェア工学の最初期の会場で発行された55の論文に現れるディープニューラルネットワークに依存する技術を用いて,194の実験を地図化して実施し,一般的なトレンドと落とし穴を指摘する。 以上の結果から,ACMアーティファクトバッジを受け取った者を含む実験の大部分が,その信頼性に疑問を呈する根本的な限界があることが判明した。 More specifically, we find: weak analyses to determine that there is a true relationship between independent and dependent variables (87% of the experiments); limited control over the space of DNN relevant variables, which can render a relationship between dependent variables and treatments that may not be causal but rather correlational (100% of the experiments); and lack of specificity in terms of what are the DNN variables and their values utilized in the experiments (86% of the experiments) to define the treatments being applied, which makes it unclear whether the techniques designed are the ones being assessed, or how the sources of extraneous variation are controlled. これらの制限に対処するための実用的な推奨事項をいくつか提示します。

Software engineering techniques are increasingly relying on deep learning approaches to support many software engineering tasks, from bug triaging to code generation. To assess the efficacy of such techniques researchers typically perform controlled experiments. Conducting these experiments, however, is particularly challenging given the complexity of the space of variables involved, from specialized and intricate architectures and algorithms to a large number of training hyper-parameters and choices of evolving datasets, all compounded by how rapidly the machine learning technology is advancing, and the inherent sources of randomness in the training process. In this work we conduct a mapping study, examining 194 experiments with techniques that rely on deep neural networks appearing in 55 papers published in premier software engineering venues to provide a characterization of the state-of-the-practice, pinpointing experiments common trends and pitfalls. Our study reveals that most of the experiments, including those that have received ACM artifact badges, have fundamental limitations that raise doubts about the reliability of their findings. More specifically, we find: weak analyses to determine that there is a true relationship between independent and dependent variables (87% of the experiments); limited control over the space of DNN relevant variables, which can render a relationship between dependent variables and treatments that may not be causal but rather correlational (100% of the experiments); and lack of specificity in terms of what are the DNN variables and their values utilized in the experiments (86% of the experiments) to define the treatments being applied, which makes it unclear whether the techniques designed are the ones being assessed, or how the sources of extraneous variation are controlled. We provide some practical recommendations to address these limitations.
翻訳日:2023-10-24 08:14:34 公開日:2023-05-19
# chatgpt for us: 会話テキスト曖昧さによるchatgptのデータプライバシの保護とメンタルヘルスケア配信の拡大

ChatGPT for Us: Preserving Data Privacy in ChatGPT via Dialogue Text Ambiguation to Expand Mental Health Care Delivery ( http://arxiv.org/abs/2306.05552v1 )

ライセンス: Link先を確認
Anaelia Ovalle, Mehrab Beikzadeh, Parshan Teimouri, Kai-Wei Chang, Majid Sarrafzadeh(参考訳) 大規模言語モデルは、メンタルヘルスデリバリーの拡大に有用である。 特にChatGPTは人間のような対話を生成する能力で人気を集めている。 しかし、プライバシーやデータ所有者の懸念から、データに敏感なドメイン -- 医療に限らず – は、chatgptを使用する上での課題に直面している。 そこで本研究では,ユーザプライバシを保護したテキスト曖昧化フレームワークを提案する。 ユーザが提供するテキストによって引き起こされるストレスに対処し、プライバシ保護世代の有効性と有用性を示す。 この結果から,本来のユーザテキストが提供されていない場合でも,チャットGPTレコメンデーションは適度に有用かつ関連性が高いことが示唆された。

Large language models have been useful in expanding mental health care delivery. ChatGPT, in particular, has gained popularity for its ability to generate human-like dialogue. However, data-sensitive domains -- including but not limited to healthcare -- face challenges in using ChatGPT due to privacy and data-ownership concerns. To enable its utilization, we propose a text ambiguation framework that preserves user privacy. We ground this in the task of addressing stress prompted by user-provided texts to demonstrate the viability and helpfulness of privacy-preserved generations. Our results suggest that chatGPT recommendations are still able to be moderately helpful and relevant, even when the original user text is not provided.
翻訳日:2023-06-18 13:11:19 公開日:2023-05-19
# ファジィ双対SVMに基づく三方向不均衡学習

Three-way Imbalanced Learning based on Fuzzy Twin SVM ( http://arxiv.org/abs/2306.03885v1 )

ライセンス: Link先を確認
Wanting Cai, Mingjie Cai, Qingguo Li, Qiong Liu(参考訳) 3方向決定(3WD)は、情報システム、意思決定、医療で一般的に使用される不確実なデータを扱うための、グラニュラーコンピューティングの強力なツールである。 3方向決定は従来の粗い集合モデルで多くの研究を受ける。 しかし、その研究を拡大するために現在広く使われている機械学習の分野と組み合わされることはめったにない。 本稿では,機械学習における標準バイナリ分類モデルであるsvmと3方向決定を結びつけ,svmが改善すべき不均衡な分類問題を解決する。 新たな三方向ファジィメンバシップ関数と三方向メンバシップ(twftsvm)を備えた新しいファジィ双対支持ベクターマシンを提案する。 新たな3方向ファジィメンバシップ関数は、入力空間と特徴空間の両方における不確定データの確実性を高めるために定義され、少数サンプルに対して多数サンプルに比べて高いファジィメンバシップを割り当てる。 提案モデルの有効性を評価するため,差分不均衡比の異なる4つのデータセットの比較実験を行った。 また、不均衡比が異なるデータセットを同一データセットから導出して、提案モデルの性能をさらに評価する。 その結果,提案手法は従来のSVM法よりも優れていた。

Three-way decision (3WD) is a powerful tool for granular computing to deal with uncertain data, commonly used in information systems, decision-making, and medical care. Three-way decision gets much research in traditional rough set models. However, three-way decision is rarely combined with the currently popular field of machine learning to expand its research. In this paper, three-way decision is connected with SVM, a standard binary classification model in machine learning, for solving imbalanced classification problems that SVM needs to improve. A new three-way fuzzy membership function and a new fuzzy twin support vector machine with three-way membership (TWFTSVM) are proposed. The new three-way fuzzy membership function is defined to increase the certainty of uncertain data in both input space and feature space, which assigns higher fuzzy membership to minority samples compared with majority samples. To evaluate the effectiveness of the proposed model, comparative experiments are designed for forty-seven different datasets with varying imbalance ratios. In addition, datasets with different imbalance ratios are derived from the same dataset to further assess the proposed model's performance. The results show that the proposed model significantly outperforms other traditional SVM-based methods.
翻訳日:2023-06-11 13:39:23 公開日:2023-05-19
# 因果性の測度論的公理化

A Measure-Theoretic Axiomatisation of Causality ( http://arxiv.org/abs/2305.17139v1 )

ライセンス: Link先を確認
Junhyung Park, Simon Buchholz, Bernhard Sch\"olkopf, Krikamol Muandet(参考訳) 因果関係は幅広い研究領域において中心的な概念であるが、因果関係の公理化は広く合意されていない。 我々は因果関係を確率論の拡張として、また、ある系に介入したときに起こる「textit{What」の研究として、また、コルモゴロフの確率の測度理論的公理化を因果関係の公理化の出発点として捉えることを支持する。 この目的のために、我々は、空間の因果情報をエンコードする、遷移確率核の集まりである \textit{causal kernels} とともに確率空間からなる \textit{causal space} の概念を提案する。 提案するフレームワークは測度理論に厳格に根ざしているだけでなく,例えばサイクル,潜伏変数,確率過程など,既存のフレームワークの長年の制限にも光を当てている。

Causality is a central concept in a wide range of research areas, yet there is still no universally agreed axiomatisation of causality. We view causality both as an extension of probability theory and as a study of \textit{what happens when one intervenes on a system}, and argue in favour of taking Kolmogorov's measure-theoretic axiomatisation of probability as the starting point towards an axiomatisation of causality. To that end, we propose the notion of a \textit{causal space}, consisting of a probability space along with a collection of transition probability kernels, called \textit{causal kernels}, that encode the causal information of the space. Our proposed framework is not only rigorously grounded in measure theory, but it also sheds light on long-standing limitations of existing frameworks including, for example, cycles, latent variables and stochastic processes.
翻訳日:2023-06-04 12:01:16 公開日:2023-05-19
# Fire and Smoke Digital Twin -- 火災発生結果をモデル化するための計算フレームワーク

Fire and Smoke Digital Twin -- A computational framework for modeling fire incident outcomes ( http://arxiv.org/abs/2305.18313v1 )

ライセンス: Link先を確認
Junfeng Jiao, Ryan Hardesty Lewis, Kijin Seong, Arya Farahi, Paul Navratil, Nate Casebeer, Dev Niyogi(参考訳) 火と燃焼が粒子状物質(PM2.5)の主な原因であり、世界中の町や都市で大気の質を測る重要な指標である。 この研究は、米国の20以上の都市から活発に報告された火災や、その範囲内の地域の空気質に対する煙道や影響を予測するための、火災追跡プラットフォームを開発している。 特に、リアルタイムの追跡と予測に近づいたことで、デジタル双生児は公衆の健康を守り、火災や空気質のリスクを国民に知らせることができます。 このツールは、オースチンの3Dビルの足跡を利用して、煙の出力をシミュレートし、複雑な都市環境内での火災の煙の流出を予測する。 この研究の結果は、オースチンのフルファイア・アンド・スモーク・デジタルツインモデルを含む。 我々は、オースティン市消防局と協力して、予測の正確性を確保するとともに、都市内の空気質センサ密度が都市火災の存在を検証できないことを示した。 さらに、世界中のどの都市でもこれらの結果を再現するためのコードと方法論をリリースします。 この研究は、市民の健康と安全をよりよく保護するために、同様のデジタルツインモデルを開発し、展開する道を開く。

Fires and burning are the chief causes of particulate matter (PM2.5), a key measurement of air quality in communities and cities worldwide. This work develops a live fire tracking platform to show active reported fires from over twenty cities in the U.S., as well as predict their smoke paths and impacts on the air quality of regions within their range. Specifically, our close to real-time tracking and predictions culminates in a digital twin to protect public health and inform the public of fire and air quality risk. This tool tracks fire incidents in real-time, utilizes the 3D building footprints of Austin to simulate smoke outputs, and predicts fire incident smoke falloffs within the complex city environment. Results from this study include a complete fire and smoke digital twin model for Austin. We work in cooperation with the City of Austin Fire Department to ensure the accuracy of our forecast and also show that air quality sensor density within our cities cannot validate urban fire presence. We additionally release code and methodology to replicate these results for any city in the world. This work paves the path for similar digital twin models to be developed and deployed to better protect the health and safety of citizens.
翻訳日:2023-06-04 11:41:29 公開日:2023-05-19
# マスベースグラフとしてのメモリ:AIにおけるヒューマンメモリのシミュレーションモデルの概念的フレームワークを目指して

Memory as a Mass-based Graph: Towards a Conceptual Framework for the Simulation Model of Human Memory in AI ( http://arxiv.org/abs/2305.19274v1 )

ライセンス: Link先を確認
Mahdi Mollakazemiha, Hassan Fatzade(参考訳) 記憶のシミュレーションと人工知能の学習には、機能的アプローチと認知的アプローチの2つのアプローチがある。 第2のアプローチを考慮に入れるために必要な条件は、ミスや忘れられた経験のような観察上の事実と非常によく一致した脳活動のモデルを提供することである。 人間の記憶には、アイデンティティの構成要素、家族と故郷、生活の重要かつ決定的な出来事、そして我々の文化の数え切れないほど繰り返し受け入れられる事実を含む堅実なコアがあるので、データがよりゆるやかに露出しやすくなる。 地形差が極めて識別可能なモデルを提案することが不可欠であった。 提案するモデルでは,この地形的状況を数量に翻訳し,それがノードに帰属する。 その結果、ノード上に質量ベースの値を持つエッジ重み付きグラフとなり、知的存在に対する各原子命題の重要性が証明される。 さらに、動的に発達・変更し、連続したフェーズでは、環境からの収集された入力に応じて、エッジのノードの質量と重量を変化させる。

There are two approaches for simulating memory as well as learning in artificial intelligence; the functionalistic approach and the cognitive approach. The necessary condition to put the second approach into account is to provide a model of brain activity that contains a quite good congruence with observational facts such as mistakes and forgotten experiences. Given that human memory has a solid core that includes the components of our identity, our family and our hometown, the major and determinative events of our lives, and the countless repeated and accepted facts of our culture, the more we go to the peripheral spots the data becomes flimsier and more easily exposed to oblivion. It was essential to propose a model in which the topographical differences are quite distinguishable. In our proposed model, we have translated this topographical situation into quantities, which are attributed to the nodes. The result is an edge-weighted graph with mass-based values on the nodes which demonstrates the importance of each atomic proposition, as a truth, for an intelligent being. Furthermore, it dynamically develops and modifies, and in successive phases, it changes the mass of the nodes and weight of the edges depending on gathered inputs from the environment.
翻訳日:2023-06-04 11:10:46 公開日:2023-05-19
# 12誘導心電図分類のためのディープニューラルネットワークの一般化と微調整

Deep Neural Networks Generalization and Fine-Tuning for 12-lead ECG Classification ( http://arxiv.org/abs/2305.18592v1 )

ライセンス: Link先を確認
Aram Avetisyan, Shahane Tigranyan, Ariana Asatryan, Olga Mashkova, Sergey Skorik, Vladislav Ananev, and Yury Markin(参考訳) 深層学習法を用いた12誘導心電図(ecg)記録に基づく心疾患の診断を目的とした研究が数多く行われている。 これらの研究は通常、患者メタデータ、ECGに注釈を付ける医師の数、ECG記録のためのデバイスの種類、データ前処理技術など、サイズとパラメータの異なる特定のデータセットを使用する。 あるECGデータセットでトレーニングされた高品質なディープニューラルネットワークが、必ずしも他のデータセットや臨床設定でうまく機能しないことはよく知られている。 本稿では,特定のデータセットをさらに微調整して,さまざまなデータセット上でニューラルネットワークをトレーニングすることで,データセットに関わらず心臓病予測の品質を向上させる手法を提案する。 適用性を示すために、複数の病院の様々なECGレコードを含む大規模なプライベートデータセットTISと、比較的小さなパブリックデータセットTB-XLで異なるニューラルネットワークをトレーニングする。 大規模データセット上でネットワークをトレーニングし、別のソースから小さなデータセットに微調整することで、1つの小さなデータセットでのみトレーニングされたネットワークを上回ることを実証する。 また,深層ニューラルネットワークの汎用化によって,より多くの疾患の分類品質が向上することを示す。

Numerous studies are aimed at diagnosing heart diseases based on 12-lead electrocardiographic (ECG) records using deep learning methods. These studies usually use specific datasets that differ in size and parameters, such as patient metadata, number of doctors annotating ECGs, types of devices for ECG recording, data preprocessing techniques, etc. It is well-known that high-quality deep neural networks trained on one ECG dataset do not necessarily perform well on another dataset or clinical settings. In this paper, we propose a methodology to improve the quality of heart disease prediction regardless of the dataset by training neural networks on a variety of datasets with further fine-tuning for the specific dataset. To show its applicability, we train different neural networks on a large private dataset TIS containing various ECG records from multiple hospitals and on a relatively small public dataset PTB-XL. We demonstrate that training the networks on a large dataset and fine-tuning it on a small dataset from another source outperforms the networks trained only on one small dataset. We also show how the ability of a deep neural networks to generalize allows to improve classification quality of more diseases.
翻訳日:2023-06-04 11:08:35 公開日:2023-05-19
# パターン分類のための説明能力を有する半教師付き適応共鳴理論モデル

An Ensemble Semi-Supervised Adaptive Resonance Theory Model with Explanation Capability for Pattern Classification ( http://arxiv.org/abs/2305.14373v1 )

ライセンス: Link先を確認
Farhad Pourpanah and Chee Peng Lim and Ali Etemad and Q. M. Jonathan Wu(参考訳) ほとんどの半教師付き学習(SSL)モデルは複雑な構造と反復的なトレーニングプロセスを持ち、予測をユーザに解釈する上で困難に直面している。 これらの問題に対処するために,ネットワークの教師付き非教師付きアダプティブ共振理論(ART)ファミリを用いた新たな解釈可能なSSLモデルを提案する。 まず、SSL-ARTは教師なしファジィARTネットワークを採用し、ラベルなしサンプルを使用したプロトタイプノードを多数作成する。 次に、教師付きファジィartmap構造を利用して、確立されたプロトタイプノードをラベル付きサンプルを使用してターゲットクラスにマップする。 具体的には,プロトタイプノードと複数のクラスラベルを関連付けるために,OtMマッピング方式を考案した。 SSL-ARTの主な利点は次のとおりである。 (i)オンライン学習を行う。 (II)OtMマッピング方式による冗長プロトタイプノード数の削減、ノイズサンプルの効果の最小化、及び (iii)予測結果の解釈のための説明設備を提供する。 さらに、WESSL-ARTと呼ばれるアンサンブルSSL-ARTモデルを形成するために、重み付き投票戦略を導入する。 すべてのアンサンブルメンバー、すなわちSSL-ARTは、対応するクラスに関連するパフォーマンスに基づいて、各クラスに {\color{black}a different weight} を割り当てる。 目的は、すべてのSSL-ARTメンバに対するトレーニングデータシーケンスの効果を緩和し、WESSL-ART全体のパフォーマンスを改善することである。 18個のベンチマークデータセット、人工的に生成された3つのデータセット、実世界のケーススタディの実験結果は、パターン分類問題に取り組むためのssl-artモデルとwessl-artモデルの利点を示している。

Most semi-supervised learning (SSL) models entail complex structures and iterative training processes as well as face difficulties in interpreting their predictions to users. To address these issues, this paper proposes a new interpretable SSL model using the supervised and unsupervised Adaptive Resonance Theory (ART) family of networks, which is denoted as SSL-ART. Firstly, SSL-ART adopts an unsupervised fuzzy ART network to create a number of prototype nodes using unlabeled samples. Then, it leverages a supervised fuzzy ARTMAP structure to map the established prototype nodes to the target classes using labeled samples. Specifically, a one-to-many (OtM) mapping scheme is devised to associate a prototype node with more than one class label. The main advantages of SSL-ART include the capability of: (i) performing online learning, (ii) reducing the number of redundant prototype nodes through the OtM mapping scheme and minimizing the effects of noisy samples, and (iii) providing an explanation facility for users to interpret the predicted outcomes. In addition, a weighted voting strategy is introduced to form an ensemble SSL-ART model, which is denoted as WESSL-ART. Every ensemble member, i.e., SSL-ART, assigns {\color{black}a different weight} to each class based on its performance pertaining to the corresponding class. The aim is to mitigate the effects of training data sequences on all SSL-ART members and improve the overall performance of WESSL-ART. The experimental results on eighteen benchmark data sets, three artificially generated data sets, and a real-world case study indicate the benefits of the proposed SSL-ART and WESSL-ART models for tackling pattern classification problems.
翻訳日:2023-05-28 04:52:20 公開日:2023-05-19
# 統合失調症の予測と診断における人工知能の役割に関する調査研究

A Survey on the Role of Artificial Intelligence in the Prediction and Diagnosis of Schizophrenia ( http://arxiv.org/abs/2305.14370v1 )

ライセンス: Link先を確認
Narges Ramesh, Yasmin Ghodsi, Hamidreza Bolhasani(参考訳) 機械学習は、人間の病気や精神的な健康問題に関するおよその結論を引き出すために医療に用いられている。 従来の手法と比較して、より効率的にデータを分析し、より良い、より信頼性の高い結果を生み出すのに役立つ。 何百万人もの人々が統合失調症に罹患しており、これは慢性的な精神疾患であり、彼らの生活に大きな影響を及ぼす可能性がある。 多くの機械学習アルゴリズムは、この病気を予測し予防するために開発されており、それを持つ個人の診断に実装することができる。 本研究の目的は,脳波信号,fMRI,拡散磁気共鳴画像(dMRI)を用いて統合失調症を検出・予測するためにディープラーニングを用いた論文をレビューすることである。 選択した検索戦略により、2019年から2022年にかけて10の出版物を評価した。 すべての研究で80%以上の予測が成功した。 このレビューは研究の要約を提供し、それらの顕著な側面を比較する。 統合失調症に対する人工知能(AI)と機械学習(ML)の分野では、MLツールが利用可能であることから、大きな進歩が見られ、この分野が今後も成長し続けると楽観視している。

Machine learning is employed in healthcare to draw approximate conclusions regarding human diseases and mental health problems. Compared to older traditional methods, it can help to analyze data more efficiently and produce better and more dependable results. Millions of people are affected by schizophrenia, which is a chronic mental disorder that can significantly impact their lives. Many machine learning algorithms have been developed to predict and prevent this disease, and they can potentially be implemented in the diagnosis of individuals who have it. This survey aims to review papers that have focused on the use of deep learning to detect and predict schizophrenia using EEG signals, functional magnetic resonance imaging (fMRI), and diffusion magnetic resonance imaging (dMRI). With our chosen search strategy, we assessed ten publications from 2019 to 2022. All studies achieved successful predictions of more than 80%. This review provides summaries of the studies and compares their notable aspects. In the field of artificial intelligence (AI) and machine learning (ML) for schizophrenia, significant advances have been made due to the availability of ML tools, and we are optimistic that this field will continue to grow.
翻訳日:2023-05-28 04:51:55 公開日:2023-05-19
# 1次元$\delta$-ポテンシャル上の粒子の散乱に関する時間依存理論

Time-dependent theory of scattering a particle on a one-dimensional $\delta$-potential ( http://arxiv.org/abs/2305.15381v1 )

ライセンス: Link先を確認
N. L. Chuprikov(参考訳) 漸近極限 $t\to\mp\infty$ における時間依存schr\"{o}dinger方程式の解析解の解析に基づいて、1次元$\delta$-potential 上のスピンレス粒子の散乱に関する時間依存理論を開発した。 この過程の既存の理論とは対照的に、波動作用素は連続スペクトルの全体状態空間ではなく、シュワルツ空間$\mathcal{S}$、すなわち一粒子作用素の自己随伴性の領域において求めている。 この散乱問題では弱漸近完全性の条件のみを満たすことが示されている。 両方の波動作用素の定義の共通領域は、函数の部分空間 (運動量表現) $\mathcal{S}_{scat}=\mathcal{S}(-\infty,0]\oplus \mathcal{S} ([0,\infty )\subset \mathcal{S}$, ここでは、$\mathcal{S}([0,\infty)$ のアシンプトトが $t\to\mp\infty $ 内の正のモーメントを持つ粒子と $\mathcal {S}(-\infty,0]$ のアシンプトトが負のモーメントに対応する。 提示された理論の重要な特徴は、粒子の運動量$t\to\mp\infty$の符号による漸近的超選択則である。

It is developed a time-dependent theory of the scattering of a spinless particle on a one-dimensional $\delta$-potential, based on the analysis of analytical solutions of the time-dependent Schr\"{o}dinger equation in the asymptotic limits $t\to\mp\infty$. In contrast to the existing theory of this process, wave operators are sought not in the entire state space of the continuous spectrum, but in the Schwartz space $\mathcal{S}$, i.e. in the domain of self-adjointness of one-particle operators. It is shown that in this scattering problem only the condition of weak asymptotic completeness is satisfied. The common domain of definition of both wave operators is the subspace of functions (in momentum representation) $\mathcal{S}_{scat}=\mathcal{S}(-\infty,0]\oplus \mathcal{S} ( [0,\infty )\subset \mathcal{S}$, where the asymptotes from $\mathcal{S}([0,\infty)$ describe a particle with positive momenta within $t\to\mp\infty $, and the asymptotes from $\mathcal { S}(-\infty,0]$ correspond to negative momenta. The key feature of the presented theory is the asymptotic superselection rule by the sign of the particle's momentum at $t\to\mp\infty$.
翻訳日:2023-05-28 04:39:53 公開日:2023-05-19
# 減少カスケードモデルによるオンライン影響最大化

Online Influence Maximization under Decreasing Cascade Model ( http://arxiv.org/abs/2305.15428v1 )

ライセンス: Link先を確認
Fang Kong, Jize Xie, Baoxiang Wang, Tao Yao, Shuai Li(参考訳) カスケード減少モデル(DC)に基づくオンライン影響最大化(OIM)について検討した。 このモデルは、市場飽和の共通現象を考慮した独立カスケードモデル(IC)の一般化である。 DCでは、影響の試行が成功する確率は、以前の失敗で減少する。 この効果は、ICおよび線形しきい値モデルの下での以前のOIM作業によって無視される。 そこで本研究では,この問題を解決するためにdc-ucbアルゴリズムを提案する。 合成データと実データの両方について広範な実験を行い,アルゴリズムの有効性を示した。

We study online influence maximization (OIM) under a new model of decreasing cascade (DC). This model is a generalization of the independent cascade (IC) model by considering the common phenomenon of market saturation. In DC, the chance of an influence attempt being successful reduces with previous failures. The effect is neglected by previous OIM works under IC and linear threshold models. We propose the DC-UCB algorithm to solve this problem, which achieves a regret bound of the same order as the state-of-the-art works on the IC model. Extensive experiments on both synthetic and real datasets show the effectiveness of our algorithm.
翻訳日:2023-05-28 04:30:17 公開日:2023-05-19
# クロスリンガル擬似ラベルによる教師なしasr

Unsupervised ASR via Cross-Lingual Pseudo-Labeling ( http://arxiv.org/abs/2305.13330v1 )

ライセンス: Link先を確認
Tatiana Likhomanenko, Loren Lugosch, Ronan Collobert(参考訳) 最近の研究では、非ペアリングオーディオとテキストのみを使用して、$\textit{unsupervised}$ automatic speech recognition (asr)システムをトレーニングできることが示されている。 既存の教師なしのASRメソッドは、トレーニングにラベル付きデータを使用できないと仮定する。 ある言語にラベル付きオーディオがない場合でも、他の言語で利用可能なラベル付きデータとして$\textit{always}$がある、と我々は主張する。 文字レベルの音響モデル(AM)を他の言語から使い、新しい言語で$\textit{unsupervised}$ AMをブートストラップすることができることを示す。 は、$\textit{target}$言語でラベル付きオーディオが利用できないことを意味する。 私たちのアプローチは2つの重要な要素に基づいている。 i) $\textit{target}$ Language AM と $\textit{other}$ Language AM を使って $\textit{target}$ Language の擬似ラベル (PL) を生成する (ii)$\textit{target language model}$でこれらのPLを制約します。 例えば、英語 am から swahili への転送は 18% の wer を達成している。 また、文字ベースのwav2vec-u 2.0をljspeechの絶対werで15%上回り、ラベル付きドイツ語データを60k時間ではなく800hで上回っている。

Recent work has shown that it is possible to train an $\textit{unsupervised}$ automatic speech recognition (ASR) system using only unpaired audio and text. Existing unsupervised ASR methods assume that no labeled data can be used for training. We argue that even if one does not have any labeled audio for a given language, there is $\textit{always}$ labeled data available for other languages. We show that it is possible to use character-level acoustic models (AMs) from other languages to bootstrap an $\textit{unsupervised}$ AM in a new language. Here, "unsupervised" means no labeled audio is available for the $\textit{target}$ language. Our approach is based on two key ingredients: (i) generating pseudo-labels (PLs) of the $\textit{target}$ language using some $\textit{other}$ language AM and (ii) constraining these PLs with a $\textit{target language model}$. Our approach is effective on Common Voice: e.g. transfer of English AM to Swahili achieves 18% WER. It also outperforms character-based wav2vec-U 2.0 by 15% absolute WER on LJSpeech with 800h of labeled German data instead of 60k hours of unlabeled English data.
翻訳日:2023-05-24 23:18:49 公開日:2023-05-19
# イラクオンコロジー教育病院・国立がんセンターにおける肺がん分類におけるLeNetアルゴリズムの評価

Evaluating LeNet Algorithms in Classification Lung Cancer from Iraq-Oncology Teaching Hospital/National Center for Cancer Diseases ( http://arxiv.org/abs/2305.13333v1 )

ライセンス: Link先を確認
Jafar Abdollahi(参考訳) コンピュータ支援検出システムの進歩は、ヒト疾患の臨床的解析と意思決定に大きな影響を与えた。 肺がんは男性と女性の両方に影響を与え、死亡率を増加させるため、検査対象の多くの疾患により多くの注意を要する。 深層学習モデルであるlenetは肺腫瘍の検出に用いられている。 これらの研究は、CT画像データ(IQ-OTH/NCCD)からなる公開データセット上で実施された。 実験では畳み込みニューラルネットワーク(cnns)を用いて特徴抽出と分類を行った。 提案システムはイラク・オンコロジー教育病院・国立がん疾患センターのデータセットで評価され, 成功率は99.51%, 感度93%, 特異度95%と算出され, 既存の方法と比較して良好な結果を得た。 私たちのようなアルゴリズムの開発と検証は、日常的な病理学の実践に取り入れられるソフトウェアスイートの開発において重要な初期ステップであり、病理学者の負担軽減に役立つ可能性がある。

The advancement of computer-aided detection systems had a significant impact on clinical analysis and decision-making on human disease. Lung cancer requires more attention among the numerous diseases being examined because it affects both men and women, increasing the mortality rate. LeNet, a deep learning model, is used in this study to detect lung tumors. The studies were run on a publicly available dataset made up of CT image data (IQ-OTH/NCCD). Convolutional neural networks (CNNs) were employed in the experiment for feature extraction and classification. The proposed system was evaluated on Iraq-Oncology Teaching Hospital/National Center for Cancer Diseases datasets the success percentage was calculated as 99.51%, sensitivity (93%) and specificity (95%), and better results were obtained compared to the existing methods. Development and validation of algorithms such as ours are important initial steps in the development of software suites that could be adopted in routine pathological practices and potentially help reduce the burden on pathologists.
翻訳日:2023-05-24 23:06:18 公開日:2023-05-19
# キーワードスポッティングのための条件付きオンライン学習

Conditional Online Learning for Keyword Spotting ( http://arxiv.org/abs/2305.13332v1 )

ライセンス: Link先を確認
Michel Meneses, Bruno Iwami(参考訳) キーワードスポッティングの現代的なアプローチは、大きな静的データセット、すなわち分布を持つディープニューラルネットワークのトレーニングに依存している。 しかし、実際のアプリケーションでデータレギュレーションが変化すると、結果として得られるモデルは性能が低下する傾向にある。 本研究では,新しいデータが得られると,sgdでキーワードスポッターをデバイス上で更新する,シンプルかつ効果的なオンライン連続学習手法について検討する。 以前の研究とは対照的に、この研究は、ほとんどの商用アプリケーションをカバーする同じKWSタスクの学習に焦点を当てている。 異なるシナリオにおける動的オーディオストリームの実験では、事前訓練された小さなフットプリントモデルの性能を34%向上させる。 さらに,実験により,オンライン学習によるナイーブな実装と比較して,学習分布から引き出された小さなホールドアウトセットにおける条件付きモデル更新が破滅的な記憶を緩和することを示した。

Modern approaches for keyword spotting rely on training deep neural networks on large static datasets with i.i.d. distributions. However, the resulting models tend to underperform when presented with changing data regimes in real-life applications. This work investigates a simple but effective online continual learning method that updates a keyword spotter on-device via SGD as new data becomes available. Contrary to previous research, this work focuses on learning the same KWS task, which covers most commercial applications. During experiments with dynamic audio streams in different scenarios, that method improves the performance of a pre-trained small-footprint model by 34%. Moreover, experiments demonstrate that, compared to a naive online learning implementation, conditional model updates based on its performance in a small hold-out set drawn from the training distribution mitigate catastrophic forgetting.
翻訳日:2023-05-24 23:06:00 公開日:2023-05-19
# E-Branchformerとマルチタスク学習に基づく失語症音声認識と検出の新しいベンチマーク

A New Benchmark of Aphasia Speech Recognition and Detection Based on E-Branchformer and Multi-task Learning ( http://arxiv.org/abs/2305.13331v1 )

ライセンス: Link先を確認
Jiyang Tang, William Chen, Xuankai Chang, Shinji Watanabe, Brian MacWhinney(参考訳) 失語症は何百万もの患者の発話能力に影響を与える言語障害である。 本稿では,最先端音声認識技術を用いた失語症音声認識と検出タスクの新しいベンチマークについて述べる。 具体的には,ctc/attentionアーキテクチャに基づく2つのマルチタスク学習手法を導入し,両タスクを同時に実行する。 本システムは,中等度失語症患者に対して,最先端の話者レベル検出精度(97.3%)と平均11%のwr削減を実現する。 さらに、他の混乱した音声データベースであるDementiaBank Pitt corpusに適用することで、我々のアプローチの一般化可能性を示す。 私たちは再現性を促進するために、オールインワンのレシピと事前学習したモデルを公開します。 標準化されたデータ前処理パイプラインとオープンソースレシピにより、研究者は結果を直接比較し、混乱した音声処理の進捗を促進できる。

Aphasia is a language disorder that affects the speaking ability of millions of patients. This paper presents a new benchmark for Aphasia speech recognition and detection tasks using state-of-the-art speech recognition techniques with the AphsiaBank dataset. Specifically, we introduce two multi-task learning methods based on the CTC/Attention architecture to perform both tasks simultaneously. Our system achieves state-of-the-art speaker-level detection accuracy (97.3%), and a relative WER reduction of 11% for moderate Aphasia patients. In addition, we demonstrate the generalizability of our approach by applying it to another disordered speech database, the DementiaBank Pitt corpus. We will make our all-in-one recipes and pre-trained model publicly available to facilitate reproducibility. Our standardized data preprocessing pipeline and open-source recipes enable researchers to compare results directly, promoting progress in disordered speech processing.
翻訳日:2023-05-24 23:05:45 公開日:2023-05-19
# キャリブレーション推論のためのカーネル生成ネットワークの深い識別

Deep Discriminative to Kernel Generative Networks for Calibrated Inference ( http://arxiv.org/abs/2201.13001v5 )

ライセンス: Link先を確認
Jayanta Dey, Haoyin Xu, Ashwin De Silva, Will LeVine, Tyler M. Tomita, Ali Geisa, Tiffany Chu, Jacob Desman, Joshua T. Vogelstein(参考訳) 識別と生成の争いは、人工知能と自然知の研究の両方において深いものとなる。 我々の見解では、どちらのキャンプも相補的な価値を持っている。 そこで私たちは、それらを相乗的に組み合わせようとしました。 本稿では,深層識別ネットワークをカーネル生成ネットワークに変換する手法を提案する。 我々は,ランダムフォレストとディープネットワークの両方を含む深層モデルを用いて,アフィン活性化関数を持つポリトープの結合である内部表現を学習し,それらを一般化された分割規則として概念化する。 学習データに代表される各ポリトープのアフィン関数をガウス核に置き換えて生成モデルを作成する。 理論的には、生成モデルが対応するクラス条件密度の一貫した推定子である条件を導出する。 さらに, 提案モデルでは, 配当後部を適切に調整し, トレーニングデータを超える外挿を行い, 配当外入力を合理的に処理する。 このアプローチは、差別的および生成的境界を越えて思考とアプローチを統合する上で重要なステップであると考えています。

The fight between discriminative versus generative goes deep, in both the study of artificial and natural intelligence. In our view, both camps have complementary values. So, we sought to synergistically combine them. Here, we propose a methodology to convert deep discriminative networks to kernel generative networks. We leveraged the fact that deep models, including both random forests and deep networks, learn internal representations which are unions of polytopes with affine activation functions to conceptualize them both as generalized partitioning rules. We replace the affine function in each polytope populated by the training data with Gaussian kernel that results in a generative model. Theoretically, we derive the conditions under which our generative models are a consistent estimator of the corresponding class conditional density. Moreover, our proposed models obtain well calibrated posteriors for in-distribution, and extrapolate beyond the training data to handle out-of-distribution inputs reasonably. We believe this approach may be an important step in unifying the thinking and the approaches across the discriminative and the generative divide.
翻訳日:2023-05-24 06:34:47 公開日:2023-05-19
# トポロジカルディープラーニング: グラフデータを超えて

Topological Deep Learning: Going Beyond Graph Data ( http://arxiv.org/abs/2206.00606v3 )

ライセンス: Link先を確認
Mustafa Hajij, Ghada Zamzmi, Theodore Papamarkou, Nina Miolane, Aldo Guzm\'an-S\'aenz, Karthikeyan Natesan Ramamurthy, Tolga Birdal, Tamal K. Dey, Soham Mukherjee, Shreyas N. Samaga, Neal Livesay, Robin Walters, Paul Rosen, Michael T. Schaub(参考訳) トポロジカルディープラーニング(英: topological deep learning)は、単純複体、細胞複合体、ハイパーグラフなどのトポロジカルドメインでサポートされているデータのためのディープラーニングモデルの開発に関連する、急速に成長している分野である。 本稿では,広く採用されているトポロジ領域を含むよりリッチなデータ構造上に構築された,統一的な深層学習フレームワークを提案する。 具体的には,新しいタイプのトポロジカルドメインであるコンビナトリコンプレックスを導入する。 組合せ錯体は、特定の望ましい性質を維持するグラフの一般化と見なすことができる。 ハイパーグラフと同様に、組合せ錯体は関係の集合に制約を課さない。 さらに、コンビナート錯体は、単純および細胞複合体で見られるような階層的な高次関係の構築を可能にする。 したがって、組合せ錯体は、グラフニューラルネットワークの位相空間への一般化を促進する2つの有望な抽象化として出現したハイパーグラフとセル複合体の両方の有用な特性を一般化し結合する。 次に、組合せ錯体とそのリッチな組合せ構造と代数構造に基づいて、注意に基づくccnnを中心に、メッセージパッシング組合せ複合ニューラルネットワーク(ccnns)の一般クラスを構築した。 我々は、CCNNの置換と配向の等式を特徴付け、CCNN内のプーリングとアンプール操作を詳細に論じる。 第3に,メッシュ形状解析とグラフ学習に関わるタスクにおけるCCNNの性能を評価する。 我々の実験では、CCNNは最先端のディープラーニングモデルと比較すると、同じタスクに特化している。 本研究は,高次関係を異なるアプリケーションでディープラーニングモデルに組み込むことの利点を実証する。

Topological deep learning is a rapidly growing field that pertains to the development of deep learning models for data supported on topological domains such as simplicial complexes, cell complexes, and hypergraphs, which generalize many domains encountered in scientific computations. In this paper, we present a unifying deep learning framework built upon a richer data structure that includes widely adopted topological domains. Specifically, we first introduce combinatorial complexes, a novel type of topological domain. Combinatorial complexes can be seen as generalizations of graphs that maintain certain desirable properties. Similar to hypergraphs, combinatorial complexes impose no constraints on the set of relations. In addition, combinatorial complexes permit the construction of hierarchical higher-order relations, analogous to those found in simplicial and cell complexes. Thus, combinatorial complexes generalize and combine useful traits of both hypergraphs and cell complexes, which have emerged as two promising abstractions that facilitate the generalization of graph neural networks to topological spaces. Second, building upon combinatorial complexes and their rich combinatorial and algebraic structure, we develop a general class of message-passing combinatorial complex neural networks (CCNNs), focusing primarily on attention-based CCNNs. We characterize permutation and orientation equivariances of CCNNs, and discuss pooling and unpooling operations within CCNNs in detail. Third, we evaluate the performance of CCNNs on tasks related to mesh shape analysis and graph learning. Our experiments demonstrate that CCNNs have competitive performance as compared to state-of-the-art deep learning models specifically tailored to the same tasks. Our findings demonstrate the advantages of incorporating higher-order relations into deep learning models in different applications.
翻訳日:2023-05-24 06:15:34 公開日:2023-05-19
# 高角運動量Rydberg状態を用いた超高・超高周波数電場検出

Very-high- and ultrahigh- frequency electric field detection using high angular momentum Rydberg states ( http://arxiv.org/abs/2205.12876v3 )

ライセンス: Link先を確認
Roger C. Brown, Baran Kayim, Michael A. Viray, Abigail R. Perry, Brian C. Sawyer, and Robert Wyllie(参考訳) 我々は、電磁誘導透過を用いて240MHzから900MHz(超高周波(VHF)から超高周波(UHF))のrf電場を共振検出し、軌道角運動量$L=3\rightarrow L'=4$Rydberg遷移を測定する。 これらのライドバーグ状態は3光子赤外線励起によってアクセス可能である。 電気的に小さいレジームでrfを共鳴検出することで、これらの状態は新しい種類の原子受信機を可能にする。 主量子数 $n=45$ から $70$ に対する測度スペクトルと量子欠陥理論の予測との間にはよく一致している。 超ヘトロダイン検出装置を用いて、ノイズフロアを$n=50$で13,\mathrm {\mu V/m/\sqrt{Hz}}$と測定する。 さらに,本システムの基本感度限界を推定するために,5段階のマスター方程式解を組み込んだデータと数値モデルを利用する。

We demonstrate resonant detection of rf electric fields from 240 MHz to 900 MHz (very-high-frequency (VHF) to ultra-high-frequency (UHF)) using electromagnetically induced transparency to measure orbital angular momentum $L=3\rightarrow L'=4$ Rydberg transitions. These Rydberg states are accessible with three-photon infrared optical excitation. By resonantly detecting rf in the electrically small regime, these states enable a new class of atomic receivers. We find good agreement between measured spectra and predictions of quantum defect theory for principal quantum numbers $n=45$ to $70$. Using a super-hetrodyne detection setup, we measure the noise floor at $n=50$ to be $13\,\mathrm{\mu V/m/\sqrt{Hz}}$. Additionally, we utilize data and a numerical model incorporating a five-level master equation solution to estimate the fundamental sensitivity limits of our system.
翻訳日:2023-05-24 06:14:33 公開日:2023-05-19
# ランク可能性と線形順序問題:新しい確率的洞察とアルゴリズム

Rankability and Linear Ordering Problem: New Probabilistic Insight and Algorithms ( http://arxiv.org/abs/2208.03860v2 )

ライセンス: Link先を確認
Leszek Szczecinski and Harsh Sukheja(参考訳) m 個の対象を対比較から順序付ける線形順序問題(lop)は、多くの研究分野において一般的に適用されている。 効率的なLOPアルゴリズムを考案する努力が続けられているが、データのランク付けが可能かどうかの検証、すなわち線形順序付け問題(LOP)の解が意味のある解釈を持つ場合、より少ない注意が払われる。 この問題に対処するために、ペア比較の結果を共通のパラメータを持つベルヌーイ変数としてモデル化する確率論的視点を採用し、観測データから後者を推定する。 必要な列挙に対するブルート力のアプローチは、o(m !) の制限的な複雑性を持つので、問題を再構成し、スレーター指数を一般化するスレータースペクトルの概念を導入し、m の適度な値に対して管理可能な複雑性 o(m^3 2^m) のスペクトルを求めるアルゴリズムを考案する。さらに、アルゴリズムのマイナーな修正により、lop のすべての解を、複雑性 o(m 2^m) で見つけることができる。 数値的な例が合成データと実世界のデータに示され、アルゴリズムが公開されている。

The linear ordering problem (LOP), which consists in ordering M objects from their pairwise comparisons, is commonly applied in many areas of research. While efforts have been made to devise efficient LOP algorithms, verification of whether the data are rankable, that is, if the linear ordering problem (LOP) solutions have a meaningful interpretation, received much less attention. To address this problem, we adopt a probabilistic perspective where the results of pairwise comparisons are modeled as Bernoulli variables with a common parameter and we estimate the latter from the observed data. The brute-force approach to the required enumeration has a prohibitive complexity of O(M !), so we reformulate the problem and introduce a concept of the Slater spectrum that generalizes the Slater index, and then devise an algorithm to find the spectrum with complexity O(M^3 2^M) that is manageable for moderate values of M. Furthermore, with a minor modification of the algorithm, we are able to find all solutions of the LOP with the complexity O(M 2^M). Numerical examples are shown on synthetic and real-world data, and the algorithms are publicly available.
翻訳日:2023-05-24 05:54:04 公開日:2023-05-19
# 大規模言語モデルにおけるメタファ理解のための心理的に非定型な思考連鎖プロンプト

Psychologically-informed chain-of-thought prompts for metaphor understanding in large language models ( http://arxiv.org/abs/2209.08141v2 )

ライセンス: Link先を確認
Ben Prystawski, Paul Thibodeau, Christopher Potts, Noah D. Goodman(参考訳) 言語理解の確率論的モデルは、人間の言語使用を調査するための貴重なツールである。 しかし、特定のドメインに対して手動で設計する必要がある。 対照的に、大規模な言語モデル(llm)は、幅広いドメインにまたがるテキストに基づいて訓練されるが、確率モデルの構造や解釈性に欠ける。 本稿では,確率モデルからLLMへの構造導入にチェーン・オブ・シント・プロンプトを用いる。 我々はメタファー理解の場合にこのアプローチを探求する。 私たちの考えの連鎖は、メタファーの適切なパラフレーズを選択するために、言語モデルが潜在変数を推論し、それらの関係を推論するように促す。 選択された潜在変数と関係は、認知心理学からのメタファー理解の理論から学べる。 GPT-3の2つの大きなバージョンにこれらのプロンプトを適用し、パラフレーズ選択タスクの性能を向上させることを示す。

Probabilistic models of language understanding are valuable tools for investigating human language use. However, they need to be hand-designed for a particular domain. In contrast, large language models (LLMs) are trained on text that spans a wide array of domains, but they lack the structure and interpretability of probabilistic models. In this paper, we use chain-of-thought prompts to introduce structures from probabilistic models into LLMs. We explore this approach in the case of metaphor understanding. Our chain-of-thought prompts lead language models to infer latent variables and reason about their relationships in order to choose appropriate paraphrases for metaphors. The latent variables and relationships chosen are informed by theories of metaphor understanding from cognitive psychology. We apply these prompts to the two largest versions of GPT-3 and show that they can improve performance in a paraphrase selection task.
翻訳日:2023-05-24 05:46:35 公開日:2023-05-19
# 森Zwanzigによる深層学習の定式化

The Mori-Zwanzig formulation of deep learning ( http://arxiv.org/abs/2209.05544v4 )

ライセンス: Link先を確認
Daniele Venturi and Xiantao Li(参考訳) 我々は,モリ・ズワンツィヒ(MZ)の可逆統計力学の定式化に基づく新しいディープラーニングの定式化を開発する。 新しい定式化は、ディープニューラルネットワークと離散力学系のよく知られた双対性に基づいて構築されており、正確な線形作用素方程式を用いて、ネットワークを介して関心の量(条件予測と確率密度関数)を直接伝播することができる。 このような新しい方程式は、ディープニューラルネットワークの新しい効果的なパラメータ化を開発する出発点として利用することができ、演算子理論法によるディープラーニングを研究するための新しいフレームワークを提供する。 提案した深層学習のMZ定式化は、ニューラルネットワークの記憶という新しい概念を導入し、低次元モデリングとパラメータ化において基本的な役割を果たす。 縮約写像の理論を用いることで、ニューラルネットワークの記憶が層数で減衰するのに十分な条件を定式化する。 これにより、レイヤー毎のニューロン数(プロジェクション演算子を使用)を削減したり(メモリオペレータの減衰特性を使用して)レイヤー総数を削減したりして、ディープネットワークを浅いものに厳密に変換することが可能になります。

We develop a new formulation of deep learning based on the Mori-Zwanzig (MZ) formalism of irreversible statistical mechanics. The new formulation is built upon the well-known duality between deep neural networks and discrete dynamical systems, and it allows us to directly propagate quantities of interest (conditional expectations and probability density functions) forward and backward through the network by means of exact linear operator equations. Such new equations can be used as a starting point to develop new effective parameterizations of deep neural networks, and provide a new framework to study deep-learning via operator theoretic methods. The proposed MZ formulation of deep learning naturally introduces a new concept, i.e., the memory of the neural network, which plays a fundamental role in low-dimensional modeling and parameterization. By using the theory of contraction mappings, we develop sufficient conditions for the memory of the neural network to decay with the number of layers. This allows us to rigorously transform deep networks into shallow ones, e.g., by reducing the number of neurons per layer (using projection operators), or by reducing the total number of layers (using the decay property of the memory operator).
翻訳日:2023-05-24 05:45:33 公開日:2023-05-19
# バイスペクトルニューラルネットワーク

Bispectral Neural Networks ( http://arxiv.org/abs/2209.03416v5 )

ライセンス: Link先を確認
Sophia Sanborn, Christian Shewmake, Bruno Olshausen, Christopher Hillar(参考訳) 本稿では,信号が定義される空間上のコンパクト可換群の作用に不変な表現を学習するためのニューラルネットワークアーキテクチャであるbispectral neural network (bnns)を提案する。 このモデルは、解析的に定義された群不変量である bispectrum の ansatz を組み込んでいる -- つまり、群作用による変動のみを取り除きながら、すべての信号構造を保存できる。 ここでは,BNNが群,その既約表現,および対応する同変および完全不変写像を,データ中の対称性から純粋に学習できることを実証する。 さらに、完全性は、これらのネットワークに強い不変性に基づく逆ロバスト性を持つことを示す。 この研究は、頑健な不変表現学習のための強力な計算プリミティブとしてバイスペクトルニューラルネットワークを確立する

We present a neural network architecture, Bispectral Neural Networks (BNNs) for learning representations that are invariant to the actions of compact commutative groups on the space over which a signal is defined. The model incorporates the ansatz of the bispectrum, an analytically defined group invariant that is complete -- that is, it preserves all signal structure while removing only the variation due to group actions. Here, we demonstrate that BNNs are able to simultaneously learn groups, their irreducible representations, and corresponding equivariant and complete-invariant maps purely from the symmetries implicit in data. Further, we demonstrate that the completeness property endows these networks with strong invariance-based adversarial robustness. This work establishes Bispectral Neural Networks as a powerful computational primitive for robust invariant representation learning
翻訳日:2023-05-24 05:45:13 公開日:2023-05-19
# unrollingの呪い:最適化による差別化率

The Curse of Unrolling: Rate of Differentiating Through Optimization ( http://arxiv.org/abs/2209.13271v2 )

ライセンス: Link先を確認
Damien Scieur, Quentin Bertrand, Gauthier Gidel, Fabian Pedregosa(参考訳) 最適化問題の解のヤコビアンを計算することは、ハイパーパラメータ最適化、メタラーニング、層としての最適化、データセット蒸留など、機械学習における中心的な問題である。 unrolled differentiationは、反復解法を用いて解を近似し、計算経路を微分する一般的なヒューリスティックである。 この研究は、勾配降下とチェビシェフ法に対する二次目的に対するこのアプローチの非漸近収束率解析を提供する。 我々は、ヤコビアンの収束を保証するために、どちらかが可能であることを示す。 1)高速な漸近収束につながる大きな学習率を選択するが、アルゴリズムが任意に長いバーンインフェーズを持つことを受け入れるか、 2) より少ない学習率を選択して, 瞬時に, 緩やかに収束させる。 我々はこの現象を解脱の呪いと呼ぶ。 最後に, 最適展開戦略のための実用的な更新規則の導出やソボレフ直交多項式の分野との新たな接続など, このアプローチに対するオープンな問題について議論する。

Computing the Jacobian of the solution of an optimization problem is a central problem in machine learning, with applications in hyperparameter optimization, meta-learning, optimization as a layer, and dataset distillation, to name a few. Unrolled differentiation is a popular heuristic that approximates the solution using an iterative solver and differentiates it through the computational path. This work provides a non-asymptotic convergence-rate analysis of this approach on quadratic objectives for gradient descent and the Chebyshev method. We show that to ensure convergence of the Jacobian, we can either 1) choose a large learning rate leading to a fast asymptotic convergence but accept that the algorithm may have an arbitrarily long burn-in phase or 2) choose a smaller learning rate leading to an immediate but slower convergence. We refer to this phenomenon as the curse of unrolling. Finally, we discuss open problems relative to this approach, such as deriving a practical update rule for the optimal unrolling strategy and making novel connections with the field of Sobolev orthogonal polynomials.
翻訳日:2023-05-24 05:34:07 公開日:2023-05-19
# Floquetランダム回路を保存した$U(1)$のスロー熱化とサブ拡散

Slow thermalization and subdiffusion in $U(1)$ conserving Floquet random circuits ( http://arxiv.org/abs/2210.13429v2 )

ライセンス: Link先を確認
Cheryne Jonay, Joaquin F. Rodriguez-Nieva, and Vedika Khemani(参考訳) ランダム量子回路は、最小構造で解析的に抽出可能なカオス力学のパラダイムモデルである。 我々は、Haar random $U(1)$ charge conserving dynamicsを持つFloquetユニタリ回路の族について研究し、最小限のそのようなモデルは、スピン1/2量子ビットに作用する最寄りのゲートと、偶数ゲートの単一層を周期的に繰り返し持つ。 この極小モデルは、数値的にアクセス可能なシステムサイズではロバストに熱するものではなく、長時間の拡散の遅いダイナミクスを示す。 電荷保存回路の広いパラメータ空間における熱化ダイナミクスをマッピングし、パラメータ空間における近距離局所化および可積分レジームの観点からスローダイナミクスの起源を理解する。 対照的に、最小限のモデルへの小さな拡張は堅牢な熱化を達成するのに十分である。 (i)3箇所ゲートへの相互作用範囲の拡大 (二)各地における保存電荷に追加の制約のない量子ビットを付加することにより局所ヒルベルト空間次元を増大させる、又は (iii)2つの独立した門からなる大きなフロッケ期間を用いる。 本研究は, 幅広い話題的理論問題に関連する電荷保存回路について, 今後の数値的研究について述べる。

Random quantum circuits are paradigmatic models of minimally structured and analytically tractable chaotic dynamics. We study a family of Floquet unitary circuits with Haar random $U(1)$ charge conserving dynamics; the minimal such model has nearest-neighbor gates acting on spin 1/2 qubits, and a single layer of even/odd gates repeated periodically in time. We find that this minimal model is not robustly thermalizing at numerically accessible system sizes, and displays slow subdiffusive dynamics for long times. We map out the thermalization dynamics in a broader parameter space of charge conserving circuits, and understand the origin of the slow dynamics in terms of proximate localized and integrable regimes in parameter space. In contrast, we find that small extensions to the minimal model are sufficient to achieve robust thermalization; these include (i) increasing the interaction range to three-site gates (ii) increasing the local Hilbert space dimension by appending an additional unconstrained qubit to the conserved charge on each site, or (iii) using a larger Floquet period comprised of two independent layers of gates. Our results should inform future numerical studies of charge conserving circuits which are relevant for a wide range of topical theoretical questions.
翻訳日:2023-05-24 05:27:25 公開日:2023-05-19
# 層近傍サンプリング -GNNにおける近傍爆発の回避-

Layer-Neighbor Sampling -- Defusing Neighborhood Explosion in GNNs ( http://arxiv.org/abs/2210.13339v2 )

ライセンス: Link先を確認
Muhammed Fatih Bal{\i}n and \"Umit V. \c{C}ataly\"urek(参考訳) グラフニューラルネットワーク(GNN)は最近大きな注目を集めているが、大規模なトレーニングは依然として課題である。 この課題を軽減するため、ミニバッチトレーニングとサンプリングが併用される。 しかし、既存のアプローチは近隣の爆発現象に苦しむか、性能が悪い。 これらの問題に対処するため,LABOR (Layer-neighBOR sample) と呼ばれる新しいサンプリングアルゴリズムを提案する。 近隣サンプリング(NS)を同じファンアウトハイパーパラメータで置き換えると同時に、品質を犠牲にすることなく最大7倍の頂点をサンプリングするように設計されている。 設計により、各頂点の推定器のばらつきは、単一の頂点の観点からNSと一致する。 さらに、同じ頂点サンプリング予算制約の下では、LABORは既存のレイヤサンプリングアプローチよりも早く収束し、NSと比較して最大112倍のバッチサイズを使用することができる。

Graph Neural Networks (GNNs) have received significant attention recently, but training them at a large scale remains a challenge. Mini-batch training coupled with sampling is used to alleviate this challenge. However, existing approaches either suffer from the neighborhood explosion phenomenon or have poor performance. To address these issues, we propose a new sampling algorithm called LAyer-neighBOR sampling (LABOR). It is designed to be a direct replacement for Neighbor Sampling (NS) with the same fanout hyperparameter while sampling up to 7 times fewer vertices, without sacrificing quality. By design, the variance of the estimator of each vertex matches NS from the point of view of a single vertex. Moreover, under the same vertex sampling budget constraints, LABOR converges faster than existing layer sampling approaches and can use up to 112 times larger batch sizes compared to NS.
翻訳日:2023-05-24 05:27:02 公開日:2023-05-19
# オンライン契約設計のサンプル複雑さ

The Sample Complexity of Online Contract Design ( http://arxiv.org/abs/2211.05732v3 )

ライセンス: Link先を確認
Banghua Zhu, Stephen Bates, Zhuoran Yang, Yixin Wang, Jiantao Jiao, and Michael I. Jordan(参考訳) 隠れアクションの主エージェント問題をオンライン環境で研究する。 各ラウンドにおいて、プリンシパルは、各結果に基づいてエージェントへの支払いを規定する契約をポストする。 エージェントは自身の効用を最大化する戦略的な行動の選択を行うが、その行動はプリンシパルによって直接観測できない。 校長は結果を観察し、エージェントの行動選択からユーティリティを受け取る。 過去の観察に基づいて、プリンシパルは契約を動的に調整し、実用性を最大化する。 オンライン学習アルゴリズムを導入し、Stackelbergの後悔に対する上限を提供する。 契約空間が$[0,1]^m$の場合、Stackelbergの後悔は$\widetilde O(\sqrt{m} \cdot T^{1-1/(2m+1)})$で上界、$\Omega(T^{1-1/(m+2)})$で下界であり、$\widetilde O$は対数要素を省略する。 この結果から,指数-in-m$サンプルは最適に近い契約を学習するのに十分であり,オンライン契約設計の難易度に関する未解決問題を解き明かした。 さらに、契約がいくつかの部分集合 $\mathcal{f} \subset [0,1]^m$ に制限されるとき、空間内の球面コードの被覆数に依存し、この内在的な次元の観点で後悔を束縛する、内在的な次元$\mathcal{f}$ を定義する。 $\mathcal{F}$ が線型契約の族であるとき、Stackelberg の後悔はちょうど $\Theta(T^{2/3})$ として成長することを示す。 ユーティリティ関数が不連続であるため、コントラクト設計の問題は難しい。 この設定における離散化誤差の境界はオープンな問題である。 本稿では,ユーティリティ関数が連続した方向の限定的なセットを同定し,新しい離散化法を設計し,その誤差を限定する。 このアプローチは、コントラクトとアクション空間に制限を伴わない、最初の上限を許容する。

We study the hidden-action principal-agent problem in an online setting. In each round, the principal posts a contract that specifies the payment to the agent based on each outcome. The agent then makes a strategic choice of action that maximizes her own utility, but the action is not directly observable by the principal. The principal observes the outcome and receives utility from the agent's choice of action. Based on past observations, the principal dynamically adjusts the contracts with the goal of maximizing her utility. We introduce an online learning algorithm and provide an upper bound on its Stackelberg regret. We show that when the contract space is $[0,1]^m$, the Stackelberg regret is upper bounded by $\widetilde O(\sqrt{m} \cdot T^{1-1/(2m+1)})$, and lower bounded by $\Omega(T^{1-1/(m+2)})$, where $\widetilde O$ omits logarithmic factors. This result shows that exponential-in-$m$ samples are sufficient and necessary to learn a near-optimal contract, resolving an open problem on the hardness of online contract design. Moreover, when contracts are restricted to some subset $\mathcal{F} \subset [0,1]^m$, we define an intrinsic dimension of $\mathcal{F}$ that depends on the covering number of the spherical code in the space and bound the regret in terms of this intrinsic dimension. When $\mathcal{F}$ is the family of linear contracts, we show that the Stackelberg regret grows exactly as $\Theta(T^{2/3})$. The contract design problem is challenging because the utility function is discontinuous. Bounding the discretization error in this setting has been an open problem. In this paper, we identify a limited set of directions in which the utility function is continuous, allowing us to design a new discretization method and bound its error. This approach enables the first upper bound with no restrictions on the contract and action space.
翻訳日:2023-05-24 05:17:58 公開日:2023-05-19
# 長尺3次元検出に向けて

Towards Long-Tailed 3D Detection ( http://arxiv.org/abs/2211.08691v2 )

ライセンス: Link先を確認
Neehar Peri, Achal Dave, Deva Ramanan, Shu Kong(参考訳) 現代の自動運転車(AV)ベンチマークは、特に大規模ライダーデータに基づいて3D検出器を訓練するための高度な技術を持っている。 驚くべきことに、セマンティッククラスラベルは自然に長い尾の分布に従うが、現代のベンチマークはいくつかの共通クラス(歩行者や車など)に焦点を合わせ、多くの珍しいクラス(破片やベビーカーなど)を無視している。 しかし、安全操作を保証するためにavsは希少なクラスを検出する必要がある。 さらに、セマンティッククラスは階層内で組織されることが多い。例えば、子や建設作業員のような尾クラスは、間違いなく歩行者のサブクラスである。 しかし、このような階層的な関係はしばしば無視され、パフォーマンスの誤解を招く可能性があり、アルゴリズムによるイノベーションの機会を逃してしまう。 我々は,この課題を全クラスで評価可能なlt3d(long-tailed 3d detection)の問題を正式に検討することで解決する。 我々は,CenterPointやPointPillarsなどの一般的な3D検出コードベースを評価し,LT3Dに適応させる。 我々は,共通vs-rareクラス間の機能共有を促進する階層的損失と,階層性(例えば,子どもを大人に誤用する)に関する"理不尽な"誤りに対する部分的クレジットを与える検出指標の改善を実現した。 最後に,LiDARによるRGB画像のマルチモーダル融合により,微粒なテールクラスの精度が特に向上することが指摘されている。 全クラスで平均5%AP精度を向上し、レアクラスのAPを劇的に改善する(例:ベビーカーAPは3.6から31.6に改善)。 私たちのコードはhttps://github.com/neeharperi/LT3Dで利用可能です。

Contemporary autonomous vehicle (AV) benchmarks have advanced techniques for training 3D detectors, particularly on large-scale lidar data. Surprisingly, although semantic class labels naturally follow a long-tailed distribution, contemporary benchmarks focus on only a few common classes (e.g., pedestrian and car) and neglect many rare classes in-the-tail (e.g., debris and stroller). However, AVs must still detect rare classes to ensure safe operation. Moreover, semantic classes are often organized within a hierarchy, e.g., tail classes such as child and construction-worker are arguably subclasses of pedestrian. However, such hierarchical relationships are often ignored, which may lead to misleading estimates of performance and missed opportunities for algorithmic innovation. We address these challenges by formally studying the problem of Long-Tailed 3D Detection (LT3D), which evaluates on all classes, including those in-the-tail. We evaluate and innovate upon popular 3D detection codebases, such as CenterPoint and PointPillars, adapting them for LT3D. We develop hierarchical losses that promote feature sharing across common-vs-rare classes, as well as improved detection metrics that award partial credit to "reasonable" mistakes respecting the hierarchy (e.g., mistaking a child for an adult). Finally, we point out that fine-grained tail class accuracy is particularly improved via multimodal fusion of RGB images with LiDAR; simply put, small fine-grained classes are challenging to identify from sparse (lidar) geometry alone, suggesting that multimodal cues are crucial to long-tailed 3D detection. Our modifications improve accuracy by 5% AP on average for all classes, and dramatically improve AP for rare classes (e.g., stroller AP improves from 3.6 to 31.6)! Our code is available at https://github.com/neeharperi/LT3D
翻訳日:2023-05-24 05:08:46 公開日:2023-05-19
# 真の量子力学的レジームに対するゆらぎ定理

Fluctuation theorems for genuine quantum mechanical regimes ( http://arxiv.org/abs/2211.16179v4 )

ライセンス: Link先を確認
Thales Augusto Barbosa Pinto Silva and Renato Moreira Angelo(参考訳) 非平衡熱力学に対する議論の余地のない関連性の中で、ゆらぎ定理は量子熱力学の枠組みに一般化され、そのような文脈において仕事の概念が重要な役割を果たす。 典型的なアプローチは、仕事を確率変数として扱うことと、決定論的ダイナミクスを持つ古典的装置として作用するシステムから成り立っている。 ここでは、量子機械の分野での技術進歩に触発されて、作用系が量子領域に入ることを許されたときの揺らぎ定理の修正を求める。 これには、動的に作用するシステムを含み、実行されるシステムと非古典的な状態を共有することが含まれる。 さらに,このプログラムに機械的視点を取り入れた作業観察可能という概念を取り入れた。 単純性のために、弾性結合を持つ2粒子系の自律力学を理論的プラットフォームとして選択する。 いくつかの特定の過程に対して、量子および古典的な統計アリーナ内のいくつかのゆらぎ定理を導出する。 量子的な結果では、エンタングルメントや量子コヒーレンスとともに、慣性は機械的平衡への経路を規制するので重要な役割を担っていることが分かる。

Of indisputable relevance for non-equilibrium thermodynamics, fluctuations theorems have been generalized to the framework of quantum thermodynamics, with the notion of work playing a key role in such contexts. The typical approach consists of treating work as a stochastic variable and the acting system as an eminently classical device with a deterministic dynamics. Inspired by technological advances in the field of quantum machines, here we look for corrections to work fluctuations theorems when the acting system is allowed to enter the quantum domain. This entails including the acting system in the dynamics and letting it share a nonclassical state with the system acted upon. Moreover, favoring a mechanical perspective to this program, we employ a concept of work observable. For simplicity, we choose as theoretical platform the autonomous dynamics of a two-particle system with an elastic coupling. For some specific processes, we derive several fluctuation theorems within both the quantum and classical statistical arenas. In the quantum results, we find that, along with entanglement and quantum coherence, aspects of inertia also play a significant role since they regulate the route to mechanical equilibrium.
翻訳日:2023-05-24 04:56:59 公開日:2023-05-19
# 物理制約による温度・湿度の深層学習後処理

Physics-constrained deep learning postprocessing of temperature and humidity ( http://arxiv.org/abs/2212.04487v2 )

ライセンス: Link先を確認
Francesco Zanetta, Daniele Nerini, Tom Beucler and Mark A. Liniger(参考訳) 気象予報センターは現在、予報誤差を最小限に抑えるために統計的後処理方法に依存している。 これにより、スキルは向上するが、物理的な原則に違反したり、変数間の依存関係を無視する予測につながる可能性がある。 物理インフォームド機械学習の最近の進歩に基づき,気象学の専門知識を解析方程式の形で統合し,深層学習に基づく後処理モデルにおける物理的整合性を実現することを提案する。 スイスの表層気象のプロセス後処理に適用すると、ニューラルネットワークが熱力学状態方程式を強制することは、性能を損なうことなく、温度と湿度の物理的に一貫性のある予測をもたらすことが分かる。 その結果、後処理モデルにドメインの専門知識を組み込むことで、アプリケーション固有の要件を満たしながら天気予報情報を最適化できることが示唆された。

Weather forecasting centers currently rely on statistical postprocessing methods to minimize forecast error. This improves skill but can lead to predictions that violate physical principles or disregard dependencies between variables, which can be problematic for downstream applications and for the trustworthiness of postprocessing models, especially when they are based on new machine learning approaches. Building on recent advances in physics-informed machine learning, we propose to achieve physical consistency in deep learning-based postprocessing models by integrating meteorological expertise in the form of analytic equations. Applied to the post-processing of surface weather in Switzerland, we find that constraining a neural network to enforce thermodynamic state equations yields physically-consistent predictions of temperature and humidity without compromising performance. Our approach is especially advantageous when data is scarce, and our findings suggest that incorporating domain expertise into postprocessing models allows to optimize weather forecast information while satisfying application-specific requirements.
翻訳日:2023-05-24 04:47:16 公開日:2023-05-19
# egoのみ:エゴセントリックな行動検出

Ego-Only: Egocentric Action Detection without Exocentric Transferring ( http://arxiv.org/abs/2301.01380v2 )

ライセンス: Link先を確認
Huiyu Wang, Mitesh Kumar Singh, Lorenzo Torresani(参考訳) 我々は,エゴセントリック(一人称)ビデオにおける最先端の動作検出を可能にする最初のアプローチであるego-onlyを提案する。 2つのドメインを分ける内容と外観のギャップにもかかわらず、大規模なエキソセントリックトランスファーは、エゴセントリックなアクション検出のデフォルト選択となっている。 これは、エゴセントリックモデルがゼロから訓練することが困難であることや、異中心表現からの転送が精度の向上につながることによる。 しかし,本稿では,この共通の信念を再検討する。 2つの領域を分ける大きなギャップに動機づけられた,エゴセントリックモデルの効果的なトレーニングを可能にする戦略を提案する。 Ego-Onlyアプローチはシンプルです。 テンポラリセグメンテーション用に微調整されたマスク付きオートエンコーダでビデオ表現を訓練する。 学習した特徴は、オフザシェルフの時間的行動ローカライゼーションメソッドに送られ、アクションを検出する。 この単純なEgo-Onlyアプローチは、Ego4D、EPIC-Kitchens-100、Charades-Egoの3つのエゴセントリックなビデオデータセットに対して、極めて強力な結果をもたらす。 アクション検出とアクション認識の両方において、egoのみは、より桁違いに多くのラベルを使用する以前のベストエクソセントリックトランスファーメソッドよりも優れている。 ego-onlyは、エキソセントリックなデータなしで、これらのデータセットとベンチマークに新しい最先端の結果をセットする。

We present Ego-Only, the first approach that enables state-of-the-art action detection on egocentric (first-person) videos without any form of exocentric (third-person) transferring. Despite the content and appearance gap separating the two domains, large-scale exocentric transferring has been the default choice for egocentric action detection. This is because prior works found that egocentric models are difficult to train from scratch and that transferring from exocentric representations leads to improved accuracy. However, in this paper, we revisit this common belief. Motivated by the large gap separating the two domains, we propose a strategy that enables effective training of egocentric models without exocentric transferring. Our Ego-Only approach is simple. It trains the video representation with a masked autoencoder finetuned for temporal segmentation. The learned features are then fed to an off-the-shelf temporal action localization method to detect actions. We find that this renders exocentric transferring unnecessary by showing remarkably strong results achieved by this simple Ego-Only approach on three established egocentric video datasets: Ego4D, EPIC-Kitchens-100, and Charades-Ego. On both action detection and action recognition, Ego-Only outperforms previous best exocentric transferring methods that use orders of magnitude more labels. Ego-Only sets new state-of-the-art results on these datasets and benchmarks without exocentric data.
翻訳日:2023-05-24 04:38:27 公開日:2023-05-19
# DeepVATS: 時系列のためのディープビジュアル分析

DeepVATS: Deep Visual Analytics for Time Series ( http://arxiv.org/abs/2302.03858v2 )

ライセンス: Link先を確認
Victor Rodriguez-Fernandez, David Montalvo, Francesco Piccialli, Grzegorz J. Nalepa, David Camacho(参考訳) Deep Visual Analytics(DVA)の分野は最近、ディープラーニングがサポートするVisual Interactive Systemsの開発から生まれた。大規模なデータ処理機能を提供し、異なるデータやドメインにまたがって実装を統合するためである。 本稿では,DVAのフィールドを時系列データに組み込むオープンソースツールであるDeepVATSについて述べる。 DeepVATSは自己監督的な方法で、時系列のパッチを再構築するマスク付き時系列自動エンコーダを訓練し、そのモデルの埋め込みに含まれる知識をインタラクティブなプロットに投影する。 このツールには、データ処理パイプラインとモデルトレーニングのためのバックエンドと、インタラクティブなユーザインターフェースを備えたフロントエンドが含まれている。 本稿では,deepvatsの有用性を検証し,合成データと実データの両方で実験を行った結果について報告する。 コードはhttps://github.com/vrodriguezf/deepvatsで公開されている。

The field of Deep Visual Analytics (DVA) has recently arisen from the idea of developing Visual Interactive Systems supported by deep learning, in order to provide them with large-scale data processing capabilities and to unify their implementation across different data and domains. In this paper we present DeepVATS, an open-source tool that brings the field of DVA into time series data. DeepVATS trains, in a self-supervised way, a masked time series autoencoder that reconstructs patches of a time series, and projects the knowledge contained in the embeddings of that model in an interactive plot, from which time series patterns and anomalies emerge and can be easily spotted. The tool includes a back-end for data processing pipeline and model training, as well as a front-end with a interactive user interface. We report on results that validate the utility of DeepVATS, running experiments on both synthetic and real datasets. The code is publicly available on https://github.com/vrodriguezf/deepvats
翻訳日:2023-05-24 04:20:35 公開日:2023-05-19
# 科学文献からの機械学習教材類似による無機合成の前駆的勧告

Precursor recommendation for inorganic synthesis by machine learning materials similarity from scientific literature ( http://arxiv.org/abs/2302.02303v2 )

ライセンス: Link先を確認
Tanjin He, Haoyan Huo, Christopher J. Bartel, Zheren Wang, Kevin Cruse, Gerbrand Ceder(参考訳) 合成予測は先端材料の迅速な設計のための重要な加速器である。 しかし, 加熱中の反応の順序がよく分かっていないため, 前駆物質の選択などの合成変数を決定することは無機材料にとって困難である。 本研究では, 科学文献からテキストマイニングされた29,900種類の固体合成レシピを用いて, 新規な標的物質の合成を推奨する先駆体を自動学習する。 データ駆動アプローチは、物質の化学的類似性を学習し、人間の合成設計を模倣した、類似物質の前例的な合成手順への新しいターゲットの合成を参照する。 2,654個の未確認試験対象材料それぞれに5つの前駆体を提案する場合、推奨戦略は少なくとも82%の成功率を達成する。 我々の手法は何十年ものヒューリスティックな合成データを数学的形式で捉え、レコメンデーションエンジンや自律的な実験室での使用を可能にする。

Synthesis prediction is a key accelerator for the rapid design of advanced materials. However, determining synthesis variables such as the choice of precursor materials is challenging for inorganic materials because the sequence of reactions during heating is not well understood. In this work, we use a knowledge base of 29,900 solid-state synthesis recipes, text-mined from the scientific literature, to automatically learn which precursors to recommend for the synthesis of a novel target material. The data-driven approach learns chemical similarity of materials and refers the synthesis of a new target to precedent synthesis procedures of similar materials, mimicking human synthesis design. When proposing five precursor sets for each of 2,654 unseen test target materials, the recommendation strategy achieves a success rate of at least 82%. Our approach captures decades of heuristic synthesis data in a mathematical form, making it accessible for use in recommendation engines and autonomous laboratories.
翻訳日:2023-05-24 04:19:28 公開日:2023-05-19
# 媒介的有効容量による最寄り近傍の結合を有する低オーバーヘッド量子バス

Low Overhead Quantum Bus with Coupling beyond the Nearest Neighbor via Mediated Effective Capacitance ( http://arxiv.org/abs/2302.04284v2 )

ライセンス: Link先を確認
Yariv Yanay, Charles Tahan(参考訳) 容易な2つの量子ビットゲートの設計は、現在進行中の研究領域である。 一般的なスキームの多くは専用の制御線を必要とするが、周波数混雑の問題に弱いものもある。 本稿では,論理キュービットとして振る舞うトランスモンの連鎖を,補助キュービットの量子バスを介して結合する手法を提案する。 補助配列は浮遊トランスモンでできており、媒介的相互作用を利用することで、近接する近傍の外側で効果的なキャパシタンスを生成する。 論理キュービットは互いに直接結合しないが、遠方調整された補助配列に周波数を近づけることで結合することができる。 これにより、不要な論理キュービット間の調整可能な結合が可能となり、ゲートを3つ以上のキュービットに一度に絡めることができる。

The design of easy to operate high-fidelity two qubit gates remains an area of ongoing research. Many of the common schemes require dedicated controls lines, while others are vulnerable to issues of frequency crowding. Here, we propose a scheme for coupling a chain of transmons acting as logical qubits via a quantum bus of auxiliary qubits. The auxiliary array is made of floating transmons, and through the use of mediated interactions we generate effective capacitance between them beyond the nearest neighbor. Logical qubits are not directly coupled to each other, but they can be coupled by bringing them closer in frequency to the far-detuned auxiliary arrays. This allows for tunable coupling between non-neighboring logical qubits, and for the application of entangling gates to three or more qubits at once.
翻訳日:2023-05-24 04:08:43 公開日:2023-05-19
# ワークプレースウェルビーイング技術に労働者は満足できるのか?

Can Workers Meaningfully Consent to Workplace Wellbeing Technologies? ( http://arxiv.org/abs/2303.07242v3 )

ライセンス: Link先を確認
Shreya Chowdhary, Anna Kawakami, Mary L. Gray, Jina Suh, Alexandra Olteanu, Koustuv Saha(参考訳) 職場に展開されるセンシング技術は、個々のアクティビティやグループ間のインタラクションに関する詳細なデータを、控えめに収集することができる。 これらの技術の希望的な応用は、企業や労働者が生産性と幸福を最適化するのを助けることだ。 しかしながら、職場の本質的で構造的なパワーダイナミクスを考えると、労働者の有意義な同意を求めるのではなく、労働者活動を監視するために暗黙のコンプライアンスを受け入れるという一般的なアプローチは、プライバシと倫理的懸念を提起する。 本稿では、職場の福祉技術に同意する労働者が直面する課題を解き放つ。 15人の参加者を含む6つのマルチstakeholder focusグループ間の反省を促す仮定的なケースを用いて、これらの技術に同意する参加者の期待と能力について検討した。 We sketched possible interventions that could better support meaningful consent to workplace wellbeing technologies by drawing on critical computing and feminist scholarship -- which reframes consent from a purely individual choice to a structural condition experienced at the individual level that needs to be freely given, reversible, informed, enthusiastic, and specific (FRIES). The focus groups revealed how workers are vulnerable to "meaningless" consent -- as they may be subject to power dynamics that minimize their ability to withhold consent and may thus experience an erosion of autonomy, also undermining the value of data gathered in the name of "wellbeing." 有意義な同意を得るために、参加者は技術の変更と技術を取り巻く政策や実践を望んでいた。 労働者が職場の幸福技術(チャリエンス)に有意義に同意することを妨げるもの(インターベンション)のマッピングは、意味のある同意の欠如が社会技術的解決を必要とする構造的な問題であることを示している。

Sensing technologies deployed in the workplace can unobtrusively collect detailed data about individual activities and group interactions that are otherwise difficult to capture. A hopeful application of these technologies is that they can help businesses and workers optimize productivity and wellbeing. However, given the workplace's inherent and structural power dynamics, the prevalent approach of accepting tacit compliance to monitor work activities rather than seeking workers' meaningful consent raises privacy and ethical concerns. This paper unpacks the challenges workers face when consenting to workplace wellbeing technologies. Using a hypothetical case to prompt reflection among six multi-stakeholder focus groups involving 15 participants, we explored participants' expectations and capacity to consent to these technologies. We sketched possible interventions that could better support meaningful consent to workplace wellbeing technologies by drawing on critical computing and feminist scholarship -- which reframes consent from a purely individual choice to a structural condition experienced at the individual level that needs to be freely given, reversible, informed, enthusiastic, and specific (FRIES). The focus groups revealed how workers are vulnerable to "meaningless" consent -- as they may be subject to power dynamics that minimize their ability to withhold consent and may thus experience an erosion of autonomy, also undermining the value of data gathered in the name of "wellbeing." To meaningfully consent, participants wanted changes to the technology and to the policies and practices surrounding the technology. Our mapping of what prevents workers from meaningfully consenting to workplace wellbeing technologies (challenges) and what they require to do so (interventions) illustrates how the lack of meaningful consent is a structural problem requiring socio-technical solutions.
翻訳日:2023-05-24 03:39:43 公開日:2023-05-19
# 等尺テンソルネットワーク状態のエネルギー最適化におけるバレンプレートの存在と勾配のスケーリング

Absence of barren plateaus and scaling of gradients in the energy optimization of isometric tensor network states ( http://arxiv.org/abs/2304.00161v2 )

ライセンス: Link先を確認
Thomas Barthel, Qiang Miao(参考訳) 減衰勾配は高次元最適化問題にかなりの障害を与える。 ここでは、古典的コンピュータや量子コンピュータ上の変分量子固有解器の形で研究できる、広いハミルトニアンを持つ量子多体系のエネルギー最小化問題を考察する。 バレン高原は、エネルギー勾配の平均振幅がシステムサイズの増加とともに指数関数的に減少するシナリオに対応する。 これは例えば、量子ニューラルネットワークやブロックウォール量子回路において、深さがシステムサイズで多項式的に増加するときに発生する。 ここでは,行列積状態,木テンソルネットワーク,マルチスケールエンタングルメント再正規化アンサッツに対する変分最適化問題には不規則な高原がないことを示す。 勾配分散の派生スケーリング特性は、ランダム初期化テンソルネットワーク状態(tns)のトレーサビリティを解析的に保証し、特定の初期化スキームを動機付ける。 適切な表現では、TNSをパラメトリケートするユニタリテンソルは、均一なハール測度に従ってサンプリングされる。 解析的評価を単純化する勾配に基づく最適化のリーマン的定式化を用いる。

Vanishing gradients can pose substantial obstacles for high-dimensional optimization problems. Here we consider energy minimization problems for quantum many-body systems with extensive Hamiltonians, which can be studied on classical computers or in the form of variational quantum eigensolvers on quantum computers. Barren plateaus correspond to scenarios where the average amplitude of the energy gradient decreases exponentially with increasing system size. This occurs, for example, for quantum neural networks and for brickwall quantum circuits when the depth increases polynomially in the system size. Here we prove that the variational optimization problems for matrix product states, tree tensor networks, and the multiscale entanglement renormalization ansatz are free of barren plateaus. The derived scaling properties for the gradient variance provide an analytical guarantee for the trainability of randomly initialized tensor network states (TNS) and motivate certain initialization schemes. In a suitable representation, unitary tensors that parametrize the TNS are sampled according to the uniform Haar measure. We employ a Riemannian formulation of the gradient based optimizations which simplifies the analytical evaluation.
翻訳日:2023-05-24 03:33:37 公開日:2023-05-19
# MEGA: 生成AIの多言語評価

MEGA: Multilingual Evaluation of Generative AI ( http://arxiv.org/abs/2303.12528v3 )

ライセンス: Link先を確認
Kabir Ahuja and Harshita Diddee and Rishav Hada and Millicent Ochieng and Krithika Ramesh and Prachi Jain and Akshay Nambi and Tanuja Ganu and Sameer Segal and Maxamed Axmed and Kalika Bali and Sunayana Sitaram(参考訳) 生成AIモデルは、言語理解、推論、言語生成など、多くの自然言語処理タスクにおいて印象的なパフォーマンスを持つ。 今日のAIコミュニティから求められている最も重要な質問の1つは、これらのモデルの能力と限界についてであり、生成的AIを評価することが非常に難しいことは明らかである。 生成型大言語モデル(llm)の研究のほとんどは英語に限られており、これらのモデルが他言語をいかに理解し生成できるかは不明である。 そこで本研究では,標準NLPベンチマークのモデル評価を行うジェネレーティブLLMsMEGAの総合ベンチマークを行い,8つのタスクと33の言語を網羅した。 また, 生成型LLMの性能を, これらのタスクにおける非自己回帰モデル(SOTA)と比較し, 生成型LLMと比較して, 生成型モデルの性能について検討した。 本稿では, 言語間でのモデルの性能を徹底的に分析し, 生成LDMが現在すべての言語に最適でない理由について論じる。 我々は,多言語設定におけるジェネレーティブLLMの評価フレームワークを作成し,今後の発展に向けての方向性を提供する。

Generative AI models have impressive performance on many Natural Language Processing tasks such as language understanding, reasoning and language generation. One of the most important questions that is being asked by the AI community today is about the capabilities and limits of these models, and it is clear that evaluating generative AI is very challenging. Most studies on generative Large Language Models (LLMs) are restricted to English and it is unclear how capable these models are at understanding and generating other languages. We present the first comprehensive benchmarking of generative LLMs - MEGA, which evaluates models on standard NLP benchmarks, covering 8 diverse tasks and 33 typologically diverse languages. We also compare the performance of generative LLMs to State of the Art (SOTA) non-autoregressive models on these tasks to determine how well generative models perform compared to the previous generation of LLMs. We present a thorough analysis of the performance of models across languages and discuss some of the reasons why generative LLMs are currently not optimal for all languages. We create a framework for evaluating generative LLMs in the multilingual setting and provide directions for future progress in the field.
翻訳日:2023-05-24 03:30:40 公開日:2023-05-19
# なぜ一歩ずつ考えるのか? 経験の局所性から推論が現れる

Why think step by step? Reasoning emerges from the locality of experience ( http://arxiv.org/abs/2304.03843v2 )

ライセンス: Link先を確認
Ben Prystawski, Michael Y. Li, Noah D. Goodman(参考訳) 人間は力強く神秘的な能力を持っている。 純粋に精神的な一連のステップを通じて作業することで、世界から追加のデータが得られていないにもかかわらず、直接的に行うことができない推論が可能になる。 同様に、大きな言語モデルが質問に答える前に一連の中間段階(思考の連鎖)を生成するとき、彼らはしばしば他のものよりも優れた答えを生み出す。 言語モデルにおいて連鎖的推論が有用である理由と方法について検討し,相互に強い影響を与える変数の局所クラスタからデータトレーニングを行う場合,推論が有効であるという仮説を検証した。 これらの訓練条件は、訓練中に一緒に見られなかった変数間の関係を推定するために、正確な局所推論の連鎖を可能にする。 連鎖構造確率モデルから局所サンプルを用いて学習した自己回帰密度推定器の簡単な場合において、中間変数による推論が推論を改善する「推論ギャップ」が存在することを証明した。 次に、より複雑なモデルで経験的に仮説を検証し、ベイズネットのサンプルに対して自己回帰言語モデルを訓練するが、各サンプルに変数のサブセットのみを含む。 我々は言語モデルの条件付き確率を中間的な推論ステップと一致させる能力をテストし、中間のステップが変数間の依存関係に関して局所的に構造化されている場合にのみ有効であること、局所的な構造化された観察と推論の組み合わせが全ての変数のトレーニングよりもデータ効率が高いことを発見した。 本研究は,学習データの局所的統計構造に,段階別推論の有効性が深く根ざしていることを示す。

Humans have a powerful and mysterious capacity to reason. By working through a series of purely mental steps, we can make inferences we would not be capable of making directly -- despite the fact that we get no additional data from the world. Similarly, when large language models generate a series of intermediate steps (a chain of thought) before answering a question, they often produce better answers than they otherwise would. We investigate why and how chain-of-thought reasoning is useful in language models, testing the hypothesis that reasoning is effective when training data consists of local clusters of variables that influence each other strongly. These training conditions enable the chaining of accurate local inferences in order to estimate relationships between variables that were not seen together in training. We prove that there will exist a "reasoning gap", where reasoning through intermediate variables improves inference, for the simple case of an autoregressive density estimator trained on local samples from a chain-structured probabilistic model. We then test our hypothesis empirically in more complex models, training an autoregressive language model on samples from Bayes nets but only including a subset of variables in each sample. We test language models' ability to match conditional probabilities with and without intermediate reasoning steps, finding that intermediate steps are only helpful when the training data is locally structured with respect to dependencies between variables and that the combination of locally-structured observations and reasoning is much more data-efficient than training on all variables. Our results illustrate how the effectiveness of reasoning step by step is rooted in the local statistical structure of the training data.
翻訳日:2023-05-24 03:21:41 公開日:2023-05-19
# LaMP: 大きな言語モデルがパーソナライゼーションに出会ったとき

LaMP: When Large Language Models Meet Personalization ( http://arxiv.org/abs/2304.11406v2 )

ライセンス: Link先を確認
Alireza Salemi, Sheshera Mysore, Michael Bendersky, Hamed Zamani(参考訳) 本稿では、自然言語理解と生成の現状におけるパーソナライズの重要性を強調し、パーソナライズされた出力を生成するための言語モデルのトレーニングと評価のための新しいベンチマークであるLaMPベンチマークを紹介する。 LaMPは、さまざまな言語タスクと、各ユーザプロファイルに対する複数のエントリを備えた総合的な評価フレームワークを提供する。 それは7つのパーソナライズされたタスクで構成され、3つの分類と4つのテキスト生成タスクにまたがる。 また,ユーザプロファイルからパーソナライズされた項目を検索し,大規模言語モデルのためのパーソナライズされたプロンプトを構築する検索拡張手法を提案する。 ベースラインゼロショットモデルと微調整モデルにより、プロファイル情報に影響を及ぼさないプロファイル拡張を用いたLMの方が、プロファイル情報よりも優れていることを示す。

This paper highlights the importance of personalization in the current state of natural language understanding and generation and introduces the LaMP benchmark -- a novel benchmark for training and evaluating language models for producing personalized outputs. LaMP offers a comprehensive evaluation framework with diverse language tasks and multiple entries for each user profile. It consists of seven personalized tasks, spanning three classification and four text generation tasks. We also propose a retrieval augmentation approach that retrieves personalized items from user profiles to construct personalized prompts for large language models. Our baseline zero-shot and fine-tuned model results indicate that LMs utilizing profile augmentation outperform their counterparts that do not factor in profile information.
翻訳日:2023-05-24 03:10:40 公開日:2023-05-19
# IDQL: 拡散ポリシを用いたアクタクリティカルなQ-ラーニング

IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion Policies ( http://arxiv.org/abs/2304.10573v2 )

ライセンス: Link先を確認
Philippe Hansen-Estruch, Ilya Kostrikov, Michael Janner, Jakub Grudzien Kuba, Sergey Levine(参考訳) 効果的なオフラインRLメソッドは、配布外アクションを適切に処理する必要がある。 Implicit Q-learning(IQL)は、修正されたBellmanバックアップを通じてデータセットアクションのみを使用して、Q-関数をトレーニングすることで、この問題に対処する。 しかしながら、この暗黙的に訓練されたq関数で表される値が実際にどのポリシーで達成されるのかは不明である。 本稿では,批判対象を一般化し,行動規範化された暗黙的アクタと接続することにより,iqlをアクタ批判的手法として再解釈する。 この一般化は、誘導されたアクターが、このトレードオフの性質を決定する特定の損失選択とともに、行動方針からの報酬の最大化と分散のバランスを示す。 特に、このアクターは複雑でマルチモーダルな特性を示し、条件付きガウス型アクターが以前の手法で使われるアドバンテージ重み付け回帰 (awr) に適合する問題を提案する。 代わりに,拡散パラメータ化行動ポリシーのサンプルと,評価者から計算した重みを用いて,目的とする政策の標本化を重要視する。 一般的なiql批判とポリシ抽出法を組み合わせた,暗黙的拡散q-learning(idql)を導入する。 IDQLは、IQLの実装の容易さを維持しながら、以前のオフラインRLメソッドよりも優れ、ハイパーパラメータに対する堅牢性を示している。 コードはhttps://github.com/philippe-eecs/idqlで入手できる。

Effective offline RL methods require properly handling out-of-distribution actions. Implicit Q-learning (IQL) addresses this by training a Q-function using only dataset actions through a modified Bellman backup. However, it is unclear which policy actually attains the values represented by this implicitly trained Q-function. In this paper, we reinterpret IQL as an actor-critic method by generalizing the critic objective and connecting it to a behavior-regularized implicit actor. This generalization shows how the induced actor balances reward maximization and divergence from the behavior policy, with the specific loss choice determining the nature of this tradeoff. Notably, this actor can exhibit complex and multimodal characteristics, suggesting issues with the conditional Gaussian actor fit with advantage weighted regression (AWR) used in prior methods. Instead, we propose using samples from a diffusion parameterized behavior policy and weights computed from the critic to then importance sampled our intended policy. We introduce Implicit Diffusion Q-learning (IDQL), combining our general IQL critic with the policy extraction method. IDQL maintains the ease of implementation of IQL while outperforming prior offline RL methods and demonstrating robustness to hyperparameters. Code is available at https://github.com/philippe-eecs/IDQL.
翻訳日:2023-05-24 03:10:27 公開日:2023-05-19
# MEGABYTE:マルチスケールトランスフォーマーによる数百万バイトシーケンスの予測

MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers ( http://arxiv.org/abs/2305.07185v2 )

ライセンス: Link先を確認
Lili Yu, D\'aniel Simig, Colin Flaherty, Armen Aghajanyan, Luke Zettlemoyer, Mike Lewis(参考訳) オートレグレッシブトランスフォーマーは短いシーケンスの素晴らしいモデルだが、高解像度画像、ポッドキャスト、コード、本といった長いシーケンスにはほとんどスケールしない。 我々は100万バイト以上のシーケンスのエンドツーエンドの微分可能モデリングを可能にするマルチスケールデコーダアーキテクチャであるmegabyteを提案した。 Megabyteはパッチにシーケンスを分割し、パッチ内のローカルサブモデルとパッチ間のグローバルモデルを使用する。 これにより、サブクアクラティックな自己アテンション、同じ計算のためのはるかに大きなフィードフォワード層、デコード時の並列性の改善 -- トレーニングと生成の両方のコスト削減によるパフォーマンス向上が可能になる。 大規模な実験により、Megabyteはバイトレベルモデルと長文言語モデリングのサブワードモデルとの競合、ImageNetの最先端密度推定、生ファイルからのオーディオのモデル化を可能にしている。 これらの結果は、トークン化のない自己回帰配列モデリングを大規模に実現する。

Autoregressive transformers are spectacular models for short sequences but scale poorly to long sequences such as high-resolution images, podcasts, code, or books. We proposed Megabyte, a multi-scale decoder architecture that enables end-to-end differentiable modeling of sequences of over one million bytes. Megabyte segments sequences into patches and uses a local submodel within patches and a global model between patches. This enables sub-quadratic self-attention, much larger feedforward layers for the same compute, and improved parallelism during decoding -- unlocking better performance at reduced cost for both training and generation. Extensive experiments show that Megabyte allows byte-level models to perform competitively with subword models on long context language modeling, achieve state-of-the-art density estimation on ImageNet, and model audio from raw files. Together, these results establish the viability of tokenization-free autoregressive sequence modeling at scale.
翻訳日:2023-05-24 02:42:33 公開日:2023-05-19
# ST-GIN:時空間グラフアテンションと双方向再帰型ニューラルネットを用いた交通データインプットの不確かさ定量化手法

ST-GIN: An Uncertainty Quantification Approach in Traffic Data Imputation with Spatio-temporal Graph Attention and Bidirectional Recurrent United Neural Networks ( http://arxiv.org/abs/2305.06480v2 )

ライセンス: Link先を確認
Zepu Wang, Dingyi Zhuang, Yankai Li, Jinhua Zhao, Peng Sun(参考訳) 交通データは、インテリジェント交通システムにおける研究と応用の両方において、基本的な要素となっている。 しかし、ループ検出器や類似のソースから収集された実世界の輸送データは、しばしば、関連するアプリケーションや研究に悪影響を及ぼすような欠落値(MV)を含んでいる。 この不完全なデータを破棄する代わりに、数値統計、テンソル分解、深層学習技術を通じて、これらの欠落した値を復元しようと試みてきた。 本稿では,欠落データに対する革新的な深層学習手法を提案する。 トラフィックデータに存在する空間的相関を捉えるためにグラフアテンションアーキテクチャを用い、双方向ニューラルネットワークを用いて時間的情報を学ぶ。 実験の結果,提案手法は他のベンチマーク手法よりも優れており,その有効性が示された。

Traffic data serves as a fundamental component in both research and applications within intelligent transportation systems. However, real-world transportation data, collected from loop detectors or similar sources, often contain missing values (MVs), which can adversely impact associated applications and research. Instead of discarding this incomplete data, researchers have sought to recover these missing values through numerical statistics, tensor decomposition, and deep learning techniques. In this paper, we propose an innovative deep-learning approach for imputing missing data. A graph attention architecture is employed to capture the spatial correlations present in traffic data, while a bidirectional neural network is utilized to learn temporal information. Experimental results indicate that our proposed method outperforms all other benchmark techniques, thus demonstrating its effectiveness.
翻訳日:2023-05-24 02:41:49 公開日:2023-05-19
# 脳にインスパイアされた機械的解釈性のためのモジュラートレーニング

Seeing is Believing: Brain-Inspired Modular Training for Mechanistic Interpretability ( http://arxiv.org/abs/2305.08746v2 )

ライセンス: Link先を確認
Ziming Liu, Eric Gan, Max Tegmark(参考訳) ニューラルネットワークをよりモジュール化し、解釈可能にする手法であるbimt(brain-inspired modular training)を紹介する。 脳に触発されて、bimtはニューロンを幾何学的な空間に埋め込み、各ニューロン接続の長さに比例するコストで損失関数を増強する。 BIMTは,多くの単純なタスクに有用なモジュール型ニューラルネットワークを発見し,シンボル式における構成構造,解釈可能な決定境界,分類のための特徴,アルゴリズムデータセットにおける数学的構造を明らかにする。 裸眼でモジュールを直接見る能力は、プローブや介入、あらゆる重みを見つめるといった現在の機械的解釈可能性戦略を補完することができる。

We introduce Brain-Inspired Modular Training (BIMT), a method for making neural networks more modular and interpretable. Inspired by brains, BIMT embeds neurons in a geometric space and augments the loss function with a cost proportional to the length of each neuron connection. We demonstrate that BIMT discovers useful modular neural networks for many simple tasks, revealing compositional structures in symbolic formulas, interpretable decision boundaries and features for classification, and mathematical structure in algorithmic datasets. The ability to directly see modules with the naked eye can complement current mechanistic interpretability strategies such as probes, interventions or staring at all weights.
翻訳日:2023-05-24 02:21:39 公開日:2023-05-19
# 学習オートマタを用いたエネルギーフルーガと解釈可能なAIハードウェア設計

Energy-frugal and Interpretable AI Hardware Design using Learning Automata ( http://arxiv.org/abs/2305.11928v1 )

ライセンス: Link先を確認
Rishad Shafik, Tousif Rahman, Adrian Wheeldon, Ole-Christoffer Granmo, Alex Yakovlev(参考訳) エネルギー効率は、マイクロエッジで強力な人工知能アプリケーションを実現するための重要な要件である。 フラジアルアーキテクチャアロケーションによるハードウェアアクセラレーションは、エネルギー削減に有効な方法である。 多くの新興アプリケーションは、責任と透明性を確立するために解釈可能な決定モデルを統合するシステム設計を必要とする。 設計は、実世界のデータシナリオで到達可能な状態を提供する追加のリソースをプロビジョニングし、エネルギー効率の間の相反する設計トレードオフを定義する必要がある。 挑戦的です 近年,tsetlin machineと呼ばれる新しい機械学習アルゴリズムが提案されている。 このアルゴリズムは基本的に有限状態オートマトン(英語版)の原理と、算術よりも自然論理の基盤となる利点に基づいている。 本稿では,高パラメータを最適に調整し,高い学習効率を維持しつつ,エネルギーフルーガルな人工知能ハードウェア設計手法について検討する。 解釈可能性を示すために,2つのシミュレーション環境での到達可能性とゲーム理論解析を用いて,ハードウェア故障の有無による境界状態遷移と,学習収束度を解析するための状態間のナッシュ平衡を解析するシステムCモデルを提案する。 我々の分析は、この新しい人工知能ハードウェアアーキテクチャのエネルギー効率と解釈可能な決定モデルに関わる設計トレードオフに関する最初の洞察を提供する。 本研究は,ランダム化補強の系統的確率性が組み合わさった不規則な資源割当が,頑健で解釈可能な学習を実現すると同時に,決定的なエネルギー削減をもたらすことを示した。

Energy efficiency is a crucial requirement for enabling powerful artificial intelligence applications at the microedge. Hardware acceleration with frugal architectural allocation is an effective method for reducing energy. Many emerging applications also require the systems design to incorporate interpretable decision models to establish responsibility and transparency. The design needs to provision for additional resources to provide reachable states in real-world data scenarios, defining conflicting design tradeoffs between energy efficiency. is challenging. Recently a new machine learning algorithm, called the Tsetlin machine, has been proposed. The algorithm is fundamentally based on the principles of finite-state automata and benefits from natural logic underpinning rather than arithmetic. In this paper, we investigate methods of energy-frugal artificial intelligence hardware design by suitably tuning the hyperparameters, while maintaining high learning efficacy. To demonstrate interpretability, we use reachability and game-theoretic analysis in two simulation environments: a SystemC model to study the bounded state transitions in the presence of hardware faults and Nash equilibrium between states to analyze the learning convergence. Our analyses provides the first insights into conflicting design tradeoffs involved in energy-efficient and interpretable decision models for this new artificial intelligence hardware architecture. We show that frugal resource allocation coupled with systematic prodigality between randomized reinforcements can provide decisive energy reduction while also achieving robust and interpretable learning.
翻訳日:2023-05-24 02:05:06 公開日:2023-05-19
# コンピュータービジョンモデルはどこでミスをするのか? インタラクティブなビジュアライゼーションを使ってcvモデルが改善できる場所と方法を見つける

Where does a computer vision model make mistakes? Using interactive visualizations to find where and how CV models can improve ( http://arxiv.org/abs/2305.11927v1 )

ライセンス: Link先を確認
Hayeong Song, Gonzalo Ramos, and Peter Bodik(参考訳) コンピュータビジョン(CV)モデルの作成は、エンドユーザがこれらのモデルを構築し、検査し、改善するための複雑で課税のプラクティスである。 対話型MLの視点は、計画、教育、評価を行う教師・イン・ザ・ループを考えることで、これらの問題に対処するのに役立っている。 さまざまなレベルのML専門知識を持つエンドユーザの体験を改善するために,ビデオから派生した画像のCV分類と検出モデルを作成するシステムであるSpriteを用いて,インタラクティブな2つの可視化を設計・評価した。 これらの視覚化が,機械教育ループの一部として,モデルを識別(評価)し,モデルが苦労しているイメージを選択(計画)し,トレーニングするモデルを改善する上でどのように役立つかを検討する。 この視覚化を用いていたユーザは、より広いタイプのモデルエラーや、1つ以上のモデルの予測動作の評価とコントラストなどを行い、モデルの改善に必要な潜在的な労力を減らすことができた。

Creating Computer Vision (CV) models remains a complex and taxing practice for end-users to build, inspect, and improve these models. Interactive ML perspectives have helped address some of these issues by considering a teacher-in-the-loop where planning, teaching, and evaluating tasks take place. To improve the experience of end-users with various levels of ML expertise, we designed and evaluated two interactive visualizations in the context of Sprite, a system for creating CV classification and detection models for images originating from videos. We study how these visualizations, as part of the machine teaching loop, help users identify (evaluate) and select (plan) images where a model is struggling and improve the model being trained. We found that users who had used the visualizations found more images across a wider set of potential types of model errors, as well as in assessing and contrasting the prediction behavior of one or more models, thus reducing the potential effort required to improve a model.
翻訳日:2023-05-24 02:04:28 公開日:2023-05-19
# mparrottts:低資源環境における多言語多話者テキストから音声合成

MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low Resource Setting ( http://arxiv.org/abs/2305.11926v1 )

ライセンス: Link先を確認
Neil Shah, Vishal Tambrahalli, Saiteja Kosgi, Niranjan Pedanekar, Vineet Gandhi(参考訳) 本稿では,高品質音声を生成可能な多言語多話者音声合成モデルであるmparrotttsを提案する。 MParrotTTSは、自己教師付き音声表現を活用するモジュール化された訓練パラダイムから恩恵を受け、最小教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。 さらに、MParrotTTSはバイリンガルやパラレルな例を訓練することなく、フランス語話者の声とアクセントを使って、流動的なヒンディー語を合成するなど、話者固有の特徴を保ちながら、言語間で音声を転送することができる。 音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。 提案したモデルは,教師付きトレーニングデータのごく一部を用いて,最先端の多言語TSモデルとベースラインより優れている。 私たちのモデルの音声サンプルはhttps://paper2438.github.io/tts/で確認できる。

We present MParrotTTS, a unified multilingual, multi-speaker text-to-speech (TTS) synthesis model that can produce high-quality speech. Benefiting from a modularized training paradigm exploiting self-supervised speech representations, MParrotTTS adapts to a new language with minimal supervised data and generalizes to languages not seen while training the self-supervised backbone. Moreover, without training on any bilingual or parallel examples, MParrotTTS can transfer voices across languages while preserving the speaker-specific characteristics, e.g., synthesizing fluent Hindi speech using a French speaker's voice and accent. We present extensive results on six languages in terms of speech naturalness and speaker similarity in parallel and cross-lingual synthesis. The proposed model outperforms the state-of-the-art multilingual TTS models and baselines, using only a small fraction of supervised training data. Speech samples from our model can be found at https://paper2438.github.io/tts/
翻訳日:2023-05-24 02:04:01 公開日:2023-05-19
# コンパレート集合の操作下で安定な複数比較ベンチマーク評価へのアプローチ

An Approach to Multiple Comparison Benchmark Evaluations that is Stable Under Manipulation of the Comparate Set ( http://arxiv.org/abs/2305.11921v1 )

ライセンス: Link先を確認
Ali Ismail-Fawaz, Angus Dempster, Chang Wei Tan, Matthieu Herrmann, Lynn Miller, Daniel F. Schmidt, Stefano Berretti, Jonathan Weber, Maxime Devanne, Germain Forestier, Geoffrey I. Webb(参考訳) ベンチマーク評価を用いた進捗度の測定は、コンピュータ科学や機械学習においてユビキタスである。 しかし、Dem\v{s}ar (2006) が導入した臨界差図など、複数のデータセットに対するベンチマーク比較の結果を分析・提示する一般的なアプローチには、重大な欠点があり、不注意な操作と意図的な操作の両方が可能である。 これらの問題に対処するために,本研究では,ベンチマーク比較の結果を示すための新しい手法であるmultiple comparison matrix (mcm)を提案する。 MCMは、全ペア比較の結果を示すために、または1つ以上の選択されたアルゴリズムと技術状態の比較の結果を示すために使用することができる。 MCMはPythonで実装されており、公開されている。

The measurement of progress using benchmarks evaluations is ubiquitous in computer science and machine learning. However, common approaches to analyzing and presenting the results of benchmark comparisons of multiple algorithms over multiple datasets, such as the critical difference diagram introduced by Dem\v{s}ar (2006), have important shortcomings and, we show, are open to both inadvertent and intentional manipulation. To address these issues, we propose a new approach to presenting the results of benchmark comparisons, the Multiple Comparison Matrix (MCM), that prioritizes pairwise comparisons and precludes the means of manipulating experimental results in existing approaches. MCM can be used to show the results of an all-pairs comparison, or to show the results of a comparison between one or more selected algorithms and the state of the art. MCM is implemented in Python and is publicly available.
翻訳日:2023-05-24 02:03:45 公開日:2023-05-19
# DC:量子古典回路の深さ制御

DC: Depth Control on Quantum Classical Circuit ( http://arxiv.org/abs/2305.11919v1 )

ライセンス: Link先を確認
Movahhed Sadeghi, Soheil Khadirsharbiyani, Mostafa Eghbali Zarch, Mahmut Taylan Kandemir(参考訳) NISQ(Near-term Intermediate-scale Quantum)システムの適用範囲が拡大するにつれ、回路信頼性の保証が大きなハードルとなる。 回路設計からマルチキュービットマッピング戦略に至るまで、量子コンピューティングの様々な側面は、最適化によって信頼性を高めることを目的としている。 量子古典回路は、従来、アンシラ量子ビットを再利用し、回路のサイズと深さを最適化する様々な戦略を用いて信頼性を高める目的で研究されてきた。 しかし、最も洗練された最適化戦略でさえ、大規模回路の信頼性は得られない。 本論文で提案され評価されている古典量子回路深度制御(DC)は,この問題に対処することを目指している。 DCアプローチでは、与えられた古典回路をセグメントに分割し、深さを制限し、信頼性の高い出力と実際の量子ハードウェアのマッピングコストを低減させる。 さらに、DC は NISQ システム上であらゆる深さの量子古典回路に対して信頼性の高い出力を提供することができる。 dcによる実験では、従来は出力の信頼性が最小限か全くなかった量子古典回路の信頼性の高い出力を一貫して描画することが示されている。 重要なことは、DCは、信頼できる出力が得られないベースライン回路に対して、PST(Probability of successfully Trial)の確率が50%以上に達することを保証している。 DCは、非セグメントベースラインに比べて平均して11倍のPST改善を実現し、第2の最も一般的な結果よりも大きなリードで正しい出力を保証する。 さらに,直流下のセグメントごとのゲート数を減少させることで,全てのマッピング/ルート最適化を多項式時間で完了させることができる。 この成果は以前、指数時間を必要とするマッピング/ルーティング技術では届かなかった。

As the application range of Near-term Intermediate-scale Quantum (NISQ) systems expands, the primary hurdle that emerges is the assurance of circuit reliability. Various facets of quantum computing, from circuit design to multi-qubit mapping strategies, have aimed at bolstering reliability through assorted optimizations. Quantum classical circuits, a key type of quantum circuits, have been previously studied with the aim of enhancing reliability by reusing ancilla-qubits and employing a variety of strategies to optimize the size and depth of the circuit. However, even the most sophisticated optimization strategies may not yield reliable results for large-scale circuits. Classical Quantum Circuit Depth Control (DC), proposed and evaluated in this paper, seeks to confront this critical issue. The DC approach breaks a given classical circuit into segments, and limits its depth, thereby ensuring reliable output and reduced mapping costs for real quantum hardware. In addition, DC can deliver reliable output for quantum classical circuits of any depth on any NISQ system. Our trials with DC indicate that it consistently renders reliable output for quantum classical circuits that previously showed minimal or no reliability in output. Importantly, DC ensures the attainment of the expected output with a Probability of Successful Trial (PST) greater than 50\% for baseline circuits that otherwise yield no reliable output. DC achieves, on average, an 11x PST improvement compared to the non-segmented baseline, while guaranteeing the correct output with a significant lead over the second most common result. Furthermore, by reducing the number of gates per segment under DC, all mapping/routing optimizations can be completed in polynomial time, as confirmed by our theoretical analysis. This accomplishment was previously out of reach with mapping/routing techniques, which required exponential time.
翻訳日:2023-05-24 02:03:30 公開日:2023-05-19
# pasts: 視覚・言語ナビゲーションのための時空間トランスフォーマースピーカ

PASTS: Progress-Aware Spatio-Temporal Transformer Speaker For Vision-and-Language Navigation ( http://arxiv.org/abs/2305.11918v1 )

ライセンス: Link先を確認
Liuyi Wang, Chengju Liu, Zongtao He, Shu Li, Qingqing Yan, Huiyi Chen, Qijun Chen(参考訳) 視覚・言語ナビゲーション (vln) は重要だが難解なクロスモーダルナビゲーションタスクである。 VLNにおける一般化性能を高める強力な手法の1つは、データ拡張のための擬似命令を提供する独立話者モデルを使用することである。 しかし、Long-Short Term Memory (LSTM)に基づく現在の話者モデルは、異なる場所や時間ステップで関連する機能に出席する能力がない。 そこで,本稿では,トランスフォーマーをネットワークのコアとして用いる,新たな時空間トランスフォーマースピーカ(pasts)モデルを提案する。 PASTSは時空間エンコーダを使用してパノラマ表現を融合し、ステップを通して中間接続を符号化する。 また、誤調整問題を回避するため、話者進行モニター(SPM)が提案され、モデルが命令生成の進捗を推定し、よりきめ細かなキャプション結果を容易にする。 さらに,多機能ドロップアウト(MFD)戦略を導入し,オーバーフィッティングを緩和する。 提案されたPASTSは、既存のVLNモデルと組み合わせることができる。 実験の結果,PASTSは既存の話者モデルよりも優れており,従来のVLNモデルの性能向上に成功し,標準的なRoom-to-Room(R2R)データセット上で最先端のパフォーマンスを実現していることがわかった。

Vision-and-language navigation (VLN) is a crucial but challenging cross-modal navigation task. One powerful technique to enhance the generalization performance in VLN is the use of an independent speaker model to provide pseudo instructions for data augmentation. However, current speaker models based on Long-Short Term Memory (LSTM) lack the ability to attend to features relevant at different locations and time steps. To address this, we propose a novel progress-aware spatio-temporal transformer speaker (PASTS) model that uses the transformer as the core of the network. PASTS uses a spatio-temporal encoder to fuse panoramic representations and encode intermediate connections through steps. Besides, to avoid the misalignment problem that could result in incorrect supervision, a speaker progress monitor (SPM) is proposed to enable the model to estimate the progress of instruction generation and facilitate more fine-grained caption results. Additionally, a multifeature dropout (MFD) strategy is introduced to alleviate overfitting. The proposed PASTS is flexible to be combined with existing VLN models. The experimental results demonstrate that PASTS outperforms all existing speaker models and successfully improves the performance of previous VLN models, achieving state-of-the-art performance on the standard Room-to-Room (R2R) dataset.
翻訳日:2023-05-24 02:03:01 公開日:2023-05-19
# 画像2SSM:放射基底関数を持つ画像からの統計的形状モデルの再構成

Image2SSM: Reimagining Statistical Shape Models from Images with Radial Basis Functions ( http://arxiv.org/abs/2305.11946v1 )

ライセンス: Link先を確認
Hong Xu and Shireen Y. Elhabian(参考訳) 統計的形状モデリング(SSM)は解剖学的形態変化を解析するための重要なツールである。 典型的なSSMパイプラインでは、セグメント化と剛性登録を経た3次元解剖画像は、統計的解析が可能な低次元形状特徴を用いて表現される。 コンパクトな形状表現を構築するための様々な方法が提案されているが、それらは手間とコストのかかるステップを伴う。 本研究では,画像から形状のラジアル・ベイシス関数(rbf)に基づく表現を学習するために,画像セグメンテーションペアを利用した新しい深層学習手法であるimage2ssmを提案する。 このrpfベースの形状表現は、複雑なジオメトリにデータ駆動方式で適応できる基礎面の連続的かつコンパクトな表現を推定するために、ネットワークに豊富な自己教師付き信号を提供する。 image2ssmは、最小限のパラメータチューニングとユーザ支援を必要とせず、解剖学的形状のアンサンブルの統計的ランドマークに基づく形状モデルを構築して、興味のある生物学的構造の集団を特徴付けることができる。 トレーニングが完了すると、Image2SSMは、新しい未分割画像から低次元の形状表現を推測するために使用でき、特に大きなコホートを扱う場合、SSMのスケーラブルなアプローチへの道を開くことができる。 合成および実データを用いた実験は,SSMの最先端対応方式と比較して提案手法の有効性を示した。

Statistical shape modeling (SSM) is an essential tool for analyzing variations in anatomical morphology. In a typical SSM pipeline, 3D anatomical images, gone through segmentation and rigid registration, are represented using lower-dimensional shape features, on which statistical analysis can be performed. Various methods for constructing compact shape representations have been proposed, but they involve laborious and costly steps. We propose Image2SSM, a novel deep-learning-based approach for SSM that leverages image-segmentation pairs to learn a radial-basis-function (RBF)-based representation of shapes directly from images. This RBF-based shape representation offers a rich self-supervised signal for the network to estimate a continuous, yet compact representation of the underlying surface that can adapt to complex geometries in a data-driven manner. Image2SSM can characterize populations of biological structures of interest by constructing statistical landmark-based shape models of ensembles of anatomical shapes while requiring minimal parameter tuning and no user assistance. Once trained, Image2SSM can be used to infer low-dimensional shape representations from new unsegmented images, paving the way toward scalable approaches for SSM, especially when dealing with large cohorts. Experiments on synthetic and real datasets show the efficacy of the proposed method compared to the state-of-art correspondence-based method for SSM.
翻訳日:2023-05-24 01:56:49 公開日:2023-05-19
# 関連性予測のための合成クエリ生成の可能性を探る

Exploring the Viability of Synthetic Query Generation for Relevance Prediction ( http://arxiv.org/abs/2305.11944v1 )

ライセンス: Link先を確認
Aditi Chaudhary, Karthik Raman, Krishna Srinivasan, Kazuma Hashimoto, Mike Bendersky, Marc Najork(参考訳) クエリー文書関連予測は情報検索システムにおいて重要な問題である。 この問題は、ラベル付きデータの大規模なコレクションを使用して微調整された(事前訓練された)トランスフォーマーベースモデルを用いて、ますます取り組まれている。 しかし、eコマースやヘルスケアのような専門分野においては、このアプローチの有効性は、大きなドメイン内データによって制限される。 この問題に対処するために、近年の手法はこれらの強力なモデルを利用して高品質なタスクとドメイン固有の合成データを生成する。 以前の研究では、QA(Qarguy-Answering)とバイナリ(yes/no)の関連予測のための合成データ生成やクエリ生成(QGen)を主に検討しており、例えば、QGenモデルにはドキュメントが与えられ、そのドキュメントに関連するクエリを生成するように訓練されている。 しかし、多くの問題において、単純なye/noラベルよりもよりきめ細かい関連性の概念がある。 そこで本研究では,QGen のアプローチを不適切な関連性予測に活用する方法を詳細に検討する。 これまでの作業からの主張とは対照的に、現在のQGenアプローチは、従来のクロスドメイントランスファー学習アプローチでは不十分です。 3つの公開eコマースベンチマークにまたがる実証研究を通じて、既存のqgenアプローチの新たな欠点を特定します。 これに対処するために、異なる関連性に関する知識を組み込んだラベル条件付きqgenモデルを導入する。 実験の結果,これらの変更はQGen技術の性能向上に有効であることが示されたが,QGenアプローチは関連ラベル空間の完全ニュアンスを捉えるのに苦労しており,結果として生成したクエリは望ましい関連ラベルに忠実ではないことがわかった。

Query-document relevance prediction is a critical problem in Information Retrieval systems. This problem has increasingly been tackled using (pretrained) transformer-based models which are finetuned using large collections of labeled data. However, in specialized domains such as e-commerce and healthcare, the viability of this approach is limited by the dearth of large in-domain data. To address this paucity, recent methods leverage these powerful models to generate high-quality task and domain-specific synthetic data. Prior work has largely explored synthetic data generation or query generation (QGen) for Question-Answering (QA) and binary (yes/no) relevance prediction, where for instance, the QGen models are given a document, and trained to generate a query relevant to that document. However in many problems, we have a more fine-grained notion of relevance than a simple yes/no label. Thus, in this work, we conduct a detailed study into how QGen approaches can be leveraged for nuanced relevance prediction. We demonstrate that -- contrary to claims from prior works -- current QGen approaches fall short of the more conventional cross-domain transfer-learning approaches. Via empirical studies spanning 3 public e-commerce benchmarks, we identify new shortcomings of existing QGen approaches -- including their inability to distinguish between different grades of relevance. To address this, we introduce label-conditioned QGen models which incorporates knowledge about the different relevance. While our experiments demonstrate that these modifications help improve performance of QGen techniques, we also find that QGen approaches struggle to capture the full nuance of the relevance label space and as a result the generated queries are not faithful to the desired relevance label.
翻訳日:2023-05-24 01:56:26 公開日:2023-05-19
# Facebookにおけるニュース記事のインタラクションパターンの差異の理解--Varying BiasとReliabilityによる公開対プライベートシェアリング

Understanding Differences in News Article Interaction Patterns on Facebook: Public vs. Private Sharing with Varying Bias and Reliability ( http://arxiv.org/abs/2305.11943v1 )

ライセンス: Link先を確認
Alireza Mohammadinodooshan, Niklas Carlsson(参考訳) ソーシャルメディアプラットフォームでのニュースの拡散は、公共の談話に対する偏りや信頼できない情報の影響に関する懸念を招いた。 本研究では、Facebook上でのニュース記事の公開とプライベートの共有の相互作用パターンの違いについて、バイアスと信頼性の異なる記事とインタラクションの深さに着目した。 これらのパターンを解析するために、CrowdTangleブラウザ拡張を用いた2つの補完データ収集手法を用いた。 私たちは、30万以上のニュース記事の手動ラベル付きコレクションと、crowdtangleが追跡するフォーラムに投稿された公開投稿のインタラクションデータを参照して、すべてのfacebook投稿(プライベート+パブリック)で対話データを集めました。 厳密な統計分析によって裏付けられた経験的知見は,ニュース記事の拡散におけるユーザの嗜好やプライバシ設定の役割を浮き彫りにして,偏見や信頼性の観点から,公開とプライベートの相互作用パターンの顕著な差異を明らかにした。 特に、ニュースクラスによらず、ユーザーは公開クラスよりもプライベートな議論に深く関与する傾向にある。 さらに、Facebookユーザーは、右バイアスのクラスのコンテンツとより深く関わり、最も信頼できないクラスのコンテンツとより深い相互作用の比率を示す。 この研究は、Facebook上でのニュース記事の公開とプライベートの共有のダイナミクスを直接比較する最初のものであり、特に様々なバイアスと信頼性のある記事との相互作用とエンゲージメントの深さを調べる。 新たな洞察を与え,これらの側面に光を当てることで,ソーシャルメディアが世論の形成に与える影響を理解する上で重要な意味を持つ。

The proliferation of news on social media platforms has led to concerns about the impact of biased and unreliable information on public discourse. This study examines differences in interaction patterns between public and private sharing of news articles on Facebook, focusing on articles with varying bias and reliability, as well as the depth of interactions. To analyze these patterns, we employed two complementary data collection methods using the CrowdTangle browser extension. We collected interaction data across all Facebook posts (private + public) referencing a manually labeled collection of over 30K news articles, as well as interaction data on public posts posted in the forums tracked by CrowdTangle. Our empirical findings, backed by rigorous statistical analysis, reveal significant differences in interaction patterns between public and private sharing across different classes of news in terms of bias and reliability, highlighting the role of user preferences and privacy settings in shaping the spread of news articles. Notably, we find that irrespective of news class, users tend to engage more deeply in private discussions compared to public ones. Additionally, Facebook users engage more deeply with content from the Right-biased class, and exhibit higher deep interaction ratio levels with content from the Most-unreliable class. This study is the first to directly compare the dynamics of public and private sharing of news articles on Facebook, specifically examining the interactions and depth of engagement with articles of varying bias and reliability. By providing new insights and shedding light on these aspects, our findings have significant implications for understanding the influence of social media on shaping public discourse.
翻訳日:2023-05-24 01:55:56 公開日:2023-05-19
# OPTWIN:最適サブウィンドウを用いたドリフト同定

OPTWIN: Drift identification with optimal sub-windows ( http://arxiv.org/abs/2305.11942v1 )

ライセンス: Link先を確認
Mauro Dalle Lucca Tosi and Martin Theobald(参考訳) オンライン学習(ol)は、学界と産業の両方でますます注目を集めている研究分野である。 OLの主な課題の1つは概念ドリフトの存在であり、これは一般的に、時間とともにやってくるデータストリームの統計的性質の予期せぬ変化として定義される。 概念ドリフトの検出は、典型的には、概念ドリフトが発生したかどうかを識別するために、基礎となるolアルゴリズムが生成した誤り率を分析することを伴う。 現在のコンセプトドリフト検出器は、低い偽陰性率で非常によく機能するが、コンセプトドリフト検出では高い偽陽性率を示す傾向にある。 これは学習者のパフォーマンスに影響を与え、予測範囲内で実際に動作しているモデルの再トレーニングに費やされた膨大な計算リソースをもたらす可能性がある。 本稿では,OPTimal WINdowの概念ドリフト検出器OPTWINを提案する。 OPTWINは、OLアルゴリズムのエラーを追跡するために、入ってくるデータストリーム上のイベントのスライディングウィンドウを使用する。 optwinの目新しさは、スライディングウィンドウを2つの最適なサブウィンドウに分割するために学習者が生成した誤差率の平均と分散の両方を検討することである。 ADWIN, DDM, EDDM, STEPD, ECDDを7つの合成および実世界のデータセットのベースラインとし, 突然および段階的な概念ドリフトの存在下でOPTWINをMOAフレームワーク上で評価した。 実験では,オプティウィンが,検出遅延の低減とモデルの再トレーニングに費やす時間の21%の節約を保ちながら,統計的に有意な方法でベースラインのf1-scoreを上回っていることを示す。

Online Learning (OL) is a field of research that is increasingly gaining attention both in academia and industry. One of the main challenges of OL is the inherent presence of concept drifts, which are commonly defined as unforeseeable changes in the statistical properties of an incoming data stream over time. The detection of concept drifts typically involves analyzing the error rates produced by an underlying OL algorithm in order to identify if a concept drift occurred or not, such that the OL algorithm can adapt accordingly. Current concept-drift detectors perform very well, i.e., with low false negative rates, but they still tend to exhibit high false positive rates in the concept-drift detection. This may impact the performance of the learner and result in an undue amount of computational resources spent on retraining a model that actually still performs within its expected range. In this paper, we propose OPTWIN, our "OPTimal WINdow" concept drift detector. OPTWIN uses a sliding window of events over an incoming data stream to track the errors of an OL algorithm. The novelty of OPTWIN is to consider both the means and the variances of the error rates produced by a learner in order to split the sliding window into two provably optimal sub-windows, such that the split occurs at the earliest event at which a statistically significant difference according to either the $t$- or the $f$-tests occurred. We assessed OPTWIN over the MOA framework, using ADWIN, DDM, EDDM, STEPD and ECDD as baselines over 7 synthetic and real-world datasets, and in the presence of both sudden and gradual concept drifts. In our experiments, we show that OPTWIN surpasses the F1-score of the baselines in a statistically significant manner while maintaining a lower detection delay and saving up to 21% of time spent on retraining the models.
翻訳日:2023-05-24 01:55:25 公開日:2023-05-19
# quditsを用いたso(5)多重フェルミオン系の量子シミュレーション

Quantum Simulations of SO(5) Many-Fermion Systems using Qudits ( http://arxiv.org/abs/2305.11941v1 )

ライセンス: Link先を確認
Marc Illa, Caroline E. P. Robin and Martin J. Savage(参考訳) 量子多体系の構造とダイナミクスは、基礎となる相互作用の間の微妙な相互作用の結果であり、複雑な絡み合い構造をもたらす。 この明らかな複雑さにもかかわらず、対称性は出現し、関連する自由度を決定するために長く使われてきた。 本研究では,量子コンピュータが相互作用するフェルミオン系をシミュレートする上で,量子コンピュータの潜在的有用性について検討する。 フェルミオンのアガシモデルは、基礎となる$so(5)$代数に基づいており、それらが記述するシステムは、5つの基底状態を持つモードのペアに分割することができ、自然に$d=5$ qudits (qu5its) の配列に埋め込まれる。 最大12qu5itに埋め込まれたフェルミオン系の時間進化の古典的なノイズレスシミュレーションは、Googleのcirqソフトウェアを用いて実行される。 qu5it回路の資源要求を解析し、量子ビットシステムへの2つの異なるマッピング、物理認識のjordan-wignerマッピングと状態から状態へのマッピングと比較した。 特に、必要な量子リソースの削減と、シミュレーションを物理空間から外すための予測エラーの低減に、キューディットを使うことの利点を見出した。 それまで認識されていなかった符号問題は、高エネルギー励起を経時的に進行するトロタライズエラーから特定されている。 これは高エネルギーおよび核物理学における量子シミュレーション、特に断片化と高度非弾性マルチチャネル過程に意味を持つ。

The structure and dynamics of quantum many-body systems are the result of a delicate interplay between underlying interactions, which leads to intricate entanglement structures. Despite this apparent complexity, symmetries emerge and have long been used to determine the relevant degrees of freedom and simplify classical descriptions of these systems. In this work, we explore the potential utility of quantum computers with arrays of qudits in simulating interacting fermionic systems, when the qudits can naturally map these relevant degrees of freedom. The Agassi model of fermions is based on an underlying $so(5)$ algebra, and the systems it describes can be partitioned into pairs of modes with five basis states, which naturally embed in arrays of $d=5$ qudits (qu5its). Classical noiseless simulations of the time evolution of systems of fermions embedded in up to twelve qu5its are performed using Google's cirq software. The resource requirements of the qu5it circuits are analyzed and compared with two different mappings to qubit systems, a physics-aware Jordan-Wigner mapping and a state-to-state mapping. We find advantages in using qudits, specifically in lowering the required quantum resources and reducing anticipated errors that take the simulation out of the physical space. A previously unrecognized sign problem has been identified from Trotterization errors in time evolving high-energy excitations. This has implications for quantum simulations in high-energy and nuclear physics, specifically of fragmentation and highly inelastic, multi-channel processes.
翻訳日:2023-05-24 01:54:50 公開日:2023-05-19
# 絡み合いのマイクロカノニカル分布による量子カオスの定量化

Quantifying quantum chaos through microcanonical distributions of entanglement ( http://arxiv.org/abs/2305.11940v1 )

ライセンス: Link先を確認
Joaquin F. Rodriguez-Nieva, Cheryne Jonay, and Vedika Khemani(参考訳) 量子カオス」システムの特徴的な特徴は、固有スペクトルと固有状態がランダム行列理論(RMT)によって記述された普遍統計的性質を示すことである。 しかし、局所システムの固有状態もrmtを超えて構造を符号化する。 これを捉えるために,kullback-leiblerの発散を利用して,midspectrum eigenstatesの絡み合いエントロピー(ee)のマイクロカノニカル分布と,純粋なランダム状態によって生成された参照rmt分布を比較する量子カオスの定量的測定法を提案する。 メトリックは、分布の平均だけでなく、より高いモーメントも比較する。 モーメントの差は、システムサイズが指数的に小さいRTT分布の標準偏差によって設定された高分解能スケールで比較される。 これはカオス的な振る舞いと可積分的な振る舞いを区別し、カオスであると考えられるシステムのカオスの度合いを定量化する。 局所的に構成されたフロケ乱数回路と多体ハミルトニアンの正準族である混合場イジングモデル (MFIM) について検討した。 ハミルトン系の場合、参照ランダム分布はエネルギー保存の効果を組み込むために制約されなければならない。 この計量はRTTからの偏差を全てのモデルとパラメータで捉えており、以前はカオスと認識されていたものや、レベルスペーシング統計のようなカオスの他の診断は熱的に見えるものを含む。 フロッケ回路では、偏差の主源は分布の第2モーメントであり、これは全てのシステムサイズで持続する。 MFIMの場合、パラメータ空間におけるKL分散の有意なばらつきを見出す。 特に、rmtからの偏差が最小となる小さな領域を見つけ、パラメータ空間の微調整されたポケットに「最大カオス」ハミルトニアンが存在することを示唆する。

A characteristic feature of "quantum chaotic" systems is that their eigenspectra and eigenstates display universal statistical properties described by random matrix theory (RMT). However, eigenstates of local systems also encode structure beyond RMT. To capture this, we introduce a quantitative metric for quantum chaos which utilizes the Kullback-Leibler divergence to compare the microcanonical distribution of entanglement entropy (EE) of midspectrum eigenstates with a reference RMT distribution generated by pure random states (with appropriate constraints). The metric compares not just the averages of the distributions, but also higher moments. The differences in moments are compared on a highly-resolved scale set by the standard deviation of the RMT distribution, which is exponentially small in system size. This distinguishes between chaotic and integrable behavior, and also quantifies the degree of chaos in systems assumed to be chaotic. We study this metric in local minimally structured Floquet random circuits, as well as a canonical family of many-body Hamiltonians, the mixed field Ising model (MFIM). For Hamiltonian systems, the reference random distribution must be constrained to incorporate the effect of energy conservation. The metric captures deviations from RMT across all models and parameters, including those that have been previously identified as strongly chaotic, and for which other diagnostics of chaos such as level spacing statistics look strongly thermal. In Floquet circuits, the dominant source of deviations is the second moment of the distribution, and this persists for all system sizes. For the MFIM, we find significant variation of the KL divergence in parameter space. Notably, we find a small region where deviations from RMT are minimized, suggesting that "maximally chaotic" Hamiltonians may exist in fine-tuned pockets of parameter space.
翻訳日:2023-05-24 01:54:23 公開日:2023-05-19
# XTREME-UP: 表現下言語のためのユーザ中心のスカースデータベンチマーク

XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented Languages ( http://arxiv.org/abs/2305.11938v1 )

ライセンス: Link先を確認
Sebastian Ruder, Jonathan H. Clark, Alexander Gutkin, Mihir Kale, Min Ma, Massimo Nicosia, Shruti Rijhwani, Parker Riley, Jean-Michel A. Sarr, Xinyi Wang, John Wieting, Nitish Gupta, Anna Katanova, Christo Kirov, Dana L. Dickinson, Brian Roark, Bidisha Samanta, Connie Tao, David I. Adelani, Vera Axelrod, Isaac Caswell, Colin Cherry, Dan Garrette, Reeve Ingle, Melvin Johnson, Dmitry Panteleev, Partha Talukdar(参考訳) データ不足は、多言語NLPシステムの開発において重要な問題である。 しかし、多くの未表現言語(UL) -- NLPの再検索がユーザニーズを満たす上で特に遅れている言語 -- では、少量のデータに注釈をつけることは可能である。 XTREME-UPは、ゼロショットではなく、希少なデータシナリオに焦点をあてること、ユーザ中心のタスクに焦点を当てること、高ソース言語の話者が広く採用するタスク、この希少なデータシナリオが最も現実的になるような表現不足言語に焦点を当てることである。 XTREME-UPは、ASR、OCR、MT、および汎用性のある情報アクセスタスクを含む9つの主要なユーザ中心技術に対して、88の非表現言語にわたる言語モデルの性能を評価する。 ocr、オートコンプリート、セマンティクス解析、および翻訳のための新しいデータセットを作成し、他のタスクのために既存のデータセットを構築し、洗練します。 XTREME-UPは、テキストのみ、マルチモーダル(ビジョン、オーディオ、テキスト)、教師付きパラメータチューニング、コンテキスト内学習など、多くのモデリングシナリオを評価する方法論を提供する。 ベンチマークでよく使われるモデルを評価する。 モデルをトレーニングし、評価するすべてのコードとスクリプトをリリースします。

Data scarcity is a crucial issue for the development of highly multilingual NLP systems. Yet for many under-represented languages (ULs) -- languages for which NLP re-search is particularly far behind in meeting user needs -- it is feasible to annotate small amounts of data. Motivated by this, we propose XTREME-UP, a benchmark defined by: its focus on the scarce-data scenario rather than zero-shot; its focus on user-centric tasks -- tasks with broad adoption by speakers of high-resource languages; and its focus on under-represented languages where this scarce-data scenario tends to be most realistic. XTREME-UP evaluates the capabilities of language models across 88 under-represented languages over 9 key user-centric technologies including ASR, OCR, MT, and information access tasks that are of general utility. We create new datasets for OCR, autocomplete, semantic parsing, and transliteration, and build on and refine existing datasets for other tasks. XTREME-UP provides methodology for evaluating many modeling scenarios including text-only, multi-modal (vision, audio, and text),supervised parameter tuning, and in-context learning. We evaluate commonly used models on the benchmark. We release all code and scripts to train and evaluate models
翻訳日:2023-05-24 01:53:48 公開日:2023-05-19
# インダクティブカルロフロー

Inductive CaloFlow ( http://arxiv.org/abs/2305.11934v1 )

ライセンス: Link先を確認
Matthew R. Buckley, Claudius Krause, Ian Pang, David Shih(参考訳) 粒子検出器応答のシミュレーションは、大型ハドロン衝突型加速器計算パイプラインで最も高価なステップである。 近年, 流れの正規化は前例のない精度を達成しつつ, このプロセスの高速化を図っているが, 将来の検出器アップグレードに関連する高解像度化にアプローチを拡大することは, メモリ制約の禁止につながることが示されている。 この問題を解決するために, 連続したカロリー層内のエネルギー沈着パターンに基づいて訓練された誘導型正規化流れに基づいて, 高速検出器シミュレーションのためのフレームワークiCaloFlowを導入する。 さらに, 教師留学生蒸留を用いて, 表現力を失うことなくサンプリング速度を向上する。 calochallenge2022のデータセット2と3で示すように、icaloflowは、従来考えられていた10倍から100倍の粒度を持つ検出器ジオメトリの高速で高忠実なシミュレーションを行う際に、流れの正規化の可能性を実現することができる。

Simulating particle detector response is the single most expensive step in the Large Hadron Collider computational pipeline. Recently it was shown that normalizing flows can accelerate this process while achieving unprecedented levels of accuracy, but scaling this approach up to higher resolutions relevant for future detector upgrades leads to prohibitive memory constraints. To overcome this problem, we introduce Inductive CaloFlow (iCaloFlow), a framework for fast detector simulation based on an inductive series of normalizing flows trained on the pattern of energy depositions in pairs of consecutive calorimeter layers. We further use a teacher-student distillation to increase sampling speed without loss of expressivity. As we demonstrate with Datasets 2 and 3 of the CaloChallenge2022, iCaloFlow can realize the potential of normalizing flows in performing fast, high-fidelity simulation on detector geometries that are ~ 10 - 100 times higher granularity than previously considered.
翻訳日:2023-05-24 01:53:23 公開日:2023-05-19
# PyTorch Hyperparameter Tuning - SpotPython用のチュートリアル

PyTorch Hyperparameter Tuning -- A Tutorial for spotPython ( http://arxiv.org/abs/2305.11930v1 )

ライセンス: Link先を確認
Thomas Bartz-Beielstein(参考訳) ハイパーパラメータチューニング(ハイパーパラメータ最適化)の目標は、ハイパーパラメータを最適化して、マシンやディープラーニングモデルの性能を改善することである。 spotPython (``Sequential Parameter Optimization Toolbox in Python'') は、Rプログラミング環境において10年以上にわたって統計解析のために開発された、よく知られたハイパーパラメータチューナーSPOTのPythonバージョンである。 PyTorchは、GPUとCPUを使用したディープラーニングのための最適化されたテンソルライブラリである。 このドキュメントは、SpotPythonハイパーパラメータチューナをPyTorchトレーニングワークフローに統合する方法を示している。 例として、cifar10画像分類器の結果を用いる。 spotPythonの紹介に加えて、このチュートリアルには、実験とハイパーパラメータのチューニングを行うPythonライブラリであるRay Tuneとの簡単な比較も含まれている。 この比較は、PyTorchハイパーパラメータチューニングチュートリアルに基づいている。 両アプローチの長所と短所について論じる。 spotPythonはRay Tuneよりも柔軟で透明でありながら、同じような、あるいはさらに優れた結果が得られることを示す。

The goal of hyperparameter tuning (or hyperparameter optimization) is to optimize the hyperparameters to improve the performance of the machine or deep learning model. spotPython (``Sequential Parameter Optimization Toolbox in Python'') is the Python version of the well-known hyperparameter tuner SPOT, which has been developed in the R programming environment for statistical analysis for over a decade. PyTorch is an optimized tensor library for deep learning using GPUs and CPUs. This document shows how to integrate the spotPython hyperparameter tuner into the PyTorch training workflow. As an example, the results of the CIFAR10 image classifier are used. In addition to an introduction to spotPython, this tutorial also includes a brief comparison with Ray Tune, a Python library for running experiments and tuning hyperparameters. This comparison is based on the PyTorch hyperparameter tuning tutorial. The advantages and disadvantages of both approaches are discussed. We show that spotPython achieves similar or even better results while being more flexible and transparent than Ray Tune.
翻訳日:2023-05-24 01:53:04 公開日:2023-05-19
# 分子フォトセルのtop-ranked cycle flux network解析

Top-Ranked Cycle Flux Network Analysis of Molecular Photocells ( http://arxiv.org/abs/2305.11929v1 )

ライセンス: Link先を確認
Nikhil Gupt, Shuvadip Ghosh and Arnab Ghosh(参考訳) 本稿では、分子接合太陽電池の性能を評価するためにネットワーク解析の上位ランクのサイクルフラックスランキングスキームを提案する。 リンドブラッドマスター方程式を量子遷移ネットワークにマッピングすることにより、分子フォトセルのキャラクタリゼーションによく用いられる速度方程式の基盤となる顕微鏡的ハミルトン記述を提案する。 提案手法はエッジフラックスの重要度を解明し,光電流発生において等しく重要な役割を果たす2つの関連する電子伝達経路を明らかにする。 さらに,非放射損失過程が光セルの最大電力効率を阻害することを示した。 これらの発見は、分子の太陽光発電を司る複雑な機能に光を当て、それらを体系的に扱うための包括的なアプローチを提供する。

We introduce a top-ranked cycle flux ranking scheme of network analysis to assess the performance of molecular junction solar cells. By mapping the Lindblad master equation to the quantum-transition network, we propose a microscopic Hamiltonian description underpinning the rate equations commonly used to characterize molecular photocells. Our approach elucidates the paramount significance of edge flux and unveils two pertinent electron transfer pathways that play equally important roles in robust photocurrent generation. Furthermore, we demonstrate that non-radiative loss processes impede the maximum power efficiency of photocells, which may otherwise be above the Curzon-Ahlborn limit. These findings shed light on the intricate functionalities that govern molecular photovoltaics and offer a comprehensive approach to address them in a systematic way.
翻訳日:2023-05-24 01:52:48 公開日:2023-05-19
# シュレーディンジェリスト波動関数はブラウン運動を説明できるか?

Can Schroedingerist Wavefunction Physics Explain Brownian Motion? ( http://arxiv.org/abs/2305.11977v1 )

ライセンス: Link先を確認
W. David Wick(参考訳) アインシュタインが1905年に行った水滴中の花粉粒子のブラウン運動の解析は、水分子と粒子の衝突の統計的変異によるものであり、続いてペリンの実験によって、原子の現実の最も説得力のある例の一つとなった。 しかし1926年、シュレーディンガーは古典的な粒子を波動関数に置き換えた。 シュレーディンガー波関数物理学はペリンの観測を説明できるのか? 有限ボックスに制限されたシステムは準周期的な信号しか生成できないため、これは不可能に思えるが、ここではより微妙な問題であると主張する。 残念なことに、明示的な解は得られていない(一般の右三角形の調和性はまだ未知であるという事実と関係している)。 しかし、私はモデルの一般的な特徴から、こう結論づけます。 (a) 波動関数モデルは、確率過程に類似した軌道を生成することができる。 b) 拡散的行動は,制限された時間間隔で現れること,及び c) 追加の ``wave function energy" は ``cat" 形成を制限することで、観察をもっと ``classical" にすることができる。 しかし、波動関数モデルにおける拡散と粘度と温度をリンクするアインシュタイン計画を完成させるのは難しい。

Einstein's 1905 analysis of the Brownian Motion of a pollen grain in a water droplet as due to statistical variations in the collisions of water molecules with the grain, followed up by Perrin's experiments, provided one of the most convincing demonstrations of the reality of atoms. But in 1926 Schroedinger replaced classical particles by wavefunctions, which cannot undergo collisions. Can a Schroedingerist wavefunction physics account for Perrin's observations? As systems confined to a finite box can only generate quasiperiodic signals, this seems impossible, but I argue here that the issue is more subtle. I then introduce several models of the droplet-plus-grain; unfortunately, no explicit solutions are available (related is the remarkable fact that the harmonics of a general right triangle are still unknown). But from generic features of the models I conclude that: (a) wavefunction models may generate trajectories resembling those of a stochastic process; (b) diffusive behavior may appear for a restricted time interval; and (c) additional ``Wave Function Energy", by restricting ``cat" formation, can render the observations more ``classical". But completing the Einstein program of linking diffusion to viscosity and temperature in wavefunction models is still challenging.
翻訳日:2023-05-24 01:45:24 公開日:2023-05-19
# 不均一センサ信号の教師なし変化点検出

Unsupervised Change Point Detection for heterogeneous sensor signals ( http://arxiv.org/abs/2305.11976v1 )

ライセンス: Link先を確認
Mario Krause(参考訳) 変化点検出は、データを生成するプロセスにおいて、変化点の存在が急激かつ重大な変化を示すため、時系列データを分析する上で重要な側面である。 変化点検出問題に対する多くのアルゴリズムが時間をかけて開発されてきたが、特定の問題に対する適切なアルゴリズムを選択することは困難である。 アルゴリズムの選択は問題の性質と基礎となるデータソースに大きく依存する。 本稿では,大量のアノテートされたトレーニングデータやモデルの再校正を必要とせず,様々なデータソースへのアプリケーションの柔軟性を生かした教師なし技術について考察する。 提案手法は,アルゴリズムを比較するためのいくつかの基準に基づいて導入し,評価する。

Change point detection is a crucial aspect of analyzing time series data, as the presence of a change point indicates an abrupt and significant change in the process generating the data. While many algorithms for the problem of change point detection have been developed over time, it can be challenging to select the appropriate algorithm for a specific problem. The choice of the algorithm heavily depends on the nature of the problem and the underlying data source. In this paper, we will exclusively examine unsupervised techniques due to their flexibility in the application to various data sources without the requirement for abundant annotated training data and the re-calibration of the model. The examined methods will be introduced and evaluated based on several criteria to compare the algorithms.
翻訳日:2023-05-24 01:45:03 公開日:2023-05-19
# 慢性退院者スケジューリングのための解集合プログラミングにおける論理型ベンダ分解

Logic-Based Benders Decomposition in Answer Set Programming for Chronic Outpatients Scheduling ( http://arxiv.org/abs/2305.11969v1 )

ライセンス: Link先を確認
Paola Cappanera, Marco Gavanelli, Maddalena Nonato, Marco Roma(参考訳) Answer Set Programming (ASP)では、ユーザーは宣言的に問題を定義でき、効率的な解決器で解決することができる。 一方、解時間は通常、インスタンスのサイズに関して超線形(しばしば指数関数的)に成長するが、大規模なインスタンスでは実用的ではない。 広く使われているアプローチは、最適化問題を逐次解決された部分問題に分割し、ある者は他の方法で割り当てられた値にコミットし、ある部分問題の解をジャクスタポスすることで、問題全体の有効な割り当てを再構築する。 一方、このアプローチは超線型的な振る舞いのため、はるかに高速であり、一方、最適性の保証は提供されない: 1つのサブプロブレムの割り当てにコミットすることは、探索空間から最適解を除外することができる。 他の研究領域では、論理ベースのベンダー分解(LBBD)が有効であることが証明され、LBBDでは、問題はマスター問題(MP)と1つまたは複数のサブプロブレム(SP)に分解される。 MPの解はSPに渡され、おそらく失敗する可能性がある。 障害が発生した場合、mpにno-goodが返され、新たな制約を追加することで再び解決される。 解過程は、すべてのサブ問題に対して有効な解が得られ、あるいはmpが実現不可能であることが証明されるまで反復される。 得られた溶液は、非常に穏やかな条件下で確実に最適である。 本稿では, 医療におけるlbbdの応用をケーススタディとして活用し, lbbdをaspに初めて適用する。 実験の結果,アプローチの有効性が示された。 LBBDが利用可能になったことで、ASP技術の実用性はさらに向上すると考えています。

In Answer Set Programming (ASP), the user can define declaratively a problem and solve it with efficient solvers; practical applications of ASP are countless and several constraint problems have been successfully solved with ASP. On the other hand, solution time usually grows in a superlinear way (often, exponential) with respect to the size of the instance, which is impractical for large instances. A widely used approach is to split the optimization problem into sub-problems that are solved in sequence, some committing to the values assigned by others, and reconstructing a valid assignment for the whole problem by juxtaposing the solutions of the single sub-problems. On the one hand this approach is much faster, due to the superlinear behavior; on the other hand, it does not provide any guarantee of optimality: committing to the assignment of one sub-problem can rule out the optimal solution from the search space. In other research areas, Logic-Based Benders Decomposition (LBBD) proved effective; in LBBD, the problem is decomposed into a Master Problem (MP) and one or several Sub-Problems (SP). The solution of the MP is passed to the SPs, that can possibly fail. In case of failure, a no-good is returned to the MP, that is solved again with the addition of the new constraint. The solution process is iterated until a valid solution is obtained for all the sub-problems or the MP is proven infeasible. The obtained solution is provably optimal under very mild conditions. In this paper, we apply for the first time LBBD to ASP, exploiting an application in health care as case study. Experimental results show the effectiveness of the approach. We believe that the availability of LBBD can further increase the practical applicability of ASP technologies.
翻訳日:2023-05-24 01:44:50 公開日:2023-05-19
# 3次元スライドワイド多段階腎病理登録のためのエンドツーエンドパイプライン

An End-to-end Pipeline for 3D Slide-wise Multi-stain Renal Pathology Registration ( http://arxiv.org/abs/2305.11968v1 )

ライセンス: Link先を確認
Peize Li, Ruining Deng, Yuankai Huo(参考訳) 連続部全スライド画像(WSI)の3次元コンテキストにおける組織検査と定量化は、労働集約的かつ時間を要する課題であった。 先行研究では,wsisを同一の物理的空間に自動調整する新しい登録ベース手法(map3d)を提案し,wsisからシリアルセクションをスクリーニングする人間の努力を軽減した。 しかし,Map3D法の登録性能は,大規模腎組織試料を用いた単一定常WSIでのみ評価された。 本稿では,マルチステインパラダイムにおける針生検シリアルセクションのエンドツーエンド3dスライドワイズ登録パイプラインのためのdockerを提供する。 1) コンテナ化されたdockerをリリースし、エンドツーエンドのマルチstain wsi登録を行う。 2)Map3Dパイプラインはマルチステア WSI から分割登録できることを示す。 (3) 針生検組織サンプルにもMap3Dパイプラインが適用可能であることを確認する。 ソースコードとDockerはhttps://github.com/hrlblab/Map3Dで公開されている。

Tissue examination and quantification in a 3D context on serial section whole slide images (WSIs) were laborintensive and time-consuming tasks. Our previous study proposed a novel registration-based method (Map3D) to automatically align WSIs to the same physical space, reducing the human efforts of screening serial sections from WSIs. However, the registration performance of our Map3D method was only evaluated on single-stain WSIs with large-scale kidney tissue samples. In this paper, we provide a Docker for an end-to-end 3D slide-wise registration pipeline on needle biopsy serial sections in a multi-stain paradigm. The contribution of this study is three-fold: (1) We release a containerized Docker for an end-to-end multi-stain WSI registration. (2) We prove that the Map3D pipeline is capable of sectional registration from multi-stain WSI. (3) We verify that the Map3D pipeline can also be applied to needle biopsy tissue samples. The source code and the Docker have been made publicly available at https://github.com/hrlblab/Map3D.
翻訳日:2023-05-24 01:44:21 公開日:2023-05-19
# すべてのセマンティクスが平等であるとは限らない: 自己指導型自己指導型自己学習

Not All Semantics are Created Equal: Contrastive Self-supervised Learning with Automatic Temperature Individualization ( http://arxiv.org/abs/2305.11965v1 )

ライセンス: Link先を確認
Zi-Hao Qiu, Quanqi Hu, Zhuoning Yuan, Denny Zhou, Lijun Zhang, Tianbao Yang(参考訳) 本稿では,自己指導型学習において,個別化温度による対照的な損失を原則的かつ体系的に最適化することを目的とする。 グローバル温度パラメータである$\tau$を使用する一般的なプラクティスは、 ``not all semantics are created equal" という事実を無視している。 まず、分布的ロバストな最適化(DRO)にインスパイアされた新しい頑健な対照的な損失を提案し、$\tau$の効果と自動温度個別化のメカニズムについて直感を与える。 そこで本研究では,大規模ミニバッチサイズを用いずに,証明可能な収束保証によりロバストなコントラスト損失を最適化する効率的な確率的アルゴリズムを提案する。 理論的および実験的結果から,本アルゴリズムは各サンプルに対して適切な$\tau$を自動で学習することを示す。 特に、頻繁なセマンティクスを持つサンプルは局所的なセマンティクス構造を維持するために大きな温度を使用し、稀なセマンティクスを持つサンプルはより分離可能な特徴を誘導するために小さな温度を使用する。 提案手法は, 従来の強いベースライン(SimCLRやCLIPなど)を非定常およびバイモーダルなデータセットで上回るだけでなく, ハイパーパラメータに対する感度も低い。 我々の知る限りでは、これは個別の温度で対照的な損失を最適化する最初の方法である。

In this paper, we aim to optimize a contrastive loss with individualized temperatures in a principled and systematic manner for self-supervised learning. The common practice of using a global temperature parameter $\tau$ ignores the fact that ``not all semantics are created equal", meaning that different anchor data may have different numbers of samples with similar semantics, especially when data exhibits long-tails. First, we propose a new robust contrastive loss inspired by distributionally robust optimization (DRO), providing us an intuition about the effect of $\tau$ and a mechanism for automatic temperature individualization. Then, we propose an efficient stochastic algorithm for optimizing the robust contrastive loss with a provable convergence guarantee without using large mini-batch sizes. Theoretical and experimental results show that our algorithm automatically learns a suitable $\tau$ for each sample. Specifically, samples with frequent semantics use large temperatures to keep local semantic structures, while samples with rare semantics use small temperatures to induce more separable features. Our method not only outperforms prior strong baselines (e.g., SimCLR, CLIP) on unimodal and bimodal datasets with larger improvements on imbalanced data but also is less sensitive to hyper-parameters. To our best knowledge, this is the first methodical approach to optimizing a contrastive loss with individualized temperatures.
翻訳日:2023-05-24 01:44:07 公開日:2023-05-19
# indistinguishability-assisted two-qubit entanglement 蒸留

Indistinguishability-assisted two-qubit entanglement distillation ( http://arxiv.org/abs/2305.11964v1 )

ライセンス: Link先を確認
Farzam Nosrati, Bruno Bellomo, Gabriele De Chiara, Giuseppe Compagno, Roberto Morandotti, Rosario Lo Franco(参考訳) ノイズの多い状態から高い絡み合いを示す量子状態の生成は、量子情報科学の主要な目標の1つである。 本稿では,空間的局所化操作と古典的コミュニケーションの枠組み内で機能する条件付きかつ効率的な絡み合い蒸留法を提案する。 この方法は、2つの同一の量子ビット間の空間的重なりによる識別不能効果を利用し、粒子統計インプリントを包含する。 混合状態から最大エンタングルメント蒸留の一般的な条件を導出する。 利用例として, 熱ギブス状態やヴェルナー状態など, 典型的な雑音状態から発生する蒸留エンタングルメントとそれに伴う成功確率の詳細な説明を行う。 この2つのケースにおいて, 局所温度と騒音パラメータの影響について検討した。 提案手法は、制御可能な同一量子粒子からなる複合ネットワークにおける量子リピータへの道を開くものである。

Production of quantum states exhibiting a high degree of entanglement out of noisy conditions is one of the main goals of quantum information science. Here, we provide a conditional yet efficient entanglement distillation method which functions within the framework of spatially localized operations and classical communication. This method exploits indistinguishability effects due to the spatial overlap between two identical qubits in distinct sites and encompasses particle statistics imprint. We derive the general conditions for the maximum entanglement distillation out of mixed states. As applications, we give a thorough description of distilled entanglement and associated success probability starting from typical noisy states, such as thermal Gibbs states and Werner states. The influence of local temperatures and of noise parameter is discussed, respectively, in these two cases. The proposed scheme paves the way towards quantum repeaters in composite networks made of controllable identical quantum particles.
翻訳日:2023-05-24 01:43:37 公開日:2023-05-19
# 情報ボトルネック法による教師付きコントラスト学習における神経崩壊の理解に向けて

Towards understanding neural collapse in supervised contrastive learning with the information bottleneck method ( http://arxiv.org/abs/2305.11957v1 )

ライセンス: Link先を確認
Siwei Wang and Stephanie E Palmer(参考訳) ニューラル崩壊(Neural collapse)とは、パフォーマンスプレートを超えてトレーニングされたディープニューラルネットワークの最終層におけるアクティベーションの幾何学である。 オープンな質問は、神経崩壊がより良い一般化につながるかどうか、そしてもしそうなら、なぜ、そしてどのように訓練が高原を越えて役立つのかである。 神経崩壊を情報ボトルネック(ib)問題としてモデル化し,そのようなコンパクト表現が存在するかを調べ,一般化との関連性を見出す。 分類問題の最適IB解に近づくと、神経崩壊は特に良い一般化をもたらすことを実証する。 最近の研究では、同じ対照的な損失目標で独立に訓練された2つのディープニューラルネットワークが線形同定可能であることが示されている。 ib問題の解析解を近似するために線形同定可能性を利用する。 この近似は、クラス平均が$K$-simplex Equiangular Tight Frame (ETF) の振る舞いを示す場合(例えば、CIFAR10は$K$=10、CIFAR100は$K$=100)、対応するIB問題の臨界位相遷移と一致することを示す。 IB問題に対する最適解がこれらすべての相転移を含むと、性能プラトーが発生する。 また、結果として得られる$K$-simplex ETFは、ResNet50バックボーンによる教師付きコントラスト学習を用いて、$K$-dimensional Gaussian分布にまとめることができることを示す。 この幾何学は、教師付きコントラスト学習で学んだ$k$-simplex etfがソースコーディングの最適な特徴を近似していることを示唆している。 したがって、最適ISB解とコントラスト学習における一般化の間には直接対応がある。

Neural collapse describes the geometry of activation in the final layer of a deep neural network when it is trained beyond performance plateaus. Open questions include whether neural collapse leads to better generalization and, if so, why and how training beyond the plateau helps. We model neural collapse as an information bottleneck (IB) problem in order to investigate whether such a compact representation exists and discover its connection to generalization. We demonstrate that neural collapse leads to good generalization specifically when it approaches an optimal IB solution of the classification problem. Recent research has shown that two deep neural networks independently trained with the same contrastive loss objective are linearly identifiable, meaning that the resulting representations are equivalent up to a matrix transformation. We leverage linear identifiability to approximate an analytical solution of the IB problem. This approximation demonstrates that when class means exhibit $K$-simplex Equiangular Tight Frame (ETF) behavior (e.g., $K$=10 for CIFAR10 and $K$=100 for CIFAR100), they coincide with the critical phase transitions of the corresponding IB problem. The performance plateau occurs once the optimal solution for the IB problem includes all of these phase transitions. We also show that the resulting $K$-simplex ETF can be packed into a $K$-dimensional Gaussian distribution using supervised contrastive learning with a ResNet50 backbone. This geometry suggests that the $K$-simplex ETF learned by supervised contrastive learning approximates the optimal features for source coding. Hence, there is a direct correspondence between optimal IB solutions and generalization in contrastive learning.
翻訳日:2023-05-24 01:43:23 公開日:2023-05-19
# Self-QA: 教師なし知識ガイド言語モデルアライメント

Self-QA: Unsupervised Knowledge Guided Language Model Alignment ( http://arxiv.org/abs/2305.11952v1 )

ライセンス: Link先を確認
Xuanyu Zhang and Qing Yang(参考訳) ChatGPTやGPT-4のような大規模言語モデルは、その印象的な会話と生成能力で注目を集めている。 しかし、指導指導のための教師付き質問応答データの作成は、非常に困難な課題である。 この取り組みは、データアノテーションと、データ品質、多様性、正確性、その他の関連する要因に関する問題に対する、かなりの人間の努力を必要とします。 これらの障害を克服するために,従来の命令シードの実践を膨大な量の教師なしの知識に置き換える,Self-QAという斬新なフレームワークを導入し,モデルが大量の正しい命令データとドメイン固有の命令データを生成することを可能にする。 提案手法の有効性は, 各種ドメインの教師なしコーパスを用いて実験を行った。

Large-scale language models like ChatGPT and GPT-4 have gained attention for their impressive conversational and generative capabilities. However, the creation of supervised paired question-answering data for instruction tuning presents formidable challenges. This endeavor necessitates substantial human effort for data annotation and wrestles with issues concerning data quality, diversity, accuracy, and other related factors. To overcome these obstacles, we introduce an innovative framework named Self-QA, which replaces the traditional practice of human-written instruction seeds with a vast amount of unsupervised knowledge, enabling the model to generate a larger quantity of correct and domain-specific instruction data. The effectiveness of our proposed method is demonstrated through experiments conducted on unsupervised corpora from various domains.
翻訳日:2023-05-24 01:42:51 公開日:2023-05-19
# 大エネルギーギャップの限界における振幅と微分結合粒子検出器の双対性

Duality between amplitude and derivative coupled particle detectors in the limit of large energy gaps ( http://arxiv.org/abs/2305.11949v1 )

ライセンス: Link先を確認
T. Rick Perche and Matheus H. Zambianco(参考訳) スカラー場の振幅に結合し、大きなエネルギーギャップの限界において場の微分に結合した粒子検出器モデル間の双対性を示す。 モデルの結果が1対1の方法で相互にマッピングできることを,検出器のギャップによる再スケーリングによって示す。 我々の解析は、曲線時空における任意のスカラー場に対して有効であり、検出器に関する最小の仮定を必要とする。 双対性は、複数の検出器がフィールドに結合されている場合にも適用される。 これは、振幅結合型UDW検出器による絡み合いの多くの例が、時空の同じ領域の磁場と相互作用する微分結合型検出器と全く同じ結果をもたらすことを示している。

We present a duality between a particle detector model coupled to the amplitude of a scalar field and coupled to the field's derivative in the limit of large energy gaps. We show that the results of the models can be mapped to each other in a one-to-one fashion modulo a rescaling by the detector's gap. Our analysis is valid for arbitrary scalar fields in curved spacetimes, and requires minimal assumptions regarding the detectors. The duality also applies to the case where more than one detector is coupled to the field. This shows that many examples of entanglement harvesting with amplitude coupled UDW detectors give exactly the same result as derivative coupled detectors that interact with the field in the same region of spacetime.
翻訳日:2023-05-24 01:42:39 公開日:2023-05-19
# Eye-SpatialNet:眼科ノートからの空間情報抽出

Eye-SpatialNet: Spatial Information Extraction from Ophthalmology Notes ( http://arxiv.org/abs/2305.11948v1 )

ライセンス: Link先を確認
Surabhi Datta, Tasneem Kaochar, Hio Cheng Lam, Nelly Nwosu, Luca Giancardo, Alice Z. Chuang, Robert M. Feldman, Kirk Roberts(参考訳) 眼科領域の詳細な空間情報と文脈情報をラベル付けした600個の眼科メモの注釈付きコーパスを導入する。 我々は,これまで提案してきたフレームセマンティクスに基づく空間表現スキーマRad-SpatialNetを拡張し,眼科テキストで空間言語を表現する。 空間的に位置づけられた実体は、発見、手続き、および薬物である。 すべての空間的詳細を正確に把握するために、eye-spatialnetにいくつかのドメイン固有の要素を追加します。 注釈付きコーパスには1715の空間トリガー、7308の発見、2424の解剖、9914の記述子が含まれている。 空間情報を自動的に抽出するために,トランスフォーマー言語モデルbertに基づく2ターン質問応答アプローチを採用する。 F1スコアは、それぞれ89.31点、74.86点、88.47点の空間トリガ、図形、地上フレームである。 これは眼科における様々な臨床情報を表現し抽出する最初の研究である。 詳細な情報を抽出することは、疾患の進行とスクリーニングを目的とした眼科の応用や研究に役立つ。

We introduce an annotated corpus of 600 ophthalmology notes labeled with detailed spatial and contextual information of ophthalmic entities. We extend our previously proposed frame semantics-based spatial representation schema, Rad-SpatialNet, to represent spatial language in ophthalmology text, resulting in the Eye-SpatialNet schema. The spatially-grounded entities are findings, procedures, and drugs. To accurately capture all spatial details, we add some domain-specific elements in Eye-SpatialNet. The annotated corpus contains 1715 spatial triggers, 7308 findings, 2424 anatomies, and 9914 descriptors. To automatically extract the spatial information, we employ a two-turn question answering approach based on the transformer language model BERT. The results are promising, with F1 scores of 89.31, 74.86, and 88.47 for spatial triggers, Figure, and Ground frame elements, respectively. This is the first work to represent and extract a wide variety of clinical information in ophthalmology. Extracting detailed information can benefit ophthalmology applications and research targeted toward disease progression and screening.
翻訳日:2023-05-24 01:42:26 公開日:2023-05-19
# 定義生成による解釈可能な単語センス表現:意味的変化分析の事例

Interpretable Word Sense Representations via Definition Generation: The Case of Semantic Change Analysis ( http://arxiv.org/abs/2305.11993v1 )

ライセンス: Link先を確認
Mario Giulianelli, Iris Luden, Raquel Fernandez, Andrey Kutuzov(参考訳) 本稿では,文脈化された単語の用法を解釈可能な単語と単語感覚表現として自動生成する自然言語定義を提案する。 対象語に対する使用例のコレクションと、対応するデータ駆動利用クラスタ(すなわち、単語センス)が与えられた場合、特殊なFlan-T5言語モデルを用いて各使用法について定義を生成し、使用クラスタにおける最も原始的な定義をセンスラベルとして選択する。 その結果得られたセンスラベルは,意味変化分析に対する既存のアプローチをより解釈しやすくすると同時に,ユーザ – 歴史言語学者,辞書学者,社会科学者 – が,単語の意味のダイアクロニカルな特徴を探索し,直感的に説明できるようにする方法を示す。 意味的変化分析は、'definitions as representations'パラダイムの考えられる多くの応用の1つにすぎない。 人間の可読性に加えて、文脈化された定義は、トークンや使用文の埋め込みを単語・イン・コンテクストのセマンティックな類似性判断で上回る。

We propose using automatically generated natural language definitions of contextualised word usages as interpretable word and word sense representations. Given a collection of usage examples for a target word, and the corresponding data-driven usage clusters (i.e., word senses), a definition is generated for each usage with a specialised Flan-T5 language model, and the most prototypical definition in a usage cluster is chosen as the sense label. We demonstrate how the resulting sense labels can make existing approaches to semantic change analysis more interpretable, and how they can allow users -- historical linguists, lexicographers, or social scientists -- to explore and intuitively explain diachronic trajectories of word meaning. Semantic change analysis is only one of many possible applications of the `definitions as representations' paradigm. Beyond being human-readable, contextualised definitions also outperform token or usage sentence embeddings in word-in-context semantic similarity judgements, making them a new promising type of lexical representation for NLP.
翻訳日:2023-05-24 01:39:12 公開日:2023-05-19
# ゼロショットクローズドブック生成質問応答における中大言語モデルの評価

Evaluation of medium-large Language Models at zero-shot closed book generative question answering ( http://arxiv.org/abs/2305.11991v1 )

ライセンス: Link先を確認
Ren\'e Peinl and Johannes Wirth(参考訳) 大型言語モデル (LLM) は注目されているが、"大規模"の定義には明確さがない。 本稿では,少なくとも60億のパラメータを持つが1000億未満のパラメータを持つ中型ランゲージモデル(MLM)に焦点を当てる。 本研究は,外部文書検索を行なわずに精巧な回答を提供するモデルであるゼロショットジェネレーティブ質問応答に関するMDMを評価した。 本稿では,テストダタセットを独自に導入し,人的評価の結果を示す。 その結果、異なるMLMから最高の回答を合成すると、全体の正解率は82.7%となり、ChatGPTの60.9%より優れていることがわかった。 最高のmlmは46.4%に達し、7bのパラメータを持ち、パラメータ数のみに頼るのではなく、微調整に適切なトレーニングデータを使用することの重要性を強調している。 よりきめ細かいフィードバックは、回答の質をさらに改善するために使われるべきです。

Large language models (LLMs) have garnered significant attention, but the definition of "large" lacks clarity. This paper focuses on medium-sized lan-guage models (MLMs), defined as having at least six billion parameters but less than 100 billion. The study evaluates MLMs regarding zero-shot genera-tive question answering, which requires models to provide elaborate answers without external document retrieval. The paper introduces an own test da-taset and presents results from human evaluation. Results show that combin-ing the best answers from different MLMs yielded an overall correct answer rate of 82.7% which is better than the 60.9% of ChatGPT. The best MLM achieved 46.4% and has 7B parameters, which highlights the importance of using appropriate training data for fine-tuning rather than solely relying on the number of parameters. More fine-grained feedback should be used to further improve the quality of answers.
翻訳日:2023-05-24 01:38:40 公開日:2023-05-19
# Productive Crop Field Detection: 新たなデータセットとディープラーニングベンチマーク結果

Productive Crop Field Detection: A New Dataset and Deep Learning Benchmark Results ( http://arxiv.org/abs/2305.11990v1 )

ライセンス: Link先を確認
Eduardo Nascimento, John Just, Jurandy Almeida, and Tiago Almeida(参考訳) 精密農業では、農夫が個別に作業性能を評価し、異なる種子品種、農薬、肥料を比較できるようにするため、生産作物の検出が不可欠である。 しかし、生産的フィールドを手動で識別することは、しばしば時間を要する、エラーを起こしやすいタスクである。 従来の研究では、先進的な機械学習アルゴリズムを用いて作物の畑を検出する様々な方法が検討されていたが、良質なラベル付きデータを欠いていることが多い。 そこで本研究では,sentinel-2画像とマシン操作によって生成された高品質なデータセットを提案する。 私たちが知る限りでは、この手法を用いてラベル付きサンプルの欠如を克服するのはこれが初めてである。 本研究では,ラベルなしデータの半教師付き分類と,最先端の教師付き・自己教師付き深層学習手法を適用し,生産農地を自動的に検出する。 最後に, 正の未ラベル学習において, 正のサンプルに高い信頼感を持つ問題に完全に適合していることを示す。 Triplet Loss Siameseでは、正確なデータセットの存在と、包括的なラベル付きデータセットが利用できない状況を考慮して、Contrastive Learningが提供されている。

In precision agriculture, detecting productive crop fields is an essential practice that allows the farmer to evaluate operating performance separately and compare different seed varieties, pesticides, and fertilizers. However, manually identifying productive fields is often a time-consuming and error-prone task. Previous studies explore different methods to detect crop fields using advanced machine learning algorithms, but they often lack good quality labeled data. In this context, we propose a high-quality dataset generated by machine operation combined with Sentinel-2 images tracked over time. As far as we know, it is the first one to overcome the lack of labeled samples by using this technique. In sequence, we apply a semi-supervised classification of unlabeled data and state-of-the-art supervised and self-supervised deep learning methods to detect productive crop fields automatically. Finally, the results demonstrate high accuracy in Positive Unlabeled learning, which perfectly fits the problem where we have high confidence in the positive samples. Best performances have been found in Triplet Loss Siamese given the existence of an accurate dataset and Contrastive Learning considering situations where we do not have a comprehensive labeled dataset available.
翻訳日:2023-05-24 01:38:26 公開日:2023-05-19
# 応答:kupczynskiコンテキストの局所因果確率モデルはベルの定理によって制約される

Response: Kupczynski Contextual Locally Causal Probabilistic Models are constrained by Bell theorem ( http://arxiv.org/abs/2305.11986v1 )

ライセンス: Link先を確認
Marian Kupczynski(参考訳) 我々の文脈モデルでは、統計的独立性は破られ、ベルの定理に拘束されない。 個々の結果は、物理的システムを記述する機器や変数を計測する依存変数を設定する機能において、相互作用の瞬間に決定論的に局所的に生成される。 これらの設定依存変数は関連付けられるが、必ずしもスプーキーな影響や超決定性のためとは限らない。 いくつかのベルテストでは、遠クリックの2つの時系列は、ゼロでない結果のペアを含む有限サンプルに変換される。 このデータはCHSHの不等式だけでなく、非シグナリングにも違反する。 我々のモデルは、これらの実験で生データと最終データの両方を説明できる。 さらに,モデルでは,実験者の選択の自由を損なわない。 非シグナリングの違反は、理想的なEPRB実験の量子記述や標準的な局所現実的で確率的な隠れ変数モデルと一致しないので、この記事のタイトルと結論は以下の通りである。

In our contextual model, statistical independence is violated, thus it is not constrained by Bell Theorem. Individual outcomes are created locally in a deterministic way in a function of setting dependent variables describing measuring instruments and variables describing physical systems, at the moment of their interactions. These setting dependent variables may be correlated, but not necessarily due to spooky influences or superdeterminism. In several Bell Tests, two time series of distant clicks are converted into finite samples containing pairs of non zero outcomes. This data not only violates CHSH inequalities but also nonsignalling. Our model allows explaining both the raw and the final data in these experiments. Moreover, our model, does not compromise experimenters freedom of choice. The violation of nonsignaling is neither consistent with quantum description of an ideal EPRB experiment nor with standard local realistic and stochastic hidden variable models, thus the title of this article and its conclusion: Kupczynski escape route for local realism is not available are misleading.
翻訳日:2023-05-24 01:38:07 公開日:2023-05-19
# 孤立系の平衡:初期状態磁化における粗粒化の役割に関する研究

Equilibration of Isolated Systems: investigating the role of coarse-graining on the initial state magnetization ( http://arxiv.org/abs/2305.11985v1 )

ライセンス: Link先を確認
Gabriel Dias Carvalho, Luis Fernando dos Prazeres, Pedro Silva Correia, and Thiago R de Oliveira(参考訳) 多くの理論および実験の結果は、一元的に進化する孤立量子系でさえも、観測可能ないくつかの進化は、大抵の場合、無視できるゆらぎを持つ平衡値の周りに存在する可能性があるため、等式化することができることを示している。 そのような平衡が発生する条件を与える厳密な定理がある。 特に、エネルギーの分解能の欠如で準備された初期状態は平衡する。 初期状態の磁化における分解能の欠如や粗粒化の影響について検討する。 特に、カオススピン鎖と正確な対角化を用いて、明確に定義された磁化を持つ初期状態はほとんど平衡しないことを示す。 反対に、粗い、明確に定義されていない磁化は、粗い粒度に依存する方法で平衡を誘導する。 また,システムが平衡に達するまでの時間を解析し,理論的な推定値とよく一致し,より少ない分解能で平衡がより速くなることを示す。 本研究は,量子系の平衡力学における初期状態準備の重要性を強調し,閉系における平衡の基本的性質に関する新たな知見を提供する。

Many theoretical and experimental results show that even isolated quantum systems evolving unitarily may equilibrate, since the evolution of some observables may be around an equilibrium value with negligible fluctuations most of the time. There are rigorous theorems giving the conditions for such equilibration to happen. In particular, initial states prepared with a lack of resolution in the energy will equilibrate. We investigate how equilibration may be affected by a lack of resolution, or coarse-graining, in the magnetization of the initial state. In particular, for a chaotic spin chain and using exact diagonalization, we show that an initial state with welldefined magnetization almost does not equilibrate. On the contrary, a coarse, not well-defined, magnetization induces equilibration in a way that will depend on the degree of coarse graining. We also analyze the time for the system to reach equilibrium, showing good agreement with theoretical estimates and with some evidence that less resolution leads to faster equilibration. Our study highlights the crucial role of initial state preparation in the equilibration dynamics of quantum systems and provides new insights into the fundamental nature of equilibration in closed systems.
翻訳日:2023-05-24 01:37:50 公開日:2023-05-19
# OL変換器:光多層膜構造のための高速で普遍的なサロゲートシミュレータ

OL-Transformer: A Fast and Universal Surrogate Simulator for Optical Multilayer Thin Film Structures ( http://arxiv.org/abs/2305.11984v1 )

ライセンス: Link先を確認
Taigao Ma, Haozhu Wang, L. Jay Guo(参考訳) 近年,光多層膜構造のための高速高精度サロゲートシミュレータとして深層学習法が確立されている。 しかし、既存の手法は素材配置が異なる限られた種類の構造のみに対応し、多様な普遍的な構造への応用を妨げている。 本稿では,巨大構造体に対する普遍的なサロゲートシミュレータとして機能するOpto-Layer (OL) Transformerを提案する。 構造シリアライゼーションの手法と組み合わせることで,物理解法に比べて6倍の高速化を実現しつつ,最大10〜25ドル程度の異なる多層構造に対して,正確な反射スペクトルと透過スペクトルを予測できる。 さらに,本モデルでは,まず物理埋め込みを学習し,自己認識機構を用いて各層間の光・光相互作用の隠れた関係を捉えることにより,一般学習能力が向上することを明らかにした。

Deep learning-based methods have recently been established as fast and accurate surrogate simulators for optical multilayer thin film structures. However, existing methods only work for limited types of structures with different material arrangements, preventing their applications towards diverse and universal structures. Here, we propose the Opto-Layer (OL) Transformer to act as a universal surrogate simulator for enormous types of structures. Combined with the technique of structure serialization, our model can predict accurate reflection and transmission spectra for up to $10^{25}$ different multilayer structures, while still achieving a six-fold time speedup compared to physical solvers. Further investigation reveals that the general learning ability comes from the fact that our model first learns the physical embeddings and then uses the self-attention mechanism to capture the hidden relationship of light-matter interaction between each layer.
翻訳日:2023-05-24 01:37:31 公開日:2023-05-19
# 時間予測符号化によるシーケンシャルメモリ

Sequential Memory with Temporal Predictive Coding ( http://arxiv.org/abs/2305.11982v1 )

ライセンス: Link先を確認
Mufeng Tang, Helen Barron and Rafal Bogacz(参考訳) 事象列の時間的順序を記憶することは生物学的エージェントの生存に不可欠である。 しかし、脳内のシーケンシャルメモリの基礎となる計算機構は未だ不明である。 静的メモリタスクに予測符号化(pc)を適用した神経科学理論と最近の成功に触発され,本研究は時間予測符号化(tpc)と呼ばれる新しい逐次メモリモデルを提案する。 我々は,tpcモデルが,生物学的に妥当なニューラル実装により,シーケンシャル入力を記憶し,正確に取得できることを示す。 解析学的には、tPCは暗黙的な統計的白化過程を持つ古典的非対称ホップフィールドネットワーク(AHN)と見なすことができ、構造化された入力の逐次メモリタスクにおいてより安定した性能をもたらす。 さらに,多層構造を持つtpcは,文脈依存情報をエンコードできるため,海馬による計算として,シーケンスに現れる繰り返し要素を区別できることが分かった。 我々の研究は、既存のメモリモデルフレームワークを使って理論的に解釈できる脳内のシーケンシャルメモリの基礎となる計算機構を確立する。

Memorizing the temporal order of event sequences is critical for the survival of biological agents. However, the computational mechanism underlying sequential memory in the brain remains unclear. Inspired by neuroscience theories and recent successes in applying predictive coding (PC) to static memory tasks, in this work we propose a novel PC-based model for sequential memory, called temporal predictive coding (tPC). We show that our tPC models can memorize and retrieve sequential inputs accurately with a biologically plausible neural implementation. Importantly, our analytical study reveals that tPC can be viewed as a classical Asymmetric Hopfield Network (AHN) with an implicit statistical whitening process, which leads to more stable performance in sequential memory tasks of structured inputs. Moreover, we find that tPC with a multi-layer structure can encode context-dependent information, thus distinguishing between repeating elements appearing in a sequence, a computation attributed to the hippocampus. Our work establishes a possible computational mechanism underlying sequential memory in the brain that can also be theoretically interpreted using existing memory model frameworks.
翻訳日:2023-05-24 01:37:16 公開日:2023-05-19
# sch\"one neue lieferkettenwelt"--西天アルゴリズムにおける労働者の声とアーベイト標準

"Sch\"one neue Lieferkettenwelt": Workers' Voice und Arbeitsstandards in Zeiten algorithmischer Vorhersage ( http://arxiv.org/abs/2305.11981v1 )

ライセンス: Link先を確認
Lukas Daniel Klausner, Maximilian Heimst\"adt, Leonhard Dobusch(参考訳) サプライチェーンの複雑さとますます密接な結合は、主要な企業にとって大きな課題となる。 もう1つの課題は、消費者からの圧力の下、サプライチェーン法などの重要な公的および立法的な措置が、サプライヤの労働基準よりも多くの責任を負わなければならないことだ。 本稿では,企業がこれらの課題に対処するために利用する新たなアプローチについて論じる。ビジネスリスクのアルゴリズム予測だけでなく,環境・社会リスクの予測である。 アルゴリズム予測の技術的・文化的条件を説明し、先進的な企業の観点から、両課題にどのように対処するかを説明します。 次に、主要な企業がどのような社会的影響をアルゴリズムで予測できるかというシナリオを開発します。 シナリオから、異なる利害関係者グループの政策オプションを導き、労働基準や労働者の声を改善するためのアルゴリズムによる予測を開発する。 Die Komplexit\"at und zunehmend enge Kopplung vieler Lieferketten stellt eine gro{\ss}e logistische Herausforderung f\"ur Leitunternehmen dar。 Eine weitere Herausforderung besteht darin, dass Leitunternehmen -- gedr\"angt durch Konsument:innen, eine kritische \"Offentlichkeit und gesetzgeberische Ma{\ss}nahmen wie die Lieferkettengesetze -- st\"arker als bisher Verantwortung f\"ur Arbeits standards in ihren Zulieferbetrieben \"ubernehmen m\"ussen 英語: diesem Beitrag diskutieren wir einen neuen Ansatz, mit dem Leitunternehmen versuchen, diese Herausforderungen zu bearbeiten: die algorithmische Vorhersage von betriebswirtschaftlichen, aber auch \"okologischen und sozialen Risiken。 テクニッヒェンとクルチュルレンのベディングングンゲン f\"ur algorithmische vorhersage und erkl\"aren, wie diese— aus perspektive von leitunternehmen— bei der bearbeitung beider herausforderungen hilft アンシュリー・ハイス(anschlie{\ss}end entwickeln wir szenarien, wie und mit welchen sozialen konsequenzen algorithmische vorhersage durch leitunternehmen eingesetzt werden kann Aus den Szenarien leiten wir Handlungsoptionen f\"ur verschiedene Stakeholder-Gruppen ab, die dabei helfen sollen, Algorithmische Vorhersage im Sinne einer Verbesserung von Arbeitsstandards und Workers' Voice weiterzuentwickeln

The complexity and increasingly tight coupling of supply chains poses a major logistical challenge for leading companies. Another challenge is that leading companies -- under pressure from consumers, a critical public and legislative measures such as supply chain laws -- have to take more responsibility than before for their suppliers' labour standards. In this paper, we discuss a new approach that leading companies are using to try to address these challenges: algorithmic prediction of business risks, but also environmental and social risks. We describe the technical and cultural conditions for algorithmic prediction and explain how -- from the perspective of leading companies -- it helps to address both challenges. We then develop scenarios on how and with what kind of social consequences algorithmic prediction can be used by leading companies. From the scenarios, we derive policy options for different stakeholder groups to help develop algorithmic prediction towards improving labour standards and worker voice. -- Die Komplexit\"at und zunehmend enge Kopplung vieler Lieferketten stellt eine gro{\ss}e logistische Herausforderung f\"ur Leitunternehmen dar. Eine weitere Herausforderung besteht darin, dass Leitunternehmen -- gedr\"angt durch Konsument:innen, eine kritische \"Offentlichkeit und gesetzgeberische Ma{\ss}nahmen wie die Lieferkettengesetze -- st\"arker als bisher Verantwortung f\"ur Arbeitsstandards in ihren Zulieferbetrieben \"ubernehmen m\"ussen. In diesem Beitrag diskutieren wir einen neuen Ansatz, mit dem Leitunternehmen versuchen, diese Herausforderungen zu bearbeiten: die algorithmische Vorhersage von betriebswirtschaftlichen, aber auch \"okologischen und sozialen Risiken. Wir beschreiben die technischen und kulturellen Bedingungen f\"ur algorithmische Vorhersage und erkl\"aren, wie diese -- aus Perspektive von Leitunternehmen -- bei der Bearbeitung beider Herausforderungen hilft. Anschlie{\ss}end entwickeln wir Szenarien, wie und mit welchen sozialen Konsequenzen algorithmische Vorhersage durch Leitunternehmen eingesetzt werden kann. Aus den Szenarien leiten wir Handlungsoptionen f\"ur verschiedene Stakeholder-Gruppen ab, die dabei helfen sollen, algorithmische Vorhersage im Sinne einer Verbesserung von Arbeitsstandards und Workers' Voice weiterzuentwickeln.
翻訳日:2023-05-24 01:36:56 公開日:2023-05-19
# AutoCoreset: 自動実践的なコアセット構築フレームワーク

AutoCoreset: An Automatic Practical Coreset Construction Framework ( http://arxiv.org/abs/2305.11980v1 )

ライセンス: Link先を確認
Alaa Maalouf and Murad Tukan and Vladimir Braverman and Daniela Rus(参考訳) コアセットは入力セットの小さな重み付き部分集合であり、特定のクエリ集合に対して損失関数によく似ている。 coresetsは多くのアプリケーションで有利であることが示されているため、機械学習で普及した。 コアセット研究は活発な研究分野であるが、残念ながらコアセットは問題に依存した方法で構築されており、各問題に対して、新しいコアセット構築アルゴリズムが提案される。 汎用フレームワークでさえ、ユーザによって行われる追加の(問題に依存しない)計算や証明を必要とします。 さらに、多くの問題は(証明可能な)小さなコアセットを持たず、適用性を制限する。 この目的のために,ユーザから入力データと所望のコスト関数を要求されるコアセットを構築するための,他のタスク関連計算を必要とせずに,自動的な実践的フレームワークを提案する。 これを実現するために、我々は損失関数をベクトル和近似のインスタンスに近似する問題を低減し、そのベクトルはクエリの特定の部分集合の損失ベクトルであり、この部分集合上の関数の像を近似することを目的としている。 この集合は限定的であるが、コアセットは非常に一般的である。 また,様々な機械学習応用に関する広範な実験を行った。 最後に ``plug and play" 形式の実装を提供し,coreset を多くの問題に対して容易に適用可能なユーザフレンドリなシステムを提案する。 完全なオープンソースコードは、 \href{https://github.com/alaamaalouf/AutoCoreset}{\text{https://github.com/alaamaalouf/AutoCoreset}}にある。 これらの貢献により、コアセットの今後の研究や利用が容易になると考えています。

A coreset is a tiny weighted subset of an input set, that closely resembles the loss function, with respect to a certain set of queries. Coresets became prevalent in machine learning as they have shown to be advantageous for many applications. While coreset research is an active research area, unfortunately, coresets are constructed in a problem-dependent manner, where for each problem, a new coreset construction algorithm is usually suggested, a process that may take time or may be hard for new researchers in the field. Even the generic frameworks require additional (problem-dependent) computations or proofs to be done by the user. Besides, many problems do not have (provable) small coresets, limiting their applicability. To this end, we suggest an automatic practical framework for constructing coresets, which requires (only) the input data and the desired cost function from the user, without the need for any other task-related computation to be done by the user. To do so, we reduce the problem of approximating a loss function to an instance of vector summation approximation, where the vectors we aim to sum are loss vectors of a specific subset of the queries, such that we aim to approximate the image of the function on this subset. We show that while this set is limited, the coreset is quite general. An extensive experimental study on various machine learning applications is also conducted. Finally, we provide a ``plug and play" style implementation, proposing a user-friendly system that can be easily used to apply coresets for many problems. Full open source code can be found at \href{https://github.com/alaamaalouf/AutoCoreset}{\text{https://github.com/alaamaalouf/AutoCoreset}}. We believe that these contributions enable future research and easier use and applications of coresets.
翻訳日:2023-05-24 01:33:47 公開日:2023-05-19
# Few-Shot Aspect based Sentimentのための弱スーパービジョンアプローチ

A Weak Supervision Approach for Few-Shot Aspect Based Sentiment ( http://arxiv.org/abs/2305.11979v1 )

ライセンス: Link先を確認
Robert Vacareanu, Siddharth Varia, Kishaloy Halder, Shuai Wang, Giovanni Paolini, Neha Anna John, Miguel Ballesteros, Smaranda Muresan(参考訳) 我々は、アスペクトベース感情分析(absa)タスクにおいて、豊富なラベルのないデータに対する弱い監督をいかに活用できるかを考察する。 ノイズの多いABSAデータセットを構築するパイプライン手法を提案し,それを用いて事前学習されたシーケンス・ツー・シーケンスモデルをABSAタスクに適用する。 3つのABSAデータセットを用いて、微調整前後で結果のモデルを検証した。 提案手法は, 難解なタスクに対する数ショット学習シナリオにおいて, 大幅な改善(15.84%)を示しながら, 完全な微調整性能を保っている。 ゼロショット(微調整なし)では、アスペクト抽出感情分類(AESC)タスクにおいて、従来の手法よりも優れており、さらに、より難しいアスペクト感情感情の3重項抽出(ASTE)タスクを実行可能である。

We explore how weak supervision on abundant unlabeled data can be leveraged to improve few-shot performance in aspect-based sentiment analysis (ABSA) tasks. We propose a pipeline approach to construct a noisy ABSA dataset, and we use it to adapt a pre-trained sequence-to-sequence model to the ABSA tasks. We test the resulting model on three widely used ABSA datasets, before and after fine-tuning. Our proposed method preserves the full fine-tuning performance while showing significant improvements (15.84% absolute F1) in the few-shot learning scenario for the harder tasks. In zero-shot (i.e., without fine-tuning), our method outperforms the previous state of the art on the aspect extraction sentiment classification (AESC) task and is, additionally, capable of performing the harder aspect sentiment triplet extraction (ASTE) task.
翻訳日:2023-05-24 01:33:20 公開日:2023-05-19
# 自然のインスピレーションによる絵画様式の創出

Inventing painting styles through natural inspiration ( http://arxiv.org/abs/2305.12015v1 )

ライセンス: Link先を確認
Nilin Abrahamsen, Jiahao Yao(参考訳) 自然画像のみに基づいて訓練されたモデルを用いて絵画スタイルを作成するための2つの手法を提案する。 第1の手順では,芸術媒体からの帰納バイアスを用いて創造的な表現を実現する。 抽象化は再構築損失を用いて達成される。 第2の手順では、新たなスタイルを作成するために、追加の自然イメージをインスピレーションとして使用する。 これら2つの手順により、芸術的な訓練データなしで新しい絵画様式を創出することができる。 われわれのアプローチは、人間の創造者の独創性を侵害することなく、芸術における生成AIの倫理的雇用の道を開くのに役立つと信じている。

We propose two procedures to create painting styles using models trained only on natural images, providing objective proof that the model is not plagiarizing human art styles. In the first procedure we use the inductive bias from the artistic medium to achieve creative expression. Abstraction is achieved by using a reconstruction loss. The second procedure uses an additional natural image as inspiration to create a new style. These two procedures make it possible to invent new painting styles with no artistic training data. We believe that our approach can help pave the way for the ethical employment of generative AI in art, without infringing upon the originality of human creators.
翻訳日:2023-05-24 01:25:57 公開日:2023-05-19
# 生成AIによる夢の構築

Constructing Dreams using Generative AI ( http://arxiv.org/abs/2305.12013v1 )

ライセンス: Link先を確認
Safinah Ali, Daniella DiPaola, Randi Williams, Prerna Ravi, Cynthia Breazeal(参考訳) ジェネレイティブaiツールは、若者向けの新しいアクセス可能なメディア作成形態を導入する。 また、偽メディアの生成、データ保護、プライバシー、AI生成アートの所有権に関する倫理的懸念も提起している。 生成AIは、すでに若者が使用する製品で使われているため、これらのツールがどのように機能し、どのように使用されるか、誤用されるかを理解することが重要である。 本研究では,学生が想像する未来のアイデンティティを表現して生成的AI学習を促進する。 そこでは、生徒が生成型aiツールの内部動作について学び、テキストから画像への生成アルゴリズムを使って、画像化された将来の夢を作り、生成型aiツールの潜在的利益と害を反映し、これらのツールが教室で使われるためのポリシーについて意見を述べた。 本稿では,ワークショップに参加した34人の高校生の学習活動と経験について述べる。 学生は、プロンプトエンジニアリングを使用して将来の夢を創造し、生成AIの能力、限界、テキスト視覚マッピング、応用を学び、生成AIの潜在的な社会的利益と害を特定することによって技術知識を得た。

Generative AI tools introduce new and accessible forms of media creation for youth. They also raise ethical concerns about the generation of fake media, data protection, privacy and ownership of AI-generated art. Since generative AI is already being used in products used by youth, it is critical that they understand how these tools work and how they can be used or misused. In this work, we facilitated students' generative AI learning through expression of their imagined future identities. We designed a learning workshop - Dreaming with AI - where students learned about the inner workings of generative AI tools, used text-to-image generation algorithms to create their imaged future dreams, reflected on the potential benefits and harms of generative AI tools and voiced their opinions about policies for the use of these tools in classrooms. In this paper, we present the learning activities and experiences of 34 high school students who engaged in our workshops. Students reached creative learning objectives by using prompt engineering to create their future dreams, gained technical knowledge by learning the abilities, limitations, text-visual mappings and applications of generative AI, and identified most potential societal benefits and harms of generative AI.
翻訳日:2023-05-24 01:25:46 公開日:2023-05-19
# 衛星, 回転, コンテクストデータの階層的融合による作物分類の促進

Boosting Crop Classification by Hierarchically Fusing Satellite, Rotational, and Contextual Data ( http://arxiv.org/abs/2305.12011v1 )

ライセンス: Link先を確認
Barriere Valentin and Claverie Martin and Schneider Maja and Lemoine Guido and d'Andrimont Rapha\"el(参考訳) 季節内作物の正確な分類は農作物生産量の推定とモニタリングに不可欠である。 しかし, 植物の成長パターンの複雑さと時空間変動は重要な課題である。 現在のディープラーニングベースの手法では、単一およびマルチモーダル時系列からの作物タイプ分類が期待できるが、既存の手法のほとんどは、衛星リモートセンシングデータや作物の回転パターンのような単一のモダリティに依存している。 本稿では,複数年にわたる精度と堅牢性向上のためのモデルにマルチモーダル情報を融合する新しい手法を提案する。 このアプローチは、Sentinel-2とLandsat 8のリモートセンシング時系列、パーセルの作物回転、および局所的な作物分布の3つのモードに依存している。 このアプローチを評価するため、フランスとオランダで740万の農業パーセルの注釈付きデータセットを新たにリリースしました。 表面反射率(赤とNIR)と生体物理変数(LAI, FAPAR)の時系列とを関連づける。 さらに,作物種を階層的クラス構造に自動集約し,有意義なモデル評価を行う新しい手法と,早期シーズン分類のための新しいデータ提供手法を提案する。 151種から8種にまたがるセマンティックドメインにおいて,マルチモーダルアプローチの性能を異なるアグリゲーションレベルで評価した。 その結果,NLデータセットでは 91\% から 95\% ,FRデータセットでは 85\% から 89\% の精度が得られた。 データセットを事前トレーニングすることで、国間のドメイン適応性が向上し、クロスドメインのゼロショット学習が可能になり、フランスからオランダまでの数ショット環境でのパフォーマンスが堅牢になる。 提案手法は,しばしば見過ごされがちな時空間的文脈を学習法で利用することで,比較した手法を上回っている。

Accurate in-season crop type classification is crucial for the crop production estimation and monitoring of agricultural parcels. However, the complexity of the plant growth patterns and their spatio-temporal variability present significant challenges. While current deep learning-based methods show promise in crop type classification from single- and multi-modal time series, most existing methods rely on a single modality, such as satellite optical remote sensing data or crop rotation patterns. We propose a novel approach to fuse multimodal information into a model for improved accuracy and robustness across multiple years and countries. The approach relies on three modalities used: remote sensing time series from Sentinel-2 and Landsat 8 observations, parcel crop rotation and local crop distribution. To evaluate our approach, we release a new annotated dataset of 7.4 million agricultural parcels in France and Netherlands. We associate each parcel with time-series of surface reflectance (Red and NIR) and biophysical variables (LAI, FAPAR). Additionally, we propose a new approach to automatically aggregate crop types into a hierarchical class structure for meaningful model evaluation and a novel data-augmentation technique for early-season classification. Performance of the multimodal approach was assessed at different aggregation level in the semantic domain spanning from 151 to 8 crop types or groups. It resulted in accuracy ranging from 91\% to 95\% for NL dataset and from 85\% to 89\% for FR dataset. Pre-training on a dataset improves domain adaptation between countries, allowing for cross-domain zero-shot learning, and robustness of the performances in a few-shot setting from France to Netherlands. Our proposed approach outperforms comparable methods by enabling learning methods to use the often overlooked spatio-temporal context of parcels, resulting in increased preci...
翻訳日:2023-05-24 01:25:25 公開日:2023-05-19
# Chemellia: 原子論的機械学習のためのエコシステム

Chemellia: An Ecosystem for Atomistic Scientific Machine Learning ( http://arxiv.org/abs/2305.12010v1 )

ライセンス: Link先を確認
Anant Thazhemadam, Dhairya Gandhi, Venkatasubramanian Viswanathan, Rachel C. Kurchin(参考訳) Chemelliaは、Juliaプログラミング言語における原子論的機械学習のためのオープンソースのフレームワークである。 このフレームワークは、Juliaの高速性と、複数ディスパッチのパラダイムによるコードとインターフェースの共有と再利用の能力を活用している。 Chemelliaは既存のインターフェースを活用して,‘車輪の再発明’を回避するように設計されている。 chemelliaエコシステムの重要な側面は、特徴の定義とエンコーディングのためのケミカルフェアチュアライズインターフェースである -- フェアチュアライズスキームとそれらの要素間の相互運用性を最大化し、エンコードされた特徴の証明性を維持し、機能エンジニアリング実験を可能にするために、容易にデコダビリティと再構成性を確保するように設計されている。 これは、関心の分離、相互運用性、透明性という、chemelliaエコシステムの全体的な設計原則を具現化している。 本稿では,物質特性予測のための結晶グラフ畳み込みニューラルネットワークの実装について論じる。

Chemellia is an open-source framework for atomistic machine learning in the Julia programming language. The framework takes advantage of Julia's high speed as well as the ability to share and reuse code and interfaces through the paradigm of multiple dispatch. Chemellia is designed to make use of existing interfaces and avoid ``reinventing the wheel'' wherever possible. A key aspect of the Chemellia ecosystem is the ChemistryFeaturization interface for defining and encoding features -- it is designed to maximize interoperability between featurization schemes and elements thereof, to maintain provenance of encoded features, and to ensure easy decodability and reconfigurability to enable feature engineering experiments. This embodies the overall design principles of the Chemellia ecosystem: separation of concerns, interoperability, and transparency. We illustrate these principles by discussing the implementation of crystal graph convolutional neural networks for material property prediction.
翻訳日:2023-05-24 01:24:52 公開日:2023-05-19
# XuanYuan 2.0: 数十億のパラメータを持つ中国の巨大金融チャットモデル

XuanYuan 2.0: A Large Chinese Financial Chat Model with Hundreds of Billions Parameters ( http://arxiv.org/abs/2305.12002v1 )

ライセンス: Link先を確認
Xuanyu Zhang and Qing Yang and Dongliang Xu(参考訳) 近年,大規模モデルの出現に伴い,事前学習型言語モデルの開発が急速に進んでいる。 しかし、特に中国の金融の分野では、何十億という規模で、中国語用に特別に設計されたオープンソースのチャットモデルが不足している。 このギャップに対処するために,BLOOM-176Bアーキテクチャ上に構築された中国最大のチャットモデルであるXuanYuan 2.0を紹介する。 さらに,破滅的忘れを緩和するハイブリッドチューニングという新たなトレーニング手法を提案する。 一般ドメインとドメイン固有の知識を組み合わせることで、事前トレーニングと微調整の段階を統合することで、中国の金融ドメインにおいて正確かつ文脈的に適切な応答を提供することができる。

In recent years, pre-trained language models have undergone rapid development with the emergence of large-scale models. However, there is a lack of open-sourced chat models specifically designed for the Chinese language, especially in the field of Chinese finance, at the scale of hundreds of billions. To address this gap, we introduce XuanYuan 2.0, the largest Chinese chat model to date, built upon the BLOOM-176B architecture. Additionally, we propose a novel training method called hybrid-tuning to mitigate catastrophic forgetting. By combining general-domain with domain-specific knowledge and integrating the stages of pre-training and fine-tuning, XuanYuan 2.0 is capable of providing accurate and contextually appropriate responses in the Chinese financial domain.
翻訳日:2023-05-24 01:24:37 公開日:2023-05-19
# opt-r: 大きな言語モデルの推論スキルの微調整と促進における説明の役割を探る

OPT-R: Exploring the Role of Explanations in Finetuning and Prompting for Reasoning Skills of Large Language Models ( http://arxiv.org/abs/2305.12001v1 )

ライセンス: Link先を確認
Badr AlKhamissi, Siddharth Verma, Ping Yu, Zhijing Jin, Asli Celikyilmaz, Mona Diab(参考訳) 本稿では,大規模言語モデル (llm) の推論能力について,特にopen pretrained transformers (opt) モデルを代表として徹底的に検討する。 そこで本研究では, OPT-Rモデル, OPT-REモデル, OPT-REモデルの3つのモデルについて検討した。 次に,SUPER-NATURALINSTRUCTIONSベンチマークから抽出した57の領域外タスクに対して,26の異なる推論スキルを網羅し,3つのプロンプト技術を用いて全てのモデルを評価する。 本研究では,27の構成と6,156の試験評価を網羅的に網羅し,様々な推論スキルにおける説明の役割を理解するために,微調整,プロンプト,スケールの寸法を調査した。 この結果から, モデルが微調整された場合, モデルの性能に有意な影響を与えず, 非微調整されたモデルに肯定的な影響を及ぼすことが明らかとなった。 さらに,シグネチャリングと微調整の際の説明を取り入れた分類精度が,わずかながら一貫した増加を観察した。 最後に、数値(+20.4%)と類推(+13.9%)の推論や、無視可能なあるいは否定的な効果を示すスキルなど、微調整やプロンプトの際の説明を取り入れることで、どのスキルが最も有益かを洞察する。

In this paper, we conduct a thorough investigation into the reasoning capabilities of Large Language Models (LLMs), focusing specifically on the Open Pretrained Transformers (OPT) models as a representative of such models. Our study entails finetuning three different sizes of OPT on a carefully curated reasoning corpus, resulting in two sets of finetuned models: OPT-R, finetuned without explanations, and OPT-RE, finetuned with explanations. We then evaluate all models on 57 out-of-domain tasks drawn from the SUPER-NATURALINSTRUCTIONS benchmark, covering 26 distinct reasoning skills, utilizing three prompting techniques. Through a comprehensive grid of 27 configurations and 6,156 test evaluations, we investigate the dimensions of finetuning, prompting, and scale to understand the role of explanations on different reasoning skills. Our findings reveal that having explanations in the fewshot exemplar has no significant impact on the model's performance when the model is finetuned, while positively affecting the non-finetuned counterpart. Moreover, we observe a slight yet consistent increase in classification accuracy as we incorporate explanations during prompting and finetuning, respectively. Finally, we offer insights on which skills benefit the most from incorporating explanations during finetuning and prompting, such as Numerical (+20.4%) and Analogical (+13.9%) reasoning, as well as skills that exhibit negligible or negative effects.
翻訳日:2023-05-24 01:24:24 公開日:2023-05-19
# 語彙的単純化への深層学習アプローチ:サーベイ

Deep Learning Approaches to Lexical Simplification: A Survey ( http://arxiv.org/abs/2305.12000v1 )

ライセンス: Link先を確認
Kai North, Tharindu Ranasinghe, Matthew Shardlow, Marcos Zampieri(参考訳) レキシカルシンプリフィケーション(Lexical Simplification、LS)は、文の本来の意味を保ちながら、文中のより単純な単語に置き換えるタスクである。 LSはテキスト単純化(Text Simplification, TS)の語彙的構成要素であり、テキストを様々なターゲット層によりアクセスしやすくすることを目的としている。 過去の調査(Paetzold and Specia, 2017)では、LSの概要が詳細に説明されている。 しかし、この調査以降、AI/NLPコミュニティは、特に大規模言語モデル(LLM)の導入と迅速な学習によって、近年のディープラーニングの進歩によって、嵐に浴びている。 これらのモデルの高性能化はlsへの関心を再び高めた。 近年の進歩を振り返って、2017年から2023年にかけて発表されたlsとそのサブタスクに関する論文の包括的調査を行い、深層学習に特化している。 また,今後のLSシステム開発のためのベンチマークデータセットも提示する。

Lexical Simplification (LS) is the task of replacing complex for simpler words in a sentence whilst preserving the sentence's original meaning. LS is the lexical component of Text Simplification (TS) with the aim of making texts more accessible to various target populations. A past survey (Paetzold and Specia, 2017) has provided a detailed overview of LS. Since this survey, however, the AI/NLP community has been taken by storm by recent advances in deep learning, particularly with the introduction of large language models (LLM) and prompt learning. The high performance of these models sparked renewed interest in LS. To reflect these recent advances, we present a comprehensive survey of papers published between 2017 and 2023 on LS and its sub-tasks with a special focus on deep learning. We also present benchmark datasets for the future development of LS systems.
翻訳日:2023-05-24 01:23:53 公開日:2023-05-19
# 確率的保証を伴うニューラルネットワークのロバストな反事実説明

Robust Counterfactual Explanations for Neural Networks With Probabilistic Guarantees ( http://arxiv.org/abs/2305.11997v1 )

ライセンス: Link先を確認
Faisal Hamman, Erfaun Noorani, Saumitra Mishra, Daniele Magazzeni, Sanghamitra Dutta(参考訳) モデルが更新されたり、あるいは少し変更されたとしても、有効な、堅牢な反事実的説明を生成することへの関心が高まっている。 堅牢な反事実を見つけるために、既存の文献では、元のモデル $m$ と新しいモデル $M$ がパラメータ空間、すなわち $\|\text{Params}(M){-}\text{Params}(m)\|{<}\Delta$ に有界であると仮定することが多い。 しかし、モデルはしばしばパラメータ空間において、与えられたデータセットの予測や精度をほとんど、あるいは全く変更することなく大きく変化する。 本研究では,データ多様体上の点に対する予測の変化が制限されるようなパラメータ空間の任意の変化を可能にする,数学的抽象化である \emph{naturally-occurring} model changeを導入する。 次に、ニューラルネットワークなどの微分可能なモデルに対する潜在的なモデル変化に対する反ファクトアルのロバスト性を定量化する尺度(emph{Stability})を提案する。 我々の主な貢献は、我々の測度によって定義される十分高い値の 'emph{Stability} の反ファクトアルが、高い確率で「自然帰納的」モデルが変化した後も有効であることを示すことである(独立ガウスのリプシッツ関数に対する平均濃度境界)。 私たちの定量化は、常に利用可能ではないデータポイント周辺の局所リプシッツ定数に依存するため、提案手法の実際的な緩和を検証し、モデル変更後も有効なニューラルネットワークの堅牢な反事実を見つけるためにどのように組み込むか実験的に実証する。

There is an emerging interest in generating robust counterfactual explanations that would remain valid if the model is updated or changed even slightly. Towards finding robust counterfactuals, existing literature often assumes that the original model $m$ and the new model $M$ are bounded in the parameter space, i.e., $\|\text{Params}(M){-}\text{Params}(m)\|{<}\Delta$. However, models can often change significantly in the parameter space with little to no change in their predictions or accuracy on the given dataset. In this work, we introduce a mathematical abstraction termed \emph{naturally-occurring} model change, which allows for arbitrary changes in the parameter space such that the change in predictions on points that lie on the data manifold is limited. Next, we propose a measure -- that we call \emph{Stability} -- to quantify the robustness of counterfactuals to potential model changes for differentiable models, e.g., neural networks. Our main contribution is to show that counterfactuals with sufficiently high value of \emph{Stability} as defined by our measure will remain valid after potential ``naturally-occurring'' model changes with high probability (leveraging concentration bounds for Lipschitz function of independent Gaussians). Since our quantification depends on the local Lipschitz constant around a data point which is not always available, we also examine practical relaxations of our proposed measure and demonstrate experimentally how they can be incorporated to find robust counterfactuals for neural networks that are close, realistic, and remain valid after potential model changes.
翻訳日:2023-05-24 01:23:40 公開日:2023-05-19
# 能動整形装置による誤り検出のための脳波とEMGデータセット

EEG and EMG dataset for the detection of errors introduced by an active orthosis device ( http://arxiv.org/abs/2305.11996v1 )

ライセンス: Link先を確認
Niklas Kueper, Kartik Chari, Judith B\"utef\"ur, Julia Habenicht, Su Kyoung Kim, Tobias Rossol, Marc Tabie, Frank Kirchner, and Elsa Andrea Kirchner(参考訳) 本稿では,脳波(EEG)と筋電図(EMG)の記録を含むデータセットについて,能動整形装置を用いて右腕の移動を補助した8名の被験者から報告する。 支持運動は肘関節運動,すなわち右腕の屈曲と伸展であった。 矯正は被験者の腕を積極的に動かしている間に、いくつかの誤りは意図的に短期間導入された。 この間、矯正は反対方向に移動した。 本稿では,実験的な設定を説明し,全被験者にまたがる行動分析について述べる。 さらに,ある被験者に対して,平均的な事象関連電位分析を行い,エラー導入によるデータ品質と脳波活動について考察する。 ここで説明したデータセットは、公開アクセス可能である。 本研究の目的は研究コミュニティにデータセットを提供することであり,特に脳波から誤った事象を非同期に検出する新しい手法の開発を目的としている。 特に触覚と触覚を媒介とする誤認識に関心があるが,文献ではまだ十分に研究されていない。 我々は, 補綴の詳細な記述と実験により, その再現が可能となり, 大規模コミュニティによる補助システムの誤動作の検出に影響を及ぼす要因の系統的研究が促進されることを期待する。

This paper presents a dataset containing recordings of the electroencephalogram (EEG) and the electromyogram (EMG) from eight subjects who were assisted in moving their right arm by an active orthosis device. The supported movements were elbow joint movements, i.e., flexion and extension of the right arm. While the orthosis was actively moving the subject's arm, some errors were deliberately introduced for a short duration of time. During this time, the orthosis moved in the opposite direction. In this paper, we explain the experimental setup and present some behavioral analyses across all subjects. Additionally, we present an average event-related potential analysis for one subject to offer insights into the data quality and the EEG activity caused by the error introduction. The dataset described herein is openly accessible. The aim of this study was to provide a dataset to the research community, particularly for the development of new methods in the asynchronous detection of erroneous events from the EEG. We are especially interested in the tactile and haptic-mediated recognition of errors, which has not yet been sufficiently investigated in the literature. We hope that the detailed description of the orthosis and the experiment will enable its reproduction and facilitate a systematic investigation of the influencing factors in the detection of erroneous behavior of assistive systems by a large community.
翻訳日:2023-05-24 01:23:08 公開日:2023-05-19
# ディープラーニングに基づくソフトウェアISP手法に関する調査研究

Survey on software ISP methods based on Deep Learning ( http://arxiv.org/abs/2305.11994v1 )

ライセンス: Link先を確認
Matheus Henrique Marques da Silva, Jhessica Victoria Santos da Silva, Rodrigo Reis Arrais, Wladimir Barroso Guedes de Ara\'ujo Neto, Leonardo Tadeu Lopes, Guilherme Augusto Bileki, Iago Oliveira Lima, Lucas Borges Rondon, Bruno Melo de Souza, Mayara Costa Regazio, Rodolfo Coelho Dalapicola, Claudio Filipi Gon\c{c}alves dos Santos(参考訳) カメラの全画像信号処理装置(isp)は、デモサイシング、デノイジング、エンハンスメントなど、カラーフィルタアレイ(cfa)センサーからデータを変換するためのいくつかのプロセスに依存している。 これらのプロセスはハードウェアでもソフトウェアでも実行できる。 近年では、Deep Learningが一部のソリューションとして登場したり、あるいはひとつのニューラルネットワークを使ってISP全体を置き換えたりもしています。 本研究では,この領域における最近の研究をいくつか調査し,今後の研究成果や改善点などについて,より深い分析と比較を行った。

The entire Image Signal Processor (ISP) of a camera relies on several processes to transform the data from the Color Filter Array (CFA) sensor, such as demosaicing, denoising, and enhancement. These processes can be executed either by some hardware or via software. In recent years, Deep Learning has emerged as one solution for some of them or even to replace the entire ISP using a single neural network for the task. In this work, we investigated several recent pieces of research in this area and provide deeper analysis and comparison among them, including results and possible points of improvement for future researchers.
翻訳日:2023-05-24 01:22:48 公開日:2023-05-19
# グラフニューラルネットワークを用いたオープンワールド校正の学習

Learning for Open-World Calibration with Graph Neural Networks ( http://arxiv.org/abs/2305.12039v1 )

ライセンス: Link先を確認
Qin Zhang, Dongsheng An, Tianjun Xiao, Tong He, Qingming Tang, Ying Nian Wu, Joseph Tighe, Yifan Xing(参考訳) 本稿では,クラスタリングに表現のコンパクト度を組み込んだオープンワールド認識のためのしきい値校正問題に取り組む。 未知のクラスの発見と拒否に焦点を当てたオープンセット認識とは異なり、オープンワールド認識はテスト時に未知のクラスを分離するために一般化された頑健な表現を学習する。 提案手法は2つの重要な観測結果に基づく。 (i)高次元視覚埋め込み空間における近傍画像間の表現構造は、オープンワールドへの移動性を促進するために活用できる強い自己相似性を有する。 (ii)クラス内埋め込み構造はマージン化フォン・ミセス・フィッシャー(vmf)確率でモデル化することができ、真の正の確率との相関はデータセット不変である。 そこで我々は,グラフニューラルネットワーク(GNN)を中心とした統一フレームワークを設計し,擬似ラベルと表現のコンパクトさを示すvMF濃度を共同で予測する。 これらの予測は、認識精度の統計的推定に変換でき、オープンワールドクラスの目標ユーティリティを達成するために、距離しきい値のより堅牢なキャリブレーションを可能にする。 様々な視覚認知ベンチマークの結果,特に分布シフト下では,従来のポストホックキャリブレーション法よりも優れた手法が得られた。

We tackle the problem of threshold calibration for open-world recognition by incorporating representation compactness measures into clustering. Unlike the open-set recognition which focuses on discovering and rejecting the unknown, open-world recognition learns robust representations that are generalizable to disjoint unknown classes at test time. Our proposed method is based on two key observations: (i) representation structures among neighbouring images in high dimensional visual embedding spaces have strong self-similarity which can be leveraged to encourage transferability to the open world, (ii) intra-class embedding structures can be modeled with the marginalized von Mises-Fisher (vMF) probability, whose correlation with the true positive rate is dataset-invariant. Motivated by these, we design a unified framework centered around a graph neural network (GNN) to jointly predict the pseudo-labels and the vMF concentrations which indicate the representation compactness. These predictions can be converted into statistical estimations for recognition accuracy, allowing more robust calibration of the distance threshold to achieve target utility for the open-world classes. Results on a variety of visual recognition benchmarks demonstrate the superiority of our method over traditional posthoc calibration methods for the open world, especially under distribution shift.
翻訳日:2023-05-24 01:17:57 公開日:2023-05-19
# SIDAR:アライメントとリカバリのための合成画像データセット

SIDAR: Synthetic Image Dataset for Alignment & Restoration ( http://arxiv.org/abs/2305.12036v1 )

ライセンス: Link先を確認
Monika Kwiatkowski, Simon Matern, Olaf Hellwich(参考訳) 画像アライメントと画像復元は古典的なコンピュータビジョンタスクである。 しかし、エンドツーエンドのディープラーニングモデルのトレーニングと評価に十分なデータを提供するデータセットがまだ存在しない。 画像アライメントのための接地データを得るには、複雑な構造から移動する手法や光学フローシステムが必要であり、基礎となる画像シーケンス内ではわずかなシーンの変更しか導入せず、通常は大量の画像対応を提供するような十分なデータ分散を提供しないことが多い。 既存の画像データにランダムな視点歪みを利用する方法もある。 しかし、これは単純な歪みしか与えず、実世界のシナリオの複雑さと分散を欠いている。 画像は平面上にテクスチャとして追加され、照明条件、シャドウ、オクルージョンがシーンに追加されます。 シーンは複数の視点からレンダリングされ、実世界のシナリオとより一貫性のある視点歪みを生成し、ランダム化されたホモグラフではなく、カメラの投影と密接に類似している。 各シーンに対して,対応するオクルージョンマスク,ホモグラフィ,接地ラベルを付加した歪んだ画像列を提供する。 得られたデータセットは、ディープホモグラフィ推定、高密度画像マッチング、2dバンドル調整、インペインティング、シャドー削除、デノージング、コンテンツ検索、背景減算など、画像アライメントおよびアーティファクト除去を含む多数のタスクのトレーニングおよび評価セットとして機能することができる。 私たちのデータ生成パイプラインはカスタマイズ可能で、既存のどんなデータセットにも適用できます。

Image alignment and image restoration are classical computer vision tasks. However, there is still a lack of datasets that provide enough data to train and evaluate end-to-end deep learning models. Obtaining ground-truth data for image alignment requires sophisticated structure-from-motion methods or optical flow systems that often do not provide enough data variance, i.e., typically providing a high number of image correspondences, while only introducing few changes of scenery within the underlying image sequences. Alternative approaches utilize random perspective distortions on existing image data. However, this only provides trivial distortions, lacking the complexity and variance of real-world scenarios. Instead, our proposed data augmentation helps to overcome the issue of data scarcity by using 3D rendering: images are added as textures onto a plane, then varying lighting conditions, shadows, and occlusions are added to the scene. The scene is rendered from multiple viewpoints, generating perspective distortions more consistent with real-world scenarios, with homographies closely resembling those of camera projections rather than randomized homographies. For each scene, we provide a sequence of distorted images with corresponding occlusion masks, homographies, and ground-truth labels. The resulting dataset can serve as a training and evaluation set for a multitude of tasks involving image alignment and artifact removal, such as deep homography estimation, dense image matching, 2D bundle adjustment, inpainting, shadow removal, denoising, content retrieval, and background subtraction. Our data generation pipeline is customizable and can be applied to any existing dataset, serving as a data augmentation to further improve the feature learning of any existing method.
翻訳日:2023-05-24 01:17:35 公開日:2023-05-19
# waymo open sim agentsチャレンジ

The Waymo Open Sim Agents Challenge ( http://arxiv.org/abs/2305.12032v1 )

ライセンス: Link先を確認
Nico Montali, John Lambert, Paul Mougin, Alex Kuefler, Nick Rhinehart, Michelle Li, Cole Gulino, Tristan Emrich, Zoey Yang, Shimon Whiteson, Brandyn White, Dragomir Anguelov(参考訳) 本研究では,Waymo Open Sim Agents Challenge (WOSAC) を定義する。 現実的でインタラクティブなエージェントによるシミュレーションは、自動運転車ソフトウェア開発の重要なタスクである。 WOSACはこの課題に取り組み、対応するメトリクスを提案する最初の公開課題である。 この課題の目標は、自律運転のための行動モデルの評価と訓練に使用できる現実的なシミュレータの設計を刺激することである。 本稿では, 評価手法の概要と, 各種ベースラインシミュレーション手法の予備的結果について述べる。

In this work, we define the Waymo Open Sim Agents Challenge (WOSAC). Simulation with realistic, interactive agents represents a key task for autonomous vehicle software development. WOSAC is the first public challenge to tackle this task and propose corresponding metrics. The goal of the challenge is to stimulate the design of realistic simulators that can be used to evaluate and train a behavior model for autonomous driving. We outline our evaluation methodology and present preliminary results for a number of different baseline simulation agent methods.
翻訳日:2023-05-24 01:17:07 公開日:2023-05-19
# Clinical Camel: 対話型知識符号化を備えたオープンソースのエキスパートレベル医療言語モデル

Clinical Camel: An Open-Source Expert-Level Medical Language Model with Dialogue-Based Knowledge Encoding ( http://arxiv.org/abs/2305.12031v1 )

ライセンス: Link先を確認
Augustin Toma, Patrick R. Lawler, Jimmy Ba, Rahul G. Krishnan, Barry B. Rubin, Bo Wang(参考訳) 大規模言語モデル(LLM)は医療分野で大きな可能性を秘めているが、データプライバシ、規制コンプライアンス、モデルの安定性に関する懸念は広く採用されている。 高性能クローズドソースLCMの蒸留は一般的な作業に有効であることが証明されているが、その医療への応用は、ドメイン知識の減少と臨床作業を妨げるアライメント行動の残余によって制限されている。 これらの課題に対処するために,対話型知識符号化(DBKE)を提案する。 DBKEはモデルの暗黙の知識ベースを強化し、会話のリコールに備え、会話能力を強化し、その後のユースケースのソフトアライメントを可能にする。 密度の高い学術資料を合成対話に変換することで、DBKEはモデルの知識基盤を広げ、下流の振る舞いを導くソフトアライメントを可能にする。 dbkeの有効性を示すために,医療に焦点を絞ったオープンソースの会話モデルである clinical camel を提案する。 臨床カメラは、米国医学ライセンス試験(USMLE)ステップ1とステップ3でそれぞれ53.2 %、58.2 %で、GPT-3.5のスコアは36.1 %、55.7 %である。 臨床ラクダは、しばしば多段階の臨床ケースの問題に対処し、適応的なカウンセリングを提供し、臨床ノートを生成する。 しかし、幻覚を起こす傾向があり、安全上重要な設定において大きな障害となる。 臨床ラクダのパフォーマンスは、医療現場におけるllmの安全かつ効果的な統合のためのオープンソースモデルの継続的な研究と開発の重要性を強調している。

Large Language Models (LLMs) present immense potential in the medical field, yet concerns over data privacy, regulatory compliance, and model stability restrict their widespread adoption. Although the distillation of high-performing closed-source LLMs has proven effective for general tasks, their application in healthcare is limited due to reduced domain knowledge and remnants of alignment behavior hindering clinical tasks. To address these challenges, we propose Dialogue-Based Knowledge Encoding (DBKE). DBKE enhances models' implicit knowledge base and primes them for conversational recall, augmenting their conversational capabilities and enabling a soft alignment for subsequent use cases. By transforming dense academic source text into synthetic dialogue, DBKE broadens the model's knowledge base and enables a soft alignment that guides downstream behaviours. We present Clinical Camel, an open-source, healthcare-focused conversational model, to showcase the effectiveness of DBKE. Clinical Camel outperforms GPT-3.5 on the United States Medical Licensing Examination (USMLE) Step 1 and Step 3 with scores of 53.2 % and 58.2 %, respectively, compared to GPT-3.5's scores of 36.1 % and 55.7 %. Clinical Camel adeptly handles multi-stage clinical case problems, provides adaptive counseling, and generates clinical notes. However, it is prone to hallucinations, which pose a significant obstacle in safety-critical settings. The performance of Clinical Camel underscores the importance of continued research and development of open-source models for the safe and effective integration of LLMs in healthcare settings.
翻訳日:2023-05-24 01:17:01 公開日:2023-05-19
# 一連のグラフで継続的に学習する -- 力学系の方法

Learning Continually on a Sequence of Graphs -- The Dynamical System Way ( http://arxiv.org/abs/2305.12030v1 )

ライセンス: Link先を確認
Krishnan Raghavan and Prasanna Balaprakash(参考訳) 連続学習~(CL)は一連の相互関連タスクの学習に関わる分野であり、典型的には回帰または分類の意味で定義される。 近年、CL は、これらのタスクが n 次元実空間におけるベクトルの集合によって記述できる画像のようなユークリッドデータを用いて定義されるとき、広範囲に研究されている。 しかし、CLタスクに対応するデータが非ユークリッドデータであるとき、グラフ、点雲、多様体など、ユークリッド計量の意味における類似性の概念が持たないとき、文献はかなり疎い。 例えば、グラフは頂点と辺のタプルによって記述され、2つのグラフ間の類似性はユークリッド計量によって明確に定義されない。 このデータの基本的な性質から、非ユークリッドデータのためのclの開発には、いくつかの理論的および方法論的な課題がある。 特にグラフのCLは、頂点と辺の非定常挙動の明示的なモデリングと学習問題に対するそれらの影響を必要とする。 そこで本研究では,グラフ付きCLに対する適応動的プログラミングの視点を開発する。 本研究では,新しいタスクを学習する行為〜(一般化)と,以前に学習したタスクを記憶する行為〜(フォーゲッティング)の間に,2つのプレイヤーシーケンシャルゲームを定式化する。 我々は,ゲームに対する解の存在を数学的に証明し,ゲームの解に対する収束性を実証する。 最後に,提案手法の有効性を,最先端性能を確立しつつ,総合的なアブレーション研究を行ったグラフベンチマークで示す。

Continual learning~(CL) is a field concerned with learning a series of inter-related task with the tasks typically defined in the sense of either regression or classification. In recent years, CL has been studied extensively when these tasks are defined using Euclidean data-- data, such as images, that can be described by a set of vectors in an n-dimensional real space. However, the literature is quite sparse, when the data corresponding to a CL task is nonEuclidean-- data , such as graphs, point clouds or manifold, where the notion of similarity in the sense of Euclidean metric does not hold. For instance, a graph is described by a tuple of vertices and edges and similarities between two graphs is not well defined through a Euclidean metric. Due to this fundamental nature of the data, developing CL for nonEuclidean data presents several theoretical and methodological challenges. In particular, CL for graphs requires explicit modelling of nonstationary behavior of vertices and edges and their effects on the learning problem. Therefore, in this work, we develop a adaptive dynamic programming viewpoint for CL with graphs. In this work, we formulate a two-player sequential game between the act of learning new tasks~(generalization) and remembering previously learned tasks~(forgetting). We prove mathematically the existence of a solution to the game and demonstrate convergence to the solution of the game. Finally, we demonstrate the efficacy of our method on a number of graph benchmarks with a comprehensive ablation study while establishing state-of-the-art performance.
翻訳日:2023-05-24 01:16:33 公開日:2023-05-19
# MultiTurnCleanup: マルチTurnの会話トランスクリプトクリーンアップのためのベンチマーク

MultiTurnCleanup: A Benchmark for Multi-Turn Spoken Conversational Transcript Cleanup ( http://arxiv.org/abs/2305.12029v1 )

ライセンス: Link先を確認
Hua Shen, Vicky Zayats, Johann C. Rocholl, Daniel D. Walker, Dirk Padfield(参考訳) 現在のディフルエンシ検出モデルは、1つの話者からの個々の発話に焦点を当てている。 しかし,複数回にまたがる会話書き起こしにおける不連続現象が多数発生し,人間の可読性を阻害し,下流のNLPタスクの性能が低下する。 本研究は,会話の書き起こしに革新的なマルチトゥルンクリーンアップタスクを提案し,新たなデータセットであるMultiTurnCleanup1を収集することによって,これらの現象に対処する。 データラベリングスキーマを設計し,高品質なデータセットを収集し,広範なデータ分析を行う。 さらに,2つのモデリング手法を実験的評価に活用し,今後の研究のベンチマークを行う。

Current disfluency detection models focus on individual utterances each from a single speaker. However, numerous discontinuity phenomena in spoken conversational transcripts occur across multiple turns, hampering human readability and the performance of downstream NLP tasks. This study addresses these phenomena by proposing an innovative Multi-Turn Cleanup task for spoken conversational transcripts and collecting a new dataset, MultiTurnCleanup1. We design a data labeling schema to collect the high-quality dataset and provide extensive data analysis. Furthermore, we leverage two modeling approaches for experimental evaluation as benchmarks for future research.
翻訳日:2023-05-24 01:16:08 公開日:2023-05-19
# 極性アヒルとその発見場所 : アヒル型付けと極性ボックス埋め込みによるエンティティリンクの強化

Polar Ducks and Where to Find Them: Enhancing Entity Linking with Duck Typing and Polar Box Embeddings ( http://arxiv.org/abs/2305.12027v1 )

ライセンス: Link先を確認
Mattia Atzeni, Mikhail Plekhanov, Fr\'ed\'eric A. Dreyer, Nora Kassner, Simone Merello, Louis Martin, Nicola Cancedda(参考訳) 高密度検索に基づくエンティティリンク手法は,大規模アプリケーションにおいて効率的かつ広く利用されているソリューションであるが,組込み空間の構造に敏感な生成モデルの性能に欠ける。 この問題に対処するために,本論文では,エンティティ型の事前知識を用いて,エンティティ表現空間に構造情報を注入するアプローチであるDUCKを紹介する。 プログラミング言語におけるダックタイプに着想を得て,知識グラフ内の他のエンティティとの関係に基づいて,エンティティの型を定義することを提案する。 次に,ボックス埋め込みの概念を球面極座標に移植し,超球面上のボックスとして関係を表現することを提案する。 関係に対応するボックス内に配置することで,類似型のエンティティをクラスタリングするモデルを最適化する。 提案手法は,標準エンティティ曖昧性ベンチマークで新たな最先端結果をセットし,最大7.9f1ポイントの性能向上を行い,他の型認識手法を上回り,生成モデルの結果を18倍のパラメータで一致させる。

Entity linking methods based on dense retrieval are an efficient and widely used solution in large-scale applications, but they fall short of the performance of generative models, as they are sensitive to the structure of the embedding space. In order to address this issue, this paper introduces DUCK, an approach to infusing structural information in the space of entity representations, using prior knowledge of entity types. Inspired by duck typing in programming languages, we propose to define the type of an entity based on the relations that it has with other entities in a knowledge graph. Then, porting the concept of box embeddings to spherical polar coordinates, we propose to represent relations as boxes on the hypersphere. We optimize the model to cluster entities of similar type by placing them inside the boxes corresponding to their relations. Our experiments show that our method sets new state-of-the-art results on standard entity-disambiguation benchmarks, it improves the performance of the model by up to 7.9 F1 points, outperforms other type-aware approaches, and matches the results of generative models with 18 times more parameters.
翻訳日:2023-05-24 01:15:57 公開日:2023-05-19
# 時空間データ処理のためのエネルギー効率の高いmemcapacitive physical reservoir computing system

Energy-efficient memcapacitive physical reservoir computing system for temporal data processing ( http://arxiv.org/abs/2305.12025v1 )

ライセンス: Link先を確認
Md Razuan Hossain, Ahmed Salah Mohamed, Nicholas Xavier Armendarez, Joseph S. Najem and Md Sakib Hasan(参考訳) 貯水池コンピューティングは、入力信号から特徴を抽出し、それらを高次元空間にマッピングすることで、時間的データを処理するための高効率な機械学習フレームワークである。 物理貯留層は、スピントロン振動子、原子スイッチネットワーク、シリコンフォトニックモジュール、強誘電トランジスタ、揮発性memristorを用いて実現されている。 しかし、これらの装置は、その抵抗性により本質的にエネルギーを消費し、電力消費が増加する。 したがって、容量メモリデバイスはよりエネルギー効率の良いアプローチを提供できる。 本研究では,特定の短期シナプス可塑性関数を密接に模倣した揮発性生体膜を用いた膜キャパシタを用いて分類課題を解決し,シミュレーションおよび実験で時系列データを解析する。 本システムは,2次非線形回帰タスクにおいて,音声桁分類の精度98%,正規化平均平方誤差0.0012を達成する。 さらに,脳波を用いたてんかん検出のための脳波信号分類問題において,リアルタイムの時間データ処理能力を示すために,100%の精度を示す。 最も重要なことは、ランダムな入力シーケンスでは、各memcapacitorは、選択された入力電圧パルス幅に関係なく、スパイク当たり平均41.5fj、100msパルス幅の平均電力415fwを消費し、最先端デバイスよりも桁違いに消費する。 最後に,メムキャパシタの生体適合性,ソフト性は,生体環境における計算や信号処理に極めて適していると考えている。

Reservoir computing is a highly efficient machine learning framework for processing temporal data by extracting features from the input signal and mapping them into higher dimensional spaces. Physical reservoir layers have been realized using spintronic oscillators, atomic switch networks, silicon photonic modules, ferroelectric transistors, and volatile memristors. However, these devices are intrinsically energy-dissipative due to their resistive nature, which leads to increased power consumption. Therefore, capacitive memory devices can provide a more energy-efficient approach. Here, we leverage volatile biomembrane-based memcapacitors that closely mimic certain short-term synaptic plasticity functions as reservoirs to solve classification tasks and analyze time-series data in simulation and experimentally. Our system achieves a 98% accuracy rate for spoken digit classification and a normalized mean square error of 0.0012 in a second-order non-linear regression task. Further, to demonstrate the device's real-time temporal data processing capability, we demonstrate a 100% accuracy for an electroencephalography (EEG) signal classification problem for epilepsy detection. Most importantly, we demonstrate that for a random input sequence, each memcapacitor consumes on average 41.5fJ of energy per spike, irrespective of the chosen input voltage pulse width, and 415fW of average power for 100 ms pulse width, orders of magnitude lower than the state-of-the-art devices. Lastly, we believe the biocompatible, soft nature of our memcapacitor makes it highly suitable for computing and signal-processing applications in biological environments.
翻訳日:2023-05-24 01:15:28 公開日:2023-05-19
# BOLT:Tunable Biasesを用いた高速エネルギー制御テキスト生成

BOLT: Fast Energy-based Controlled Text Generation with Tunable Biases ( http://arxiv.org/abs/2305.12018v1 )

ライセンス: Link先を確認
Xin Liu, Muhammad Khalifa, and Lu Wang(参考訳) エネルギーベースモデル(EBM)は、幅広い制約に高い適用性があることから、制御されたテキスト生成で人気を博している。 しかし、ESMからのサンプリングは、しばしば可塑性テキストに収束するために大量のイテレーションを必要とするため、デコード処理を遅くし、現実世界のアプリケーションでは実用的でない。 本研究では,言語モデルの出力ロジットを直接調整するために,調整可能なバイアスに依存するBOLTを提案する。 従来の作業とは異なり、BOLTはジェネレータの自己回帰的な性質を維持し、トークン単位の条件依存と全体的なフラレンシの強い制御を主張する。 ソフトな制約(感情制御など)とハードな制約(キーワード誘導されたトピック制御など)の両方を用いて制御された生成タスクの最先端技術と比較すると、BOLTは効率と流速を大幅に向上させる。 感情制御では、BOLTは競争基準の7倍の速さで、人間の審査員によると74.4%の評価サンプルに精通している。

Energy-based models (EBMs) have gained popularity for controlled text generation due to their high applicability to a wide range of constraints. However, sampling from EBMs is non-trivial, as it often requires a large number of iterations to converge to plausible text, which slows down the decoding process and makes it less practical for real-world applications. In this work, we propose BOLT, which relies on tunable biases to directly adjust the language model's output logits. Unlike prior work, BOLT maintains the generator's autoregressive nature to assert a strong control on token-wise conditional dependencies and overall fluency, and thus converges faster. When compared with state-of-the-arts on controlled generation tasks using both soft constraints (e.g., sentiment control) and hard constraints (e.g., keyword-guided topic control), BOLT demonstrates significantly improved efficiency and fluency. On sentiment control, BOLT is 7x faster than competitive baselines, and more fluent in 74.4% of the evaluation samples according to human judges.
翻訳日:2023-05-24 01:14:22 公開日:2023-05-19
# Paxion: ビデオ言語基礎モデルにおけるアクション知識のパッチング

Paxion: Patching Action Knowledge in Video-Language Foundation Models ( http://arxiv.org/abs/2305.10683v2 )

ライセンス: Link先を確認
Zhenhailong Wang, Ansel Blume, Sha Li, Genglin Liu, Jaemin Cho, Zineng Tang, Mohit Bansal, Heng Ji(参考訳) 行動知識は、行動のテキスト的、視覚的、時間的側面を理解することを含む。 action dynamics benchmark (actionbench) では,マルチモーダルアライメント機能と時間的理解スキルをそれぞれ対象とするaction antonymとvideo reversalという,注意深く設計された2つのプロビングタスクについて紹介する。 最近のビデオ言語モデル(VidLM)の様々なベンチマークタスクにおける印象的なパフォーマンスにもかかわらず、我々の診断タスクは、アクション知識の驚くべき不足(ほぼランダムなパフォーマンス)を明らかにし、現在のモデルはアクション理解のショートカットとしてオブジェクト認識能力に依存していることを示唆している。 そこで本研究では,DVDM(Dis Discriminative Video Dynamics Modeling)の目的と合わせて,新しいフレームワークPaxionを提案する。 Paxionフレームワークは、Knowledge Patcherネットワークを使用して、新しいアクション知識とKnowledge Fuserコンポーネントをエンコードし、Pacherを凍結したVidLMに統合する。 アクション知識の学習に広く使われているビデオテキストコントラスト(vtc)ロスの制限により,知識パッカーの訓練にdvdm目標を導入する。 DVDMは、アクションテキストとビデオフレームの正しい順序の相関をエンコードするようにモデルを強制する。 広範な分析の結果,paxion と dvdm はともに動作知識理解のギャップ(約50%から80%)を効果的に満たし,オブジェクトと動作中心のダウンストリームタスクの両方において,パフォーマンスを維持あるいは改善できることがわかった。

Action knowledge involves the understanding of textual, visual, and temporal aspects of actions. We introduce the Action Dynamics Benchmark (ActionBench) containing two carefully designed probing tasks: Action Antonym and Video Reversal, which targets multimodal alignment capabilities and temporal understanding skills of the model, respectively. Despite recent video-language models' (VidLM) impressive performance on various benchmark tasks, our diagnostic tasks reveal their surprising deficiency (near-random performance) in action knowledge, suggesting that current models rely on object recognition abilities as a shortcut for action understanding. To remedy this, we propose a novel framework, Paxion, along with a new Discriminative Video Dynamics Modeling (DVDM) objective. The Paxion framework utilizes a Knowledge Patcher network to encode new action knowledge and a Knowledge Fuser component to integrate the Patcher into frozen VidLMs without compromising their existing capabilities. Due to limitations of the widely-used Video-Text Contrastive (VTC) loss for learning action knowledge, we introduce the DVDM objective to train the Knowledge Patcher. DVDM forces the model to encode the correlation between the action text and the correct ordering of video frames. Our extensive analyses show that Paxion and DVDM together effectively fill the gap in action knowledge understanding (~50% to 80%), while maintaining or improving performance on a wide spectrum of both object- and action-centric downstream tasks.
翻訳日:2023-05-23 11:21:06 公開日:2023-05-19
# ベルの不等式に対する一般化反復式

Generalized Iterative Formula for Bell Inequalities ( http://arxiv.org/abs/2109.05521v3 )

ライセンス: Link先を確認
Xing-Yan Fan, Zhen-Peng Xu, Jia-Le Miao, Hong-Ye Liu, Yi-Jia Liu, Wei-Min Shang, Jie Zhou, Hui-Xian Meng, Otfried G\"uhne and Jing-Ling Chen(参考訳) ベルの不等式は非局所的相関を検出するための重要なツールであるが、多粒子系の構築は依然として複雑な問題である。 本研究は,$(n+1)$-partite bellの不等式を$n$-partite に分解することから着想を得て,非自明な$(n+1)$-partite を$n$-partite から構成するための一般化反復式を提案する。 我々の反復公式は、文学における有名なメルミン・アルデハリ・ベリンスキー・クリュシュコ(英語版)(MABK)と他の家族を特別な事例として回収する。 さらに、一般化されたグリーンベルガー=ホルン=ゼーリンガー(英語版)(Greenberger-Horne-Zeilinger)は、これらの不等式がMABK族と同じ量子違反を招き、同時に、非等式は絡み合った領域全体の非局所性を検出することができると述べる。 さらに、I3322の不等式は、まだ厳密な任意の$n$-partiteケースに一般化され、46$ \'{S}liwaの不等式は、各不等式とその同値類に反復法を適用することにより、四部密なケースに一般化される。

Bell inequalities are a vital tool to detect the nonlocal correlations, but the construction of them for multipartite systems is still a complicated problem. In this work, inspired via a decomposition of $(n+1)$-partite Bell inequalities into $n$-partite ones, we present a generalized iterative formula to construct nontrivial $(n+1)$-partite ones from the $n$-partite ones. Our iterative formulas recover the well-known Mermin-Ardehali-Belinski{\u{\i}}-Klyshko (MABK) and other families in the literature as special cases. Moreover, a family of ``dual-use'' Bell inequalities is proposed, in the sense that for the generalized Greenberger-Horne-Zeilinger states these inequalities lead to the same quantum violation as the MABK family and, at the same time, the inequalities are able to detect the non-locality in the entire entangled region. Furthermore, we present generalizations of the the I3322 inequality to any $n$-partite case which are still tight, and of the $46$ \'{S}liwa's inequalities to the four-partite tight ones, by applying our iteration method to each inequality and its equivalence class.
翻訳日:2023-05-22 20:22:59 公開日:2023-05-19
# 汎用性評価のための多心ポリープ検出とセグメンテーションデータセット

A multi-centre polyp detection and segmentation dataset for generalisability assessment ( http://arxiv.org/abs/2106.04463v3 )

ライセンス: Link先を確認
Sharib Ali, Debesh Jha, Noha Ghatwary, Stefano Realdon, Renato Cannizzaro, Osama E. Salem, Dominique Lamarque, Christian Daul, Michael A. Riegler, Kim V. Anonsen, Andreas Petlund, P{\aa}l Halvorsen, Jens Rittscher, Thomas de Lange, and James E. East(参考訳) 大腸ポリープは大腸内視鏡で同定されたがん前駆体として広く知られている。 ほとんどのポリープは良性であるが、ポリープの数、サイズ、表面構造は大腸癌のリスクと関連している。 ポリープ検出とセグメンテーションを自動化するいくつかの方法が開発されている。 しかし、主な問題は、大規模なマルチセンタで構築されたデータセットで厳密にテストされていないことである。 その結果、開発した手法は、異なる集団データセットに一般化できない。 この範囲で、300人以上の患者を対象とする6つのユニークなセンターからデータセットを収集した。 このデータセットは、3762個のアノテートされたポリプラベルを持つ単一フレームとシーケンスデータの両方を含む。 我々の知る限り、これは最も包括的な検出とピクセルレベルのセグメンテーションデータセット(「textit{PolypGen}」と呼ばれる)であり、計算科学者と専門の消化器科医のチームが計算した。 本稿では,データ構築とアノテーション戦略,品質保証,技術検証に関する知見を提供する。 我々のデータセットは \url{ https://doi.org/10.7303/syn26376615} からダウンロードできる。

Polyps in the colon are widely known cancer precursors identified by colonoscopy. Whilst most polyps are benign, the polyp's number, size and surface structure are linked to the risk of colon cancer. Several methods have been developed to automate polyp detection and segmentation. However, the main issue is that they are not tested rigorously on a large multicentre purpose-built dataset, one reason being the lack of a comprehensive public dataset. As a result, the developed methods may not generalise to different population datasets. To this extent, we have curated a dataset from six unique centres incorporating more than 300 patients. The dataset includes both single frame and sequence data with 3762 annotated polyp labels with precise delineation of polyp boundaries verified by six senior gastroenterologists. To our knowledge, this is the most comprehensive detection and pixel-level segmentation dataset (referred to as \textit{PolypGen}) curated by a team of computational scientists and expert gastroenterologists. The paper provides insight into data construction and annotation strategies, quality assurance, and technical validation. Our dataset can be downloaded from \url{ https://doi.org/10.7303/syn26376615}.
翻訳日:2023-05-22 20:21:53 公開日:2023-05-19
# 軽量で勾配安定な神経層

A Lightweight and Gradient-Stable Nerual Layer ( http://arxiv.org/abs/2106.04088v2 )

ライセンス: Link先を確認
Yueyao Yu and Yin Zhang(参考訳) そこで本研究では,家計の重み付けと絶対値活性化に基づく神経層アーキテクチャを提案する。 d$-neurons と $d$ output の完全接続層と比較して、han-layer はパラメータの数と対応する複雑性を $o(d^2)$ から $o(d)$ に削減する。 ハン層構造は、2つの望ましい性質を保証する:(1)勾配安定性(消失または爆発勾配がない)、(2)1-リプシッツ連続性。 広範な数値実験により、完全連結(fc)層を置き換えるために戦略的にハン層を用いることができ、一般化性能を維持しつつモデルパラメータの数を減らすことができる。 いくつかの小さなスタイリングモデルでHan層アーキテクチャの機能を紹介し、その現在の限界についても論じる。

We propose a neural-layer architecture based on Householder weighting and absolute-value activating, hence called Householder-absolute neural layer or simply Han-layer. Compared to a fully-connected layer with $d$-neurons and $d$ outputs, a Han-layer reduces the number of parameters and the corresponding complexity from $O(d^2)$ to $O(d)$. The Han-layer structure guarantees two desirable properties: (1) gradient stability (free of vanishing or exploding gradient), and (2) 1-Lipschitz continuity. Extensive numerical experiments show that one can strategically use Han-layers to replace fully-connected (FC) layers, reducing the number of model parameters while maintaining or even improving the generalization performance. We will showcase the capabilities of the Han-layer architecture on a few small stylized models, and also discuss its current limitations.
翻訳日:2023-05-22 20:21:38 公開日:2023-05-19
# ポイント2Sound:3Dポイントクラウドシーンを用いたモノからバイノーラルオーディオへ

Points2Sound: From mono to binaural audio using 3D point cloud scenes ( http://arxiv.org/abs/2104.12462v3 )

ライセンス: Link先を確認
Francesc Llu\'is, Vasileios Chatziioannou, Alex Hofmann(参考訳) 没入的アプリケーションでは、仮想環境の人々に有意義な体験をもたらすためには、その視覚と一致するバイノーラル音の生成が不可欠である。 近年の研究では、2次元視覚情報を用いてモノオーディオからバイノーラルオーディオを合成するためにニューラルネットワークを用いる可能性が示されている。 音声を3次元視覚情報で誘導し、波形領域で操作することでこのアプローチを拡張することで、仮想オーディオシーンをより正確にオーラル化することができる。 3Dポイントクラウドシーンを用いたモノオーディオからバイノーラル版を生成するマルチモーダルディープラーニングモデルであるPoints2Soundを提案する。 具体的には、points2soundはビジョンネットワークとオーディオネットワークで構成される。 vision networkは3dスパース畳み込みを使用して、point cloudシーンから視覚的な特徴を抽出する。 次に、波形領域で動作するオーディオネットワークを視覚特徴量条件とし、バイノーラル版を合成する。 その結果,バイノーラル合成作業において,3次元視覚情報を用いてマルチモーダル深層学習モデルを導出できることが示唆された。 また,3Dポイントクラウド特性,学習目標,残響条件,複数種類のモノ混合信号が,現場に存在する様々な音源に対して,Points2Soundのバイノーラル音声合成性能に与える影響についても検討した。

For immersive applications, the generation of binaural sound that matches its visual counterpart is crucial to bring meaningful experiences to people in a virtual environment. Recent studies have shown the possibility of using neural networks for synthesizing binaural audio from mono audio by using 2D visual information as guidance. Extending this approach by guiding the audio with 3D visual information and operating in the waveform domain may allow for a more accurate auralization of a virtual audio scene. We propose Points2Sound, a multi-modal deep learning model which generates a binaural version from mono audio using 3D point cloud scenes. Specifically, Points2Sound consists of a vision network and an audio network. The vision network uses 3D sparse convolutions to extract a visual feature from the point cloud scene. Then, the visual feature conditions the audio network, which operates in the waveform domain, to synthesize the binaural version. Results show that 3D visual information can successfully guide multi-modal deep learning models for the task of binaural synthesis. We also investigate how 3D point cloud attributes, learning objectives, different reverberant conditions, and several types of mono mixture signals affect the binaural audio synthesis performance of Points2Sound for the different numbers of sound sources present in the scene.
翻訳日:2023-05-22 20:21:21 公開日:2023-05-19
# 正極性保存密度行列の平方根による有限温度での最小化

Positivity Preserving Density Matrix Minimization at Finite Temperatures via Square Root ( http://arxiv.org/abs/2103.07078v2 )

ライセンス: Link先を確認
Jacob M. Leamer (1), William Dawson (2), and Denys I. Bondar (1) ((1) Department of Physics and Engineering Physics, Tulane University, (2) RIKEN Center for Computational Science)(参考訳) 本稿では,有限温度における電子構造問題に対するフェルミ・ディラック密度行列を計算するための波動作用素最小化(wom)法を提案する。 womモデルは当初、所望の有限温度まで無限温度で状態を冷却する。 我々は、グランドカノニカル(定数化学ポテンシャル)とカノニカル(定数電子数)のアンサンブルの両方を考慮する。 さらに、収束に必要なステップの数は系内の原子の数とは無関係であることを示す。 本稿では,密度行列最小化手法への関心を再活性化させることを期待する。

We present a Wave Operator Minimization (WOM) method for calculating the Fermi-Dirac density matrix for electronic structure problems at finite temperature while preserving physicality by construction using the wave operator, i.e., the square root of the density matrix. WOM models cooling a state initially at infinite temperature down to the desired finite temperature. We consider both the grand canonical (constant chemical potential) and canonical (constant number of electrons) ensembles. Additionally, we show that the number of steps required for convergence is independent of the number of atoms in the system. We hope that the discussion and results presented in this article reinvigorates interest in density matrix minimization methods.
翻訳日:2023-05-22 20:20:59 公開日:2023-05-19
# CodeVIO: 学習可能なDense深さを持つビジュアル慣性オドメトリー

CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth ( http://arxiv.org/abs/2012.10133v3 )

ライセンス: Link先を確認
Xingxing Zuo, Nathaniel Merrill, Wei Li, Yong Liu, Marc Pollefeys, Guoquan Huang(参考訳) 本研究では,高精度な状態推定と深度マップを提供する,軽量で密結合の深度ネットワークと視覚慣性オドメトリー(VIO)システムを提案する。 提案する軽量条件付き変分オートエンコーダ(cvae)を奥行き推定とエンコーディングに活用し,vioのそれまでの細分化された特徴をネットワークに与え,初期深度予測と一般化能力の精度を向上させる。 コンパクトなエンコードされた深度マップは、密集したローカルシーンの幾何学を提供するために、スライディングウィンドウ推定器のナビゲーション状態と共同で更新される。 また, CVAE のジャコビアンを従来よりも1桁以上高速に取得できる新しい手法を提案し, また, 第一推定ジャコビアン (FEJ) を用いて再計算を回避する。 完全高密度残差に依存する従来の研究とは対照的に、深度コード更新のための疎度測定のみを提供し、スパース測定とFEJの選択が依然として推定深度マップを大幅に改善できることを示す。 また,本システムでは,ネットワークとコードヤコビアンにのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。

In this work, we present a lightweight, tightly-coupled deep depth network and visual-inertial odometry (VIO) system, which can provide accurate state estimates and dense depth maps of the immediate surroundings. Leveraging the proposed lightweight Conditional Variational Autoencoder (CVAE) for depth inference and encoding, we provide the network with previously marginalized sparse features from VIO to increase the accuracy of initial depth prediction and generalization capability. The compact encoded depth maps are then updated jointly with navigation states in a sliding window estimator in order to provide the dense local scene geometry. We additionally propose a novel method to obtain the CVAE's Jacobian which is shown to be more than an order of magnitude faster than previous works, and we additionally leverage First-Estimate Jacobian (FEJ) to avoid recalculation. As opposed to previous works relying on completely dense residuals, we propose to only provide sparse measurements to update the depth code and show through careful experimentation that our choice of sparse measurements and FEJs can still significantly improve the estimated depth maps. Our full system also exhibits state-of-the-art pose estimation accuracy, and we show that it can run in real-time with single-thread execution while utilizing GPU acceleration only for the network and code Jacobian.
翻訳日:2023-05-22 20:20:46 公開日:2023-05-19
# ビデオ異常検出のためのオブジェクト中心およびメモリ誘導正規性再構成

Object-centric and memory-guided normality reconstruction for video anomaly detection ( http://arxiv.org/abs/2203.03677v4 )

ライセンス: Link先を確認
Khalil Bergaoui, Yassine Naji, Aleksandr Setkov, Ang\'elique Loesch, Mich\`ele Gouiff\`es and Romaric Audigier(参考訳) 本稿では,ビデオ監視におけるビデオ異常検出問題に対処する。 異常事象の固有ラリティーと不均一性のため、このモデルはトレーニング中に異常なサンプルを見ることなく、オブジェクト中心の正常パターンを学習する正規性モデリング戦略と見なされる。 主なコントリビューションは、事前訓練されたオブジェクトレベルの動作特徴のプロトタイプと、余弦距離に基づく異常推定関数を結合することであり、それゆえ、主流の再構築戦略にさらなる制約を加えることで、従来の手法を拡張している。 我々のフレームワークは、外見情報と動き情報を利用してオブジェクトレベルの振る舞いを学習し、メモリモジュール内のプロトタイプパターンをキャプチャする。 いくつかのよく知られたデータセットにおける実験は、最も関連する時空間的評価指標の最先端を上回り、この手法の有効性を実証している。

This paper addresses video anomaly detection problem for videosurveillance. Due to the inherent rarity and heterogeneity of abnormal events, the problem is viewed as a normality modeling strategy, in which our model learns object-centric normal patterns without seeing anomalous samples during training. The main contributions consist in coupling pretrained object-level action features prototypes with a cosine distance-based anomaly estimation function, therefore extending previous methods by introducing additional constraints to the mainstream reconstruction-based strategy. Our framework leverages both appearance and motion information to learn object-level behavior and captures prototypical patterns within a memory module. Experiments on several well-known datasets demonstrate the effectiveness of our method as it outperforms current state-of-the-art on most relevant spatio-temporal evaluation metrics.
翻訳日:2023-05-22 20:13:30 公開日:2023-05-19
# $\phi$-divergences を用いた分布ロバストベイズ最適化

Distributionally Robust Bayesian Optimization with $\phi$-divergences ( http://arxiv.org/abs/2203.02128v4 )

ライセンス: Link先を確認
Hisham Husain and Vu Nguyen and Anton van den Hengel(参考訳) 堅牢性の研究は、多くのシステムが不確実性に直面するデータ駆動環境において必然性のため、多くの注目を集めている。 そのような問題の一つがベイズ最適化 (BO) であり、不確実性は多面的であるが、この方向に特化した研究は限られている。 特に、Kirschner et al. (2020) は、DROのレンズからBO問題をキャストすることで、既存の分散ロバスト最適化(DRO)の文献を橋渡しする。 この研究は先駆的だが、有限文脈仮定のような様々な現実的な欠点に悩まされており、主要な疑問を残している。 本研究では,$\phi$-divergences におけるデータシフトに対するロバスト性を検討することで,この問題に多くの一般性に取り組み,$\chi^2$-divergence や total variation, 現存する kullback-leibler (kl) の分岐など,多くの一般的な選択肢を仮定した。 この設定におけるDRO-BO問題は有限次元最適化問題と等価であり、連続的な文脈でも証明可能な部分線型後悔境界で容易に実装できることを示す。 次に,提案手法が既存の手法を超越し,理論的結果が得られたことを実験的に示す。

The study of robustness has received much attention due to its inevitability in data-driven settings where many systems face uncertainty. One such example of concern is Bayesian Optimization (BO), where uncertainty is multi-faceted, yet there only exists a limited number of works dedicated to this direction. In particular, there is the work of Kirschner et al. (2020), which bridges the existing literature of Distributionally Robust Optimization (DRO) by casting the BO problem from the lens of DRO. While this work is pioneering, it admittedly suffers from various practical shortcomings such as finite contexts assumptions, leaving behind the main question Can one devise a computationally tractable algorithm for solving this DRO-BO problem? In this work, we tackle this question to a large degree of generality by considering robustness against data-shift in $\phi$-divergences, which subsumes many popular choices, such as the $\chi^2$-divergence, Total Variation, and the extant Kullback-Leibler (KL) divergence. We show that the DRO-BO problem in this setting is equivalent to a finite-dimensional optimization problem which, even in the continuous context setting, can be easily implemented with provable sublinear regret bounds. We then show experimentally that our method surpasses existing methods, attesting to the theoretical results.
翻訳日:2023-05-22 20:13:16 公開日:2023-05-19
# asymetric cycle generative and adversarial frameworkを用いた深部単一画像のレーディング

Deep Single Image Deraining using An Asymetric Cycle Generative and Adversarial Framework ( http://arxiv.org/abs/2202.09635v2 )

ライセンス: Link先を確認
Wei Liu, Rui Jiang, Cheng Chen, Tao Lu and Zixiang Xiong(参考訳) 実際には、雨と霧はしばしば同時に存在し、シーンイメージの明快さと質を大幅に低下させる可能性がある。 しかし, ほとんどは霧を無視して雨害除去に重点を置いているため, 品質の低さに繋がる。 さらに、サンプルはこれらの方法によってかなり均質に生成され、多様性が欠如しており、複雑な雨のシーンに直面する結果に乏しい。 そこで,本研究では,雨のストレークと霧の特徴を同時に捉えながら,合成画像と実際の雨画像の両方を訓練する単一画像デレーニングのための,新しいアサイメトリサイクル生成・逆行フレームワーク(acgf)を提案する。 ACGFはRain-fog2Clean(R2C)変換ブロックとC2R変換ブロックで構成される。 前者は雨・寺院-fogネットワークと注意雨-fog特徴抽出ネットワーク(arfe)による並行雨除去経路と雨-fog特徴抽出経路とからなり、後者は合成雨量変換経路のみを含む。 降雨フォグ特徴抽出経路において,降雨フォグ融合特徴をよりよく特徴付けるために,arfeを用いて,降雨フォグ情報と局所降雨フォグ情報の自己相似性を,空間的特徴相関を学習することによって活用する。 さらに,C2Rの翻訳能力とモデルの多様性を向上させるため,雨天画像劣化モデルと混合判別器を組み込んだ雨天特徴疎結合再編成ネットワーク(RFDR)を設計し,よりリッチなテクスチャを合成雨天路に保存する。 ベンチマークのrain-fogとrain datasetに関する広範囲な実験は、acgfが最先端のデレイン法を上回っていることを示している。 また,acgfの有効性をさらに実証するために,性能評価実験を行った。

In reality, rain and fog are often present at the same time, which can greatly reduce the clarity and quality of the scene image. However, most unsupervised single image deraining methods mainly focus on rain streak removal by disregarding the fog, which leads to low-quality deraining performance. In addition, the samples are rather homogeneous generated by these methods and lack diversity, resulting in poor results in the face of complex rain scenes. To address the above issues, we propose a novel Asymetric Cycle Generative and Adversarial framework (ACGF) for single image deraining that trains on both synthetic and real rainy images while simultaneously capturing both rain streaks and fog features. ACGF consists of a Rain-fog2Clean (R2C) transformation block and a Clean2Rain-fog (C2R) transformation block. The former consists of parallel rain removal path and rain-fog feature extraction path by the rain and derain-fog network and the attention rain-fog feature extraction network (ARFE) , while the latter only contains a synthetic rain transformation path. In rain-fog feature extraction path, to better characterize the rain-fog fusion feature, we employ an ARFE to exploit the self-similarity of global and local rain-fog information by learning the spatial feature correlations. Moreover, to improve the translational capacity of C2R and the diversity of models, we design a rain-fog feature decoupling and reorganization network (RFDR) by embedding a rainy image degradation model and a mixed discriminator to preserve richer texture details in synthetic rain conversion path. Extensive experiments on benchmark rain-fog and rain datasets show that ACGF outperforms state-of-the-art deraining methods. We also conduct defogging performance evaluation experiments to further demonstrate the effectiveness of ACGF.
翻訳日:2023-05-22 20:12:51 公開日:2023-05-19
# トランスフォーマーはより堅牢か? 変圧器の厳密なロバスト性検証に向けて

Are Transformers More Robust? Towards Exact Robustness Verification for Transformers ( http://arxiv.org/abs/2202.03932v4 )

ライセンス: Link先を確認
Brian Hsuan-Cheng Liao, Chih-Hong Cheng, Hasan Esen, Alois Knoll(参考訳) 新しいタイプのニューラルネットワーク(nns)として、トランスフォーマーは自然言語処理から自動運転まで、さまざまな領域で使われている。 本稿では,トランスフォーマーのロバスト性問題について検討する。 具体的には,Sparsemaxベースのトランスフォーマーに着目し,MIQCP(Mixed Integer Quadratically Constrained Programming)問題への最大のロバストさの発見を減らす。 また、MIQCPエンコーディングに組み込むことができる2つの前処理ヒューリスティックを設計し、その解法を大幅に高速化する。 次に、Sparsemaxベースのトランスフォーマーのロバスト性を従来のマルチ層パーセプトロン(MLP)NNと比較するために、Land Departure Warningを用いて実験を行った。 驚いたことに、トランスフォーマーは必ずしも強固ではないため、安全クリティカルなドメイン・アプリケーションに適したnnアーキテクチャを選択する上での深い考慮が必要となる。

As an emerging type of Neural Networks (NNs), Transformers are used in many domains ranging from Natural Language Processing to Autonomous Driving. In this paper, we study the robustness problem of Transformers, a key characteristic as low robustness may cause safety concerns. Specifically, we focus on Sparsemax-based Transformers and reduce the finding of their maximum robustness to a Mixed Integer Quadratically Constrained Programming (MIQCP) problem. We also design two pre-processing heuristics that can be embedded in the MIQCP encoding and substantially accelerate its solving. We then conduct experiments using the application of Land Departure Warning to compare the robustness of Sparsemax-based Transformers against that of the more conventional Multi-Layer-Perceptron (MLP) NNs. To our surprise, Transformers are not necessarily more robust, leading to profound considerations in selecting appropriate NN architectures for safety-critical domain applications.
翻訳日:2023-05-22 20:11:46 公開日:2023-05-19
# 一般化のための反相関ノイズ注入

Anticorrelated Noise Injection for Improved Generalization ( http://arxiv.org/abs/2202.02831v3 )

ライセンス: Link先を確認
Antonio Orvieto, Hans Kersting, Frank Proske, Francis Bach, Aurelien Lucchi(参考訳) 勾配降下(gd)への人工雑音の注入は、機械学習モデルの性能を改善するために一般的に用いられる。 通常、非相関ノイズはこのような摂動勾配降下(PGD)法で用いられる。 しかし、これが最適かどうか、あるいは他の種類のノイズがより良い一般化性能を提供できるかどうかは不明である。 本稿では,連続したPGDステップの摂動を関連づける問題を拡大する。 我々は,抗相関性摂動(Anti-PGD)を持つGDが,GDと標準(非相関性)PGDよりもはるかに良く一般化することを示す,様々な目的関数を考察する。 これらの実験結果を支持するために,抗PGDがより広い最小値に移行し,GDとPGDは至適領域に留まり,あるいは分岐することを示す理論解析も導出した。 反相関ノイズと一般化の新たな結びつきは、機械学習モデルのトレーニングにノイズを利用する新しい方法へとフィールドを開放する。

Injecting artificial noise into gradient descent (GD) is commonly employed to improve the performance of machine learning models. Usually, uncorrelated noise is used in such perturbed gradient descent (PGD) methods. It is, however, not known if this is optimal or whether other types of noise could provide better generalization performance. In this paper, we zoom in on the problem of correlating the perturbations of consecutive PGD steps. We consider a variety of objective functions for which we find that GD with anticorrelated perturbations ("Anti-PGD") generalizes significantly better than GD and standard (uncorrelated) PGD. To support these experimental findings, we also derive a theoretical analysis that demonstrates that Anti-PGD moves to wider minima, while GD and PGD remain stuck in suboptimal regions or even diverge. This new connection between anticorrelated noise and generalization opens the field to novel ways to exploit noise for training machine learning models.
翻訳日:2023-05-22 20:11:31 公開日:2023-05-19
# 深層ニューラルネットワークを用いた振り子角位置推定のための転送学習

Transfer Learning for Estimation of Pendubot Angular Position Using Deep Neural Networks ( http://arxiv.org/abs/2201.12649v2 )

ライセンス: Link先を確認
Sina Khanagha(参考訳) 本稿では, 撮像画像からペンデュボット角位置を推定するために, 機械学習に基づくアプローチを提案する。 まず、従来の画像処理手法を用いて角度を推定するためにベースラインアルゴリズムを導入する。 ベースラインアルゴリズムは、pendubotが高速でない場合にうまく機能する。 しかし、自由落下によって素早く移動すると、pendubotは、ベースラインアルゴリズムが角度を推定できないように、キャプチャされた画像のぼやけたオブジェクトとして現れる。 その結果、この課題に対処するために、ディープニューラルネットワーク(DNN)ベースのアルゴリズムが導入された。 このアプローチは、非常に小さな微調整データセット上でDNNのトレーニングを可能にするために、転送学習の概念に依存している。 基本アルゴリズムは、微調整データセットの基底真理ラベルを作成するために使用される。 ホールドアウト評価セットにおける実験結果から,提案手法はシャープ画像とぼやけた画像に対して0.02度と0.06度という中央値の絶対誤差をそれぞれ達成できることがわかった。

In this paper, a machine learning based approach is introduced to estimate pendubot angular position from its captured images. Initially, a baseline algorithm is introduced to estimate the angle using conventional image processing techniques. The baseline algorithm performs well for the cases that the pendubot is not moving fast. However, when moving quickly due to a free fall, the pendubot appears as a blurred object in the captured image in a way that the baseline algorithm fails to estimate the angle. Consequently, a Deep Neural Network (DNN) based algorithm is introduced to cope with this challenge. The approach relies on the concept of transfer learning to allow the training of the DNN on a very small fine-tuning dataset. The base algorithm is used to create the ground truth labels of the fine-tuning dataset. Experimental results on the held-out evaluation set show that the proposed approach achieves a median absolute error of 0.02 and 0.06 degrees for the sharp and blurry images respectively.
翻訳日:2023-05-22 20:11:18 公開日:2023-05-19
# spdニューラルネットワークのためのリーマン局所機構

Riemannian Local Mechanism for SPD Neural Networks ( http://arxiv.org/abs/2201.10145v3 )

ライセンス: Link先を確認
Ziheng Chen, Tianyang Xu, Xiao-Jun Wu, Rui Wang, Zhiwu Huang, Josef Kittler(参考訳) 対称正定値行列(SPD)は多くの科学分野においてデータ表現に広く注目されている。 SPD行列のリーマン多様体上のデータ処理に有効な深層アーキテクチャを開発する試みは数多くあるが、深部SPD特徴表現における局所幾何学的情報を明示的に抽出する解はほとんどない。 ユークリッド法における局所的メカニズムの大きな成功を考えると、SPDネットワークにおける局所的幾何学情報の保存を確実にすることが最も重要であると論じる。 まず, ユークリッド深層ネットワークの局所情報取得に一般的に用いられる畳み込み演算子を, カテゴリー理論によって与えられる高レベルな抽象化の観点から解析する。 この分析に基づいて、SPD多様体の局所情報を定義し、局所幾何学をマイニングするためのマルチスケールサブマニフォールドブロックを設計する。 複数の視覚的タスクを含む実験は、我々のアプローチの有効性を検証する。 サプリメントとソースコードはhttps://github.com/GitZH-Chen/MSNet.gitにある。

The Symmetric Positive Definite (SPD) matrices have received wide attention for data representation in many scientific areas. Although there are many different attempts to develop effective deep architectures for data processing on the Riemannian manifold of SPD matrices, very few solutions explicitly mine the local geometrical information in deep SPD feature representations. Given the great success of local mechanisms in Euclidean methods, we argue that it is of utmost importance to ensure the preservation of local geometric information in the SPD networks. We first analyse the convolution operator commonly used for capturing local information in Euclidean deep networks from the perspective of a higher level of abstraction afforded by category theory. Based on this analysis, we define the local information in the SPD manifold and design a multi-scale submanifold block for mining local geometry. Experiments involving multiple visual tasks validate the effectiveness of our approach. The supplement and source code can be found in https://github.com/GitZH-Chen/MSNet.git.
翻訳日:2023-05-22 20:11:04 公開日:2023-05-19
# 自動腹部臓器分割術における反復的特徴伝播とエッジスキップ接続

Recurrent Feature Propagation and Edge Skip-Connections for Automatic Abdominal Organ Segmentation ( http://arxiv.org/abs/2201.00317v2 )

ライセンス: Link先を確認
Zefan Yang, Di Lin, Dong Ni and Yi Wang(参考訳) ct画像における腹部臓器の自動分割は放射線治療や画像誘導手術のワークフローを支援する。 このような自動解法の開発は、主にct画像の複雑な臓器間相互作用とぼやけた境界のために難しいままである。 これらの課題に対処するために,効率的な空間コンテキストモデリングと明示的なエッジセグメンテーションに着目する。 そこで我々は,共有エンコーダ,エッジ検出器,エッジスキップ接続(esc)付きデコーダ,rfpヘッド(recurrent feature propagation head)の4つの主成分を訓練した3次元ネットワークを提案する。 広帯域空間依存性を捉えるため,RFP-Headは画像単位の空間配置に関して,効率的なスライスワイズ方式で繰り返し接続された有向非巡回グラフ(DAG)を用いて局所的特徴を伝播し,抽出する。 エッジ情報を活用するために、エッジ監視によりエンコーダの中間特徴を利用して、エッジ検出器は、セマンティックセグメンテーション用に特別に調整されたエッジ先行知識を学習する。 ESCは、エッジ知識とマルチレベルデコーダ特徴を集約し、臓器の内部とセグメント化のためのエッジ間の相補性を明示的にモデル化した識別的特徴の階層構造を学ぶ。 腹部CTにて8臓器を注視した2症例について広範な実験を行った。 実験の結果,提案するネットワークは,特に小型で複雑な構造(胆嚢,食道,胃,膵臓,十二指腸)のセグメンテーションにおいて,最先端モデルよりも優れていた。 コードは公開される予定だ。

Automatic segmentation of abdominal organs in computed tomography (CT) images can support radiation therapy and image-guided surgery workflows. Developing of such automatic solutions remains challenging mainly owing to complex organ interactions and blurry boundaries in CT images. To address these issues, we focus on effective spatial context modeling and explicit edge segmentation priors. Accordingly, we propose a 3D network with four main components trained end-to-end including shared encoder, edge detector, decoder with edge skip-connections (ESCs) and recurrent feature propagation head (RFP-Head). To capture wide-range spatial dependencies, the RFP-Head propagates and harvests local features through directed acyclic graphs (DAGs) formulated with recurrent connections in an efficient slice-wise manner, with regard to spatial arrangement of image units. To leverage edge information, the edge detector learns edge prior knowledge specifically tuned for semantic segmentation by exploiting intermediate features from the encoder with the edge supervision. The ESCs then aggregate the edge knowledge with multi-level decoder features to learn a hierarchy of discriminative features explicitly modeling complementarity between organs' interiors and edges for segmentation. We conduct extensive experiments on two challenging abdominal CT datasets with eight annotated organs. Experimental results show that the proposed network outperforms several state-of-the-art models, especially for the segmentation of small and complicated structures (gallbladder, esophagus, stomach, pancreas and duodenum). The code will be publicly available.
翻訳日:2023-05-22 20:10:50 公開日:2023-05-19
# ニューラルネットワークによる疾患コードアサインメントのための臨床問題リストの二次的活用

Secondary Use of Clinical Problem List Entries for Neural Network-Based Disease Code Assignment ( http://arxiv.org/abs/2112.13756v2 )

ライセンス: Link先を確認
Markus Kreuzthaler, Bastian Pfeifer, Diether Kramer and Stefan Schulz(参考訳) 臨床情報システムは、半構造化および部分的にアノテートされた電子健康記録データのための大規模なリポジトリとなり、教師付きデータ駆動ニューラルネットワークアプローチで興味深い重要な質量に達した。 国際疾病分類分類(icd-10)を用いて50文字の長期臨床課題リスト項目の自動符号化を行い、上位100のicd-103桁コードで3種類のネットワークアーキテクチャを評価した。 fastTextベースラインは、マクロ平均F1スコアの0.83に到達し、その後、マクロ平均F1スコアの0.84に文字レベルLSTMが続いた。 トップパフォーマンスのアプローチはカスタム言語モデルを備えたダウンストリームのRoBERTaモデルを使用しており、マクロ平均F1スコアは0.88である。 ニューラルネットワークのアクティベーション解析と偽陽性と偽陰性の調査により、手作業による符号化が主な制限要因であることが明らかとなった。

Clinical information systems have become large repositories for semi-structured and partly annotated electronic health record data, which have reached a critical mass that makes them interesting for supervised data-driven neural network approaches. We explored automated coding of 50 character long clinical problem list entries using the International Classification of Diseases (ICD-10) and evaluated three different types of network architectures on the top 100 ICD-10 three-digit codes. A fastText baseline reached a macro-averaged F1-score of 0.83, followed by a character-level LSTM with a macro-averaged F1-score of 0.84. The top performing approach used a downstreamed RoBERTa model with a custom language model, yielding a macro-averaged F1-score of 0.88. A neural network activation analysis together with an investigation of the false positives and false negatives unveiled inconsistent manual coding as a main limiting factor.
翻訳日:2023-05-22 20:10:20 公開日:2023-05-19
# 実処理インメモリシステムにおける機械学習学習の実験的評価

An Experimental Evaluation of Machine Learning Training on a Real Processing-in-Memory System ( http://arxiv.org/abs/2207.07886v4 )

ライセンス: Link先を確認
Juan G\'omez-Luna, Yuxin Guo, Sylvan Brocard, Julien Legriel, Remy Cimadomo, Geraldo F. Oliveira, Gagandeep Singh, Onur Mutlu(参考訳) 機械学習(ML)アルゴリズムのトレーニングは計算集約的なプロセスであり、大規模なトレーニングデータセットに繰り返しアクセスするため、メモリバウンドが頻繁に発生する。 その結果、プロセッサ中心のシステム(CPU、GPUなど)は、大量のエネルギーと実行サイクルを消費するメモリユニットと処理ユニットの間のコストのかかるデータ移動に悩まされる。 メモリ中心のコンピューティングシステム、すなわち処理・イン・メモリ(pim)機能により、このデータ移動ボトルネックを軽減することができる。 我々のゴールは、MLトレーニングを加速する現代の汎用PIMアーキテクチャの可能性を理解することである。 そのため,(1) 現実の汎用PIMアーキテクチャ上での代表的なMLアルゴリズム(線形回帰,ロジスティック回帰,決定木,K平均クラスタリング)を実装し,(2) 精度,性能,スケーリングの点でそれらを厳格に評価,特徴付けし,(3) 対応するCPUやGPUの実装と比較する。 2500以上のPIMコアを持つ実メモリ中心型コンピューティングシステムに対する評価は、PIMハードウェアで必要な操作やデータタイプをネイティブにサポートする場合、汎用PIMアーキテクチャがメモリバウンドMLワークロードを大幅に高速化できることを示している。 例えば、私たちのPIMによる決定ツリーの実装は、8コアのIntel Xeonの最先端CPUバージョンよりも27\times$高速で、NVIDIA A100の最先端GPUバージョンより1.34\times$高速です。 PIM上でのK-Meansクラスタリングは、それぞれ最先端のCPUバージョンとGPUバージョンよりも2.8\times$と3.2\times$です。 私たちの知る限り、実際のPIMアーキテクチャ上でMLトレーニングを評価するのは、私たちの仕事が初めてです。 我々は、MLワークロードのユーザ、PIMアーキテクチャのプログラマ、将来のメモリ中心コンピューティングシステムのハードウェアデザイナやアーキテクトに刺激を与える、重要な観察、テイクアウト、レコメンデーションで締めくくります。

Training machine learning (ML) algorithms is a computationally intensive process, which is frequently memory-bound due to repeatedly accessing large training datasets. As a result, processor-centric systems (e.g., CPU, GPU) suffer from costly data movement between memory units and processing units, which consumes large amounts of energy and execution cycles. Memory-centric computing systems, i.e., with processing-in-memory (PIM) capabilities, can alleviate this data movement bottleneck. Our goal is to understand the potential of modern general-purpose PIM architectures to accelerate ML training. To do so, we (1) implement several representative classic ML algorithms (namely, linear regression, logistic regression, decision tree, K-Means clustering) on a real-world general-purpose PIM architecture, (2) rigorously evaluate and characterize them in terms of accuracy, performance and scaling, and (3) compare to their counterpart implementations on CPU and GPU. Our evaluation on a real memory-centric computing system with more than 2500 PIM cores shows that general-purpose PIM architectures can greatly accelerate memory-bound ML workloads, when the necessary operations and datatypes are natively supported by PIM hardware. For example, our PIM implementation of decision tree is $27\times$ faster than a state-of-the-art CPU version on an 8-core Intel Xeon, and $1.34\times$ faster than a state-of-the-art GPU version on an NVIDIA A100. Our K-Means clustering on PIM is $2.8\times$ and $3.2\times$ than state-of-the-art CPU and GPU versions, respectively. To our knowledge, our work is the first one to evaluate ML training on a real-world PIM architecture. We conclude with key observations, takeaways, and recommendations that can inspire users of ML workloads, programmers of PIM architectures, and hardware designers & architects of future memory-centric computing systems.
翻訳日:2023-05-22 20:03:55 公開日:2023-05-19
# 医学領域における連合学習の実用化に向けて

Towards the Practical Utility of Federated Learning in the Medical Domain ( http://arxiv.org/abs/2207.03075v5 )

ライセンス: Link先を確認
Seongjun Yang, Hyeonji Hwang, Daeyoung Kim, Radhika Dua, Jong-Yeup Kim, Eunho Yang, Edward Choi(参考訳) 連合学習 (federated learning, fl) は活発な研究分野である。 FLを採用するのに最も適した分野の1つは、患者のプライバシーを尊重しなければならない医療領域である。 しかし、これまでの研究では医学領域にflを適用するための実践的なガイドを提供していない。 縦断的電子健康記録, 皮膚がん画像, 心電図信号の3つの指標について, 実験的ベンチマークと実験的検討を行った。 医療機関やIT企業のようなFLのユーザは、これらのベンチマークをFLを採用し、試行錯誤を最小限にするためのガイドとして使うことができます。 各データセットについて、各クライアントデータは、実世界の異質性を保存するために異なるソースからのものである。 クライアント間のデータ不均一性に対処するために設計された6つのFLアルゴリズムと、2つの代表FLアルゴリズムの強度を組み合わせたハイブリッドアルゴリズムを評価する。 3つのモダリティによる実験結果から、単純なFLアルゴリズムはより洗練されたアルゴリズムよりも優れており、ハイブリッドアルゴリズムは優れた性能を示すが、最良の性能は得られない。 また、頻繁なグローバルモデルのアップデートは、一定のトレーニングイテレーション予算の下で、パフォーマンスの向上につながります。 参加するクライアント数が増加すると、it管理者やgpuの増加によってコストが上昇するが、パフォーマンスは一貫して向上する。 今後,臨床の課題を考慮し,医療領域でのFL実験を設計し,低コストでより優れたパフォーマンスを得るために,これらの経験的ベンチマークを参考にすることを期待する。

Federated learning (FL) is an active area of research. One of the most suitable areas for adopting FL is the medical domain, where patient privacy must be respected. Previous research, however, does not provide a practical guide to applying FL in the medical domain. We propose empirical benchmarks and experimental settings for three representative medical datasets with different modalities: longitudinal electronic health records, skin cancer images, and electrocardiogram signals. The likely users of FL such as medical institutions and IT companies can take these benchmarks as guides for adopting FL and minimize their trial and error. For each dataset, each client data is from a different source to preserve real-world heterogeneity. We evaluate six FL algorithms designed for addressing data heterogeneity among clients, and a hybrid algorithm combining the strengths of two representative FL algorithms. Based on experiment results from three modalities, we discover that simple FL algorithms tend to outperform more sophisticated ones, while the hybrid algorithm consistently shows good, if not the best performance. We also find that a frequent global model update leads to better performance under a fixed training iteration budget. As the number of participating clients increases, higher cost is incurred due to increased IT administrators and GPUs, but the performance consistently increases. We expect future users will refer to these empirical benchmarks to design the FL experiments in the medical domain considering their clinical tasks and obtain stronger performance with lower costs.
翻訳日:2023-05-22 20:03:08 公開日:2023-05-19
# 階層型ベイズ学習を用いた逐次画像復元

Sequential image recovery using joint hierarchical Bayesian learning ( http://arxiv.org/abs/2206.12745v2 )

ライセンス: Link先を確認
Yao Xiao and Jan Glaubitz(参考訳) 間接的、ノイズ、あるいは不完全なデータに基づく時間的画像シーケンス(ビデオ)の復元は不可欠だが難しい作業である。 具体的には,各データセットに致命的な情報が欠落している場合について考察し,個々の画像の正確な復元を防止する。 最近の(変分法)手法では、連続画像の連立復元に基づく高分解能画像復元が実証されているが、パラメータチューニングやシーケンシャル画像の種類制限による堅牢性の問題が残っている。 本稿では,事前画像情報と画像間情報を組み合わせた逐次画像の同時復元のための階層ベイズ学習に基づく手法を提案する。 本手法は,他の画像から「ボーリング」することで,各画像の欠落情報を復元する。 その結果、個々の再構成のemph{all} により精度が向上した。 本手法は様々なデータ取得に利用でき,不確実性定量化が可能となる。 いくつかの予備的な結果は、シーケンシャルデブロアリングと磁気共鳴イメージングにその可能性を示している。

Recovering temporal image sequences (videos) based on indirect, noisy, or incomplete data is an essential yet challenging task. We specifically consider the case where each data set is missing vital information, which prevents the accurate recovery of the individual images. Although some recent (variational) methods have demonstrated high-resolution image recovery based on jointly recovering sequential images, there remain robustness issues due to parameter tuning and restrictions on the type of the sequential images. Here, we present a method based on hierarchical Bayesian learning for the joint recovery of sequential images that incorporates prior intra- and inter-image information. Our method restores the missing information in each image by "borrowing" it from the other images. As a result, \emph{all} of the individual reconstructions yield improved accuracy. Our method can be used for various data acquisitions and allows for uncertainty quantification. Some preliminary results indicate its potential use for sequential deblurring and magnetic resonance imaging.
翻訳日:2023-05-22 20:02:43 公開日:2023-05-19
# Pseudo-Labeling の信頼性

Confident Sinkhorn Allocation for Pseudo-Labeling ( http://arxiv.org/abs/2206.05880v4 )

ライセンス: Link先を確認
Vu Nguyen and Hisham Husain and Sachin Farfade and Anton van den Hengel(参考訳) 半教師付き学習は、ラベル付きデータへの機械学習の依存を減らす重要なツールである。 画像や自然言語などの構造化データに対して、事前訓練されたモデルやデータ拡張による空間的・意味的構造の利用によって、うまく適用されてきた。 しかし、データに適切な構造や不変性がない場合には、これらの手法は適用できない。 その単純さのため、擬似ラベル法(PL)メソッドはドメインの仮定なしに広く利用することができる。 しかし、PLはしきい値に敏感であり、過度な自信のために間違った割り当てが行われた場合、性能が悪くなる。 本稿では,疑似ラベルリングにおける不確実性の役割を理論的に検討し,信頼度の高いサンプルのみへの最適移動を通じて最適な疑似ラベル割り当てを同定するssummit sinkhorn allocation (csa)を提案する。 CSAは、半教師付き学習のこの事実上重要な領域において、現在の最先端技術よりも優れています。 さらに,アンサンブルモデルのkullback-leibler(kl)発散に依存する既存のpac-bayes境界を拡張し,改良するために積分確率メトリクスを用いることを提案する。 私たちのコードはhttps://github.com/amzn/confident-sinkhorn-allocationで公開されています。

Semi-supervised learning is a critical tool in reducing machine learning's dependence on labeled data. It has been successfully applied to structured data, such as images and natural language, by exploiting the inherent spatial and semantic structure therein with pretrained models or data augmentation. These methods are not applicable, however, when the data does not have the appropriate structure, or invariances. Due to their simplicity, pseudo-labeling (PL) methods can be widely used without any domain assumptions. However, PL is sensitive to a threshold and can perform poorly if wrong assignments are made due to overconfidence. This paper studies theoretically the role of uncertainty to pseudo-labeling and proposes Confident Sinkhorn Allocation (CSA), which identifies the best pseudo-label allocation via optimal transport to only samples with high confidence scores. CSA outperforms the current state-of-the-art in this practically important area of semi-supervised learning. Additionally, we propose to use the Integral Probability Metrics to extend and improve the existing PAC-Bayes bound which relies on the Kullback-Leibler (KL) divergence, for ensemble models. Our code is publicly available at https://github.com/amzn/confident-sinkhorn-allocation.
翻訳日:2023-05-22 20:02:15 公開日:2023-05-19
# 超音速信号のない超音速トンネル時間:初期MacColl-Hartman効果のフェーディング

Superluminal tunneling times without superluminal signaling: Fading of the MacColl-Hartman effect at early times ( http://arxiv.org/abs/2205.15375v2 )

ライセンス: Link先を確認
Randall S. Dumont, Tom Rivlin(参考訳) maccoll-hartman効果として知られる量子トンネル効果の興味深い特徴は、粒子が効果的な超光速で障壁を横切ることができるという数値観測結果をもたらす。 しかし、トンネルは確実ではないため、この効果を使って光よりも早く信号を送信しようとすると、多くの粒子を送る必要がある。 本研究では, 粒子間の相互作用を伴わずに, 平行に, 少なくとも1つのトンネルを確実にするために, 十分に多くの粒子を送出することを検討する。 この場合、1つのトンネル粒子の平均時間の経過にもかかわらず、1ビットの情報を送信する平均時間は、同じ数の自由光子よりもトンネル粒子に対して大きい。 これにより、スーパールミナルシグナリングの可能性が排除される。 n個の粒子を用いて1ビットを送信する平均時間は、トンネル時間の分布の早期テールによって決定され、この早期テールが最も急な降下を用いて高精度にモデル化された場合、maccoll-hartman効果は消失する。

A curious feature of quantum tunneling known as the MacColl-Hartman effect results in the numerical observation that particles can traverse a barrier with effective superluminal speed. However, because tunneling is never certain, any attempt to use this effect to send a signal faster than light would require sending many particles. In this work, we consider sending -- in parallel, without interactions between particles -- sufficiently many particles to ensure at the least one of them tunnels. In this case, in spite of the time advance of the mean time for a single tunneling particle, the mean time to send one bit of information is larger for tunneling particles than for the same number of free photons. This removes any possibility of superluminal signaling. We show that the mean time to send one bit using N particles is determined by the early-time tail of the distribution of tunneling times for one particle and that, when this early-time tail is highly accurately modeled using steepest descent, the MacColl-Hartman effect is seen to fade away.
翻訳日:2023-05-22 20:01:55 公開日:2023-05-19
# DELTA: フェデレーション学習を高速化するためのクライアントサンプリング

DELTA: Diverse Client Sampling for Fasting Federated Learning ( http://arxiv.org/abs/2205.13925v3 )

ライセンス: Link先を確認
Lin Wang, YongXin Guo, Tao Lin, Xiaoying Tang(参考訳) フェデレートラーニング(FL)では、コミュニケーションの負担を効率的に軽減するために、部分的なクライアント参加が広く採用されている。 しかし、不十分なクライアントサンプリングスキームは、非表現部分集合の選択につながり、モデル更新の大幅なばらつきと収束の鈍化をもたらす。 既存のサンプリング手法は偏りがあるか,より高速な収束に最適化できるかのいずれかであり,本論文では,これらの問題を緩和するための非バイアスサンプリング方式であるDELTAを提案する。 DELTAは、クライアントの多様性と局所的な分散の影響を特徴付け、グローバルモデル更新のための貴重な情報を持つ代表クライアントをサンプリングする。 さらに、デルタは、部分的なクライアント参加による分散を最小限に抑え、収束の観点から他の非バイアスサンプリングスキームよりも優れる最適な非バイアスサンプリングスキームである。 さらに、全クライアントの勾配依存性に対処するために、利用可能なクライアントの情報に応じてデルタの実用的なバージョンを提供し、その収束を分析する。 結果は合成データと実世界のデータセットの両方で実験によって検証される。

Partial client participation has been widely adopted in Federated Learning (FL) to reduce the communication burden efficiently. However, an inadequate client sampling scheme can lead to the selection of unrepresentative subsets, resulting in significant variance in model updates and slowed convergence. Existing sampling methods are either biased or can be further optimized for faster convergence.In this paper, we present DELTA, an unbiased sampling scheme designed to alleviate these issues. DELTA characterizes the effects of client diversity and local variance, and samples representative clients with valuable information for global model updates. In addition, DELTA is a proven optimal unbiased sampling scheme that minimizes variance caused by partial client participation and outperforms other unbiased sampling schemes in terms of convergence. Furthermore, to address full-client gradient dependence,we provide a practical version of DELTA depending on the available clients' information, and also analyze its convergence. Our results are validated through experiments on both synthetic and real-world datasets.
翻訳日:2023-05-22 20:01:36 公開日:2023-05-19
# 環境クレーム検出

Environmental Claim Detection ( http://arxiv.org/abs/2209.00507v3 )

ライセンス: Link先を確認
Dominik Stammbach, Nicolas Webersinke, Julia Anna Bingler, Mathias Kraus, Markus Leippold(参考訳) グリーンエコノミーに移行するためには、企業による環境クレームは信頼性が高く、比較され、検証可能である必要がある。 このような主張を大規模に分析するには,まずは自動で検出する必要がある。 しかし、このためのデータセットやモデルは存在しない。 そこで本稿では,環境クレーム検出の課題を紹介する。 このタスクに対応するために、専門家による注釈付きデータセットと、このデータセットでトレーニングされたモデルをリリースする。 我々は、2015年のパリ協定以降、四半期決算報告で得られた環境要求を検知し、環境要求の数が着実に増加していることを確認する。

To transition to a green economy, environmental claims made by companies must be reliable, comparable, and verifiable. To analyze such claims at scale, automated methods are needed to detect them in the first place. However, there exist no datasets or models for this. Thus, this paper introduces the task of environmental claim detection. To accompany the task, we release an expert-annotated dataset and models trained on this dataset. We preview one potential application of such models: We detect environmental claims made in quarterly earning calls and find that the number of environmental claims has steadily increased since the Paris Agreement in 2015.
翻訳日:2023-05-22 19:53:00 公開日:2023-05-19
# 資源制約エッジ環境における分散データセット蒸留によるフェデレーション学習

Federated Learning via Decentralized Dataset Distillation in Resource-Constrained Edge Environments ( http://arxiv.org/abs/2208.11311v3 )

ライセンス: Link先を確認
Rui Song, Dai Liu, Dave Zhenyu Chen, Andreas Festag, Carsten Trinitis, Martin Schulz, Alois Knoll(参考訳) 連合学習では、すべてのネットワーククライアントが協調してモデルトレーニングに寄与する。 しかし、モデルのサイズが大きくなると、訓練された部分モデルを共有することさえも、基礎となるネットワーク、特に反復的に通信する場合に深刻な通信ボトルネックを引き起こす。 本稿では,データセット蒸留インスタンスの統合により,単発通信のみを必要とするフェデレート学習フレームワークfeedd3を提案する。 fedd3は、他の連合学習アプローチでモデル更新を共有する代わりに、接続されたクライアントがローカルデータセットを個別に蒸留し、それらの分散蒸留データセット(例えば、いくつかの識別不能な画像)をネットワークから集約してモデルトレーニングを行う。 実験の結果,feedd3は,使用シナリオや目標データセットに応じて,精度と通信コストのトレードオフをバランスさせることで,必要な通信量で他のフェデレーション学習フレームワークを著しく上回っていることが示された。 例えば、非独立かつ同一の分散(非iid)設定下で10のクライアントを持つcifar-10上でalexnetモデルをトレーニングする場合、feedd3は、同じ通信ボリュームで71%以上精度を上げるか、98%の通信量を節約できるが、他のワンショットフェデレーション学習アプローチと同等の精度に達する。

In federated learning, all networked clients contribute to the model training cooperatively. However, with model sizes increasing, even sharing the trained partial models often leads to severe communication bottlenecks in underlying networks, especially when communicated iteratively. In this paper, we introduce a federated learning framework FedD3 requiring only one-shot communication by integrating dataset distillation instances. Instead of sharing model updates in other federated learning approaches, FedD3 allows the connected clients to distill the local datasets independently, and then aggregates those decentralized distilled datasets (e.g. a few unrecognizable images) from networks for model training. Our experimental results show that FedD3 significantly outperforms other federated learning frameworks in terms of needed communication volumes, while it provides the additional benefit to be able to balance the trade-off between accuracy and communication cost, depending on usage scenario or target dataset. For instance, for training an AlexNet model on CIFAR-10 with 10 clients under non-independent and identically distributed (Non-IID) setting, FedD3 can either increase the accuracy by over 71% with a similar communication volume, or save 98% of communication volume, while reaching the same accuracy, compared to other one-shot federated learning approaches.
翻訳日:2023-05-22 19:52:50 公開日:2023-05-19
# ファウショット行動認識のための階層的構成表現

Hierarchical Compositional Representations for Few-shot Action Recognition ( http://arxiv.org/abs/2208.09424v2 )

ライセンス: Link先を確認
Changzhen Li, Jie Zhang, Shuzhe Wu, Xin Jin, and Shiguang Shan(参考訳) 近年、知的監視と人間とコンピュータのインタラクションにおける包括的かつ実践的な応用により、アクション認識がますます注目を集めている。 しかし、少数のアクション認識は十分に研究されておらず、データ不足のため依然として挑戦的である。 本稿では,新しい階層型合成表現(HCR)学習手法を提案する。 具体的には,階層的クラスタリングを注意深く設計し,さらに細粒度の空間的注意的サブアクション(sas-actions)に分解することで,複雑なアクションを複数のサブアクションに分割する。 基本クラスと新規クラスの間には大きな違いがあるが、サブアクションやSASアクションで同様のパターンを共有することができる。 さらに,輸送問題におけるアースモーバー距離を,サブアクション表現の観点からビデオサンプル間の類似度を測定するために採用する。 サブアクション間の最適なマッチングフローを距離メートル法として計算し、きめ細かいパターンを比較するのに好適である。 広範な実験により, hmdb51, ucf101およびkineticsデータセットの最先端の結果が得られた。

Recently action recognition has received more and more attention for its comprehensive and practical applications in intelligent surveillance and human-computer interaction. However, few-shot action recognition has not been well explored and remains challenging because of data scarcity. In this paper, we propose a novel hierarchical compositional representations (HCR) learning approach for few-shot action recognition. Specifically, we divide a complicated action into several sub-actions by carefully designed hierarchical clustering and further decompose the sub-actions into more fine-grained spatially attentional sub-actions (SAS-actions). Although there exist large differences between base classes and novel classes, they can share similar patterns in sub-actions or SAS-actions. Furthermore, we adopt the Earth Mover's Distance in the transportation problem to measure the similarity between video samples in terms of sub-action representations. It computes the optimal matching flows between sub-actions as distance metric, which is favorable for comparing fine-grained patterns. Extensive experiments show our method achieves the state-of-the-art results on HMDB51, UCF101 and Kinetics datasets.
翻訳日:2023-05-22 19:52:26 公開日:2023-05-19
# 隠れマルコフモデルの代数的還元

Algebraic Reduction of Hidden Markov Models ( http://arxiv.org/abs/2208.05968v2 )

ライセンス: Link先を確認
Tommaso Grigoletto and Francesco Ticozzi(参考訳) 隠れマルコフモデル(HMM)を、同じ限界を正確に再現する小さな次元の1つに還元する問題は、システム理論のアプローチによって取り組まれる。 実現理論ツールは確率空間の適切な代数的表現を利用してHMMに拡張される。 確率射影演算子により得られた粗粒度等価HMMを返却する2つのアルゴリズムを提案する。第1は与えられた出力プロセスの単一時間分布を正確に再現するモデルを返却し、第2は完全(複数時間)分布を保存する。 還元法は、観測された出力の構造だけでなく、その初期条件を、後者が知られているときや与えられたサブクラスに属するときでも活用する。 最適アルゴリズムは、観測可能なHMMのクラスのために導出される。

The problem of reducing a Hidden Markov Model (HMM) to one of smaller dimension that exactly reproduces the same marginals is tackled by using a system-theoretic approach. Realization theory tools are extended to HMMs by leveraging suitable algebraic representations of probability spaces. We propose two algorithms that return coarse-grained equivalent HMMs obtained by stochastic projection operators: the first returns models that exactly reproduce the single-time distribution of a given output process, while in the second the full (multi-time) distribution is preserved. The reduction method exploits not only the structure of the observed output, but also its initial condition, whenever the latter is known or belongs to a given subclass. Optimal algorithms are derived for a class of HMM, namely observable ones.
翻訳日:2023-05-22 19:52:08 公開日:2023-05-19
# ほぼ凸性による量子エントロピー量の連続性

Continuity of quantum entropic quantities via almost convexity ( http://arxiv.org/abs/2208.00922v2 )

ライセンス: Link先を確認
Andreas Bluhm, \'Angela Capel, Paul Gondolf, Antonio P\'erez-Hern\'andez(参考訳) Alicki, Fannes, Winter による条件エントロピーの連続性の証明に基づいて,本研究では, ほぼ局所的なアフィン (ALAFF) 法を紹介する。 この方法により、導出エントロピー量に対して非常に多様な連続性境界を証明できる。 まず,ALAFF法を梅垣相対エントロピーに適用する。 このようにして、ほとんど厳密な境界が分かるだけでなく、相対エントロピーに対するいくつかの新しい連続性境界も回復する。 その後,Belavkin-Staszewski 相対エントロピー (BS-エントロピー) に適用した。 これにより、特にBS条件エントロピー、BS条件エントロピー、BS条件相互情報に対する新しい明示的境界が得られる。 一方, 梅垣相対エントロピーとBS-エントロピーは, 独立性を持つ可能性が示唆された。 最後に、量子情報理論における様々な文脈におけるこれらの連続性境界の応用について述べる。

Based on the proofs of the continuity of the conditional entropy by Alicki, Fannes, and Winter, we introduce in this work the almost locally affine (ALAFF) method. This method allows us to prove a great variety of continuity bounds for the derived entropic quantities. First, we apply the ALAFF method to the Umegaki relative entropy. This way, we recover known almost tight bounds, but also some new continuity bounds for the relative entropy. Subsequently, we apply our method to the Belavkin-Staszewski relative entropy (BS-entropy). This yields novel explicit bounds in particular for the BS-conditional entropy, the BS-mutual and BS-conditional mutual information. On the way, we prove almost concavity for the Umegaki relative entropy and the BS-entropy, which might be of independent interest. We conclude by showing some applications of these continuity bounds in various contexts within quantum information theory.
翻訳日:2023-05-22 19:51:55 公開日:2023-05-19
# 量子コンピュータにおける実効的で効率的なLanczos法

Exact and efficient Lanczos method on a quantum computer ( http://arxiv.org/abs/2208.00567v4 )

ライセンス: Link先を確認
William Kirby, Mario Motta, and Antonio Mezzacapo(参考訳) 本稿では,量子コンピュータ上でブロック符号化を用いてクリロフ空間を正確に構築するアルゴリズムを提案する。 古典的なLanczos法は量子系のクリロフ状態を表すためにシステムサイズが指数関数的なコストを持つが、効率的な量子アルゴリズムは多項式時間とメモリでこれを実現できる。 提示された構成は、結果のクリロフ空間がランツォス法と同一であるという意味では正確であるので、正確な方法に関する唯一の近似は有限サンプルノイズによるものである。 これは、従来の量子クリロフ法とは異なり、このアルゴリズムは実時間や虚数時間の進化をシミュレートする必要がないため可能である。 ノイズが存在する場合、結果として生じる基底状態エネルギー推定のための明示的なエラーバウンドを提供する。 我々の手法が効率的に成功するためには、入力問題の唯一の要件は、初期状態と真の基底状態との重なり合いが$\Omega(1/\text{poly}(n))$ for $n$ qubitsでなければならないことである。

We present an algorithm that uses block encoding on a quantum computer to exactly construct a Krylov space, which can be used as the basis for the Lanczos method to estimate extremal eigenvalues of Hamiltonians. While the classical Lanczos method has exponential cost in the system size to represent the Krylov states for quantum systems, our efficient quantum algorithm achieves this in polynomial time and memory. The construction presented is exact in the sense that the resulting Krylov space is identical to that of the Lanczos method, so the only approximation with respect to the exact method is due to finite sample noise. This is possible because, unlike previous quantum Krylov methods, our algorithm does not require simulating real or imaginary time evolution. We provide an explicit error bound for the resulting ground state energy estimate in the presence of noise. For our method to be successful efficiently, the only requirement on the input problem is that the overlap of the initial state with the true ground state must be $\Omega(1/\text{poly}(n))$ for $n$ qubits.
翻訳日:2023-05-22 19:51:41 公開日:2023-05-19
# 希少イベントサンプリングのための条件付き正規化フロー

Conditioning Normalizing Flows for Rare Event Sampling ( http://arxiv.org/abs/2207.14530v2 )

ライセンス: Link先を確認
Sebastian Falkner, Alessandro Coretti, Salvatore Romano, Phillip Geissler, Christoph Dellago(参考訳) 複雑な分子過程の力学を理解することは、しばしば長寿命の安定状態の間の頻繁な遷移の研究と結びついている。 このようなまれな事象のサンプリングに対する標準的なアプローチは、軌道空間内のランダムウォークを用いて遷移経路のアンサンブルを生成することである。 しかし、これは後続のサンプルパス間の強い相関の欠点と、サンプリングプロセスの並列化に固有の困難が伴う。 ニューラルネットワーク生成構成に基づく遷移経路サンプリング手法を提案する。 これらは、与えられた分布から統計的に独立なサンプルを生成することができるニューラルネットワーククラスである正規化フローを用いて得られる。 このアプローチでは、訪問経路間の相関が除去されるだけでなく、サンプリングプロセスも容易に並列化できる。 さらに、正規化フローを条件付けすることにより、興味のある領域に向けて構成のサンプリングを行うことができる。 本手法は遷移領域の熱力学と運動学の両方の解法を可能にすることを示す。

Understanding the dynamics of complex molecular processes is often linked to the study of infrequent transitions between long-lived stable states. The standard approach to the sampling of such rare events is to generate an ensemble of transition paths using a random walk in trajectory space. This, however, comes with the drawback of strong correlations between subsequently sampled paths and with an intrinsic difficulty in parallelizing the sampling process. We propose a transition path sampling scheme based on neural-network generated configurations. These are obtained employing normalizing flows, a neural network class able to generate statistically independent samples from a given distribution. With this approach, not only are correlations between visited paths removed, but the sampling process becomes easily parallelizable. Moreover, by conditioning the normalizing flow, the sampling of configurations can be steered towards regions of interest. We show that this approach enables the resolution of both the thermodynamics and kinetics of the transition region.
翻訳日:2023-05-22 19:51:21 公開日:2023-05-19
# 多段階データフィルタリングによる効率的なNLPモデルファインタニング

Efficient NLP Model Finetuning via Multistage Data Filtering ( http://arxiv.org/abs/2207.14386v2 )

ライセンス: Link先を確認
Xu Ouyang, Shahina Mohd Azam Ansari, Felix Xiaozhu Lin, Yangfeng Ji(参考訳) モデルファインタニングは現代のNLPの中心であり、その効率を最大化する。 トレーニング例の冗長性と事前トレーニングされたモデルのサイズによって動機付けられた、重要な機会である重要なデータのみをトレーニングする。 この目的のために我々は,ターゲットモデルのトレーニングと合わせて,トレーニング例をストリーミング形式でフィルタリングすることにした。 我々は,(1)後方トレーニングパスをスキップするためのトレーニング損失閾値を自動的に決定する,(2)前方トレーニングパスをスキップするためのメタ予測を実行する,という2つの手法を提案する。 上記のテクニックを総合的な3段階のトレーニングプロセスに統合する。 様々なベンチマークでは、必要なトレーニングサンプルを最大5.3$\times$に削減し、トレーニング時間を最大6.8$\times$に短縮する。 本手法は,各トレーニング例が1回しか遭遇しない1つのエポックをトレーニングする場合においても有効である。 実装は簡単で、既存の微調整技術と互換性がある。 https://github.com/xo28/ efficientNLP-multistage-training

As model finetuning is central to the modern NLP, we set to maximize its efficiency. Motivated by redundancy in training examples and the sheer sizes of pretrained models, we exploit a key opportunity: training only on important data. To this end, we set to filter training examples in a streaming fashion, in tandem with training the target model. Our key techniques are two: (1) automatically determine a training loss threshold for skipping backward training passes; (2) run a meta predictor for further skipping forward training passes. We integrate the above techniques in a holistic, three-stage training process. On a diverse set of benchmarks, our method reduces the required training examples by up to 5.3$\times$ and training time by up to 6.8$\times$, while only seeing minor accuracy degradation. Our method is effective even when training one epoch, where each training example is encountered only once. It is simple to implement and is compatible with the existing finetuning techniques. Code is available at: https://github.com/xo28/efficient- NLP-multistage-training
翻訳日:2023-05-22 19:51:08 公開日:2023-05-19
# 量子最適制御によるストロンチウムクロック原子干渉測定の強化

Enhancing strontium clock atom interferometry using quantum optimal control ( http://arxiv.org/abs/2207.13217v2 )

ライセンス: Link先を確認
Zilin Chen, Garrett Louie, Yiping Wang, Tejas Deshpande, Tim Kovachy(参考訳) ストロンチウム原子干渉法(Strontium clock atom interferometry)は、ダークマターと重力波検出の可能性を探るための複数の実験が進行中である。 これらの検出器では、多くのレーザーパルスのシーケンスを用いた大きな運動量移動(lmt)が必要であり、少ない不純物が拡大するため各パルスの忠実度が重要である。 量子最適制御(Quantum Optimal Control, QOC)は、高忠実性を実現し、実験的不完全性に対して堅牢な制御パルス波形を開発するためのフレームワークである。 ストロンチウムの狭いクロック遷移を用いた共鳴単光子遷移は、遠方修正された2光子ラマンまたはブラッグ遷移に基づくより確立された原子干渉法とは大きく異なる量子力学を含む。 本稿では、ストロンチウムクロック干渉計のQOCパルスについて検討し、複数のノイズチャネルに対するロバスト性の観点から、基本2乗パルス(原始パルス)と複合パルスの利点を示す。 これにより、Srクロック干渉計における大きな運動量移動のスケールが向上し、これらの科学的目標を達成するための道を開くことができる。

Strontium clock atom interferometry is a promising new technique, with multiple experiments under development to explore its potential for dark matter and gravitational wave detection. In these detectors, large momentum transfer (LMT) using sequences of many laser pulses is necessary, and thus high fidelity of each pulse is important since small infidelities become magnified. Quantum Optimal Control (QOC) is a framework for developing control pulse waveforms that achieve high fidelity and are robust against experimental imperfections. Resonant single-photon transitions using the narrow clock transition of strontium involve significantly different quantum dynamics than more established atom interferometry methods based on far-detuned two-photon Raman or Bragg transitions, which leads to new opportunities and challenges when applying QOC. Here, we study QOC pulses for strontium clock interferometry and demonstrate their advantage over basic square pulses (primitive pulses) and composite pulses in terms of robustness against multiple noise channels. This could improve the scale of large momentum transfer in Sr clock interferometers, paving the way to achieve these scientific goals.
翻訳日:2023-05-22 19:50:51 公開日:2023-05-19
# GPT-3 文化遺産における視覚的質問回答に必要なもの

Is GPT-3 all you need for Visual Question Answering in Cultural Heritage? ( http://arxiv.org/abs/2207.12101v2 )

ライセンス: Link先を確認
Pietro Bongini, Federico Becattini, Alberto Del Bimbo(参考訳) 文化遺産ドメインにおけるディープラーニングとコンピュータビジョンの利用は、ここ数年、オーディオスマートガイド、インタラクティブな博物館、拡張現実に関する多くの応用において、非常に重要になっている。 これらの技術はすべて、効果的に動作し、ユーザに役立つために大量のデータを必要とします。 アートワークの文脈では、そのようなデータは高価な時間のかかるプロセスにおいて専門家によって注釈付けされる。 特に、各アートワークには、視覚質問応答のような共通的なタスクを実行するために、アートワークの画像と記述シートを収集する必要がある。 本稿では,映像とアノテーションのプロセスを完全に回避し,アートワークに関する視覚的質問と文脈質問の両方に回答できる記述シートを,実行時に生成できる視覚的質問応答手法を提案する。 そこで本研究では, キャプションメトリクスを用いて生成した記述の質を分析し, GPT-3による記述生成について検討する。 最後に,視覚的質問応答とキャプションタスクの性能評価を行う。

The use of Deep Learning and Computer Vision in the Cultural Heritage domain is becoming highly relevant in the last few years with lots of applications about audio smart guides, interactive museums and augmented reality. All these technologies require lots of data to work effectively and be useful for the user. In the context of artworks, such data is annotated by experts in an expensive and time consuming process. In particular, for each artwork, an image of the artwork and a description sheet have to be collected in order to perform common tasks like Visual Question Answering. In this paper we propose a method for Visual Question Answering that allows to generate at runtime a description sheet that can be used for answering both visual and contextual questions about the artwork, avoiding completely the image and the annotation process. For this purpose, we investigate on the use of GPT-3 for generating descriptions for artworks analyzing the quality of generated descriptions through captioning metrics. Finally we evaluate the performance for Visual Question Answering and captioning tasks.
翻訳日:2023-05-22 19:50:29 公開日:2023-05-19
# 優れた量子回路コンパイルオプションの予測

Predicting Good Quantum Circuit Compilation Options ( http://arxiv.org/abs/2210.08027v3 )

ライセンス: Link先を確認
Nils Quetschlich, Lukas Burgholzer, Robert Wille(参考訳) かつて量子回路としてエンコードされた量子コンピューティングの潜在的な応用は、量子コンピュータ上で実行されるためにコンパイルされる必要がある。 どのQubit技術、どのデバイス、どのコンパイラ、どの設定が問題を考えるのに最適かを決定するには、専門家の知識が必要で、量子コンピューティングをその利点に活用しようとする異なるドメインのエンドユーザーにとっては圧倒的である。 本研究では,この問題を統計的分類タスクとして扱い,教師あり機械学習技術を用いて量子回路のコンパイルを最適化する。 そこで我々は,量子回路が与えられた場合,これらのオプションの最適な組み合わせを予測し,その結果,エンドユーザが自動的に決定する枠組みを提案する。 実験的な評価により、3000個の量子回路を持つ原始的設定を考えると、提案されたフレームワークは有望な結果をもたらすことが示される: 未検出の試験回路の4分の3以上において、コンパイルオプションの最適な組み合わせが決定される。 さらに、95%以上の回路では、トップ3内のコンパイルオプションの組み合わせが決定されるが、中央値のコンパイル時間は1桁以上削減される。 さらに、結果として得られる方法論は、エンドユーザに最適なコンパイルオプションの予測を提供するだけでなく、機械学習技術から明確な知識を抽出する手段も提供する。 この知識は、この領域における機械学習のさらなる応用の基礎を築き、機械学習アルゴリズムが合理的に訓練されているかどうかをすばやく検証することを可能にする。 対応するフレームワークと事前トレーニングされた分類器は、ミュンヘン量子ツールキット(MQT)の一部としてGitHub(https://github.com/cda-tum/MQTPredictor)で公開されている。

Any potential application of quantum computing, once encoded as a quantum circuit, needs to be compiled in order to be executed on a quantum computer. Deciding which qubit technology, which device, which compiler, and which corresponding settings are best for the considered problem -- according to a measure of goodness -- requires expert knowledge and is overwhelming for end-users from different domains trying to use quantum computing to their advantage. In this work, we treat the problem as a statistical classification task and explore the utilization of supervised machine learning techniques to optimize the compilation of quantum circuits. Based on that, we propose a framework that, given a quantum circuit, predicts the best combination of these options and, therefore, automatically makes these decisions for end-users. Experimental evaluations show that, considering a prototypical setting with 3000 quantum circuits, the proposed framework yields promising results: for more than three quarters of all unseen test circuits, the best combination of compilation options is determined. Moreover, for more than 95% of the circuits, a combination of compilation options within the top-three is determined -- while the median compilation time is reduced by more than one order of magnitude. Furthermore, the resulting methodology not only provides end-users with a prediction of the best compilation options, but also provides means to extract explicit knowledge from the machine learning technique. This knowledge helps in two ways: it lays the foundation for further applications of machine learning in this domain and, also, allows one to quickly verify whether a machine learning algorithm is reasonably trained. The corresponding framework and the pre-trained classifier are publicly available on GitHub (https://github.com/cda-tum/MQTPredictor) as part of the Munich Quantum Toolkit (MQT).
翻訳日:2023-05-22 19:44:48 公開日:2023-05-19
# Phantom -- 複雑なシステムをモデル化するRL駆動マルチエージェントフレームワーク

Phantom -- A RL-driven multi-agent framework to model complex systems ( http://arxiv.org/abs/2210.06012v3 )

ライセンス: Link先を確認
Leo Ardon, Jared Vann, Deepeka Garg, Tom Spooner, Sumitra Ganesh(参考訳) エージェント・ベース・モデリング(abm)は、システム内の自律的な意思決定コンポーネントやエージェントの振る舞いを特定し、システムのダイナミクスをその相互作用から生じさせることによって、複雑なシステムのモデリングを行うための計算手法である。 マルチエージェント強化学習(MARL)の分野での最近の進歩により、複数のエージェントが同時に学習する複雑な環境の平衡を研究することが可能になった。 しかし、ほとんどのABMフレームワークはRLネイティブではなく、エージェントの振る舞いを学ぶためにMARLと互換性のある概念やインターフェースを提供していない。 本稿では, abm と marl のギャップを埋めるための新しいオープンソースフレームワーク phantom を提案する。 Phantomは複雑なマルチエージェントシステムのエージェントベースのモデリングのためのRL駆動のフレームワークであり、経済システムや市場に限定されない。 このフレームワークは、動的部分的可観測性、エージェントユーティリティ関数、エージェントの嗜好や型の不均一性、エージェントが動作可能な順序(例えばStackelbergゲームやより複雑なターンテイク環境)の制約をエンコードする機能を含む、MARL互換の方法でABM仕様を単純化するツールを提供することを目的としている。 本稿では,これらの特徴,設計上の根拠,フレームワークを活用した2つの新しい環境について述べる。

Agent based modelling (ABM) is a computational approach to modelling complex systems by specifying the behaviour of autonomous decision-making components or agents in the system and allowing the system dynamics to emerge from their interactions. Recent advances in the field of Multi-agent reinforcement learning (MARL) have made it feasible to study the equilibrium of complex environments where multiple agents learn simultaneously. However, most ABM frameworks are not RL-native, in that they do not offer concepts and interfaces that are compatible with the use of MARL to learn agent behaviours. In this paper, we introduce a new open-source framework, Phantom, to bridge the gap between ABM and MARL. Phantom is an RL-driven framework for agent-based modelling of complex multi-agent systems including, but not limited to economic systems and markets. The framework aims to provide the tools to simplify the ABM specification in a MARL-compatible way - including features to encode dynamic partial observability, agent utility functions, heterogeneity in agent preferences or types, and constraints on the order in which agents can act (e.g. Stackelberg games, or more complex turn-taking environments). In this paper, we present these features, their design rationale and present two new environments leveraging the framework.
翻訳日:2023-05-22 19:44:21 公開日:2023-05-19
# 大きな言語モデルでHTMLを理解する

Understanding HTML with Large Language Models ( http://arxiv.org/abs/2210.03945v2 )

ライセンス: Link先を確認
Izzeddin Gur, Ofir Nachum, Yingjie Miao, Mustafa Safdari, Austin Huang, Aakanksha Chowdhery, Sharan Narang, Noah Fiedel, Aleksandra Faust(参考訳) 大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。 しかし、Webページの生のHTMLを解析し、Webベースのタスクの自動化、クローリング、ブラウザによる検索など、HTMLを理解する能力は、完全には研究されていない。 我々は,HTML理解モデル(微調整LDM)と,その機能の詳細を3つのタスクで分析する。 (i)HTML要素のセマンティック分類 (ii)HTML入力のための記述生成、および (iii)htmlページの自律的なwebナビゲーション。 従来の研究はHTML理解のための専用のアーキテクチャとトレーニング手順を開発してきたが、LLMは標準自然言語コーパスで事前訓練され、HTML理解タスクに非常に適していることを示す。 例えば、微調整されたLLMは、タスクデータセットにのみ訓練されたモデルよりもセマンティック分類において12%精度が高い。 さらに、miniwobベンチマークからデータを微調整すると、以前の最良の教師付きモデルよりも192倍少ないデータで50%のタスクを完了した。 我々が評価したLCMのうち、T5ベースのモデルは双方向エンコーダデコーダアーキテクチャのために理想的であることを示す。 HTML 理解のための LLM のさらなる研究を促進するために,CommonCrawl から抽出,自動ラベル付けされた大規模 HTML データセットを作成し,オープンソース化する。

Large language models (LLMs) have shown exceptional performance on a variety of natural language tasks. Yet, their capabilities for HTML understanding -- i.e., parsing the raw HTML of a webpage, with applications to automation of web-based tasks, crawling, and browser-assisted retrieval -- have not been fully explored. We contribute HTML understanding models (fine-tuned LLMs) and an in-depth analysis of their capabilities under three tasks: (i) Semantic Classification of HTML elements, (ii) Description Generation for HTML inputs, and (iii) Autonomous Web Navigation of HTML pages. While previous work has developed dedicated architectures and training procedures for HTML understanding, we show that LLMs pretrained on standard natural language corpora transfer remarkably well to HTML understanding tasks. For instance, fine-tuned LLMs are 12% more accurate at semantic classification compared to models trained exclusively on the task dataset. Moreover, when fine-tuned on data from the MiniWoB benchmark, LLMs successfully complete 50% more tasks using 192x less data compared to the previous best supervised model. Out of the LLMs we evaluate, we show evidence that T5-based models are ideal due to their bidirectional encoder-decoder architecture. To promote further research on LLMs for HTML understanding, we create and open-source a large-scale HTML dataset distilled and auto-labeled from CommonCrawl.
翻訳日:2023-05-22 19:43:56 公開日:2023-05-19
# 励起状態に対する密度行列関数の導出

Deriving density-matrix functionals for excited states ( http://arxiv.org/abs/2210.00964v3 )

ライセンス: Link先を確認
Julia Liebert, Christian Schilling(参考訳) 最近提案された $\boldsymbol{w}$-enmble 1- Particle reduced density matrix functional theory (\boldsymbol{w}$-RDMFT) は、最初の汎函数近似を導出し、励起エネルギーを実際にどのように計算できるかを説明する。 この目的のために、我々はまず、ハバードモデルのビルディングブロックを構成する対称ハバードダイマーを研究し、レヴィ・リーブ制約付き探索を実行する。 第二に、ボース=アインシュタイン凝縮体を記述するための $\boldsymbol{w}$-RDMFT の特定の適合性から、ボゴリューボフ系における任意の対の相互作用のために同質なボース気体の普遍函数を導出する3つの概念的に異なるアプローチを示す。 どちらの系においても、函数の勾配は函数の領域の境界で反発的に分岐し、最近発見されたボース=アインシュタイン凝縮力を励起状態へと拡張する。 本研究は, フェルミオン混合状態とボゾン混合状態の一般排他原理と機能理論における普遍性の呪いとの関連性を明らかにする。

We initiate the recently proposed $\boldsymbol{w}$-ensemble one-particle reduced density matrix functional theory ($\boldsymbol{w}$-RDMFT) by deriving the first functional approximations and illustrate how excitation energies can be calculated in practice. For this endeavour, we first study the symmetric Hubbard dimer, constituting the building block of the Hubbard model, for which we execute the Levy-Lieb constrained search. Second, due to the particular suitability of $\boldsymbol{w}$-RDMFT for describing Bose-Einstein condensates, we demonstrate three conceptually different approaches for deriving the universal functional in a homogeneous Bose gas for arbitrary pair interaction in the Bogoliubov regime. Remarkably, in both systems the gradient of the functional is found to diverge repulsively at the boundary of the functional's domain, extending the recently discovered Bose-Einstein condensation force to excited states. Our findings highlight the physical relevance of the generalized exclusion principle for fermionic and bosonic mixed states and the curse of universality in functional theories.
翻訳日:2023-05-22 19:43:34 公開日:2023-05-19
# 良性オートエンコーダ

Benign Autoencoders ( http://arxiv.org/abs/2210.00637v3 )

ライセンス: Link先を確認
Semyon Malamud, Teng Andrea Xu, Giuseppe Matera and Antoine Didisheim(参考訳) 生成人工知能(AI)の最近の進歩は、エンコーダ-デコーダアーキテクチャを特徴とする効率的なデータ表現に依存している。 最適なエンコーダ-デコーダペアを見つけ、その解を特徴付ける数学的問題を定式化し、これを「良性オートエンコーダ」(bae)と呼ぶ。 BAEが生成問題の最適圧縮性次元である多様体にデータを投影することを証明する。 我々は、条件付きgan、コンテキストエンコーダ、安定した拡散、スタック付きオートエンコーダ、生成モデルの学習能力など、aiにおけるbaeと最近のいくつかの開発との間の驚くべき関係に注目した。 例として,分布シフト下での判別器の性能を向上させるために,baeが最適かつ低次元の潜在表現を見出す方法を示す。 データの次元を圧縮することで、BAEはより滑らかで安定した勾配をもたらす。

Recent progress in Generative Artificial Intelligence (AI) relies on efficient data representations, often featuring encoder-decoder architectures. We formalize the mathematical problem of finding the optimal encoder-decoder pair and characterize its solution, which we name the "benign autoencoder" (BAE). We prove that BAE projects data onto a manifold whose dimension is the optimal compressibility dimension of the generative problem. We highlight surprising connections between BAE and several recent developments in AI, such as conditional GANs, context encoders, stable diffusion, stacked autoencoders, and the learning capabilities of generative models. As an illustration, we show how BAE can find optimal, low-dimensional latent representations that improve the performance of a discriminator under a distribution shift. By compressing "malignant" data dimensions, BAE leads to smoother and more stable gradients.
翻訳日:2023-05-22 19:43:11 公開日:2023-05-19
# リニア光学におけるページ曲線と典型的な絡み合い

Page curves and typical entanglement in linear optics ( http://arxiv.org/abs/2209.06838v2 )

ライセンス: Link先を確認
Joseph T. Iosue, Adam Ehrenberg, Dominik Hangleiter, Abhinav Deshpande, Alexey V. Gorshkov(参考訳) ボソニック・ガウス状態(英: Bosonic Gaussian state)は、無限次元ヒルベルト空間における特別な量子状態のクラスであり、普遍連続変数量子計算やガウス・ボソンサンプリングのような短期量子サンプリングタスクに関係している。 本研究では,ランダム線形光学ユニタリによって進化した一組のスクイーズモード内の絡み合いについて検討する。 まず、r\'enyi-2 ページ曲線(純ボソニックガウス状態のサブシステムの平均 r\'enyi-2 エントロピー)のモード数に漸近的に正確である公式と、特定のスクイーズ状態における対応するページ補正(サブシステムの平均情報)を導出する。 次に、r\'enyi-2エントロピーによって測定されるエンタングルメントの典型性に関する様々な結果を示す。 R'enyi-2 エントロピーに対する上記の結果を用いて、フォン・ノイマンエントロピー曲線を上下に有界にし、フォン・ノイマンエントロピーによって測定されたある種の絡み合いの典型性を証明した。 我々の主な証明は、平均に従う対称性の性質と、ユニタリ上の平均化を劇的に単純化するエントロピーの分散を利用する。 本稿では,この対称性を活用できる将来の研究方向を提案する。 結論として,本研究の応用可能性とガウスボソンサンプリングへの一般化を考察し,絡み合いと計算複雑性の関係を明らかにした。

Bosonic Gaussian states are a special class of quantum states in an infinite dimensional Hilbert space that are relevant to universal continuous-variable quantum computation as well as to near-term quantum sampling tasks such as Gaussian Boson Sampling. In this work, we study entanglement within a set of squeezed modes that have been evolved by a random linear optical unitary. We first derive formulas that are asymptotically exact in the number of modes for the R\'enyi-2 Page curve (the average R\'enyi-2 entropy of a subsystem of a pure bosonic Gaussian state) and the corresponding Page correction (the average information of the subsystem) in certain squeezing regimes. We then prove various results on the typicality of entanglement as measured by the R\'enyi-2 entropy by studying its variance. Using the aforementioned results for the R\'enyi-2 entropy, we upper and lower bound the von Neumann entropy Page curve and prove certain regimes of entanglement typicality as measured by the von Neumann entropy. Our main proofs make use of a symmetry property obeyed by the average and the variance of the entropy that dramatically simplifies the averaging over unitaries. In this light, we propose future research directions where this symmetry might also be exploited. We conclude by discussing potential applications of our results and their generalizations to Gaussian Boson Sampling and to illuminating the relationship between entanglement and computational complexity.
翻訳日:2023-05-22 19:42:45 公開日:2023-05-19
# 風力エネルギー取引のためのオンライン意思決定

Online Decision Making for Trading Wind Energy ( http://arxiv.org/abs/2209.02009v3 )

ライセンス: Link先を確認
Miguel Angel Mu\~noz, Pierre Pinson and Jalal Kazempour(参考訳) 我々は,オンライン学習最適化フレームワークを用いて電力市場における風力エネルギー取引のための新しいアルゴリズムを提案し,開発する。 特に、勾配降下アルゴリズムのコンポーネントワイド適応版と、機能駆動型ニューズベンダーモデルにおける最近の進歩を組み合わせる。 これにより、データ豊富な環境を活用でき、エネルギーと電力市場の非定常特性に適応し、計算負担を最小限に抑えるオンライン提供アプローチが実現される。 提案手法の性能はいくつかの数値実験に基づいて解析され,非定常的不確実なパラメータへの適応性および有意な経済効果を示す。

We propose and develop a new algorithm for trading wind energy in electricity markets, within an online learning and optimization framework. In particular, we combine a component-wise adaptive variant of the gradient descent algorithm with recent advances in the feature-driven newsvendor model. This results in an online offering approach capable of leveraging data-rich environments, while adapting to the nonstationary characteristics of energy generation and electricity markets, also with a minimal computational burden. The performance of our approach is analyzed based on several numerical experiments, showing both better adaptability to nonstationary uncertain parameters and significant economic gains.
翻訳日:2023-05-22 19:41:58 公開日:2023-05-19
# IDとOODのパフォーマンスは実世界のデータセットと逆相関することがある

ID and OOD Performance Are Sometimes Inversely Correlated on Real-world Datasets ( http://arxiv.org/abs/2209.00613v4 )

ライセンス: Link先を確認
Damien Teney, Yong Lin, Seong Joon Oh, Ehsan Abbasnejad(参考訳) いくつかの研究は、コンピュータビジョンとNLPにおけるモデルの分布内(ID)と分布外(OOD)のパフォーマンスを比較している。 彼らは頻繁な正の相関を報告し、驚くべきことに、必要なトレードオフを示す逆相関も観測していない。 逆パターンの可能性は、IDパフォーマンスがOOD一般化機能のプロキシになるかどうかを決定するために重要である。 本稿では,IDとOODのパフォーマンスの逆相関が実世界のデータで発生することを複数のデータセットで示す。 また,これらのケースが最小限の線形設定でもどのように発生するのか,また,モデル選択の偏りが原因で過去の研究がそのようなケースを見逃す可能性がある理由を理論的に説明する。 我々の観察は、現在の文献の多くに見られるものと矛盾する推奨に繋がる。 -高いOODパフォーマンスにはIDパフォーマンスのトレードオフが必要になることがある。 -IDパフォーマンスのみに注目しても、最適なOODパフォーマンスには至らないかもしれない。 OOD性能は低下(最終的には負)する可能性がある。 -これらの場合、モデル選択にIDパフォーマンスを使用するOOD一般化の研究(一般的な推奨慣行)は、必ずしも最高の性能モデルを見落としており、これらの研究はあらゆる現象に盲目である。

Several studies have compared the in-distribution (ID) and out-of-distribution (OOD) performance of models in computer vision and NLP. They report a frequent positive correlation and some surprisingly never even observe an inverse correlation indicative of a necessary trade-off. The possibility of inverse patterns is important to determine whether ID performance can serve as a proxy for OOD generalization capabilities. This paper shows with multiple datasets that inverse correlations between ID and OOD performance do happen in real-world data - not only in theoretical worst-case settings. We also explain theoretically how these cases can arise even in a minimal linear setting, and why past studies could miss such cases due to a biased selection of models. Our observations lead to recommendations that contradict those found in much of the current literature. - High OOD performance sometimes requires trading off ID performance. - Focusing on ID performance alone may not lead to optimal OOD performance. It may produce diminishing (eventually negative) returns in OOD performance. - In these cases, studies on OOD generalization that use ID performance for model selection (a common recommended practice) will necessarily miss the best-performing models, making these studies blind to a whole range of phenomena.
翻訳日:2023-05-22 19:41:48 公開日:2023-05-19
# タスク指向対話におけるインテント誘導による発話埋め込みとクラスタリング手法の解析

Analysis of Utterance Embeddings and Clustering Methods Related to Intent Induction for Task-Oriented Dialogue ( http://arxiv.org/abs/2212.02021v4 )

ライセンス: Link先を確認
Jeiyoon Park, Yoonna Jang, Chanhee Lee, Heuiseok Lim(参考訳) この研究の焦点は、タスク指向のダイアログスキーマの設計において、意図ラベルを各ダイアログターン(インテントクラスタリング)に割り当て、インテントクラスタリング手法(インテントインジェクション)に基づいたインテントセットを生成するという重要な課題を克服するための教師なしアプローチを検討することである。 意図の自動誘導には,(1)インテントラベリングのためのクラスタリングアルゴリズム,(2)ユーザ発話の埋め込み空間の2つの因果関係を仮定する。 既存の市販クラスタリングモデルとDSTC11評価に基づく埋め込みを比較した。 本研究は,インテント誘導タスクにおける発話埋め込みとクラスタリングの併用を慎重に検討する必要があることを示す。 また,Agglomerative clusteringによる事前学習したMiniLMは,NMI,ARI,F1,精度,インテント誘導タスクにおけるサンプルカバレッジを著しく向上させることを示した。 ソースコードはhttps://github.com/jeiyoon/dstc11-track2で入手できる。

The focus of this work is to investigate unsupervised approaches to overcome quintessential challenges in designing task-oriented dialog schema: assigning intent labels to each dialog turn (intent clustering) and generating a set of intents based on the intent clustering methods (intent induction). We postulate there are two salient factors for automatic induction of intents: (1) clustering algorithm for intent labeling and (2) user utterance embedding space. We compare existing off-the-shelf clustering models and embeddings based on DSTC11 evaluation. Our extensive experiments demonstrate that the combined selection of utterance embedding and clustering method in the intent induction task should be carefully considered. We also present that pretrained MiniLM with Agglomerative clustering shows significant improvement in NMI, ARI, F1, accuracy and example coverage in intent induction tasks. The source codes are available at https://github.com/Jeiyoon/dstc11-track2.
翻訳日:2023-05-22 19:34:27 公開日:2023-05-19
# 反実的推論の複雑さについて

On the Complexity of Counterfactual Reasoning ( http://arxiv.org/abs/2211.13447v2 )

ライセンス: Link先を確認
Yunqiu Han, Yizuo Chen, Adnan Darwiche(参考訳) 構造因果モデル(scms)における連想的・介入的推論の複雑性に関連して,反事実的推論の計算複雑性について検討した。 本稿では,2つの計算フレームワークの文脈において,完全に指定されたSCM上での協調的あるいは介入的推論よりも反実的推論が困難であることを示す。 最初のフレームワークはtreewidthの概念に基づいており、古典的な変数除去とジョインツリーアルゴリズムを含んでいる。 第2のフレームワークは、SCMのような機能的依存関係を持つモデルに向けられた、より最近で洗練された因果木幅の概念に基づいている。 我々の結果は構成的であり、基礎となるSCM構造の(因果的)ツリー幅に対して、実と虚の2つの世界を考える標準的な反実的推論で使われる双対ネットワークの(因果的)ツリー幅の有界化に基づいている。 特に、後者(causal)の木の幅は、前者プラス1の2倍以下であることを示す。 したがって、完全に指定されたSCM上で結合的または介入的推論が抽出可能であれば、反事実的推論も抽出可能となる。 我々は,2つ以上の世界を考える一般の反実的推論に結果を拡張し,データと結合した部分的特定SCMを用いて反実的推論への応用について議論する。 最終的に、対実的推論の複雑さとランダムなSCMにおける連帯的・インターベンショナル推論のギャップを測る実験結果を示す。

We study the computational complexity of counterfactual reasoning in relation to the complexity of associational and interventional reasoning on structural causal models (SCMs). We show that counterfactual reasoning is no harder than associational or interventional reasoning on fully specified SCMs in the context of two computational frameworks. The first framework is based on the notion of treewidth and includes the classical variable elimination and jointree algorithms. The second framework is based on the more recent and refined notion of causal treewidth which is directed towards models with functional dependencies such as SCMs. Our results are constructive and based on bounding the (causal) treewidth of twin networks -- used in standard counterfactual reasoning that contemplates two worlds, real and imaginary -- to the (causal) treewidth of the underlying SCM structure. In particular, we show that the latter (causal) treewidth is no more than twice the former plus one. Hence, if associational or interventional reasoning is tractable on a fully specified SCM then counterfactual reasoning is tractable too. We extend our results to general counterfactual reasoning that requires contemplating more than two worlds and discuss applications of our results to counterfactual reasoning with a partially specified SCM that is coupled with data. We finally present empirical results that measure the gap between the complexities of counterfactual reasoning and associational/interventional reasoning on random SCMs.
翻訳日:2023-05-22 19:33:49 公開日:2023-05-19
# vatlm:音声表現学習のための統一マスク予測を用いた視覚音声テキスト事前学習

VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning ( http://arxiv.org/abs/2211.11275v2 )

ライセンス: Link先を確認
Qiushi Zhu, Long Zhou, Ziqiang Zhang, Shujie Liu, Binxing Jiao, Jie Zhang, Lirong Dai, Daxin Jiang, Jinyu Li, Furu Wei(参考訳) 音声は、人間が外界とコミュニケーションをとるためのシンプルで効果的な方法であるが、より現実的な音声対話には、例えば視覚、テキストといったマルチモーダル情報が含まれる。 異なるモーダル情報を統合し、異なるリソース(例えば、視覚-聴覚ペア、音声-テキストペア、ラベルなし音声、ラベルなしテキスト)を活用して、音声表現学習を容易にする統一フレームワークを設計する方法は、十分に検討されなかった。 本稿では,統合型クロスモーダル表現学習フレームワークvatlm(visual-audio-text language model)を提案する。 提案するvatlmは、モダリティ非依存情報をモデル化するために統一バックボーンネットワークを使用し、視覚、音声、テキスト入力の前処理に3つの単純なモダリティ依存モジュールを使用する。 これら3つのモダリティを1つの共有意味空間に統合するために、VATLMは、提案した統一トークン化器によって与えられるマスク付き予測タスクで最適化される。 本稿では,音声-視覚的音声認識(AVSR),視覚的音声認識(VSR)タスクなど,音声-視覚関連下流タスクに対する事前学習VATLMの評価を行った。 以上の結果から,VATLMはAV-HuBERTモデルのような従来の最先端モデルよりも優れており,VATLMが異なるモダリティを同一空間に整列できることが示唆された。 将来の研究を容易にするため、コードと事前訓練済みのモデルをhttps://aka.ms/vatlm.comでリリースします。

Although speech is a simple and effective way for humans to communicate with the outside world, a more realistic speech interaction contains multimodal information, e.g., vision, text. How to design a unified framework to integrate different modal information and leverage different resources (e.g., visual-audio pairs, audio-text pairs, unlabeled speech, and unlabeled text) to facilitate speech representation learning was not well explored. In this paper, we propose a unified cross-modal representation learning framework VATLM (Visual-Audio-Text Language Model). The proposed VATLM employs a unified backbone network to model the modality-independent information and utilizes three simple modality-dependent modules to preprocess visual, speech, and text inputs. In order to integrate these three modalities into one shared semantic space, VATLM is optimized with a masked prediction task of unified tokens, given by our proposed unified tokenizer. We evaluate the pre-trained VATLM on audio-visual related downstream tasks, including audio-visual speech recognition (AVSR), visual speech recognition (VSR) tasks. Results show that the proposed VATLM outperforms previous the state-of-the-art models, such as audio-visual pre-trained AV-HuBERT model, and analysis also demonstrates that VATLM is capable of aligning different modalities into the same space. To facilitate future research, we release the code and pre-trained models at https://aka.ms/vatlm.
翻訳日:2023-05-22 19:33:26 公開日:2023-05-19
# NLPeer: ピアレビューの計算研究のための統一リソース

NLPeer: A Unified Resource for the Computational Study of Peer Review ( http://arxiv.org/abs/2211.06651v2 )

ライセンス: Link先を確認
Nils Dycke, Ilia Kuznetsov, Iryna Gurevych(参考訳) ピアレビューは学術出版の中核的な要素であるが、かなりの専門知識と訓練を必要とし、誤りや偏見に影響を受けやすい。 ピアレビュー支援のためのNLPの様々な応用は、この複雑なプロセスにおいてレビュアーを支援することを目的としているが、明確にライセンスされたデータセットとマルチドメインコーパスの欠如は、ピアレビューのためのNLPの体系的な研究を妨げる。 この問題を解決するために、nlpeerを紹介します。nlpeerは、5k以上の論文と5つの異なる場所からの1kレビューレポートからなる、倫理的にオープンソース化された最初のマルチドメインコーパスです。 論文草案,カメラ対応版,nlpコミュニティのピアレビューの新しいデータセットに加えて,統一データ表現を確立し,従来のピアレビューデータセットを拡張して,解析および構造化された論文表現,リッチメタデータ,バージョニング情報を含める。 我々は,新しいガイドスキミングタスクを含む3つのレビュー支援タスクの実装と分析でリソースを補完する。 我々の研究は、NLPなどにおけるピアレビューの体系的、多面的、エビデンスに基づく研究への道を開く。 データとコードは公開されています。

Peer review constitutes a core component of scholarly publishing; yet it demands substantial expertise and training, and is susceptible to errors and biases. Various applications of NLP for peer reviewing assistance aim to support reviewers in this complex process, but the lack of clearly licensed datasets and multi-domain corpora prevent the systematic study of NLP for peer review. To remedy this, we introduce NLPeer -- the first ethically sourced multidomain corpus of more than 5k papers and 11k review reports from five different venues. In addition to the new datasets of paper drafts, camera-ready versions and peer reviews from the NLP community, we establish a unified data representation and augment previous peer review datasets to include parsed and structured paper representations, rich metadata and versioning information. We complement our resource with implementations and analysis of three reviewing assistance tasks, including a novel guided skimming task. Our work paves the path towards systematic, multi-faceted, evidence-based study of peer review in NLP and beyond. The data and code are publicly available.
翻訳日:2023-05-22 19:32:58 公開日:2023-05-19
# 誘電体媒体の多重散乱拡大:カシミール効果

Multiple scattering expansion for dielectric media: Casimir effect ( http://arxiv.org/abs/2211.05042v2 )

ライセンス: Link先を確認
Thorsten Emig, Giuseppe Bimonte(参考訳) カシミール力の最近の測定は、複雑な幾何学における電磁場の量子揺らぎの複雑な修正の証拠となった。 ここでは、任意の形状の物体と材料組成との間のカシミール相互作用の多重散乱記述を導入し、体間散乱および体内散乱の列として展開を認める。 複雑なジオメトリの相互作用は、典型的には数個の波動散乱から現在の実験分解で計算でき、特に天体の散乱振幅に関する事前知識がない。 アプローチのパワーを示す最初の応用例もある。

Recent measurements of Casimir forces have provided evidence of an intricate modification of quantum fluctuations of the electromagnetic field in complex geometries. Here we introduce a multiple scattering description for Casimir interactions between bodies of arbitrary shape and material composition, admitting an expansion as a sequence of inter- and intra-body wave scatterings. Interactions in complex geometries can be computed within the current experimental resolution from typically a few wave scatterings, notably without any a priori knowledge of the scattering amplitudes of the bodies. Some first applications demonstrate the power of the approach.
翻訳日:2023-05-22 19:32:38 公開日:2023-05-19
# 確率過程拡散を伴う連続関数としての時間データのモデリング

Modeling Temporal Data as Continuous Functions with Stochastic Process Diffusion ( http://arxiv.org/abs/2211.02590v2 )

ライセンス: Link先を確認
Marin Bilo\v{s}, Kashif Rasul, Anderson Schneider, Yuriy Nevmyvaka, Stephan G\"unnemann(参考訳) 時系列などの時間データは、基礎となる関数の離散化測定と見なすことができる。 このようなデータの生成モデルを構築するには、それを管理する確率過程をモデル化する必要があります。 関数空間における微分拡散モデルを定義し,不規則にサンプリングされた観測を自然に処理できる解を提案する。 フォワードプロセスは徐々に関数にノイズを加え、連続性を保ちながら、学習された逆プロセスはノイズを取り除き、新しいサンプルとして関数を返す。 この目的のために,適切な音源を定め,新しいデノイジングモデルとスコアマッチングモデルを導入する。 本手法が多変量確率予測および計算にどのように利用できるか,また,モデルがニューラルプロセスとして解釈されるかを示す。

Temporal data such as time series can be viewed as discretized measurements of the underlying function. To build a generative model for such data we have to model the stochastic process that governs it. We propose a solution by defining the denoising diffusion model in the function space which also allows us to naturally handle irregularly-sampled observations. The forward process gradually adds noise to functions, preserving their continuity, while the learned reverse process removes the noise and returns functions as new samples. To this end, we define suitable noise sources and introduce novel denoising and score-matching models. We show how our method can be used for multivariate probabilistic forecasting and imputation, and how our model can be interpreted as a neural process.
翻訳日:2023-05-22 19:32:29 公開日:2023-05-19
# 組立学習のための微分モデル選択

Differentiable Model Selection for Ensemble Learning ( http://arxiv.org/abs/2211.00251v2 )

ライセンス: Link先を確認
James Kotary, Vincenzo Di Vito, Ferdinando Fioretto(参考訳) モデル選択は、正確で堅牢なモデルを作成するための戦略である。 これらのアルゴリズムを設計する上で重要な課題は、特定の入力サンプルを分類する最適なモデルを特定することである。 本稿では,機械学習と組合せ最適化を融合した微分可能なモデル選択のための新しいフレームワークを提案する。 このフレームワークは、個別に事前学習されたモデルの出力を結合したアンサンブル学習用に調整され、アンサンブル学習タスクをアンサンブル学習モデル内の微分可能な選択プログラム訓練エンドツーエンドに変換することにより、特定の入力サンプルの適切なアンサンブルメンバを選択することを学ぶ。 提案したフレームワークは様々なタスクでテストし、その汎用性と有効性を示し、様々な設定や学習タスクにおいて従来および先進的なコンセンサスルールより優れている。

Model selection is a strategy aimed at creating accurate and robust models. A key challenge in designing these algorithms is identifying the optimal model for classifying any particular input sample. This paper addresses this challenge and proposes a novel framework for differentiable model selection integrating machine learning and combinatorial optimization. The framework is tailored for ensemble learning, a strategy that combines the outputs of individually pre-trained models, and learns to select appropriate ensemble members for a particular input sample by transforming the ensemble learning task into a differentiable selection program trained end-to-end within the ensemble learning model. Tested on various tasks, the proposed framework demonstrates its versatility and effectiveness, outperforming conventional and advanced consensus rules across a variety of settings and learning tasks.
翻訳日:2023-05-22 19:32:17 公開日:2023-05-19
# 知識蒸留のマルチタスク音声表現学習への応用

Application of Knowledge Distillation to Multi-task Speech Representation Learning ( http://arxiv.org/abs/2210.16611v2 )

ライセンス: Link先を確認
Mine Kerpicci, Van Nguyen, Shuhua Zhang, Erik Visser(参考訳) wav2vec 2.0 や HuBERT のようなモデルアーキテクチャは、音声波形から音声表現を自己教師方式で学習するために提案されている。 キーワードスポッティングや話者検証といった下流タスクと組み合わせることで、最先端のパフォーマンスを提供する。 しかし、これらのモデルは多数のパラメータを使用し、その最小バージョンは95万のパラメータを持つ。 これは、エッジAIデバイスデプロイメントの課題となっている。 本稿では,知識蒸留を音声表現学習(SRL)モデルに適用し,さらに複数の下流音声アクティベートタスクを用いた共同微調整を行う。 このようなタスクを2回行った実験で,本手法ではモデルサイズが約75%減少し,精度が0.1%,誤差率が0.9%低下した。 さらに, SRLモデルの微調整により, 凍結SRLモデルに比べて性能が大幅に向上することを示した。

Model architectures such as wav2vec 2.0 and HuBERT have been proposed to learn speech representations from audio waveforms in a self-supervised manner. When they are combined with downstream tasks such as keyword spotting and speaker verification, they provide state-of-the-art performance. However, these models use a large number of parameters, the smallest version of which has 95 million parameters. This constitutes a challenge for edge AI device deployments. In this paper, we investigate the application of knowledge distillation to speech representation learning (SRL) models followed by joint fine-tuning with multiple downstream voice-activated tasks. In our experiments on two such tasks, our approach results in nearly 75% reduction in model size while suffering only 0.1% accuracy and 0.9% equal error rate degradation compared to the full-size model. In addition, we show that fine-tuning the SRL models results in a significant performance boost compared to using frozen SRL models.
翻訳日:2023-05-22 19:32:02 公開日:2023-05-19
# ゼロショットテキスト分類のためのプロンプトとラベル検索による文エンコーダの強化

Empowering Sentence Encoders with Prompting and Label Retrieval for Zero-shot Text Classification ( http://arxiv.org/abs/2212.10391v2 )

ライセンス: Link先を確認
Jimin Hong, Jungsoo Park, Daeyoung Kim, Seongjae Choi, Bokyung Son, and Jaewook Kang(参考訳) 対照的な事前学習では、文エンコーダは一般的に、それらの埋め込み空間において、互いに近い意味的に類似したサンプルを見つけるように最適化される。 本研究では,意味的に異なるサンプルがすでに分離されているため,組込み空間がゼロショットテキスト分類に容易に適応できる可能性に注目した。 提案手法であるralp (retrieval augmented label prompts for sentence encoder) では,提案するラベル候補を文エンコーダでエンコードし,入力文エンコーダと最も類似度の高いラベルを割り当てる。 原文のラベルを補うために、RaLPは、外部コーパスから元のラベルプロンプトと意味的に類似した文を検索し、追加の擬似ラベルプロンプトとして使用する。 RaLPは、さまざまなクローズドセット分類と、ゼロショット設定下でのマルチチョイスQAデータセットに基づいて、はるかに大きなベースラインよりも、競争力や強いパフォーマンスを達成する。 本稿では,RaLPの成功において検索成分が重要な役割を担っていることを示し,その成果は動詞のバリエーションによらずしっかりと達成されていることを示す。

With contrastive pre-training, sentence encoders are generally optimized to locate semantically similar samples closer to each other in their embedding spaces. In this work, we focus on the potential of their embedding spaces to be readily adapted to zero-shot text classification, as semantically distinct samples are already well-separated. Our framework, RaLP (Retrieval augmented Label Prompts for sentence encoder), encodes prompted label candidates with a sentence encoder, then assigns the label whose prompt embedding has the highest similarity with the input text embedding. In order to compensate for the potentially poorly descriptive labels in their original format, RaLP retrieves sentences that are semantically similar to the original label prompt from external corpora and use them as additional pseudo-label prompts. RaLP achieves competitive or stronger performance than much larger baselines on various closed-set classification and multiple-choice QA datasets under zero-shot settings. We show that the retrieval component plays a pivotal role in RaLP's success, and its results are robustly attained regardless of verbalizer variations.
翻訳日:2023-05-22 19:25:59 公開日:2023-05-19
# foveate, attribute, and rationalize: 物理的に安全で信頼できるaiに向けて

Foveate, Attribute, and Rationalize: Towards Physically Safe and Trustworthy AI ( http://arxiv.org/abs/2212.09667v2 )

ライセンス: Link先を確認
Alex Mei, Sharon Levy, William Yang Wang(参考訳) 知的システムの市場が成長を続けるにつれ、ユーザの身体的安全が懸念されるようになり、制約のないシステムは、深刻な怪我につながる危険なアクションをユーザに推奨する可能性がある。 包括的不安全テキストは、日常的なシナリオから生じる可能性のある特定の関心領域であり、有害なテキストを検出するのが困難である。 安全の観点から、信頼に値する合理的な生成のために外部知識を活用する新しいフレームワークであるFARMを提案する。 特にファームは、特定のシナリオにおいて推論に必要な情報を取得するための知識の欠如に焦点をあて、信頼できる情報源への帰属とともにこの情報を取得する。 この知識は、原文の安全性を分類し、人間の解釈可能な合理性を生成すると同時に、特定のユーザーグループに対するシステムのリスクを隠蔽し、利害関係者がシステムや政策立案者のリスクを管理し、消費者の安全のための具体的な保護を提供する手助けをする。 実験の結果,FARMはSafeTextデータセットの最先端結果を取得し,安全性の分類精度を5.9%向上した。

Users' physical safety is an increasing concern as the market for intelligent systems continues to grow, where unconstrained systems may recommend users dangerous actions that can lead to serious injury. Covertly unsafe text is an area of particular interest, as such text may arise from everyday scenarios and are challenging to detect as harmful. We propose FARM, a novel framework leveraging external knowledge for trustworthy rationale generation in the context of safety. In particular, FARM foveates on missing knowledge to qualify the information required to reason in specific scenarios and retrieves this information with attribution to trustworthy sources. This knowledge is used to both classify the safety of the original text and generate human-interpretable rationales, shedding light on the risk of systems to specific user groups and helping both stakeholders manage the risks of their systems and policymakers to provide concrete safeguards for consumer safety. Our experiments show that FARM obtains state-of-the-art results on the SafeText dataset, showing absolute improvement in safety classification accuracy by 5.9%.
翻訳日:2023-05-22 19:25:23 公開日:2023-05-19
# ニューラルマシン翻訳における教師なし幻覚検出のための最適輸送法

Optimal Transport for Unsupervised Hallucination Detection in Neural Machine Translation ( http://arxiv.org/abs/2212.09631v2 )

ライセンス: Link先を確認
Nuno M. Guerreiro, Pierre Colombo, Pablo Piantanida, Andr\'e F. T. Martins(参考訳) neural machine translation (nmt) は現実世界の機械翻訳アプリケーションにおいてデファクトスタンダードとなっている。 しかし、NMTモデルは、幻覚として知られる深刻な病的翻訳を予測不能に生成し、ユーザーの信頼を著しく損なう。 したがって、適切な機能を保証する効果的な予防戦略を実施することが不可欠となる。 本稿では,NMTにおける幻覚検出の問題点を,簡単な直感によって解決する:幻覚をソースコンテンツから切り離すと,高品質翻訳と統計的に異なるエンコーダ・デコーダの注意パターンを示す。 我々は,この問題を最適輸送定式化で構成し,注意に基づくNMTモデルで使用可能な,完全に教師なしのプラグイン検出器を提案する。 実験の結果,我々の検出器は,従来のモデルに基づく検出器よりも優れており,また,何百万ものサンプルで訓練された大規模モデルを用いる検出器と競合することがわかった。

Neural machine translation (NMT) has become the de-facto standard in real-world machine translation applications. However, NMT models can unpredictably produce severely pathological translations, known as hallucinations, that seriously undermine user trust. It becomes thus crucial to implement effective preventive strategies to guarantee their proper functioning. In this paper, we address the problem of hallucination detection in NMT by following a simple intuition: as hallucinations are detached from the source content, they exhibit encoder-decoder attention patterns that are statistically different from those of good quality translations. We frame this problem with an optimal transport formulation and propose a fully unsupervised, plug-in detector that can be used with any attention-based NMT model. Experimental results show that our detector not only outperforms all previous model-based detectors, but is also competitive with detectors that employ large models trained on millions of samples.
翻訳日:2023-05-22 19:25:04 公開日:2023-05-19
# 知らないことを知る:テキストからSQLへの曖昧で不可解な質問の扱い

Know What I don't Know: Handling Ambiguous and Unanswerable Questions for Text-to-SQL ( http://arxiv.org/abs/2212.08902v2 )

ライセンス: Link先を確認
Bing Wang, Yan Gao, Zhoujun Li, Jian-Guang Lou(参考訳) テキストからSQLへのタスクは、自然言語の質問をリレーショナルテーブルのコンテキスト内で対応するSQLクエリに変換することを目的としている。 既存のテキストからSQLへのパーサは任意のユーザ質問に対して"楽観的な"SQLクエリを生成します。 この問題を形式化するために,テキスト・トゥ・SQLにおける不明瞭・不確実な事例について予備研究を行い,それらを6つの特徴カテゴリにまとめる。 それに応じて,各カテゴリの背後にある原因を特定し,あいまいで不可解な質問を扱うための要件を提案する。 そこで本研究では,不明瞭かつ不確実なテキスト対SQLのサンプルを自動生成する,単純な反実例生成手法を提案する。 さらに、誤り検出、局所化、説明のための弱い教師付きDTE(Detecting-Then-Explaining)モデルを提案する。 実験の結果,実世界の実例と生成した実例の両方において,本モデルが最良となることがわかった。 私たちは、以下のデータとコードをリリースします。 \href{https://github.com/wbbeyourself/DTE}{https://github.com/wbbeyourself/DTE}。

The task of text-to-SQL aims to convert a natural language question into its corresponding SQL query within the context of relational tables. Existing text-to-SQL parsers generate a "plausible" SQL query for an arbitrary user question, thereby failing to correctly handle problematic user questions. To formalize this problem, we conduct a preliminary study on the observed ambiguous and unanswerable cases in text-to-SQL and summarize them into 6 feature categories. Correspondingly, we identify the causes behind each category and propose requirements for handling ambiguous and unanswerable questions. Following this study, we propose a simple yet effective counterfactual example generation approach that automatically produces ambiguous and unanswerable text-to-SQL examples. Furthermore, we propose a weakly supervised DTE (Detecting-Then-Explaining) model for error detection, localization, and explanation. Experimental results show that our model achieves the best result on both real-world examples and generated examples compared with various baselines. We release our data and code at: \href{https://github.com/wbbeyourself/DTE}{https://github.com/wbbeyourself/DTE}.
翻訳日:2023-05-22 19:24:47 公開日:2023-05-19
# 多言語翻訳における干渉の原因と治療

Causes and Cures for Interference in Multilingual Translation ( http://arxiv.org/abs/2212.07530v3 )

ライセンス: Link先を確認
Uri Shaham and Maha Elbayad and Vedanuj Goswami and Omer Levy and Shruti Bhosale(参考訳) 多言語機械翻訳モデルは、異なる言語ペア間のシナジーの恩恵を受けるが、干渉も受ける。 干渉を排除しようとする高度な手法が増えているが、干渉を現象として理解することは依然として限られている。 この研究は多言語機械翻訳における干渉に寄与する主な要因を特定する。 系統的な実験により、干渉(またはシナジー)はモデルのサイズ、データサイズ、および全データセット内の各言語ペアの割合によって決定されることがわかった。 モデルが利用可能なトレーニングデータに対して非常に小さい場合,10億未満のパラメータを持つ標準トランスフォーマー構成を用いることで,干渉が軽減され,シナジーが促進されることが観察された。 また,データ内の各言語対の比率を制御するためにサンプリング温度をチューニングすることが,低資源言語対と高資源言語対の干渉量を効果的にバランスさせる上で重要であることを示す。

Multilingual machine translation models can benefit from synergy between different language pairs, but also suffer from interference. While there is a growing number of sophisticated methods that aim to eliminate interference, our understanding of interference as a phenomenon is still limited. This work identifies the main factors that contribute to interference in multilingual machine translation. Through systematic experimentation, we find that interference (or synergy) are primarily determined by model size, data size, and the proportion of each language pair within the total dataset. We observe that substantial interference occurs mainly when the model is very small with respect to the available training data, and that using standard transformer configurations with less than one billion parameters largely alleviates interference and promotes synergy. Moreover, we show that tuning the sampling temperature to control the proportion of each language pair in the data is key to balancing the amount of interference between low and high resource language pairs effectively, and can lead to superior performance overall.
翻訳日:2023-05-22 19:24:28 公開日:2023-05-19
# ernie-code: プログラミング言語のための英語中心のクロスリンガル事前学習

ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for Programming Languages ( http://arxiv.org/abs/2212.06742v2 )

ライセンス: Link先を確認
Yekun Chai, Shuohuan Wang, Chao Pang, Yu Sun, Hao Tian, Hua Wu(参考訳) 同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆もまた、コミュニケーションと作業効率に対する大きな障壁を築きます。 近年、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、常に英語中心である。 本研究では,大規模言語モデル(LLM)における多言語NLと多言語PLのギャップを埋めることを目指す。 ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。 普遍的な言語間事前学習には,単言語nlやplからパターンを学習するスパン・腐敗言語モデリングと,多数のnlやplの並列データに依存するpivotに基づく翻訳言語モデリングの2つの手法を用いる。 ERNIE-Codeは、多言語のコード・トゥ・テキスト、テキスト・トゥ・コード、テキスト・トゥ・テキスト生成など、コードインテリジェンスの幅広いタスクにおいて、PLやNLの従来の多言語LLMよりも優れていた。 さらに,多言語コード要約とテキスト間翻訳におけるゼロショットプロンプトの利点を示す。 コードと事前トレーニング済みのチェックポイントをリリースします。

Software engineers working with the same programming language (PL) may speak different natural languages (NLs) and vice versa, erecting huge barriers to communication and working efficiency. Recent studies have demonstrated the effectiveness of generative pre-training in computer programs, yet they are always English-centric. In this work, we step towards bridging the gap between multilingual NLs and multilingual PLs for large language models (LLMs). We release ERNIE-Code, a unified pre-trained language model for 116 NLs and 6 PLs. We employ two methods for universal cross-lingual pre-training: span-corruption language modeling that learns patterns from monolingual NL or PL; and pivot-based translation language modeling that relies on parallel data of many NLs and PLs. Extensive results show that ERNIE-Code outperforms previous multilingual LLMs for PL or NL across a wide range of end tasks of code intelligence, including multilingual code-to-text, text-to-code, code-to-code, and text-to-text generation. We further show its advantage of zero-shot prompting on multilingual code summarization and text-to-text translation. We release our code and pre-trained checkpoints.
翻訳日:2023-05-22 19:24:11 公開日:2023-05-19
# 静止空間における運動拡散によるコマンドの実行

Executing your Commands via Motion Diffusion in Latent Space ( http://arxiv.org/abs/2212.04048v3 )

ライセンス: Link先を確認
Xin Chen, Biao Jiang, Wen Liu, Zilong Huang, Bin Fu, Tao Chen, Jingyi Yu, Gang Yu(参考訳) 本稿では,アクションクラスやテキスト記述子など,様々な条件入力に応じて人間の動作シーケンスを生成する課題である条件付きヒューマンモーション生成について検討する。 人間の動きは多様であり、自然言語におけるテキスト記述子のような条件付きモダリティとは全く異なる性質を持つため、所望の条件付きモダリティから人間の動き列への確率的マッピングを学ぶことは困難である。 さらに、モーションキャプチャシステムからの生のモーションデータはシーケンスが冗長でノイズも含んでいる可能性があり、生のモーションシーケンスと条件付きモダリティのジョイント分布を直接モデル化するには、重い計算オーバーヘッドが必要となり、キャプチャされたノイズによって引き起こされるアーティファクトを発生させる可能性がある。 人間の動作シーケンスをよりよく表現するために、我々はまず強力な変分オートエンコーダ(VAE)を設計し、人間の動作シーケンスを代表的で低次元の遅延コードに到達する。 次に, 動き列と条件入力との接続を確立するために拡散モデルを用いる代わりに, 動き潜在空間上で拡散過程を行う。 提案した動作遅延に基づく拡散モデル(MLD)は、与えられた条件入力に対応する鮮明な動き列を生成し、トレーニングおよび推論段階の計算オーバーヘッドを大幅に低減する。 様々な人体運動生成タスクに対する広範囲な実験により、我々のMLDは、広範囲な人体運動生成タスクにおける最先端の手法よりも大幅に改善され、原動列上の従来の拡散モデルよりも2桁高速であることが示された。

We study a challenging task, conditional human motion generation, which produces plausible human motion sequences according to various conditional inputs, such as action classes or textual descriptors. Since human motions are highly diverse and have a property of quite different distribution from conditional modalities, such as textual descriptors in natural languages, it is hard to learn a probabilistic mapping from the desired conditional modality to the human motion sequences. Besides, the raw motion data from the motion capture system might be redundant in sequences and contain noises; directly modeling the joint distribution over the raw motion sequences and conditional modalities would need a heavy computational overhead and might result in artifacts introduced by the captured noises. To learn a better representation of the various human motion sequences, we first design a powerful Variational AutoEncoder (VAE) and arrive at a representative and low-dimensional latent code for a human motion sequence. Then, instead of using a diffusion model to establish the connections between the raw motion sequences and the conditional inputs, we perform a diffusion process on the motion latent space. Our proposed Motion Latent-based Diffusion model (MLD) could produce vivid motion sequences conforming to the given conditional inputs and substantially reduce the computational overhead in both the training and inference stages. Extensive experiments on various human motion generation tasks demonstrate that our MLD achieves significant improvements over the state-of-the-art methods among extensive human motion generation tasks, with two orders of magnitude faster than previous diffusion models on raw motion sequences.
翻訳日:2023-05-22 19:23:38 公開日:2023-05-19
# すべてのドメインに対する1つのモデル:クロスドメインnerのためのコラボレーティブなドメインプリフィックスチューニング

One Model for All Domains: Collaborative Domain-Prefix Tuning for Cross-Domain NER ( http://arxiv.org/abs/2301.10410v4 )

ライセンス: Link先を確認
Xiang Chen, Lei Li, Shuofei Qiao, Ningyu Zhang, Chuanqi Tan, Yong Jiang, Fei Huang, Huajun Chen(参考訳) クロスドメインNERは、実践シナリオにおける低リソースの問題に対処する上で難しいタスクである。 従来の典型的なソリューションは主に、リッチリソースドメインのデータを持つ事前学習言語モデル(PLM)を用いてNERモデルを取得し、ターゲットドメインに適応する。 異なるドメインのエンティティタイプ間のミスマッチの問題のため、従来のアプローチは通常、PLMのすべてのパラメータをチューニングし、最終的に各ドメインに対して全く新しいNERモデルになる。 さらに、現在のモデルは、複数のソースからターゲットへの知識の転送に失敗しながら、単一のソースドメインにおける知識の活用にのみ焦点を当てている。 この問題に対処するために,テキスト対テキスト生成plmに基づくクロスドメインner(cp-ner)のための協調型ドメインプリフィックスチューニングを導入する。 具体的には、ドメイン関連インストラクターを対象に、構造変更なしに知識を新しいドメインNERタスクに転送するテキスト・ツー・テキスト生成を提案する。 凍結したPLMを利用して協調的なドメイン-プレフィックスチューニングを行い、PLMのポテンシャルを刺激し、NERタスクを様々なドメインで処理する。 Cross-NERベンチマークによる実験結果から,提案手法はフレキシブルトランスファー能力を有し,単一ソースと複数ソースのクロスドメインNERタスクにおいて優れた性能を発揮することが示された。 コードはhttps://github.com/zjunlp/deepke/tree/main/example/ner/crossで入手できる。

Cross-domain NER is a challenging task to address the low-resource problem in practical scenarios. Previous typical solutions mainly obtain a NER model by pre-trained language models (PLMs) with data from a rich-resource domain and adapt it to the target domain. Owing to the mismatch issue among entity types in different domains, previous approaches normally tune all parameters of PLMs, ending up with an entirely new NER model for each domain. Moreover, current models only focus on leveraging knowledge in one general source domain while failing to successfully transfer knowledge from multiple sources to the target. To address these issues, we introduce Collaborative Domain-Prefix Tuning for cross-domain NER (CP-NER) based on text-to-text generative PLMs. Specifically, we present text-to-text generation grounding domain-related instructors to transfer knowledge to new domain NER tasks without structural modifications. We utilize frozen PLMs and conduct collaborative domain-prefix tuning to stimulate the potential of PLMs to handle NER tasks across various domains. Experimental results on the Cross-NER benchmark show that the proposed approach has flexible transfer ability and performs better on both one-source and multiple-source cross-domain NER tasks. Codes are available in https://github.com/zjunlp/DeepKE/tree/main/example/ner/cross.
翻訳日:2023-05-22 19:16:04 公開日:2023-05-19
# 量子計算と情報

Notes on Quantum Computation and Information ( http://arxiv.org/abs/2301.09679v2 )

ライセンス: Link先を確認
Raghav G. Jha(参考訳) 量子ゲート,回路,アルゴリズム,定理,誤り訂正など,量子コンピューティングと情報の基礎を議論し,qiskitプログラムのコレクションと興味のある読者のためのエクササイズを提供する。

We discuss fundamentals of quantum computing and information - quantum gates, circuits, algorithms, theorems, error correction, and provide collection of QISKIT programs and exercises for the interested reader.
翻訳日:2023-05-22 19:15:40 公開日:2023-05-19
# 単発学習のためのオープンセット確率最大化

Open-Set Likelihood Maximization for Few-Shot Learning ( http://arxiv.org/abs/2301.08390v2 )

ライセンス: Link先を確認
Malik Boudiaf, Etienne Bennequin, Myriam Tami, Antoine Toubhans, Pablo Piantanida, C\'eline Hudelot, Ismail Ben Ayed(参考訳) Few-Shot Open-Set Recognition (FSOSR) 問題、すなわち、いくつかのラベル付きサンプルしか持たないクラスのインスタンスを分類すると同時に、既知のクラスに属さないインスタンスを同時に検出する。 提案手法では,推論時に非競合なクエリインスタンスを利用する。 既設のトランスダクティブ法がオープンセットのシナリオでは性能に乏しいという観測に動機づけられ,一般のパラメトリックモデルと並行して,潜在的外れ値の影響を弱める潜在スコアの一般化を提案する。 提案方式では,クエリ集合に対する過密な予測を損なうサポートセットと追加のペナルティからの監督制約を組み込む。 我々は,潜在スコアとパラメトリックモデルが交互に最適化され,相互に利益を得るブロック座標降下を行う。 我々は、結果の定式化を \textit{Open-Set Likelihood Optimization} (OSLO) と呼ぶ。 OSLOは解釈可能で、完全にモジュール化されている。 広範な実験を通じて,本手法は,オープンセット認識の両面において既存の帰納的および帰納的手法,すなわち不規則分類と外れ値検出を上回っていることを示す。

We tackle the Few-Shot Open-Set Recognition (FSOSR) problem, i.e. classifying instances among a set of classes for which we only have a few labeled samples, while simultaneously detecting instances that do not belong to any known class. We explore the popular transductive setting, which leverages the unlabelled query instances at inference. Motivated by the observation that existing transductive methods perform poorly in open-set scenarios, we propose a generalization of the maximum likelihood principle, in which latent scores down-weighing the influence of potential outliers are introduced alongside the usual parametric model. Our formulation embeds supervision constraints from the support set and additional penalties discouraging overconfident predictions on the query set. We proceed with a block-coordinate descent, with the latent scores and parametric model co-optimized alternately, thereby benefiting from each other. We call our resulting formulation \textit{Open-Set Likelihood Optimization} (OSLO). OSLO is interpretable and fully modular; it can be applied on top of any pre-trained model seamlessly. Through extensive experiments, we show that our method surpasses existing inductive and transductive methods on both aspects of open-set recognition, namely inlier classification and outlier detection.
翻訳日:2023-05-22 19:15:35 公開日:2023-05-19
# 効率的な情報流通

Efficient information distribution ( http://arxiv.org/abs/2301.02287v2 )

ライセンス: Link先を確認
Suchetana Goswami and Saronath Halder(参考訳) 局所的な識別不能状態は、情報がロックされているような空間的に分離された当事者間で情報を分配するのに有用である。 これは、当事者はローカル操作や古典的コミュニケーション(LOCC)を通じて情報を完全に抽出できないが、当事者が絡み合いを共有している場合、LOCCによって可能かもしれないことを意味する。 本研究では,m >= 3 の直交状態を用いた情報配信プロトコルについて検討し,k <= (m-1) の関係者が協力しても情報を完全には明らかにできないようにした。 このようなプロトコルは、エンコードされた情報がどの程度ロックされているかを理解するのに役立ちます。 しかし、必要であれば、関係者は絡み合いを共有し、LOCCによって情報を抽出することができる。 プロセスリソースを効率的にするためには、絡み合った状態の数を減らす必要がある。 各2部構成で局所的に区別できない状態の集合は、上記のプロトコルでは十分であるが、完全な情報抽出を目指す場合、より多くの絡み合った状態が消費される可能性がある。 上記のプロトコルを達成するために使用できる局所的に区別不能な直交状態の集合のクラスを構築し、これら集合は、完全な情報抽出のために前者の集合と比較して、より少ないエンタングル状態を使用する。 実際、完全な情報抽出に必要な絡み合った状態の数におけるこの差は、パーティーの数とともに直線的に増加する。 本研究は,量子状態の局所的識別可能性特性を資源として適切に利用することに光を当て,効率的な情報分布の方法を示す。

Locally indistinguishable states are useful to distribute information among spatially separated parties such that the information is locked. This implies that the parties are not able to extract the information completely via local operations and classical communication (LOCC) while it might be possible via LOCC when the parties share entanglement. In this work, we consider an information distribution protocol using orthogonal states for m >= 3 spatially separated parties such that even if any k <= (m-1) parties collaborate still the information cannot be revealed completely. Such a protocol is useful to understand up to what extent the encoded information remains locked. However, if required, the parties can share entanglement and extract the information completely by LOCC. To make the process resource efficient, it should consume less number of entangled states. We show that though the set of states, which are locally indistinguishable across every bipartition, are sufficient for the above protocol, they may consume higher number of entangled states when aiming for complete information extraction. We establish this by constructing a class of locally indistinguishable sets of orthogonal states which can be employed to accomplish the above protocol and these sets consume less number of entangled states, compared to the former sets, for complete information extraction. In fact, this difference in the number of required entangled states for complete information extraction grows linearly with the number of parties. This study sheds light on suitable use of local indistinguishability property of quantum states as resource and thus, we demonstrate an efficient way of information distribution.
翻訳日:2023-05-22 19:14:12 公開日:2023-05-19
# 高次元センサフィードバックを用いた灌水スケジューリングのための深部強化学習

Deep reinforcement learning for irrigation scheduling using high-dimensional sensor feedback ( http://arxiv.org/abs/2301.00899v2 )

ライセンス: Link先を確認
Yuji Saikai, Allan Peake, Karine Chenu(参考訳) 深層補強学習は,様々な測定値に適応的な水量を適用することにより,多くのクロッピングシステムにおいて灌水スケジューリングを改善する可能性を秘めている。 目標は、農家に利用可能な情報を処理し、考慮された時間ステップに対して合理的な灌水量を規定するインテリジェントな決定ルールを見つけることである。 しかし、技術革新のため、この技術の研究はまばらで実用的ではないままである。 そこで本論文では, 研究者が独自の最適化問題を定式化し, 深層強化学習に基づく解法アルゴリズムを実装可能な, 基本的枠組みと実行可能な手順を提案する。 本フレームワークの有効性は, 利益が最大化されたオーストラリアの生産地域で栽培された灌水小麦のケーススタディを用いて実証した。 特に、決定規則は、作物の表現学的段階、葉面積指数、5つのトップ層ごとに抽出可能な土壌水、累積降雨、累積灌水という9つの状態変数の入力を必要とする。 毎日、5つの候補灌水量(0, 10, 20, 30, 40 mm)以上の確率的処方薬を返します。 生産システムはAPSIM-Wheatモデルを用いてGoondiwindiでシミュレーションした。 1981-2010年の気象データを用いて学習環境のトレーニングを行った結果,2011-2020年ごとの学習決定ルールを個別に検証した。 その結果,この地域で共通する従来法で得られた平均利益と比較した。 検出された決定規則は、従来の試験年で均一に改良された日次灌水量を規定し、2018年には最大の改善が17%に達した。 このフレームワークは汎用的で、現実的な最適化問題のある幅広いクロッピングシステムに適用できる。

Deep reinforcement learning has considerable potential to improve irrigation scheduling in many cropping systems by applying adaptive amounts of water based on various measurements over time. The goal is to discover an intelligent decision rule that processes information available to growers and prescribes sensible irrigation amounts for the time steps considered. Due to the technical novelty, however, the research on the technique remains sparse and impractical. To accelerate the progress, the paper proposes a principled framework and actionable procedure that allow researchers to formulate their own optimisation problems and implement solution algorithms based on deep reinforcement learning. The effectiveness of the framework was demonstrated using a case study of irrigated wheat grown in a productive region of Australia where profits were maximised. Specifically, the decision rule takes nine state variable inputs: crop phenological stage, leaf area index, extractable soil water for each of the five top layers, cumulative rainfall and cumulative irrigation. It returns a probabilistic prescription over five candidate irrigation amounts (0, 10, 20, 30 and 40 mm) every day. The production system was simulated at Goondiwindi using the APSIM-Wheat crop model. After training in the learning environment using 1981-2010 weather data, the learned decision rule was tested individually for each year of 2011-2020. The results were compared against the benchmark profits obtained by a conventional rule common in the region. The discovered decision rule prescribed daily irrigation amounts that uniformly improved on the conventional rule for all the testing years, and the largest improvement reached 17% in 2018. The framework is general and applicable to a wide range of cropping systems with realistic optimisation problems.
翻訳日:2023-05-22 19:13:47 公開日:2023-05-19
# 実行に基づくオープンドメインコード生成の評価

Execution-Based Evaluation for Open-Domain Code Generation ( http://arxiv.org/abs/2212.10481v2 )

ライセンス: Link先を確認
Zhiruo Wang, Shuyan Zhou, Daniel Fried, Graham Neubig(参考訳) コーディングクエリのスコープをより現実的な設定に拡張するため、最初のオープンドメイン実行ベース自然言語(NL)であるODEXをPythonコード生成データセットに提案する。 ODEXには79の多様なライブラリにまたがる945のNL-Codeペアと1,707の人間が書いたテストケースがある。 当社のNL-CodeペアはStackOverflowフォーラムから取得して,自然かつ実用的なコーディングクエリを奨励しています。 さらに、ODEXは英語、スペイン語、日本語、ロシア語の4つの自然言語を意図としてサポートしている。 ODEXは、最高のパフォーマンスのコード言語モデル(LM)間の興味深い振る舞いの違いを公表している。 CODEGEN 6.1BはCODEX 12Bと互換性のあるパフォーマンスを実現している。 どちらのモデルも開域と閉域の間にかなりのギャップを示すが、CODEGENギャップはモデルサイズとともに減少し、CODEXギャップは増加する。 我々は、コード生成コミュニティのオープンドメイン問題の研究を促進するためにODEXをリリースします。

To extend the scope of coding queries to more realistic settings, we propose ODEX, the first Open-Domain EXecution-based natural language (NL) to Python code generation dataset. ODEX has 945 NL-Code pairs spanning 79 diverse libraries, along with 1,707 human-written test cases for execution. Our NL-Code pairs are harvested from StackOverflow forums to encourage natural and practical coding queries. Moreover, ODEX supports four natural languages as intents, in English, Spanish, Japanese, and Russian. ODEX unveils intriguing behavioral differences among top-performing code language models (LM). While CODEX achieves better overall results, CODEGEN improves effectively via scaling -- CODEGEN 6.1B performs comparably with CODEX 12B. Both models show substantial gaps between open and closed domains, but CODEGEN gaps tend to decrease with model size while CODEX gaps increase. We release ODEX to facilitate research into open-domain problems for the code generation community.
翻訳日:2023-05-22 19:13:07 公開日:2023-05-19
# 神経容量型クラスタリング

Neural Capacitated Clustering ( http://arxiv.org/abs/2302.05134v2 )

ライセンス: Link先を確認
Jonas K. Falkner and Lars Schmidt-Thieme(参考訳) 深層クラスタリングに関する最近の研究は、制約付きクラスタリング問題にも新しい有望な方法を発見した。 典型的なペアワイズ制約は、しばしばデータのパーティショニングのガイドに使用することができる。 しかし、多くの問題はクラスタレベルの制約(例えばキャパシテーションクラスタリング問題(ccp))を特徴としており、各ポイントは重みを持ち、各クラスタ内のすべてのポイントの合計重量和は所定の容量で区切られている。 本稿では,CCPの新しい手法であるNeural Capacited Clusteringを提案し,他の問題インスタンスの最適あるいはほぼ最適過去の解のデータセットから,クラスタセンターへのポイントの割り当て確率を予測するニューラルネットワークを学習する。 推論の間、結果のスコアは、キャパシティ制約の下で割り当てを洗練するための反復的なk平均のような手順で使用される。 人工データと2つの実世界のデータセットに関する実験では、我々のアプローチは、文学の最先端の数学的、ヒューリスティックな解法よりも優れています。 さらに,本手法をキャパシタ付き車両ルーティング問題(cvrp)にクラスタファーストルート秒アプローチの文脈に適用し,よく知られているuchoaベンチマークで競合結果を示す。

Recent work on deep clustering has found new promising methods also for constrained clustering problems. Their typically pairwise constraints often can be used to guide the partitioning of the data. Many problems however, feature cluster-level constraints, e.g. the Capacitated Clustering Problem (CCP), where each point has a weight and the total weight sum of all points in each cluster is bounded by a prescribed capacity. In this paper we propose a new method for the CCP, Neural Capacited Clustering, that learns a neural network to predict the assignment probabilities of points to cluster centers from a data set of optimal or near optimal past solutions of other problem instances. During inference, the resulting scores are then used in an iterative k-means like procedure to refine the assignment under capacity constraints. In our experiments on artificial data and two real world datasets our approach outperforms several state-of-the-art mathematical and heuristic solvers from the literature. Moreover, we apply our method in the context of a cluster-first-route-second approach to the Capacitated Vehicle Routing Problem (CVRP) and show competitive results on the well-known Uchoa benchmark.
翻訳日:2023-05-22 19:07:09 公開日:2023-05-19
# 二次記憶は凸最適化における最適クエリ複雑度に必要な:中心はパレート最適

Quadratic Memory is Necessary for Optimal Query Complexity in Convex Optimization: Center-of-Mass is Pareto-Optimal ( http://arxiv.org/abs/2302.04963v2 )

ライセンス: Link先を確認
Mo\"ise Blanchard, Junhui Zhang and Patrick Jaillet(参考訳) 我々は、凸最適化と関連する実現可能性問題に対するクエリ複雑性の低い境界を与える。 一階の凸最適化に最適なオラクルの複雑さを達成するには二次記憶が必要であることを示す。 特にこれは、$\tilde o(d^2)$メモリと$\tilde o(d)$クエリを使用する次元$d$のマスカットプレーンズアルゴリズムが、対数因子による凸最適化と実現可能性問題の両方に対してパレート最適であることを示している。 正確には、単位球上の1ドルのリプシッツ凸関数を1/d^4$精度に最小化するためには、最大$d^{2-\delta}$ビットのメモリを使用する決定論的一階アルゴリズムは、任意の$\delta\in[0,1]$に対して$\tilde\omega(d^{1+\delta/3})$クエリを行なわなければならない。 アルゴリズムが分離オラクルにしかアクセスできない実現可能性問題に対して、我々はより強いトレードオフを示す:少なくとも$d^{2-\delta}$メモリの場合、要求されるクエリの数は$\tilde\Omega(d^{1+\delta})$である。 これにより、woodworth と srebro の colt 2019 open problem が解決される。

We give query complexity lower bounds for convex optimization and the related feasibility problem. We show that quadratic memory is necessary to achieve the optimal oracle complexity for first-order convex optimization. In particular, this shows that center-of-mass cutting-planes algorithms in dimension $d$ which use $\tilde O(d^2)$ memory and $\tilde O(d)$ queries are Pareto-optimal for both convex optimization and the feasibility problem, up to logarithmic factors. Precisely, we prove that to minimize $1$-Lipschitz convex functions over the unit ball to $1/d^4$ accuracy, any deterministic first-order algorithms using at most $d^{2-\delta}$ bits of memory must make $\tilde\Omega(d^{1+\delta/3})$ queries, for any $\delta\in[0,1]$. For the feasibility problem, in which an algorithm only has access to a separation oracle, we show a stronger trade-off: for at most $d^{2-\delta}$ memory, the number of queries required is $\tilde\Omega(d^{1+\delta})$. This resolves a COLT 2019 open problem of Woodworth and Srebro.
翻訳日:2023-05-22 19:06:49 公開日:2023-05-19
# マイグレーションのリフレーム? ウクライナ危機時のヨーロッパにおけるスタンスシフトに関する多言語分析

Migration Reframed? A multilingual analysis on the stance shift in Europe during the Ukrainian crisis ( http://arxiv.org/abs/2302.02813v2 )

ライセンス: Link先を確認
Sergej Wildemann, Claudia Nieder\'ee, Erick Elejalde(参考訳) ウクライナでの戦争は、少なくともウクライナからの難民に向けて、欧州の移住に関する重要な社会問題に対する態度を積極的に変えたようだ。 この印象が、その話題がオンラインニュースやソーシャルメディアにどのように反映されているかによって裏付けられているかを調査し、ウェブ上の問題表現と社会におけるその認識を結びつける。 そこで本研究では,前縁自動テキスト処理を組み合わせることで,新しい多言語姿勢検出手法を提案する。 2021年9月から565の欧州ニュース機関が発行した550万のtwitter投稿から始まり、ヨーロッパおよび選択されたヨーロッパ諸国の移動関連メディアのカバレッジと関連するソーシャルメディアのやりとりを多言語で分析した。 分析の結果,「移民」から「難民」への用語変更や、「現実の難民」などの語句にアクセントを付けた「難民」など,議論のリフレーミングが実際に行われていることが示唆された。 しかし、大衆の認識の姿勢の変化に関して、この絵は予想以上に多様である。 分析されたすべてのケースは、ウクライナでの戦争開始前後に顕著な時間的スタンスの変化を示している。 それでも、このシフトの規模と安定性には明らかに全国的な違いがある。

The war in Ukraine seems to have positively changed the attitude toward the critical societal topic of migration in Europe -- at least towards refugees from Ukraine. We investigate whether this impression is substantiated by how the topic is reflected in online news and social media, thus linking the representation of the issue on the Web to its perception in society. For this purpose, we combine and adapt leading-edge automatic text processing for a novel multilingual stance detection approach. Starting from 5.5M Twitter posts published by 565 European news outlets in one year, beginning September 2021, plus replies, we perform a multilingual analysis of migration-related media coverage and associated social media interaction for Europe and selected European countries. The results of our analysis show that there is actually a reframing of the discussion illustrated by the terminology change, e.g., from "migrant" to "refugee", often even accentuated with phrases such as "real refugees". However, concerning a stance shift in public perception, the picture is more diverse than expected. All analyzed cases show a noticeable temporal stance shift around the start of the war in Ukraine. Still, there are apparent national differences in the size and stability of this shift.
翻訳日:2023-05-22 19:06:21 公開日:2023-05-19
# PubGraph: 大規模科学知識グラフ

PubGraph: A Large-Scale Scientific Knowledge Graph ( http://arxiv.org/abs/2302.02231v2 )

ライセンス: Link先を確認
Kian Ahrabian, Xinwei Du, Richard Delwin Myloth, Arun Baalaaji Sankar Ananthan, Jay Pujara(参考訳) 研究出版物は、新しい発見、方法、技術、洞察の形で科学的進歩を共有するための主要な手段である。 残念ながら、出版物、著者、会場間の無数の関係を捉えた大規模で包括的で使いやすいリソースが欠如していることは、科学をより深く理解するための応用への障壁となっている。 本稿では,385万以上のエンティティ,13Bの主エッジ,1.5Bの等化エッジを持つ大規模知識グラフ(KG)の形式を取り入れた,科学的進歩を研究するための新たなリソースPubGraphを提案する。 PubGraphはWikidata、OpenAlex、Semantic Scholarなど、さまざまなソースからのデータをWikidataオントロジーを使って包括的に統合している。 これらのソースから利用可能なメタデータ以外にも、PubGraphは補助的なコミュニティ検出アルゴリズムと大規模言語モデルからの出力を含んでいる。 科学ネットワーク上の推論研究をさらに支援するために,知識グラフ補完(KGC)のコアタスクとしてPubGraphから抽出した大規模ベンチマークを複数作成する。 これらのベンチマークは、逆コミュニティベースのkgc評価設定、ゼロショットインダクティブ学習、大規模学習など、知識グラフ埋め込みモデルに対する多くの課題を示している。 上記のリソースはすべてhttps://pubgraph.isi.edu/でアクセスでき、CC-BY-SAライセンスでリリースされている。 新しい出版物のリリースに対応するため、PubGraphを四半期毎に更新する予定です。

Research publications are the primary vehicle for sharing scientific progress in the form of new discoveries, methods, techniques, and insights. Unfortunately, the lack of a large-scale, comprehensive, and easy-to-use resource capturing the myriad relationships between publications, their authors, and venues presents a barrier to applications for gaining a deeper understanding of science. In this paper, we present PubGraph, a new resource for studying scientific progress that takes the form of a large-scale knowledge graph (KG) with more than 385M entities, 13B main edges, and 1.5B qualifier edges. PubGraph is comprehensive and unifies data from various sources, including Wikidata, OpenAlex, and Semantic Scholar, using the Wikidata ontology. Beyond the metadata available from these sources, PubGraph includes outputs from auxiliary community detection algorithms and large language models. To further support studies on reasoning over scientific networks, we create several large-scale benchmarks extracted from PubGraph for the core task of knowledge graph completion (KGC). These benchmarks present many challenges for knowledge graph embedding models, including an adversarial community-based KGC evaluation setting, zero-shot inductive learning, and large-scale learning. All of the aforementioned resources are accessible at https://pubgraph.isi.edu/ and released under the CC-BY-SA license. We plan to update PubGraph quarterly to accommodate the release of new publications.
翻訳日:2023-05-22 19:06:03 公開日:2023-05-19
# バックドア攻撃に対する防御のためのサルエント条件拡散

Salient Conditional Diffusion for Defending Against Backdoor Attacks ( http://arxiv.org/abs/2301.13862v2 )

ライセンス: Link先を確認
Brandon B. May, N. Joseph Tatro, Dylan Walker, Piyush Kumar, Nathan Shnidman(参考訳) 本研究では,バックドア攻撃に対する最先端の防御手法であるSalient Conditional Diffusion (Sancdifi)を提案する。 Sancdifi は denoising diffusion probabilistic model (DDPM) を用いて、ノイズのある画像を分解し、学習した逆拡散を用いてその画像を復元する。 重要な点として,我々は高感度マップベースのマスクを計算して拡散を条件付け,DDPMによる最も高精細なピクセルへの拡散を強くする。 その結果、Sancdifiはバックドア攻撃によるデータのトリガーを拡散させるのに非常に効果的である。 同時に、クリーンなデータに適用した際の健全な特徴を確実に回復する。 この性能は、トロイの木馬ネットワークのモデルパラメータにアクセスする必要がなく、つまり、サンディフィはブラックボックスディフェンスとして動作する。

We propose a novel algorithm, Salient Conditional Diffusion (Sancdifi), a state-of-the-art defense against backdoor attacks. Sancdifi uses a denoising diffusion probabilistic model (DDPM) to degrade an image with noise and then recover said image using the learned reverse diffusion. Critically, we compute saliency map-based masks to condition our diffusion, allowing for stronger diffusion on the most salient pixels by the DDPM. As a result, Sancdifi is highly effective at diffusing out triggers in data poisoned by backdoor attacks. At the same time, it reliably recovers salient features when applied to clean data. This performance is achieved without requiring access to the model parameters of the Trojan network, meaning Sancdifi operates as a black-box defense.
翻訳日:2023-05-22 19:05:21 公開日:2023-05-19
# ゼロショット因果学習

Zero-shot causal learning ( http://arxiv.org/abs/2301.12292v2 )

ライセンス: Link先を確認
Hamed Nilforoshan, Michael Moor, Yusuf Roohani, Yining Chen, Anja \v{S}urina, Michihiro Yasunaga, Sara Oblak, Jure Leskovec(参考訳) パーソナライズされた医療、公共政策、オンラインマーケティングなど様々な分野において、異なる介入が特定の個人に因果的にどのように影響するかを予測することは重要である。 既往の介入の効果を予測する方法は,それを受けた個人からの履歴データに基づいて多数存在する。 しかし、多くの場面において、これらの方法が対処しない新しい介入(例えば、新しく発明された薬物)の効果を予測することが重要である。 ここではゼロショット因果学習を考察し,新しい介入のパーソナライズ効果を予測する。 タスクとして各介入の効果のパーソナライズされた予測を定式化する因果メタラーニングフレームワークであるCaMLを提案する。 camlは、何千ものタスクにまたがる単一のメタモデルを訓練し、それぞれが介入をサンプリングし、受信者や非受信者とともに構築する。 介入情報(例えば薬物の属性)と個々の特徴~(例えば患者の歴史)の両方を活用することで、CaMLはトレーニング時に存在しない新規介入のパーソナライズされた効果を予測することができる。 大規模医療クレームとセルライン摂動における実世界データセットの実験結果は,本手法の有効性を示している。 最も驚くべきことに、CaMLのゼロショット予測は、テスト介入から直接トレーニングされた強力なベースラインよりも優れています。

Predicting how different interventions will causally affect a specific individual is important in a variety of domains such as personalized medicine, public policy, and online marketing. There are a large number of methods to predict the effect of an existing intervention based on historical data from individuals who received it. However, in many settings it is important to predict the effects of novel interventions (\emph{e.g.}, a newly invented drug), which these methods do not address. Here, we consider zero-shot causal learning: predicting the personalized effects of a novel intervention. We propose CaML, a causal meta-learning framework which formulates the personalized prediction of each intervention's effect as a task. CaML trains a single meta-model across thousands of tasks, each constructed by sampling an intervention, along with its recipients and nonrecipients. By leveraging both intervention information (\emph{e.g.}, a drug's attributes) and individual features~(\emph{e.g.}, a patient's history), CaML is able to predict the personalized effects of novel interventions that do not exist at the time of training. Experimental results on real world datasets in large-scale medical claims and cell-line perturbations demonstrate the effectiveness of our approach. Most strikingly, CaML's zero-shot predictions outperform even strong baselines trained directly on data from the test interventions.
翻訳日:2023-05-22 19:04:49 公開日:2023-05-19
# TinyMLは持続可能か? マイクロコントローラにおける機械学習の環境影響評価

Is TinyML Sustainable? Assessing the Environmental Impacts of Machine Learning on Microcontrollers ( http://arxiv.org/abs/2301.11899v2 )

ライセンス: Link先を確認
Shvetank Prakash, Matthew Stewart, Colby Banbury, Mark Mazumder, Pete Warden, Brian Plancher, Vijay Janapa Reddi(参考訳) 炭素排出量とグローバル廃棄物の持続的成長は、環境の将来に重大な持続可能性の懸念をもたらす。 モノのインターネット(IoT)は、この問題を悪化させる可能性がある。 しかし、Tiny Machine Learning(TinyML)と呼ばれる新興分野は、持続可能なコンピューティングプラクティスを通じて、これらの環境課題に対処する機会を持っている。 低コストで低消費電力のマイクロコントローラシステムに機械学習(ML)アルゴリズムをデプロイするTinyMLは、デバイス上のセンサー分析を可能にし、多くの常時オンのMLアプリケーションをアンロックする。 この記事では、これらのTinyMLアプリケーションが重要な持続可能性課題に対処する可能性と、この新興技術の環境フットプリントについて論じる。 完全なライフサイクル分析(LCA)を通して、TinyMLシステムは、他のセクターの排出量を減らすアプリケーションを可能にすることによって、炭素排出量を相殺する機会を与える。 それにもかかわらず、グローバルにスケールすると、tinymlシステムのカーボンフットプリントは無視できない。 最後に、tinymlのさらなる持続可能な貢献を可能にするための研究の方向性について概説する。

The sustained growth of carbon emissions and global waste elicits significant sustainability concerns for our environment's future. The growing Internet of Things (IoT) has the potential to exacerbate this issue. However, an emerging area known as Tiny Machine Learning (TinyML) has the opportunity to help address these environmental challenges through sustainable computing practices. TinyML, the deployment of machine learning (ML) algorithms onto low-cost, low-power microcontroller systems, enables on-device sensor analytics that unlocks numerous always-on ML applications. This article discusses both the potential of these TinyML applications to address critical sustainability challenges, as well as the environmental footprint of this emerging technology. Through a complete life cycle analysis (LCA), we find that TinyML systems present opportunities to offset their carbon emissions by enabling applications that reduce the emissions of other sectors. Nevertheless, when globally scaled, the carbon footprint of TinyML systems is not negligible, necessitating that designers factor in environmental impact when formulating new devices. Finally, we outline research directions to enable further sustainable contributions of TinyML.
翻訳日:2023-05-22 19:04:25 公開日:2023-05-19
# ドメインシフトによる白血球分類のベンチマーク

Benchmarking White Blood Cell Classification Under Domain Shift ( http://arxiv.org/abs/2303.01777v2 )

ライセンス: Link先を確認
Satoshi Tsutsui, Zhengyang Su, Bihan Wen(参考訳) ヒト血液スミアの顕微鏡像における白血球(WBC)のタイプを認識することは、病理学と血液学の分野における基本的な課題である。 これまでの研究はメソッドやデータセットの開発に多大な貢献をしてきたが、他者が容易に参照できるベンチマークやベースラインを調査した論文はほとんどない。 例えば、同じ畳み込みニューラルネットワーク(CNN)モデルの報告された精度において、様々な研究で顕著なばらつきが見られたが、これらの結果を再現するための公開実装は存在しない。 本稿では,WBC認識のためのベンチマークを確立する。 以上の結果から,CNNモデルと類似の撮像条件下でのトレーニングおよびテストにより,精度の高いCNNモデルが得られた。 しかし、異なる条件下でテストすると、パフォーマンスは大幅に低下する。 また,先行研究で広く採用されているresnet分類器は,バッチ正規化による領域シフト下では不当な一般化能力を示す。 この問題を調査し,それを軽減する代替正規化手法を提案する。 完全に再現可能なコードは、github.com/apple2373/wbc-benchmark}} で公開されている。

Recognizing the types of white blood cells (WBCs) in microscopic images of human blood smears is a fundamental task in the fields of pathology and hematology. Although previous studies have made significant contributions to the development of methods and datasets, few papers have investigated benchmarks or baselines that others can easily refer to. For instance, we observed notable variations in the reported accuracies of the same Convolutional Neural Network (CNN) model across different studies, yet no public implementation exists to reproduce these results. In this paper, we establish a benchmark for WBC recognition. Our results indicate that CNN-based models achieve high accuracy when trained and tested under similar imaging conditions. However, their performance drops significantly when tested under different conditions. Moreover, the ResNet classifier, which has been widely employed in previous work, exhibits an unreasonably poor generalization ability under domain shifts due to batch normalization. We investigate this issue and suggest some alternative normalization techniques that can mitigate it. We make fully-reproducible code publicly available\footnote{\url{https://github.com/apple2373/wbc-benchmark}}.
翻訳日:2023-05-22 18:56:59 公開日:2023-05-19
# UniFLG:テキストや音声から一元化した顔のランドマーク生成装置

UniFLG: Unified Facial Landmark Generator from Text or Speech ( http://arxiv.org/abs/2302.14337v2 )

ライセンス: Link先を確認
Kentaro Mitsui, Yukiya Hono, Kei Sawada(参考訳) 顔の生成は、その幅広い適用性のために広く研究されている。 話し顔生成に使用される2つの主要なフレームワークは、テキストから同期された音声と話し顔を生成するテキスト駆動フレームワークと、音声から話す顔を生成する音声駆動フレームワークからなる。 これらのフレームワークを統合するため,本稿では統一顔ランドマーク生成器 (uniflg) を提案する。 提案システムは、音声合成だけでなく、テキストや音声に共通する一連の潜在表現の抽出にも利用し、ランドマークデコーダに入力して顔のランドマークを生成する。 本研究では, 音声合成と顔のランドマーク生成において, 最先端のテキスト駆動方式よりも自然性が高いことを示す。 さらに, 顔画像データや音声データなしに, 話者の音声から顔のランドマークを生成できることを実証した。

Talking face generation has been extensively investigated owing to its wide applicability. The two primary frameworks used for talking face generation comprise a text-driven framework, which generates synchronized speech and talking faces from text, and a speech-driven framework, which generates talking faces from speech. To integrate these frameworks, this paper proposes a unified facial landmark generator (UniFLG). The proposed system exploits end-to-end text-to-speech not only for synthesizing speech but also for extracting a series of latent representations that are common to text and speech, and feeds it to a landmark decoder to generate facial landmarks. We demonstrate that our system achieves higher naturalness in both speech synthesis and facial landmark generation compared to the state-of-the-art text-driven method. We further demonstrate that our system can generate facial landmarks from speech of speakers without facial video data or even speech data.
翻訳日:2023-05-22 18:56:41 公開日:2023-05-19
# シャープネスを意識した最小化の統計的特性:確率的保証

On Statistical Properties of Sharpness-Aware Minimization: Provable Guarantees ( http://arxiv.org/abs/2302.11836v3 )

ライセンス: Link先を確認
Kayhan Behdin, Rahul Mazumder(参考訳) Sharpness-Aware Minimization (SAM)は、フラットな(よりシャープでない)ソリューションを得ることによって、ディープニューラルネットワークの一般化を改善することを目的とした、最近の最適化フレームワークである。 SAM が数値的に成功したため、最近の論文ではフレームワークの理論的な側面を研究し、SAM の解が実際に平坦であることを示した。 しかし、SAMの統計的性質に関する理論的研究は限られている。 本研究では,SAMの統計的性能を直接研究し,SAMの一般化の理由を理論的に説明する。 この目的のために,隠れ層とカーネル回帰を持つニューラルネットワークの2つの統計的問題を調査し,特定の条件下でsamは勾配降下による予測誤差(gd)が小さいことを証明した。 結果は凸と非凸の両方に関係しており,SAMは非凸問題に特に適していることを示す。 さらに、私たちの設定ではSAMソリューションもシャープにならず、その結果が以前の作業と一致していることを示す。 深層ニューラルネットワークを含む多数のシナリオにおける数値実験を用いて理論的知見を検証した。

Sharpness-Aware Minimization (SAM) is a recent optimization framework aiming to improve the deep neural network generalization, through obtaining flatter (i.e. less sharp) solutions. As SAM has been numerically successful, recent papers have studied the theoretical aspects of the framework and have shown SAM solutions are indeed flat. However, there has been limited theoretical exploration regarding statistical properties of SAM. In this work, we directly study the statistical performance of SAM, and present a new theoretical explanation of why SAM generalizes well. To this end, we study two statistical problems, neural networks with a hidden layer and kernel regression, and prove under certain conditions, SAM has smaller prediction error over Gradient Descent (GD). Our results concern both convex and non-convex settings, and show that SAM is particularly well-suited for non-convex problems. Additionally, we prove that in our setup, SAM solutions are less sharp as well, showing our results are in agreement with the previous work. Our theoretical findings are validated using numerical experiments on numerous scenarios, including deep neural networks.
翻訳日:2023-05-22 18:55:55 公開日:2023-05-19
# 知っておくべきことすべては「サム」だ

Some Might Say All You Need Is Sum ( http://arxiv.org/abs/2302.11603v2 )

ライセンス: Link先を確認
Eran Rosenbluth, Jan Toenshoff, Martin Grohe(参考訳) グラフニューラルネットワーク(gnns)の表現性は、それらが採用する集約関数に依存する。 理論的な研究は、他のすべてのGNNを仮定する Sumアグリゲーション GNN に向けられているが、ある実践的な研究は、Mean と Max を使うことに対する明確な優位性を観察している。 理論的保証の検証は2つの注意事項を識別する。 第一に、それはサイズ制限され、すなわち、特定のGNNのパワーは特定のサイズのグラフに制限される。 より大きなグラフを処理するには、他のGNNなどが必要になる。 第二に、グラフ上の一般函数を近似する力ではなく、非同型グラフを区別する力に関係しており、前者は必ずしも後者を含まない。 GNNのユーザビリティは、特定のサイズのグラフに制限されないことが望ましい。 したがって,非制限サイズ表現の領域を探索する。 我々は,Mean や Max GNN によって正確に計算できる基本関数が任意の Sum GNN によって近似できないことを証明した。 一定の制限の下では、すべての平均または最大 GNN は Sum GNN によって近似できるが、そこでさえも (Sum, [Mean/Max]) の組み合わせは Sum 単独よりも表現力が高い。 最後に,広範に集約されたGNNに対して,さらなる表現性制限を証明した。

The expressivity of Graph Neural Networks (GNNs) is dependent on the aggregation functions they employ. Theoretical works have pointed towards Sum aggregation GNNs subsuming every other GNNs, while certain practical works have observed a clear advantage to using Mean and Max. An examination of the theoretical guarantee identifies two caveats. First, it is size-restricted, that is, the power of every specific GNN is limited to graphs of a specific size. Successfully processing larger graphs may require an other GNN, and so on. Second, it concerns the power to distinguish non-isomorphic graphs, not the power to approximate general functions on graphs, and the former does not necessarily imply the latter. It is desired that a GNN's usability will not be limited to graphs of any specific size. Therefore, we explore the realm of unrestricted-size expressivity. We prove that basic functions, which can be computed exactly by Mean or Max GNNs, are inapproximable by any Sum GNN. We prove that under certain restrictions, every Mean or Max GNN can be approximated by a Sum GNN, but even there, a combination of (Sum, [Mean/Max]) is more expressive than Sum alone. Lastly, we prove further expressivity limitations for GNNs with a broad class of aggregations.
翻訳日:2023-05-22 18:55:34 公開日:2023-05-19
# 関数近似による強化学習:線形から非線形へ

Reinforcement Learning with Function Approximation: From Linear to Nonlinear ( http://arxiv.org/abs/2302.09703v2 )

ライセンス: Link先を確認
Jihao Long and Jiequn Han(参考訳) 関数近似は、高次元の大きな状態空間の問題に対処するために設計された現代の強化学習アルゴリズムにおいて欠かせない要素である。 本稿では、線形あるいは非線形近似設定におけるこれらの強化学習アルゴリズムの誤差解析に関する最近の結果について、近似誤差と推定誤差/サンプル複雑性を強調する。 近似誤差に関する諸性質について考察し,これらの性質が真である遷移確率と報酬関数に関する具体的な条件について述べる。 強化学習におけるサンプル複雑性解析は、主に分布ミスマッチ現象のため、教師あり学習よりも複雑である。 問題の線形構造を仮定すると、多くのアルゴリズムが特徴数、エピソード長、正確性に関して多項式のサンプル複雑性を達成するが、最小化速度はまだ達成されていない。 これらの結果は、分布ミスマッチ現象を処理できる推定誤差の$l^\infty$およびucb推定に依存する。 L^\infty$ と UCB の推定の両方が高次元での誤差の有界化に不適切であるため、非線形関数近似の設定において問題と解析がかなり困難になる。 分散ミスマッチに対処するために必要な追加の仮定について検討し,非線形rl問題に対して有意義な結果を導出する。

Function approximation has been an indispensable component in modern reinforcement learning algorithms designed to tackle problems with large state spaces in high dimensions. This paper reviews recent results on error analysis for these reinforcement learning algorithms in linear or nonlinear approximation settings, emphasizing approximation error and estimation error/sample complexity. We discuss various properties related to approximation error and present concrete conditions on transition probability and reward function under which these properties hold true. Sample complexity analysis in reinforcement learning is more complicated than in supervised learning, primarily due to the distribution mismatch phenomenon. With assumptions on the linear structure of the problem, numerous algorithms in the literature achieve polynomial sample complexity with respect to the number of features, episode length, and accuracy, although the minimax rate has not been achieved yet. These results rely on the $L^\infty$ and UCB estimation of estimation error, which can handle the distribution mismatch phenomenon. The problem and analysis become substantially more challenging in the setting of nonlinear function approximation, as both $L^\infty$ and UCB estimation are inadequate for bounding the error with a favorable rate in high dimensions. We discuss additional assumptions necessary to address the distribution mismatch and derive meaningful results for nonlinear RL problems.
翻訳日:2023-05-22 18:55:11 公開日:2023-05-19
# 大きな小さなトランスフォーマデコーダ

Big Little Transformer Decoder ( http://arxiv.org/abs/2302.07863v2 )

ライセンス: Link先を確認
Sehoon Kim, Karttikeya Mangalam, Suhong Moon, John Canny, Jitendra Malik, Michael W. Mahoney, Amir Gholami, Kurt Keutzer(参考訳) トランスフォーマーアーキテクチャに基づく大規模言語モデルの近年の出現は、自然言語処理の分野で劇的な進歩を可能にしている。 しかし、これらのモデルには長い推論遅延があり、デプロイメントが制限されるため、様々なリアルタイムアプリケーションにとって非常にコストがかかる。 モデルがトークンレベルの並列化を生かさずに連続的にトークンを生成するために反復的に実行する必要があるため、推論の遅延は自己回帰的な生成タスクによってさらに悪化する。 そこで本研究では,幅広いテキスト生成アプリケーションに対して,推論効率と遅延性を向上するフレームワークであるBig Little Decoder (BiLD)を提案する。 BiLDフレームワークには、テキストを共同生成する大きさの異なる2つのモデルが含まれている。 小モデルは、推論コストの低いテキストを生成するために自己回帰的に動作し、大モデルは、非自己回帰的な方法で小モデルの不正確な予測を洗練するために時々のみ呼び出される。 小型モデルと大規模モデルの調整には,(1)大モデルにいつ制御を委譲するかを決定するフォールバックポリシ,(2)大モデルの不正確な予測をいつ修正する必要があるかを決定するロールバックポリシ,の2つの簡単な方法を導入する。 IWSLT 2017 De-En と WMT 2014 De-En の機械翻訳と XSUM と CNN/DailyMail の要約を含む様々なテキスト生成シナリオに BiLD を適用する。 NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。 さらに、我々のフレームワークは完全にプラグアンドプレイされており、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。 私たちのコードはオープンソースです

The recent emergence of Large Language Models based on the Transformer architecture has enabled dramatic advancements in the field of Natural Language Processing. However, these models have long inference latency, which limits their deployment, and which makes them prohibitively expensive for various real-time applications. The inference latency is further exacerbated by autoregressive generative tasks, as models need to run iteratively to generate tokens sequentially without leveraging token-level parallelization. To address this, we propose Big Little Decoder (BiLD), a framework that can improve inference efficiency and latency for a wide range of text generation applications. The BiLD framework contains two models with different sizes that collaboratively generate text. The small model runs autoregressively to generate text with a low inference cost, and the large model is only invoked occasionally to refine the small model's inaccurate predictions in a non-autoregressive manner. To coordinate the small and large models, BiLD introduces two simple yet effective policies: (1) the fallback policy that determines when to hand control over to the large model; and (2) the rollback policy that determines when the large model needs to correct the small model's inaccurate predictions. To evaluate our framework across different tasks and models, we apply BiLD to various text generation scenarios encompassing machine translation on IWSLT 2017 De-En and WMT 2014 De-En, and summarization on XSUM and CNN/DailyMail. On an NVIDIA T4 GPU, our framework achieves a speedup of up to 2.12x speedup with minimal generation quality degradation. Furthermore, our framework is fully plug-and-play and can be applied without any modifications in the training process or model architecture. Our code is open-sourced
翻訳日:2023-05-22 18:54:48 公開日:2023-05-19
# ゼロショットバッチレベル異常検出

Zero-Shot Batch-Level Anomaly Detection ( http://arxiv.org/abs/2302.07849v2 )

ライセンス: Link先を確認
Aodong Li, Chen Qiu, Marius Kloft, Padhraic Smyth, Maja Rudolph, Stephan Mandt(参考訳) 異常検出(AD)は多くの安全クリティカルなアプリケーション領域において重要な役割を果たす。 異常検知器を正常なデータ分布にドリフトさせるという課題は、特に「新しい正規」のためのトレーニングデータが得られない場合は、ゼロショットAD技術の開発に繋がる。 本稿では,ゼロショットバッチレベルのADに対して,適応中心表現(ACR)と呼ばれるシンプルで効果的な手法を提案する。 本手法では, バッチ正規化と組み合わせて, 深部SVDD(Deep SVDD)などの深部異常検出装置を訓練することにより, 未知のADタスクに対するゼロショット自動一般化を実現する。 この単純なレシピ、バッチ正規化とメタトレーニングは、非常に効果的で多用途なツールです。 以上の結果から,特定領域の画像データに対するゼロショット異常検出およびセグメンテーションにおいて,表データおよび既存手法を上回った最初のゼロショット広告結果を示す。

Anomaly detection (AD) plays a crucial role in many safety-critical application domains. The challenge of adapting an anomaly detector to drift in the normal data distribution, especially when no training data is available for the "new normal," has led to the development of zero-shot AD techniques. In this paper, we propose a simple yet effective method called Adaptive Centered Representations (ACR) for zero-shot batch-level AD. Our approach trains off-the-shelf deep anomaly detectors (such as deep SVDD) to adapt to a set of inter-related training data distributions in combination with batch normalization, enabling automatic zero-shot generalization for unseen AD tasks. This simple recipe, batch normalization plus meta-training, is a highly effective and versatile tool. Our results demonstrate the first zero-shot AD results for tabular data and outperform existing methods in zero-shot anomaly detection and segmentation on image data from specialized domains.
翻訳日:2023-05-22 18:54:20 公開日:2023-05-19
# 非ラベルデータをベイズニューラルネットワークに組み込む

Incorporating Unlabelled Data into Bayesian Neural Networks ( http://arxiv.org/abs/2304.01762v2 )

ライセンス: Link先を確認
Mrinank Sharma, Tom Rainforth, Yee Whye Teh, Vincent Fortuin(参考訳) 従来のベイズニューラルネットワーク (BNN) は、予測を改善するために、ラベルのないデータを利用できない。 この制限を克服するために,教師なし事前学習段階における証拠の上限を最大化することにより,非ラベル付きデータを用いて事前予測分布の改善を学習するセルフスーパービジョンベイズニューラルネットワークを導入する。 先行予測分布をよりよく理解するために開発された新しい手法を用いて,自己教師付き先行予測が従来のbnn予測よりも画像意味を捉えていることを示す。 実験結果から,自己教師付きbnnは,自己教師付き手法のラベル効率とベイズ法の不確実性推定,特に低-中型データレジームにおける従来のbnnよりも優れることがわかった。

Conventional Bayesian Neural Networks (BNNs) cannot leverage unlabelled data to improve their predictions. To overcome this limitation, we introduce Self-Supervised Bayesian Neural Networks, which use unlabelled data to learn improved prior predictive distributions by maximising an evidence lower bound during an unsupervised pre-training step. With a novel methodology developed to better understand prior predictive distributions, we then show that self-supervised prior predictives capture image semantics better than conventional BNN priors. In our empirical evaluations, we see that self-supervised BNNs offer the label efficiency of self-supervised methods and the uncertainty estimates of Bayesian methods, particularly outperforming conventional BNNs in low-to-medium data regimes.
翻訳日:2023-05-22 18:47:48 公開日:2023-05-19
# 速度歪み最適化を用いたリアルタイム6K画像再構成

Real-time 6K Image Rescaling with Rate-distortion Optimization ( http://arxiv.org/abs/2304.01064v2 )

ライセンス: Link先を確認
Chenyang Qi, Xin Yang, Ka Leong Cheng, Ying-Cong Chen, Qifeng Chen(参考訳) 現代の画像再構成は、HR画像再構成のための埋め込み情報を含む低解像度(LR)サムネイル画像に高解像度(HR)画像を埋め込むことを目的としている。 従来の超解像とは異なり、LRサムネイルに埋め込まれた情報から、元の画像に忠実な高忠実なHR画像復元を可能にする。 しかし、最先端画像再スケーリング手法では、lr画像ファイルサイズを最適化せず、超高解像度(例えば6k)画像再構成のリアルタイム性能を低下させる。 これら2つの課題に対処するために、リアルタイム6Kレート歪み認識画像再スケーリングのための新しいフレームワーク(HyperThumbnail)を提案する。 提案する量子化予測モジュールにより,まずHR画像のJPEG LRサムネイルへの埋め込みを行い,HR再構成の品質を最大化しながら,埋め込みLR JPEGサムネイルのファイルサイズを最小化する。 そして、効率的な周波数認識復号器は、LR1から高忠実度HR画像をリアルタイムに再構成する。 広範な実験により,従来の画像再スケーリングベースラインよりも性能が優れており,リアルタイムに6k画像再構成が可能となった。

Contemporary image rescaling aims at embedding a high-resolution (HR) image into a low-resolution (LR) thumbnail image that contains embedded information for HR image reconstruction. Unlike traditional image super-resolution, this enables high-fidelity HR image restoration faithful to the original one, given the embedded information in the LR thumbnail. However, state-of-the-art image rescaling methods do not optimize the LR image file size for efficient sharing and fall short of real-time performance for ultra-high-resolution (e.g., 6K) image reconstruction. To address these two challenges, we propose a novel framework (HyperThumbnail) for real-time 6K rate-distortion-aware image rescaling. Our framework first embeds an HR image into a JPEG LR thumbnail by an encoder with our proposed quantization prediction module, which minimizes the file size of the embedding LR JPEG thumbnail while maximizing HR reconstruction quality. Then, an efficient frequency-aware decoder reconstructs a high-fidelity HR image from the LR one in real time. Extensive experiments demonstrate that our framework outperforms previous image rescaling baselines in rate-distortion performance and can perform 6K image reconstruction in real time.
翻訳日:2023-05-22 18:47:33 公開日:2023-05-19
# YOLOの総合的なレビュー: YOLOv1とBeyond

A Comprehensive Review of YOLO: From YOLOv1 and Beyond ( http://arxiv.org/abs/2304.00501v2 )

ライセンス: Link先を確認
Juan Terven and Diana Cordova-Esparza(参考訳) YOLOは、ロボット工学、無人運転車、ビデオ監視アプリケーションのための中心的なリアルタイムオブジェクト検出システムになっている。 本稿では, YOLOの進化を総合的に分析し, 元のYOLOからYOLOv8, YOLO-NASまでの各イテレーションにおけるイノベーションとコントリビューションについて考察する。 まず、標準メトリクスと後処理を説明し、次に、ネットワークアーキテクチャにおける大きな変化と各モデルに対するトレーニングトリックについて論じる。 最後に, YOLOの開発から重要な教訓を要約し, リアルタイム物体検出システムの実現に向けた研究の方向性を明らかにする。

YOLO has become a central real-time object detection system for robotics, driverless cars, and video monitoring applications. We present a comprehensive analysis of YOLO's evolution, examining the innovations and contributions in each iteration from the original YOLO to YOLOv8 and YOLO-NAS. We start by describing the standard metrics and postprocessing; then, we discuss the major changes in network architecture and training tricks for each model. Finally, we summarize the essential lessons from YOLO's development and provide a perspective on its future, highlighting potential research directions to enhance real-time object detection systems.
翻訳日:2023-05-22 18:47:13 公開日:2023-05-19
# EITに基づく中性原子のスケーラブルなヘテロ核構造

Scalable Heteronuclear Architecture of Neutral Atoms Based on EIT ( http://arxiv.org/abs/2303.16432v2 )

ライセンス: Link先を確認
Ahmed M. Farouk, I.I. Beterov, Peng Xu, I.I. Ryabtsev(参考訳) 最近の論文 [arxiv:2206.12176 (2022)] に基づき、量子情報処理のためのアルカリ金属中性原子配列におけるcnotゲートの並列実装のスケーラブルなヘテロ核アーキテクチャを提案する。 1つの原子種の原子配列(アンシラ量子ビット)を2Dアコスト光偏向器(AOD)によって生成された移動型双極子トラップの配列を用いてコヒーレントに搬送することで、隣り合う量子ビットのペア間で連続的にCNOTゲートを並列に実行する方式を検討した。 第2原子種の原子(データ量子ビット)は、空間光変調器(SLM)によって生成された静的光学双極子トラップの配列に保持される。 移動したアンシラはコヒーレンスを失うことなく論理的な基底状態の重ね合わせにとどまるが、移動経路はデータ原子の空間的位置と重なり合うのを避ける。 我々は,実験可能な条件に対して,$\mathcal{F}=95\%$の並列実装CNOTゲートの忠実度を実現するために,システムパラメータを数値的に最適化した。 本設計は, 量子誤差補正のための表面符号の実装に有用である。 ゲート性能を特徴付けるために,レニエントロピーと相互情報についても検討した。

Based on our recent paper [arXiv:2206.12176 (2022)], we propose a scalable heteronuclear architecture of parallel implementation of CNOT gates in arrays of alkali-metal neutral atoms for quantum information processing. We considered a scheme where we perform CNOT gates in a parallel manner within the array, while they are performed sequentially between the pairs of neighboring qubits by coherently transporting an array of atoms of one atomic species (ancilla qubits) using an array of mobile optical dipole traps generated by a 2D acousto-optic deflector (AOD). The atoms of the second atomic species (data qubits) are kept in the array of static optical dipole traps generated by spatial light modulator (SLM). The moving ancillas remain in the superposition of their logical ground states without loss of coherence, while their transportation paths avoid overlaps with the spatial positions of data atoms. We numerically optimized the system parameters to achieve the fidelity for parallelly implemented CNOT gates around $\mathcal{F}=95\%$ for the experimentally feasible conditions. Our design can be useful for implementation of surface codes for quantum error correction. Renyi entropy and mutual information are also investigated to characterize the gate performance.
翻訳日:2023-05-22 18:46:35 公開日:2023-05-19
# 論理推論における言語モデルを支援する明示的計画法

Explicit Planning Helps Language Models in Logical Reasoning ( http://arxiv.org/abs/2303.15714v2 )

ライセンス: Link先を確認
Hongyu Zhao, Kangrui Wang, Mo Yu, Hongyuan Mei(参考訳) 言語モデルは、幅広い自然言語処理タスクで驚くほどよく機能することが示されている。 本稿では,多段階論理推論を行うために言語モデルを用いた新しいシステムを提案する。 本システムでは,明示的な計画手法を推論手順に組み込むことで,各ステップにおける推論決定をより情報的に行うことができる。 さらに,計画プロセスがスプリアスな特徴によって引き起こされるのを防止できるトレーニング戦略を提案する。 当社の全システムは、複数の標準データセットで競合する他のメソッドを大幅に上回っています。 コアコンポーネントとしてT5モデルを使用する場合,約1Bパラメータ(GPT-3の175倍小さい)しか持たないにもかかわらず,GPT-3と比較して競合的に動作する。 GPT-3.5を使用する場合、挑戦的なPrOntoQAデータセットにおいて、チェーン・オブ・シークレットを著しく上回る。 我々は,システムの性能において明示的な計画が重要な役割を担っていることを示すために,広範な実証研究を行った。

Language models have been shown to perform remarkably well on a wide range of natural language processing tasks. In this paper, we propose a novel system that uses language models to perform multi-step logical reasoning. Our system incorporates explicit planning into its inference procedure, thus able to make more informed reasoning decisions at each step by looking ahead into their future effects. Moreover, we propose a training strategy that safeguards the planning process from being led astray by spurious features. Our full system significantly outperforms other competing methods on multiple standard datasets. When using a T5 model as its core component, our system performs competitively compared to GPT-3 despite having only about 1B parameters (i.e., 175 times smaller than GPT-3). When using GPT-3.5, it significantly outperforms chain-of-thought prompting on the challenging PrOntoQA dataset. We have conducted extensive empirical studies to demonstrate that explicit planning plays a crucial role in the system's performance.
翻訳日:2023-05-22 18:46:10 公開日:2023-05-19
# ハミルトン力学の高階量子変換

Higher-order quantum transformations of Hamiltonian dynamics ( http://arxiv.org/abs/2303.09788v2 )

ライセンス: Link先を確認
Tatsuki Odake, Hl\'er Kristj\'ansson, Akihito Soeda, Mio Murao(参考訳) 我々は,ハミルトニアンダイナミクスの高次変換を実現する量子アルゴリズムを提案する。 すなわち、アルゴリズムは有限個のクエリをブラックボックスシードハミルトン力学に入力し、所望のハミルトン力学をシミュレートする。 このアルゴリズムは任意の局所シードハミルトニアンの線形変換を効率的にシミュレートし、制御されたパウリゲートと時間相関ランダム性のみを利用する。 このアルゴリズムは量子関数プログラミングの例であり、所望の関数は高階量子変換の連結として指定される。 例えば、負の時間進化と時間反転のシミュレーションを実演し、ハミルトン学習タスクを実行する。

We present a quantum algorithm to achieve higher-order transformations of Hamiltonian dynamics. Namely, the algorithm takes as input a finite number of queries to a black-box seed Hamiltonian dynamics to simulate a desired Hamiltonian. Our algorithm efficiently simulates linear transformations of any local seed Hamiltonian, making use of only controlled-Pauli gates and time-correlated randomness. This algorithm is an instance of quantum functional programming, where the desired function is specified as a concatenation of higher-order quantum transformations. By way of example, we demonstrate the simulation of negative time-evolution and time-reversal, and perform a Hamiltonian learning task.
翻訳日:2023-05-22 18:45:43 公開日:2023-05-19
# STEM高等教育における3Dプリントバッジによる学生成績の向上とドロップアウト率の低減

Using 3D printed badges to improve student performance and reduce dropout rates in STEM higher education ( http://arxiv.org/abs/2303.08939v2 )

ライセンス: Link先を確認
Ra\'ul Lara-Cabrera and Fernando Ortega and Edgar Talavera and Daniel L\'opez-Fern\'andez(参考訳) 学生のSTEMの過度な困難に対する認識は、モチベーションを低下させ、パフォーマンスに影響を与える。 先行研究によると、ゲーミフィケーション技術の使用は、学習時のエンゲージメント、モチベーション、楽しみを促進する。 バッジは、学生に報酬として与えられる区別であり、よく知られたゲーミフィケーションツールである。 この貢献は、物理的にも仮想的にもバッジを使うことが学生のパフォーマンスを向上し、ドロップアウト率を低下させると仮定している。 この仮説を検証するために、コンピュータ工学の学位データベースに登録された99人の学生を対象に、ケーススタディを行った。 その結果,バッジの使用により学生の成績が向上し,ドロップアウト率も低下した。 しかし、異なる種類のバッジの使用には不可解な違いが見られた。

Students' perception of excessive difficulty in STEM degrees lowers their motivation and therefore affects their performance. According to prior research, the use of gamification techniques promote engagement, motivation and fun when learning. Badges, which are a distinction that is given as a reward to students, are a well-known gamification tool. This contribution hypothesizes that the use of badges, both physical and virtual, improves student performance and reduces dropout rates. To verify that hypothesis, a case study involving 99 students enrolled in a Databases course of computer engineering degrees was conducted. The results show that the usage of badges improves student performance and reduces dropout rates. However, negligible differences were found between the use of different kind of badges.
翻訳日:2023-05-22 18:45:32 公開日:2023-05-19
# Spikingformer: トランスフォーマーに基づくスパイクニューラルネットワークのためのスパイク駆動残差学習

Spikingformer: Spike-driven Residual Learning for Transformer-based Spiking Neural Network ( http://arxiv.org/abs/2304.11954v3 )

ライセンス: Link先を確認
Chenlin Zhou, Liutao Yu, Zhaokun Zhou, Zhengyu Ma, Han Zhang, Huihui Zhou, Yonghong Tian(参考訳) スパイキングニューラルネットワーク(SNN)は、イベント駆動のスパイキング計算のために、人工ニューラルネットワークに代わる有望なエネルギー効率を提供する。 しかし、現在最先端の深層SNN(SpikformerやSEW ResNetなど)は、その残余接続構造に起因する非スパイク計算(整数-フロート乗法)に悩まされている。 これらの非スパイク計算はSNNの消費電力を増大させ、スパイク操作のみをサポートする主流のニューロモルフィックハードウェアへの展開に適さないものにする。 本稿では,非スパイク計算を回避するため,SNNのためのハードウェアフレンドリーなスパイク駆動残差学習アーキテクチャを提案する。 この残差設計に基づき、純粋なトランスベースのスパイキングニューラルネットワークであるspikingformerを開発した。 我々は、ImageNet, CIFAR10, CIFAR100, CIFAR10-DVS, DVS128 Gestureデータセット上でSpkingformerを評価し、Spkingformerが、新しい高度なバックボーンとして、直接訓練された純粋なSNNの最先端技術よりも優れていることを示した。 さらに,spikingformer は非スパイク計算を効果的に回避し,imagenet の spikformer と比較して 57.34$\%$ のエネルギー消費を大幅に削減できることを確認した。 私たちの知る限りでは、純粋なイベント駆動トランスフォーマーベースのSNNが開発されたのは今回が初めてです。

Spiking neural networks (SNNs) offer a promising energy-efficient alternative to artificial neural networks, due to their event-driven spiking computation. However, state-of-the-art deep SNNs (including Spikformer and SEW ResNet) suffer from non-spike computations (integer-float multiplications) caused by the structure of their residual connection. These non-spike computations increase SNNs' power consumption and make them unsuitable for deployment on mainstream neuromorphic hardware, which only supports spike operations. In this paper, we propose a hardware-friendly spike-driven residual learning architecture for SNNs to avoid non-spike computations. Based on this residual design, we develop Spikingformer, a pure transformer-based spiking neural network. We evaluate Spikingformer on ImageNet, CIFAR10, CIFAR100, CIFAR10-DVS and DVS128 Gesture datasets, and demonstrate that Spikingformer outperforms the state-of-the-art in directly trained pure SNNs as a novel advanced backbone (75.85$\%$ top-1 accuracy on ImageNet, + 1.04$\%$ compared with Spikformer). Furthermore, our experiments verify that Spikingformer effectively avoids non-spike computations and significantly reduces energy consumption by 57.34$\%$ compared with Spikformer on ImageNet. To our best knowledge, this is the first time that a pure event-driven transformer-based SNN has been developed.
翻訳日:2023-05-22 18:38:08 公開日:2023-05-19
# サービス拒否とファイングラインド制御--フレキシブルモデルによるフェデレート学習への攻撃に向けて

Denial-of-Service or Fine-Grained Control: Towards Flexible Model Poisoning Attacks on Federated Learning ( http://arxiv.org/abs/2304.10783v2 )

ライセンス: Link先を確認
Hangtao Zhang, Zeming Yao, Leo Yu Zhang, Shengshan Hu, Chao Chen, Alan Liew, Zhetao Li(参考訳) フェデレーション学習(fl)は中毒攻撃に対して脆弱であり、敵はグローバルな集約結果を破壊し、dos(denial-of-service)を引き起こす。 特定方向の悪意的摂動の振幅を最適化してDoSを発生させる最近のモデル中毒攻撃とは違って,汎用的な攻撃目標を達成するフレキシブルモデル中毒攻撃(FMPA)を提案する。 我々は、FLシステムに関する余分な知識(例えば、良性のデバイスに関する集約ルールや更新)が敵に利用できない現実的な脅威シナリオを考える。 FMPAは、グローバルな歴史的情報を利用して、グローバルモデルの次のラウンドを良心的な参照として予測する推定器を構築する。 その後、基準モデルを微調整し、低い精度と小さな摂動で所望の有毒モデルを得る。 DoSを発生させる目的の他に、FMPAを自然に拡張して、きめ細かい制御可能な攻撃を発射することで、グローバルな精度を正確に低減することができる。 厳格なコントロールで武装した悪意のあるFLサービスプロバイダは、注意を払わずに競合相手に対してアドバンテージを得られるため、DoS以外のFLに新たな攻撃サーフェスを開くことができる。 DoS の目的においても,FMPA は https://github.com/ZhangHangTao/Poisoning-Attack-on-FL

Federated learning (FL) is vulnerable to poisoning attacks, where adversaries corrupt the global aggregation results and cause denial-of-service (DoS). Unlike recent model poisoning attacks that optimize the amplitude of malicious perturbations along certain prescribed directions to cause DoS, we propose a Flexible Model Poisoning Attack (FMPA) that can achieve versatile attack goals. We consider a practical threat scenario where no extra knowledge about the FL system (e.g., aggregation rules or updates on benign devices) is available to adversaries. FMPA exploits the global historical information to construct an estimator that predicts the next round of the global model as a benign reference. It then fine-tunes the reference model to obtain the desired poisoned model with low accuracy and small perturbations. Besides the goal of causing DoS, FMPA can be naturally extended to launch a fine-grained controllable attack, making it possible to precisely reduce the global accuracy. Armed with precise control, malicious FL service providers can gain advantages over their competitors without getting noticed, hence opening a new attack surface in FL other than DoS. Even for the purpose of DoS, experiments show that FMPA significantly decreases the global accuracy, outperforming six state-of-the-art attacks.The code can be found at https://github.com/ZhangHangTao/Poisoning-Attack-on-FL.
翻訳日:2023-05-22 18:37:19 公開日:2023-05-19
# DNNベースのアプリケーションの著作権保護のためのプラグアンドプレイ保護摂動

A Plug-and-Play Defensive Perturbation for Copyright Protection of DNN-based Applications ( http://arxiv.org/abs/2304.10679v2 )

ライセンス: Link先を確認
Donghua Wang, Wen Yao, Tingsong Jiang, Weien Zhou, Lang Lin, and Xiaoqian Chen(参考訳) ディープニューラルネットワーク(DNN)ベースのアプリケーション(スタイル転送、漫画化など)の広範な展開は、そのようなアプリケーションの生産に対する著作権保護の必要性を刺激する。 従来の可視性のある著作権技術もいくつかあるが、望ましくないトレースを導入し、ユーザエクスペリエンスを損なうことになる。 本稿では,DNNベースのアプリケーション(スタイル転送)に対する防御的摂動に基づく,新しいプラグイン・アンド・プレイ型著作権保護手法を提案する。 DNNモデルを攻撃するために摂動を適用するのではなく、著作権保護における摂動の利用の可能性を探る。 具体的には,保護対象の画像に付加されるデザインされた著作権エンコーダを用いて,著作権情報を防御的摂動に投影する。 そして,発明した著作権復号器を用いて,符号化された著作権画像から著作権情報を抽出する。 さらに,ユーザがソーシャルメディアに投稿する際に発生する様々な歪み(jpeg圧縮など)を有する画像に対して,デコーダの復号能力を強化するためにロバスト性モジュールを用いる。 符号化画像と復号著作権画像の画質を確保するため,ロス関数を精巧に考案した。 目的および主観的な実験結果から,提案手法の有効性が示された。 我々はまた、エンコードされた著作権画像を投稿することで、ソーシャルメディア(WechatやTwitterなど)の物理的な世界テストも行ってきた。 その結果、ソーシャルメディアから保存したエンコード画像の著作権情報を正しく抽出できることが判明した。

Wide deployment of deep neural networks (DNNs) based applications (e.g., style transfer, cartoonish), stimulating the requirement of copyright protection of such application's production. Although some traditional visible copyright techniques are available, they would introduce undesired traces and result in a poor user experience. In this paper, we propose a novel plug-and-play invisible copyright protection method based on defensive perturbation for DNN-based applications (i.e., style transfer). Rather than apply the perturbation to attack the DNNs model, we explore the potential utilization of perturbation in copyright protection. Specifically, we project the copyright information to the defensive perturbation with the designed copyright encoder, which is added to the image to be protected. Then, we extract the copyright information from the encoded copyrighted image with the devised copyright decoder. Furthermore, we use a robustness module to strengthen the decoding capability of the decoder toward images with various distortions (e.g., JPEG compression), which may be occurred when the user posts the image on social media. To ensure the image quality of encoded images and decoded copyright images, a loss function was elaborately devised. Objective and subjective experiment results demonstrate the effectiveness of the proposed method. We have also conducted physical world tests on social media (i.e., Wechat and Twitter) by posting encoded copyright images. The results show that the copyright information in the encoded image saved from social media can still be correctly extracted.
翻訳日:2023-05-22 18:36:48 公開日:2023-05-19
# Progressive-Hint Promptingは大規模言語モデルの推論を改善する

Progressive-Hint Prompting Improves Reasoning in Large Language Models ( http://arxiv.org/abs/2304.09797v4 )

ライセンス: Link先を確認
Chuanyang Zheng, Zhengying Liu, Enze Xie, Zhenguo Li, Yu Li(参考訳) 推論タスクにおける大規模言語モデル(llm)のパフォーマンスは、プロンプトデザインに大きく依存しており、chain-of-thought (cot) と self-consistency はこの能力を高める重要な方法である。 しかし、これらの手法はLLMが生成した回答を十分に活用していない。 本稿では,これまで生成した回答をヒントとして,ユーザとLLMの対話を自動的に行うためのプロンプトプロンプト手法であるプログレッシブ・ヒント・プロンプト(PHP)を提案する。 PHPはCoTと自己整合性に直交しているため、最新技術と組み合わせてパフォーマンスをさらに向上することができる。 7つのベンチマークで広範囲で包括的な実験を行った。 その結果,phpは高い効率を維持しながら精度を大幅に向上した。 例えば、text-davinci-003では、複雑なCoTに比べてGSM8Kが4.2%向上し、自己整合性のあるサンプルパスが46.17%減少した。 GPT-4とPHPでは、SVAMP(89.1% -> 91.9%)、GSM8K(92% -> 95.5%)、AQuA(76.4% -> 79.9%)、MATH(50.3% -> 53.9%)の最先端のパフォーマンスを実現している。

The performance of Large Language Models (LLMs) in reasoning tasks depends heavily on prompt design, with Chain-of-Thought (CoT) and self-consistency being critical methods that enhance this ability. However, these methods do not fully exploit the answers generated by the LLM to guide subsequent responses. This paper proposes a new prompting method, named Progressive-Hint Prompting (PHP), that enables automatic multiple interactions between users and LLMs by using previously generated answers as hints to progressively guide toward the correct answers. PHP is orthogonal to CoT and self-consistency, making it easy to combine with state-of-the-art techniques to further improve performance. We conducted extensive and comprehensive experiments on seven benchmarks. The results show that PHP significantly improves accuracy while remaining highly efficient. For instance, with text-davinci-003, we observed a 4.2% improvement on GSM8K with greedy decoding compared to Complex CoT, and a 46.17% reduction in sample paths with self-consistency. With GPT-4 and PHP, we achieve state-of-the-art performances on SVAMP (89.1% -> 91.9%), GSM8K (92% -> 95.5%), AQuA (76.4% -> 79.9%) and MATH (50.3% -> 53.9%).
翻訳日:2023-05-22 18:36:22 公開日:2023-05-19
# シーケンシャル転送最適化のためのスケーラブルなテスト問題生成器

A Scalable Test Problem Generator for Sequential Transfer Optimization ( http://arxiv.org/abs/2304.08503v2 )

ライセンス: Link先を確認
Xiaoming Xue and Cuie Yang and Liang Feng and Kai Zhang and Linqi Song and Kay Chen Tan(参考訳) データベースに格納された事前解決された最適化タスクから得られた知識を活用し、最適化性能の向上を目指すシーケンシャル転送最適化(sto)が近年研究の注目を集めている。 しかし、アルゴリズム設計の進歩にもかかわらず、STOの試験問題は十分に設計されていない。 しばしば、それらは同じ最適性を持つ他のベンチマーク関数によってランダムに組み立てられるか、あるいは限られたバリエーションを示す実用的な問題から生成される。 これらの問題におけるソースとターゲットタスクの最適解の間の関係は手動で構成され、従って単調であり、現実世界の問題の多様な関係を表現する能力を制限する。 したがって、これらの問題に対する多くのアルゴリズムによる有望な結果は非常に偏りがあり、他の問題への一般化が困難である。 そこで我々はまず,STO問題(STOP)を特徴付けるための初歩的な概念をいくつか紹介し,従来の研究で見過ごされた重要な問題,すなわち,ソースの最適性と目標タスクの関係を定量的に記述する類似性分布を提示する。 次に,汎用設計ガイドラインと拡張性に優れた問題生成器を提案する。 具体的には、パラメータ化密度関数を変更することで、問題の類似度分布を体系的にカスタマイズすることができ、現実世界の問題の多様な類似性関係に対する幅広い表現が可能となる。 最後に、12個のSTOPからなるベンチマークスイートを、異なるSTOアルゴリズムを比較するためのアリーナとして機能するジェネレータを用いて開発する。 ベンチマークスイートのソースコードはhttps://github.com/xminghsueh/stopにある。

Sequential transfer optimization (STO), which aims to improve optimization performance by exploiting knowledge captured from previously-solved optimization tasks stored in a database, has been gaining increasing research attention in recent years. However, despite significant advancements in algorithm design, the test problems in STO are not well designed. Oftentimes, they are either randomly assembled by other benchmark functions that have identical optima or are generated from practical problems that exhibit limited variations. The relationships between the optimal solutions of source and target tasks in these problems are manually configured and thus monotonous, limiting their ability to represent the diverse relationships of real-world problems. Consequently, the promising results achieved by many algorithms on these problems are highly biased and difficult to be generalized to other problems. In light of this, we first introduce a few rudimentary concepts for characterizing STO problems (STOPs) and present an important problem feature overlooked in previous studies, namely similarity distribution, which quantitatively delineates the relationship between the optima of source and target tasks. Then, we propose general design guidelines and a problem generator with superior extendibility. Specifically, the similarity distribution of a problem can be systematically customized by modifying a parameterized density function, enabling a broad spectrum of representation for the diverse similarity relationships of real-world problems. Lastly, a benchmark suite with 12 individual STOPs is developed using the proposed generator, which can serve as an arena for comparing different STO algorithms. The source code of the benchmark suite is available at https://github.com/XmingHsueh/STOP.
翻訳日:2023-05-22 18:35:53 公開日:2023-05-19
# 量子状態の相関測度と量子チャネルの情報特性

Correlation measures of a quantum state and information characteristics of a quantum channel ( http://arxiv.org/abs/2304.05388v2 )

ライセンス: Link先を確認
M.E. Shirokov(参考訳) 本稿では,2部量子状態の基本相関測度と量子チャネルの基本情報特性の相互関係について論じる。 無限次元二成分系における(最適化されていない)量子ディスコードの性質を記述する。 特に、一般化されたKoashi-Winter関係を用いて、量子不協和がゼロである状態が量子古典的であることを保証する単純な条件が得られる。 無限一方向の古典的相関を持つ状態に対する2つの量子ディスコードの定義を提案し解析した。 Koashi-Winter と Xi-Lu-Wang-Li 関係の一般化されたバージョンは、チャネルの出力と補チャネル(与えられた入力状態のアンサンブルのチャネルの関数として)のホレボ情報に対する高度な連続性境界、ホレボ容量と入力次元または入力エネルギー境界に依存する量子チャネルの非正規化プライベート容量を得るために用いられる。 また、非測定サブシステムに作用する量子チャネルの下での量子不協和の単調性と局所的な測定のエントロピー低減の「ドップペルガンガー」である量子チャネルの性質についても論じる。

We discuss the interconnections between basic correlation measures of a bipartite quantum state and basic information characteristics of a quantum channel, focusing on the benefits of these interconnections for solving specific problems concerning the characteristics of both types. We describe properties of the (unoptimized and optimized) quantum discord in infinite-dimensional bipartite systems. In particular, using the generalized Koashi-Winter relation, a simple condition is obtained that guarantees that a state with zero quantum discord is quantum-classical. Two possible definitions of the quantum discord for states with infinite one-way classical correlation are proposed and analysed. The generalized versions of Koashi-Winter and Xi-Lu-Wang-Li relations are used to obtain advanced continuity bounds for the Holevo information at the output of a channel and its complementary channel (as functions of a channel for a given ensemble of input states), for the Holevo capacity and the unregularized private capacity of a quantum channel depending either on the input dimension or on the input energy bound. We also discuss the properties of quantum channels which are "doppelgangers" of the monotonicity of the quantum discord and the entropy reduction of a local measurement under quantum channels acting on an unmeasured subsystem.
翻訳日:2023-05-22 18:35:28 公開日:2023-05-19
# おそらくほぼ正しい連合学習

Probably Approximately Correct Federated Learning ( http://arxiv.org/abs/2304.04641v4 )

ライセンス: Link先を確認
Xiaojin Zhang, Anbu Huang, Lixin Fan, Kai Chen, Qiang Yang(参考訳) Federated Learning(FL)は、プライバシ、ユーティリティ、効率性を主柱とする、新たな分散学習パラダイムである。 既存の研究は、無限小のプライバシー漏洩、ユーティリティ損失、効率性を同時に達成することは不可能であることを示している。 したがって、FLアルゴリズムを設計する際、最適なトレードオフソリューションを見つける方法が重要な考慮事項である。 共通の方法は、トレードオフ問題を多目的最適化問題として、すなわち、予め定義された値を超えないプライバシー漏洩を抑えながら、ユーティリティ損失と効率の低下を最小限にすることである。 しかし、既存の多目的最適化フレームワークは非常に時間がかかり、パレートフロンティアの存在を保証していないため、より効率的で容易に解決できるため、多目的問題を単一目的に変換する解決策を模索する動機となっている。 そこで本研究では,pac学習を活用し,サンプル複雑性の観点から複数の目的を定量化する統一フレームワークであるfeedpacを提案する。このような定量化により,複数の目的の解空間を共有次元に限定し,単一目的最適化アルゴリズムを用いて解くことができる。 具体的には,pac学習の観点から,ユーティリティ損失,プライバシリーク,プライバシ利用効率トレードオフ,攻撃者のコストの定量化に関する結果と詳細な分析を行う。

Federated learning (FL) is a new distributed learning paradigm, with privacy, utility, and efficiency as its primary pillars. Existing research indicates that it is unlikely to simultaneously attain infinitesimal privacy leakage, utility loss, and efficiency. Therefore, how to find an optimal trade-off solution is the key consideration when designing the FL algorithm. One common way is to cast the trade-off problem as a multi-objective optimization problem, i.e., the goal is to minimize the utility loss and efficiency reduction while constraining the privacy leakage not exceeding a predefined value. However, existing multi-objective optimization frameworks are very time-consuming, and do not guarantee the existence of the Pareto frontier, this motivates us to seek a solution to transform the multi-objective problem into a single-objective problem because it is more efficient and easier to be solved. To this end, we propose FedPAC, a unified framework that leverages PAC learning to quantify multiple objectives in terms of sample complexity, such quantification allows us to constrain the solution space of multiple objectives to a shared dimension, so that it can be solved with the help of a single-objective optimization algorithm. Specifically, we provide the results and detailed analyses of how to quantify the utility loss, privacy leakage, privacy-utility-efficiency trade-off, as well as the cost of the attacker from the PAC learning perspective.
翻訳日:2023-05-22 18:35:04 公開日:2023-05-19
# TransPimLib: メモリ内処理システムにおける効率的な超越関数ライブラリ

TransPimLib: A Library for Efficient Transcendental Functions on Processing-in-Memory Systems ( http://arxiv.org/abs/2304.01951v4 )

ライセンス: Link先を確認
Maurus Item, Juan G\'omez-Luna, Yuxin Guo, Geraldo F. Oliveira, Mohammad Sadrosadati, Onur Mutlu(参考訳) プロセッシング・イン・メモリ(PIM)は、現代のコンピューティングシステムにおけるデータ移動のボトルネックを軽減することを約束する。 しかし、現在の実世界のpimシステムは、メモリの近くで処理要素を構築するのが困難でコストがかかるため、ハードウェアが従来のプロセッサ(cpu、gpu)よりも制約が強いという固有の欠点がある。 その結果、汎用PIMアーキテクチャは、かなり限られた命令セットをサポートし、超越関数などの複雑な操作(例えば平方根)を実行するのに苦労する。 これらの操作は、機械学習アプリケーションにおけるアクティベーション機能など、現代のワークロードにおいて特に重要である。 汎用PIMシステムにおける超越関数(およびその他のハード・トゥ・カルキュレート関数)のサポートを提供するため,CORDICに基づく三角関数,双曲関数,指数関数,対数,平方根などのためのライブラリである \emph{TransPimLib} を提案する。 UPMEM PIMアーキテクチャのためのTransPimLibの実装を開発し、マイクロベンチマークと3つのフルワークロード(Blackscholes, Sigmoid, Softmax)を用いて、TransPimLibの手法を性能と精度で徹底的に評価する。 私たちは、すべてのコードとデータセットを、~\url{https://github.com/CMU-SAFARI/transpimlib}でオープンソースにしています。

Processing-in-memory (PIM) promises to alleviate the data movement bottleneck in modern computing systems. However, current real-world PIM systems have the inherent disadvantage that their hardware is more constrained than in conventional processors (CPU, GPU), due to the difficulty and cost of building processing elements near or inside the memory. As a result, general-purpose PIM architectures support fairly limited instruction sets and struggle to execute complex operations such as transcendental functions and other hard-to-calculate operations (e.g., square root). These operations are particularly important for some modern workloads, e.g., activation functions in machine learning applications. In order to provide support for transcendental (and other hard-to-calculate) functions in general-purpose PIM systems, we present \emph{TransPimLib}, a library that provides CORDIC-based and LUT-based methods for trigonometric functions, hyperbolic functions, exponentiation, logarithm, square root, etc. We develop an implementation of TransPimLib for the UPMEM PIM architecture and perform a thorough evaluation of TransPimLib's methods in terms of performance and accuracy, using microbenchmarks and three full workloads (Blackscholes, Sigmoid, Softmax). We open-source all our code and datasets at~\url{https://github.com/CMU-SAFARI/transpimlib}.
翻訳日:2023-05-22 18:34:40 公開日:2023-05-19
# TaLU: ニューラルネットワークの強化にTanhとrectified Linear Unitを組み合わせたハイブリッド活性化関数

TaLU: A Hybrid Activation Function Combining Tanh and Rectified Linear Unit to Enhance Neural Networks ( http://arxiv.org/abs/2305.04402v2 )

ライセンス: Link先を確認
Md. Mehedi Hasan, Md. Ali Hossain, Azmain Yakin Srizon, Abu Sayeed(参考訳) 分類におけるディープラーニングモデルの適用は、ターゲットオブジェクトの正確な検出において重要な役割を果たす。 しかし、その精度は、隠蔽・出力層における活性化関数に影響される。 本稿では,tanh と rectified linear units (relu) の組み合わせである talu と呼ばれる活性化関数を用いて予測精度を向上させる。 reluアクティベーション関数は、計算効率、実装の容易さ、直感的な性質など、多くのディープラーニング研究者によって使用されている。 しかし、それは衰退する勾配問題に悩まされている。 例えば、入力が負の場合、その勾配がゼロであるため、出力は常にゼロとなる。 多くの研究者がこの問題を解決するために異なるアプローチを用いた。 最も有名なものは、LeakyReLU、Softplus、Softsign、ELU、ThresholdedReLUなどである。 本研究では,TanhとReLUを組み合わせた活性化機能であるTaLUを開発した。 提案したアクティベーション関数を用いた深層学習モデルをMNISTとCIFAR-10でテストし、ReLUや他の研究されたアクティベーション関数を精度で比較した(多くの場合、バッチ正規化と合理的学習率で使用した場合は6%)。

The application of the deep learning model in classification plays an important role in the accurate detection of the target objects. However, the accuracy is affected by the activation function in the hidden and output layer. In this paper, an activation function called TaLU, which is a combination of Tanh and Rectified Linear Units (ReLU), is used to improve the prediction. ReLU activation function is used by many deep learning researchers for its computational efficiency, ease of implementation, intuitive nature, etc. However, it suffers from a dying gradient problem. For instance, when the input is negative, its output is always zero because its gradient is zero. A number of researchers used different approaches to solve this issue. Some of the most notable are LeakyReLU, Softplus, Softsign, ELU, ThresholdedReLU, etc. This research developed TaLU, a modified activation function combining Tanh and ReLU, which mitigates the dying gradient problem of ReLU. The deep learning model with the proposed activation function was tested on MNIST and CIFAR-10, and it outperforms ReLU and some other studied activation functions in terms of accuracy(upto 6% in most cases, when used with Batch Normalization and a reasonable learning rate).
翻訳日:2023-05-22 18:29:19 公開日:2023-05-19
# データ生成とパラメータ歪みによるプライバシー保護型連合学習の至近最適ユーティリティの実現に向けて

Towards Achieving Near-optimal Utility for Privacy-Preserving Federated Learning via Data Generation and Parameter Distortion ( http://arxiv.org/abs/2305.04288v2 )

ライセンス: Link先を確認
Xiaojin Zhang, Kai Chen, Qiang Yang(参考訳) フェデレートラーニング(FL)は、参加者がプライベートデータ情報を開示することなく、強化されたユーティリティでグローバルモデルを構築することを可能にする。 適切な保護機構は、 \textit{privacy} の保存と高モデル \textit{utility} の維持の要件を満たすために採用する必要がある。 広く採用されている保護機構の性質として, モデルパラメータを歪ませることにより, プライバシを保護することが挙げられる。 元のモデルパラメータと歪んだモデルパラメータのギャップを通じて有効性を測定する。 我々は,プライバシ保護フェデレーション学習がデータ生成やパラメータの歪みを通じてほぼ最適に利用できるという,一般的な条件下での認識を望んでいる。 分散還元(distribution-reduction)とモデルパラメータの不一致(model parameter discrepancy)という2つの主な用語を用いて、ユーティリティ損失の上限を別々に測定する。 本分析は,プライバシ要件を同時に満たすために,保護機構の適切な保護パラメータの設計を刺激する。 保護機構の主な技術はパラメータの歪みとデータ生成であり、汎用的で広く適用可能である。 さらに,プライバシとユーティリティのトレードオフを上限として,nflで示される下限とともに最適なトレードオフを実現する条件を提供する。

Federated learning (FL) enables participating parties to collaboratively build a global model with boosted utility without disclosing private data information. Appropriate protection mechanisms have to be adopted to fulfill the requirements in preserving \textit{privacy} and maintaining high model \textit{utility}. The nature of the widely-adopted protection mechanisms including \textit{Randomization Mechanism} and \textit{Compression Mechanism} is to protect privacy via distorting model parameter. We measure the utility via the gap between the original model parameter and the distorted model parameter. We want to identify under what general conditions privacy-preserving federated learning can achieve near-optimal utility via data generation and parameter distortion. To provide an avenue for achieving near-optimal utility, we present an upper bound for utility loss, which is measured using two main terms called variance-reduction and model parameter discrepancy separately. Our analysis inspires the design of appropriate protection parameters for the protection mechanisms to achieve near-optimal utility and meet the privacy requirements simultaneously. The main techniques for the protection mechanism include parameter distortion and data generation, which are generic and can be applied extensively. Furthermore, we provide an upper bound for the trade-off between privacy and utility, which together with the lower bound illustrated in NFL form the conditions for achieving optimal trade-off.
翻訳日:2023-05-22 18:28:57 公開日:2023-05-19
# 制約付きポートフォリオ最適化のためのqaoaパフォーマンスを改善する初期状態とミキサーのアライメント

Alignment between Initial State and Mixer Improves QAOA Performance for Constrained Portfolio Optimization ( http://arxiv.org/abs/2305.03857v2 )

ライセンス: Link先を確認
Zichang He, Ruslan Shaydulin, Shouvanik Chakrabarti, Dylan Herman, Changhao Li, Yue Sun, Marco Pistoia(参考訳) 量子交互演算子アンサッツ(QAOA)は組合せ最適化のための有望な量子アルゴリズムである。 QAOAは断熱アルゴリズムと強く結びついており、十分な深さで近似することができる。 同時に、実際に実施されているQAOA、すなわち、小から中程度の深さにおいて、断熱的体制からの教訓がどの程度適用されるかは明らかでない。 本稿では, adiabaticアルゴリズムからの直観がqaoa初期状態の選択に応用できることを示す。 具体的には, adiabaticアルゴリズムによって要求されるように, qaoaの初期状態が混合ハミルトニアンの基底状態である場合, 最高の性能が得られることを観察する。 我々は、低 (p\leq 3$) および高 (p = 100$) QAOA 深さの制約付きポートフォリオ最適化問題の例を用いて、数値的なエビデンスを示し、ほとんどの場合、初期状態と混合ハミルトンの基底状態との整合が有益であることを示す。 我々は、異なる数のトロッターステップを用いて、正確に、ほぼ両方をシミュレートするハミング重保存XYミキサーの多くのバリエーションを比較した。 我々は,初期状態が(実際に)XYモデルの既定基底状態に設定された場合,低トラッター誤差によりQAOA性能が向上することが観察された。 さらに,32量子ビットの捕捉イオン量子プロセッサ上でのポートフォリオ最適化に,xyミキサーを用いたqaoaを適用することに成功し,短期実験における本研究の意義について考察した。

Quantum alternating operator ansatz (QAOA) is a promising quantum algorithm for combinatorial optimization. QAOA has a strong connection to the adiabatic algorithm, which it can approximate with sufficient depth. At the same time, it is unclear to what extent the lessons from the adiabatic regime apply to QAOA as executed in practice, i.e., with small to moderate depth. In this paper, we demonstrate that the intuition from the adiabatic algorithm applies to the task of choosing the QAOA initial state. Specifically, we observe that the best performance is obtained when the initial state of QAOA is set to be the ground state of the mixing Hamiltonian, as required by the adiabatic algorithm. We provide numerical evidence using the examples of constrained portfolio optimization problems with both low ($p\leq 3$) and high ($p = 100$) QAOA depth, suggesting that the alignment between the initial state and the ground state of the mixing Hamiltonian is beneficial in most cases. We compare many variations of Hamming-weight-preserving XY mixers, which we simulate both exactly and approximately, using different numbers of Trotter steps. We observe that lower Trotter error improves QAOA performance when the initial state is set to be the easy-to-prepare ground state of the (exact) XY model. In addition, we successfully apply QAOA with XY mixer to portfolio optimization on a trapped-ion quantum processor using 32 qubits and discuss the implications of our findings to near-term experiments.
翻訳日:2023-05-22 18:28:34 公開日:2023-05-19
# 因果世界モデルによる説明可能な強化学習

Explainable Reinforcement Learning via a Causal World Model ( http://arxiv.org/abs/2305.02749v3 )

ライセンス: Link先を確認
Zhongwei Yu, Jingqing Ruan, Dengpeng Xing(参考訳) 強化学習(RL)のための説明を生成することは、行動が未来に長期的な影響をもたらす可能性があるため困難である。 本稿では,環境の因果構造を事前に知ることなく,因果世界モデルを学習し,説明可能なRLのための新しい枠組みを開発する。 このモデルは行動の影響を捉え、因果連鎖による行動の長期的な影響を解釈し、行動が環境変数にどのように影響し、最終的に報酬につながるかを示す。 精度の低いほとんどの説明モデルとは異なり、説明可能性を改善しながら精度を保ち、モデルベース学習に適用できる。 その結果,我々の因果モデルが説明可能性と学習の橋渡しとなることを示した。

Generating explanations for reinforcement learning (RL) is challenging as actions may produce long-term effects on the future. In this paper, we develop a novel framework for explainable RL by learning a causal world model without prior knowledge of the causal structure of the environment. The model captures the influence of actions, allowing us to interpret the long-term effects of actions through causal chains, which present how actions influence environmental variables and finally lead to rewards. Different from most explanatory models which suffer from low accuracy, our model remains accurate while improving explainability, making it applicable in model-based learning. As a result, we demonstrate that our causal model can serve as the bridge between explainability and learning.
翻訳日:2023-05-22 18:28:04 公開日:2023-05-19
# 構造スパースを用いたダイナミックスパーストレーニング

Dynamic Sparse Training with Structured Sparsity ( http://arxiv.org/abs/2305.02299v2 )

ライセンス: Link先を確認
Mike Lasby, Anna Golubeva, Utku Evci, Mihai Nica, Yani Ioannou(参考訳) 動的スパーストレーニング(dst)法は、スパースニューラルネットワークトレーニングにおいて最先端の結果を達成し、スパーストレーニングと推論を可能にしながら、密集したモデルの一般化と一致する。 結果のモデルは非常に疎らで、理論上は訓練のコストが安いが、現実のハードウェア上で非構造的な間隔でスピードアップを達成することは困難である。 本研究では,一定のファンイン制約を課すことで,構造的N:M空間の変動を学習するスパース・ツー・スパースDST法を提案する。 理論解析と経験的結果の両方を用いて,ネットワークアーキテクチャにおける最先端のスペア・ツー・スパースな構造化dst性能,パラメータとメモリフットプリントの低減による凝縮表現,凝縮表現のnaive pytorch cpu実装による密集したモデルと比較して推論時間を短縮した。 私たちのソースコードはhttps://github.com/calgaryml/condensed-sparsityで利用可能です。

Dynamic Sparse Training (DST) methods achieve state-of-the-art results in sparse neural network training, matching the generalization of dense models while enabling sparse training and inference. Although the resulting models are highly sparse and theoretically cheaper to train, achieving speedups with unstructured sparsity on real-world hardware is challenging. In this work, we propose a sparse-to-sparse DST method to learn a variant of structured N:M sparsity by imposing a constant fan-in constraint. We demonstrate with both a theoretical analysis and empirical results: state-of-the-art spare-to-sparse structured DST performance on a variety of network architectures, a condensed representation with a reduced parameter and memory footprint, and reduced inference time compared to dense models with a naive PyTorch CPU implementation of the condensed representation. Our source code is available at https://github.com/calgaryml/condensed-sparsity
翻訳日:2023-05-22 18:27:19 公開日:2023-05-19
# CT画像と存在確率マップを用いたCNNによる完全自動僧帽弁抽出

CNN-based fully automatic mitral valve extraction using CT images and existence probability maps ( http://arxiv.org/abs/2305.00627v2 )

ライセンス: Link先を確認
Yukiteru Masuda (1), Ryo Ishikawa (1), Toru Tanaka (1), Gakuto Aoyama (2), Keitaro Kawashima (2), James V. Chapman (3), Masahiko Asami (4), Michael Huy Cuong Pham (5), Klaus Fuglsang Kofoed (5), Takuya Sakaguchi (2), Kiyohide Satoh (1) ((1) Canon Inc., Tokyo, Japan, (2) Canon Medical Systems Corporation, Tochigi, Japan, (3) Canon Medical Informatics, Minnetonka, USA, (4) Division of Cardiology, Mitsui Memorial Hospital, Tokyo, Japan, (5) Department of Cardiology and Radiology, Copenhagen University Hospital - Rigshospitalet & Department of Clinical Medicine, Faculty of Health and Medical Sciences, University of Copenhagen, Copenhagen, Denmark)(参考訳) 臨床断層画像からの僧帽弁形状の正確な抽出は外科的および介入的僧帽弁治療の計画に有用であることが証明された。 しかし,手動による僧帽弁形状の抽出は困難であり,既存の自動抽出法は十分に正確ではない。 本稿では,心循環のすべての段階におけるCT画像から僧帽弁形状を抽出する完全自動抽出法を提案する。 本方法は、u-netにより推定された僧帽弁面積のct画像と存在確率マップの両方を入力として、dungnetに基づく僧帽弁形状を抽出する。 僧帽弁閉鎖不全症(MR)を含む各種心疾患患者204例のCT画像1585枚を収集し,手動で僧帽弁領域を診断した。 提案手法は,収集したデータを用いて10倍のクロス検証を行い,実存確率マップを用いない手法と比較した。 提案手法における形状抽出誤差の平均誤差は 0.88 mm であり, 存在確率マップのない方法と比較して 0.32 mm の改善である。

Accurate extraction of mitral valve shape from clinical tomographic images acquired in patients has proven useful for planning surgical and interventional mitral valve treatments. However, manual extraction of the mitral valve shape is laborious, and the existing automatic extraction methods have not been sufficiently accurate. In this paper, we propose a fully automated method of extracting mitral valve shape from computed tomography (CT) images for the all phases of the cardiac cycle. This method extracts the mitral valve shape based on DenseNet using both the original CT image and the existence probability maps of the mitral valve area inferred by U-Net as input. A total of 1585 CT images from 204 patients with various cardiac diseases including mitral regurgitation (MR) were collected and manually annotated for mitral valve region. The proposed method was trained and evaluated by 10-fold cross validation using the collected data and was compared with the method without the existence probability maps. The mean error of shape extraction error in the proposed method is 0.88 mm, which is an improvement of 0.32 mm compared with the method without the existence probability maps.
翻訳日:2023-05-22 18:26:59 公開日:2023-05-19
# 自由の計算アーキテクチャに向けて : メタバースにおける仮想アーキテクチャ生成のためのディープラーニングに関する包括的調査

Towards Computational Architecture of Liberty: A Comprehensive Survey on Deep Learning for Generating Virtual Architecture in the Metaverse ( http://arxiv.org/abs/2305.00510v2 )

ライセンス: Link先を確認
Anqi Wang, Jiahua Dong, Jiachuan Shen, Lik-Hang Lee, Pan Hui(参考訳) ディープラーニングを利用した3次元形状生成技術は,コンピュータビジョンとアーキテクチャ設計の両方から注目を集めている。 本調査は,3次元オブジェクト生成における最新のアプローチを,GAN(Generative Adversarial Networks),VAE(variantal Autoencoder),3D認識画像,拡散モデルなど,深層生成モデル(DGM)と比較することに焦点を当てる。 我々は、仮想環境におけるアーキテクチャの生成可能性の分野をレビューするために、187の論文(2018年から2022年の間に発行された記事の80.7%)について論じる。 本稿では, 建築研究, 仮想環境, 関連技術アプローチの概要と, 離散ボクセル生成の最近の動向, 2次元画像から生成された3Dモデル, 条件パラメータについて概説する。 我々は、さらなる調査に値する3D生成とパラメータ化制御の未調査問題に注目する。 さらに,データ制限,編集可能性,評価指標,人間とコンピュータの相互作用といった4つの研究課題が,コンピュータ支援設計におけるアーキテクチャにおける没入型システムとのユビキタスな相互作用を実現する上で重要であると推測する。

3D shape generation techniques utilizing deep learning are increasing attention from both computer vision and architectural design. This survey focuses on investigating and comparing the current latest approaches to 3D object generation with deep generative models (DGMs), including Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs), 3D-aware images, and diffusion models. We discuss 187 articles (80.7% of articles published between 2018-2022) to review the field of generated possibilities of architecture in virtual environments, limited to the architecture form. We provide an overview of architectural research, virtual environment, and related technical approaches, followed by a review of recent trends in discrete voxel generation, 3D models generated from 2D images, and conditional parameters. We highlight under-explored issues in 3D generation and parameterized control that is worth further investigation. Moreover, we speculate that four research agendas including data limitation, editability, evaluation metrics, and human-computer interaction are important enablers of ubiquitous interaction with immersive systems in architecture for computer-aided design Our work contributes to researchers' understanding of the current potential and future needs of deep learnings in generating virtual architecture.
翻訳日:2023-05-22 18:26:42 公開日:2023-05-19
# 都市空間時間予測の効率化に向けて:統一図書館と性能ベンチマーク

Towards Efficient and Comprehensive Urban Spatial-Temporal Prediction: A Unified Library and Performance Benchmark ( http://arxiv.org/abs/2304.14343v3 )

ライセンス: Link先を確認
Jingyuan Wang, Jiawei Jiang, Wenjun Jiang, Chengkai Han, Wayne Xin Zhao(参考訳) 深層学習技術が進歩し、都市空間時空間データが蓄積するにつれて、都市空間時空間予測問題を解決するための深層学習モデルが増えている。 しかし、既存の分野には、さまざまなフォーマットで、使いづらいオープンソースのデータ、コードとデータをオープンに利用可能にする論文、さまざまなフレームワークやプラットフォームを使用するオープンソースモデルなど、制限があり、比較が難しい。 これらのメソッドを実装し評価するには、標準化されたフレームワークが緊急に必要です。 これらの課題に対処するため、都市空間時空間予測の総合的なレビューを行い、原子ファイルと呼ばれる空間時空間データの統一記憶形式を提案する。 また、libcityは、研究者に信頼できる実験ツールと便利な開発フレームワークを提供するオープンソースライブラリである。 本図書館では,65の空間-時間予測モデルを再現し,55の空間-時間データセットを収集した。 LibCityを用いて、異なるモデルやコンポーネントの有効性を検証する一連の実験を行い、将来有望な技術開発と研究の方向性を時空間予測のために要約した。 公平なモデル比較を可能にし、統一されたデータストレージフォーマットを設計し、新しいモデルの開発プロセスを簡単にすることで、libcityは空間-時間予測分野に大きな貢献をする準備が整っている。

As deep learning technology advances and more urban spatial-temporal data accumulates, an increasing number of deep learning models are being proposed to solve urban spatial-temporal prediction problems. However, there are limitations in the existing field, including open-source data being in various formats and difficult to use, few papers making their code and data openly available, and open-source models often using different frameworks and platforms, making comparisons challenging. A standardized framework is urgently needed to implement and evaluate these methods. To address these issues, we provide a comprehensive review of urban spatial-temporal prediction and propose a unified storage format for spatial-temporal data called atomic files. We also propose LibCity, an open-source library that offers researchers a credible experimental tool and a convenient development framework. In this library, we have reproduced 65 spatial-temporal prediction models and collected 55 spatial-temporal datasets, allowing researchers to conduct comprehensive experiments conveniently. Using LibCity, we conducted a series of experiments to validate the effectiveness of different models and components, and we summarized promising future technology developments and research directions for spatial-temporal prediction. By enabling fair model comparisons, designing a unified data storage format, and simplifying the process of developing new models, LibCity is poised to make significant contributions to the spatial-temporal prediction field.
翻訳日:2023-05-22 18:26:15 公開日:2023-05-19
# 説明可能なAIのカテゴリ基盤

Categorical Foundations of Explainable AI ( http://arxiv.org/abs/2304.14094v2 )

ライセンス: Link先を確認
Pietro Barbiero, Stefano Fioravanti, Francesco Giannini, Alberto Tonda, Pietro Lio, Elena Di Lavore(参考訳) 説明可能なAI(XAI)は、安全で信頼性の高いAIシステムに対する人間のニーズに対処することを目的としている。 しかし、多くの調査は、重要なxai概念の数学的形式化が存在しないことを強調している -- 注目すべきことに、まだ正確な定義が欠けている ``\textit{explanation}'' という用語が含まれている。 このギャップを埋めるため,本論文では,カテゴリ理論の十分に資金提供された形式的手法を用いて,キーxai概念と過程の数学的に厳密な定義を初めて提示する。 私たちの分類学的枠組みは (i)既存の学習方法や建築をモデル化する。 (ii)「説明」の語を正式に定義する (iii)xai分類の理論的根拠を定め、 (iv)説明方法の見過ごされた側面をよく分析する。 その結果、私たちの分類学的枠組みは、説明可能なAIの健全な理論的基盤に向けた重要なステップであるとして、倫理的かつ安全なAI技術の展開を促進する。

Explainable AI (XAI) aims to address the human need for safe and reliable AI systems. However, numerous surveys emphasize the absence of a sound mathematical formalization of key XAI notions -- remarkably including the term ``\textit{explanation}'' which still lacks a precise definition. To bridge this gap, this paper presents the first mathematically rigorous definitions of key XAI notions and processes, using the well-funded formalism of Category theory. We show that our categorical framework allows to: (i) model existing learning schemes and architectures, (ii) formally define the term ``explanation'', (iii) establish a theoretical basis for XAI taxonomies, and (iv) analyze commonly overlooked aspects of explaining methods. As a consequence, our categorical framework promotes the ethical and secure deployment of AI technologies as it represents a significant step towards a sound theoretical foundation of explainable AI.
翻訳日:2023-05-22 18:25:43 公開日:2023-05-19
# GSB:限られたトレーニングサンプルを用いたビジョントランスのためのグループ重ね合わせ二元化

GSB: Group Superposition Binarization for Vision Transformer with Limited Training Samples ( http://arxiv.org/abs/2305.07931v3 )

ライセンス: Link先を確認
Tian Gao, Cheng-Zhong Xu, Le Zhang, Hui Kong(参考訳) 大量のパラメータの影響を受け、ViTは通常、比較的限られた数のトレーニングサンプルで深刻なオーバーフィット問題に悩まされる。 さらに、ViTは通常、リソース制限されたデバイスへのデプロイメントを制限する重いコンピューティングリソースを必要とする。 モデル圧縮法の一種として、モデル双対化は上記の問題を解決する良い選択である可能性がある。 完全な倍数化法と比較すると、複雑なテンソル乗算を単純なビット単位の2進演算に置き換え、全倍数モデルのパラメータとアクティベーションを1ビットのみで表現し、モデルサイズと計算複雑性の問題をそれぞれ解決する。 本稿では,バイナリViTモデルの精度の低下は,アテンションモジュールと値ベクトルの情報損失が主な原因であることを示す。 そこで本研究では,これらの問題に対処するため,GSB(Group Superposition Binarization)と呼ばれる新しいモデルバイナライゼーション手法を提案する。 さらに,二元化モデルの性能をさらに向上させるために,二元化過程における勾配計算手順を調査し,gsbのより適切な勾配計算式を導出し,勾配ミスマッチの影響を低減した。 次に, モデル2値化による性能劣化を緩和するために, 知識蒸留技術を導入する。 限られたトレーニングサンプル数を持つ3つのデータセットの実験では、提案したGSBモデルがバイナリ量子化スキームの最先端性能を実現し、いくつかの指標でその完全精度を上回ることが示されている。

Affected by the massive amount of parameters, ViT usually suffers from serious overfitting problems with a relatively limited number of training samples. In addition, ViT generally demands heavy computing resources, which limit its deployment on resource-constrained devices. As a type of model-compression method,model binarization is potentially a good choice to solve the above problems. Compared with the full-precision one, the model with the binarization method replaces complex tensor multiplication with simple bit-wise binary operations and represents full-precision model parameters and activations with only 1-bit ones, which potentially solves the problem of model size and computational complexity, respectively. In this paper, we find that the decline of the accuracy of the binary ViT model is mainly due to the information loss of the Attention module and the Value vector. Therefore, we propose a novel model binarization technique, called Group Superposition Binarization (GSB), to deal with these issues. Furthermore, in order to further improve the performance of the binarization model, we have investigated the gradient calculation procedure in the binarization process and derived more proper gradient calculation equations for GSB to reduce the influence of gradient mismatch. Then, the knowledge distillation technique is introduced to alleviate the performance degradation caused by model binarization. Experiments on three datasets with limited numbers of training samples demonstrate that the proposed GSB model achieves state-of-the-art performance among the binary quantization schemes and exceeds its full-precision counterpart on some indicators.
翻訳日:2023-05-22 18:17:16 公開日:2023-05-19
# 構造シミュレーションとブリッジ健康モニタリングのためのニューラルオペレータ

Neural operator for structural simulation and bridge health monitoring ( http://arxiv.org/abs/2305.07889v2 )

ライセンス: Link先を確認
Chawit Kaewnuratchadasorn, Jiaji Wang, Chul-Woo Kim(参考訳) 構造工学による深層学習は,前向き問題(構造シミュレーション)と逆問題(構造健康モニタリング)の両方に広く注目されている。 フーリエ・ニューラル・オペレーターに基づいて,橋梁構造のディジタル双対としてvino(vehicle-bridge interaction neural operator)を提案する。 VINOは構造応答場と損傷場のマッピングを学ぶ。 本研究では, 構造初期損傷場のランダム分布を考慮したパラメータ有限要素(FE)シミュレーションにより, VBI-FEデータセットを構築した。 その後、vbi-expデータセットは4つの損傷シナリオで実験的研究を行った。 VINOはVBI-FEによって事前訓練され、VBI-EXPによって正常状態の橋から微調整された後、以下の2つの改善が達成された。 まず、フォワードVINOは、FEモデルよりも正確に損傷場入力から構造応答を予測できる。 第二に、逆VINOはすべてのシナリオにおけるダメージを決定、ローカライズ、定量化し、データ駆動アプローチの実践性を示唆する。

Infusing deep learning with structural engineering has received widespread attention for both forward problems (structural simulation) and inverse problems (structural health monitoring). Based on Fourier Neural Operator, this study proposes VINO (Vehicle-bridge Interaction Neural Operator) to serve as the digital twin of bridge structures. VINO learns mappings between structural response fields and damage fields. In this study, VBI-FE dataset was established by running parametric finite element (FE) simulations considering a random distribution of structural initial damage field. Subsequently, VBI-EXP dataset was produced by conducting an experimental study under four damage scenarios. After VINO was pre-trained by VBI-FE and fine-tuned by VBI-EXP from the bridge at the healthy state, the model achieved the following two improvements. First, forward VINO can predict structural responses from damage field inputs more accurately than the FE model. Second, inverse VINO can determine, localize, and quantify damages in all scenarios, suggesting the practicality of data-driven approaches.
翻訳日:2023-05-22 18:16:49 公開日:2023-05-19
# エネルギーギャップ評価のための資源効率のよい量子古典ハイブリッドアルゴリズム

A resource-efficient quantum-classical hybrid algorithm for energy gap evaluation ( http://arxiv.org/abs/2305.07382v2 )

ライセンス: Link先を確認
Yongdan Yang, Ying Li, Xiaosi Xu, Xiao Yuan(参考訳) ハミルトン h の固有値やエネルギーギャップの推定は、量子多体系の研究に不可欠である。 特に、量子化学、凝縮物質物理学、核物理学における多くの問題は、2つの固有状態の間のエネルギーギャップを研究する。 したがって、エネルギーギャップを効率的に解く方法は、新しい量子アルゴリズムを研究する上で重要な動機となる。 本研究では,モンテカルロ法と実時間ハミルトンシミュレーションを用いて,一般量子多体系のエネルギーギャップを評価するハイブリッドな非偏差量子アルゴリズムを提案する。 従来の手法と比較して,本アルゴリズムはリアルタイム進化の制御を必要とせず,実装を実験的にフレンドリにする。 我々のアルゴリズムは変分的ではないため、「不規則な高原」問題も含まない。 アルゴリズムの効率性を検証するため,古典的エミュレータ上でハイゼンベルクモデルと分子系の数値シミュレーションを行う。

Estimating the eigenvalue or energy gap of a Hamiltonian H is vital for studying quantum many-body systems. Particularly, many of the problems in quantum chemistry, condensed matter physics, and nuclear physics investigate the energy gap between two eigenstates. Hence, how to efficiently solve the energy gap becomes an important motive for researching new quantum algorithms. In this work, we propose a hybrid non-variational quantum algorithm that uses the Monte Carlo method and real-time Hamiltonian simulation to evaluate the energy gap of a general quantum many-body system. Compared to conventional approaches, our algorithm does not require controlled real-time evolution, thus making its implementation much more experimental-friendly. Since our algorithm is non-variational, it is also free from the "barren plateaus" problem. To verify the efficiency of our algorithm, we conduct numerical simulations for the Heisenberg model and molecule systems on a classical emulator.
翻訳日:2023-05-22 18:16:34 公開日:2023-05-19
# t-former:画像インペインティングのための効率的なトランスフォーマー

T-former: An Efficient Transformer for Image Inpainting ( http://arxiv.org/abs/2305.07239v2 )

ライセンス: Link先を確認
Ye Deng, Siqi Hui, Sanping Zhou, Deyu Meng, Jinjun Wang(参考訳) 強力な畳み込みニューラルネットワーク(cnns)の恩恵を受け、学習に基づくイメージインペインティング手法は、長年にわたって大きなブレークスルーを遂げてきた。 しかし、CNNのいくつかの性質(例えば、局所的な事前、空間的に共有されたパラメータ)は、多様で複雑な画像の面における性能を制限している。 近年,自然言語処理や高レベル視覚タスクにおいて,注目度に基づくネットワークアーキテクチャのクラスであるTransformerが注目されている。 CNNと比較して、アテンション演算子は長距離モデリングに優れ、動的重みを持つが、その計算複雑性は空間分解能において二次的であり、画像のインペイントのような高解像度画像を含むアプリケーションには適さない。 本稿では,テイラー展開による分解能に関連する新しい注意を線形に設計する。 この点を踏まえると、$T$-formerと呼ばれるネットワークは画像のインペイント用に設計されている。 いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。 コードは \href{https://github.com/dengyecode/T-former_image_inpainting}{github.com/dengyecode/T-former\_image\_inpainting} で見ることができる。

Benefiting from powerful convolutional neural networks (CNNs), learning-based image inpainting methods have made significant breakthroughs over the years. However, some nature of CNNs (e.g. local prior, spatially shared parameters) limit the performance in the face of broken images with diverse and complex forms. Recently, a class of attention-based network architectures, called transformer, has shown significant performance on natural language processing fields and high-level vision tasks. Compared with CNNs, attention operators are better at long-range modeling and have dynamic weights, but their computational complexity is quadratic in spatial resolution, and thus less suitable for applications involving higher resolution images, such as image inpainting. In this paper, we design a novel attention linearly related to the resolution according to Taylor expansion. And based on this attention, a network called $T$-former is designed for image inpainting. Experiments on several benchmark datasets demonstrate that our proposed method achieves state-of-the-art accuracy while maintaining a relatively low number of parameters and computational complexity. The code can be found at \href{https://github.com/dengyecode/T-former_image_inpainting}{github.com/dengyecode/T-former\_image\_inpainting}
翻訳日:2023-05-22 18:16:20 公開日:2023-05-19
# エキゾチックなトランスバーサルゲートを持つ量子符号の一家系

A Family of Quantum Codes with Exotic Transversal Gates ( http://arxiv.org/abs/2305.07023v2 )

ライセンス: Link先を確認
Eric Kubischta and Ian Teixeira(参考訳) 近年、二進イコサヘドラル群は、ある畳み込みとともに最も効率的な単量子ユニバーサルゲート集合を形成することが示されている。 これを実現するためには、トランスバーサルゲート群 2,i$ で量子コードを構成する必要があるが、そのようなコードは明示的に証明されていない。 この空白を埋めるには、すべての超越ゲート群 2I$ を持つ新しい量子符号の族を構築する。

Recently it has been shown that the binary icosahedral group $2I$ together with a certain involution forms the most efficient single-qubit universal gate set. In order for this to be viable, one must construct a quantum code with transversal gate group $2I$, however, no such code has ever been demonstrated explicitly. We fill this void by constructing a novel family of quantum codes that all have transversal gate group $2I$.
翻訳日:2023-05-22 18:15:59 公開日:2023-05-19
# 線形および非線形重尾多腕バンディットのクリッピングによる暗黙的正規化予測器

Implicitly normalized forecaster with clipping for linear and non-linear heavy-tailed multi-armed bandits ( http://arxiv.org/abs/2305.06743v2 )

ライセンス: Link先を確認
Yuriy Dorn and Nikita Kornilov and Nikolay Kutuzov and Alexander Nazin and Eduard Gorbunov and Alexander Gasnikov(参考訳) Implicitly Normalized Forecaster (INF)アルゴリズムは、敵対的マルチアームバンディット(MAB)問題に対する最適解であると考えられている。 しかし、INFの既存の複雑さの結果のほとんどは、有界報酬のような制限的な仮定に依存している。 近年,逆向きと確率的重み付きMAB設定の両方で機能する関連アルゴリズムが提案されている。 しかし、このアルゴリズムは利用可能なデータを完全に活用できない。 本稿では,重み付き報酬分布を持つMAB問題に対するクリッピング (INF-clip) を用いた INF の新バージョンである Implicitly Normalized Forecaster を提案する。 報奨分布の軽度な仮定の下で収束結果を確立し, INF-clip が線形重み付き確率MAB問題に最適であることを示す。 さらに,inf-clipは両世界の最良のアルゴリズムよりも優れており,両腕の区別が困難である。

The Implicitly Normalized Forecaster (INF) algorithm is considered to be an optimal solution for adversarial multi-armed bandit (MAB) problems. However, most of the existing complexity results for INF rely on restrictive assumptions, such as bounded rewards. Recently, a related algorithm was proposed that works for both adversarial and stochastic heavy-tailed MAB settings. However, this algorithm fails to fully exploit the available data. In this paper, we propose a new version of INF called the Implicitly Normalized Forecaster with clipping (INF-clip) for MAB problems with heavy-tailed reward distributions. We establish convergence results under mild assumptions on the rewards distribution and demonstrate that INF-clip is optimal for linear heavy-tailed stochastic MAB problems and works well for non-linear ones. Furthermore, we show that INF-clip outperforms the best-of-both-worlds algorithm in cases where it is difficult to distinguish between different arms.
翻訳日:2023-05-22 18:15:51 公開日:2023-05-19
# FactKG:知識グラフの推論によるFact Verification

FactKG: Fact Verification via Reasoning on Knowledge Graphs ( http://arxiv.org/abs/2305.06590v2 )

ライセンス: Link先を確認
Jiho Kim, Sungjin Park, Yeonsu Kwon, Yohan Jo, James Thorne, Edward Choi(参考訳) 現実世界の応用では、知識グラフ(KG)は様々な領域(医学的応用や対話エージェントなど)で広く使われている。 しかし、事実検証のため、KGは知識源として適切に利用されていない。 kgsはその信頼性と幅広い適用性のため、事実検証において貴重な知識ソースとなり得る。 KGはノードとエッジで構成されており、概念がどのようにリンクされているかを明確にし、マシンがトピックの連鎖を推論できるようにする。 しかし、これらの機械可読の概念がいかにしてテキストで情報にマップするかを理解するには多くの課題がある。 コミュニティがKGをより使いやすくするために、知識グラフの推論によるFactKG: Fact Verificationという新しいデータセットを紹介します。 108kの自然言語クレームと5種類の推論(one-hop, conjunction, presence, multi-hop, negation)からなる。 さらに、FactKGには、口語スタイルの主張や実践性を高めるための書体スタイルの主張など、さまざまな言語パターンが含まれている。 最後に,これらの推論型をベースラインとしてFactKGを解析する手法を提案する。 我々は、FactKGがKGに基づく事実検証の信頼性と実用性の両方を向上できると考えている。

In real world applications, knowledge graphs (KG) are widely used in various domains (e.g. medical applications and dialogue agents). However, for fact verification, KGs have not been adequately utilized as a knowledge source. KGs can be a valuable knowledge source in fact verification due to their reliability and broad applicability. A KG consists of nodes and edges which makes it clear how concepts are linked together, allowing machines to reason over chains of topics. However, there are many challenges in understanding how these machine-readable concepts map to information in text. To enable the community to better use KGs, we introduce a new dataset, FactKG: Fact Verification via Reasoning on Knowledge Graphs. It consists of 108k natural language claims with five types of reasoning: One-hop, Conjunction, Existence, Multi-hop, and Negation. Furthermore, FactKG contains various linguistic patterns, including colloquial style claims as well as written style claims to increase practicality. Lastly, we develop a baseline approach and analyze FactKG over these reasoning types. We believe FactKG can advance both reliability and practicality in KG-based fact verification.
翻訳日:2023-05-22 18:15:33 公開日:2023-05-19
# 精密勾配バックプロパゲーションを用いたsnn最適化ダウンサンプリングによるトランスベーススパイクニューラルネットワークの性能向上

Enhancing the Performance of Transformer-based Spiking Neural Networks by SNN-optimized Downsampling with Precise Gradient Backpropagation ( http://arxiv.org/abs/2305.05954v3 )

ライセンス: Link先を確認
Chenlin Zhou, Han Zhang, Zhaokun Zhou, Liutao Yu, Zhengyu Ma, Huihui Zhou, Xiaopeng Fan, Yonghong Tian(参考訳) 近年、低消費電力、生物学的合理性、事象駆動性などにより、ディープスパイクニューラルネットワーク(SNN)が注目されている。 しかし、現在最先端の深層SNN(SpikformerやSpikeformerなど)は、不正確な勾配のバックプロパゲーションに関連する重大な課題に悩まされている。 この問題は、これらのネットワークにおけるダウンサンプリングモジュールの不適切な設計から生じ、全体のモデル性能を著しく損なう。 本稿では,SNN最適化ダウンサンプリングであるConvBN-MaxPooling-LIF(CML)を提案する。 我々はCMLが理論的観点からの勾配逆伝播の精度を効果的に克服できることを証明した。 さらに、ImageNet, CIFAR10, CIFAR100, CIFAR10-DVS, DVS128-Gestureデータセット上でCMLを評価し、Spikeformerと比較して大幅に性能が向上したこれらのデータセットの最先端性能を示す。 例えば、私たちのモデルはImageNetで77.64$\%、CIFAR10で96.04$\%、CIFAR10-DVSで81.4$\%、ImageNetで+1.79$\%、CIFAR100で+1.16$\%である。

Deep spiking neural networks (SNNs) have drawn much attention in recent years because of their low power consumption, biological rationality and event-driven property. However, state-of-the-art deep SNNs (including Spikformer and Spikingformer) suffer from a critical challenge related to the imprecise gradient backpropagation. This problem arises from the improper design of downsampling modules in these networks, and greatly hampering the overall model performance. In this paper, we propose ConvBN-MaxPooling-LIF (CML), an SNN-optimized downsampling with precise gradient backpropagation. We prove that CML can effectively overcome the imprecision of gradient backpropagation from a theoretical perspective. In addition, we evaluate CML on ImageNet, CIFAR10, CIFAR100, CIFAR10-DVS, DVS128-Gesture datasets, and show state-of-the-art performance on all these datasets with significantly enhanced performances compared with Spikingformer. For instance, our model achieves 77.64 $\%$ on ImageNet, 96.04 $\%$ on CIFAR10, 81.4$\%$ on CIFAR10-DVS, with + 1.79$\%$ on ImageNet, +1.16$\%$ on CIFAR100 compared with Spikingformer.
翻訳日:2023-05-22 18:15:15 公開日:2023-05-19
# 分散多目的意思決定

Distributional Multi-Objective Decision Making ( http://arxiv.org/abs/2305.05560v2 )

ライセンス: Link先を確認
Willem R\"opke, Conor F. Hayes, Patrick Mannion, Enda Howley, Ann Now\'e and Diederik M. Roijers(参考訳) 矛盾する目的を持つシナリオにおける効果的な意思決定支援のために、潜在的に最適な解決策のセットを意思決定者に提示することができる。 これらの集合が持つべきポリシーと、そのような集合を効率的に計算する方法を考察する。 このことを念頭に配当的アプローチをとり,政策の帰納分布に関する新たな支配基準を導入する。 この基準に基づき、分布的非支配集合を示し、パレートフロントで無視されている最適ポリシーを含むことを示す。 さらに, 凸分布型非支配集合を提案し, 多変量リスク回避意思決定者に期待できる有用性を最大化するすべての方針を含むことを証明した。 本稿では,分布非支配集合を学習し,その集合を凸分布非支配集合に還元するためのプランニング演算子をさらに貢献する新しいアルゴリズムを提案する。 実験を通じて,これらの手法の有効性と効果を実証し,実世界問題における意思決定支援の新たなアプローチとして有用であることを示す。

For effective decision support in scenarios with conflicting objectives, sets of potentially optimal solutions can be presented to the decision maker. We explore both what policies these sets should contain and how such sets can be computed efficiently. With this in mind, we take a distributional approach and introduce a novel dominance criterion relating return distributions of policies directly. Based on this criterion, we present the distributional undominated set and show that it contains optimal policies otherwise ignored by the Pareto front. In addition, we propose the convex distributional undominated set and prove that it comprises all policies that maximise expected utility for multivariate risk-averse decision makers. We propose a novel algorithm to learn the distributional undominated set and further contribute pruning operators to reduce the set to the convex distributional undominated set. Through experiments, we demonstrate the feasibility and effectiveness of these methods, making this a valuable new approach for decision support in real-world problems.
翻訳日:2023-05-22 18:14:48 公開日:2023-05-19
# NISQはどこへ向かっていますか。

Where are we heading with NISQ? ( http://arxiv.org/abs/2305.09518v2 )

ライセンス: Link先を確認
Olivier Ezratty(参考訳) 2017年、ジョン・プレスキル(John Preskill)は、NISQ(Noisy Intermediate Scale Quantum)コンピュータを大規模なエラー修正故障耐性量子コンピュータ(FTQC)への中間ステップとして定義した。 NISQレシエーションは、従来のスーパーコンピュータよりも高速な商用価値の実際の問題を解決する可能性を持つノイズの多い量子コンピュータに対応している。 5年以上経った今、状況を見直すのがよい時期だ。 量子ハードウェアとアルゴリズム、そして最近の多くの実験的なデモで急速に進歩している一方で、NISQの当初の定義に合致したユースケースの実装は成功していない。 本稿は, NISQアルゴリズムの空間, 忠実度, 時間的資源について検討し, NISQ要求と現実, 将来の量子ハードウェア機能との矛盾点を強調した。 次に、量子ビットフィデリティの改善、様々な種類の量子エラー緩和方法、アナログ/デジタルハイブリッド化、マルチモード光子のような特定の量子ビットタイプ、および量子アンネラやアナログ量子コンピュータ(量子シミュレータやプログラム可能なハミルトンシミュレータ)など、有用なアプリケーションを提供するのに近づきつつある。 これらのさまざまなソリューションのすべての制約を考えると、nisqシステムの実用的なユースケースを期待することは可能だが、さまざまなスケーリング問題が現れる前には、非常に狭いウィンドウがある。 将来的には、nisqがftqcへの道の中間的なステップであるとは限らない、というシナリオを想定できる。 その代わり、両者は異なる要求によって異なる経路に沿って発展する可能性がある。 このことは、将来の量子コンピュータ設計において、量子ビットスケールと量子ビットフィリティの間のトレードオフについて重要な疑問を提起する。

In 2017, John Preskill defined Noisy Intermediate Scale Quantum (NISQ) computers as an intermediate step on the road to large scale error corrected fault-tolerant quantum computers (FTQC). The NISQ regime corresponds to noisy qubit quantum computers with the potential to solve actual problems of some commercial value faster than conventional supercomputers, or consuming less energy. Over five years on, it is a good time to review the situation. While rapid progress is being made with quantum hardware and algorithms, and many recent experimental demonstrations, no one has yet successfully implemented a use case matching the original definition of the NISQ regime. This paper investigates the space, fidelity and time resources of various NISQ algorithms and highlights several contradictions between NISQ requirements and actual as well as future quantum hardware capabilities. It then covers various techniques which could help like qubit fidelities improvements, various breeds of quantum error mitigation methods, analog/digital hybridization, using specific qubit types like multimode photons as well as quantum annealers and analog quantum computers (aka quantum simulators or programmable Hamiltonian simulators) which seem closer to delivering useful applications although they have their own mid to longer-term scalability challenges. Given all the constraints of these various solutions, it seems possible to expect some practical use cases for NISQ systems, but with a very narrow window before various scaling issues show up. Turning to the future, a scenario can be envisioned where NISQ will not necessarily be an intermediate step on the road to FTQC. Instead, the two may develop along different paths, due to their different requirements. This leaves open a key question on the trade-offs that may be necessary to make between qubit scale and qubit fidelities in future quantum computers designs.
翻訳日:2023-05-22 18:08:39 公開日:2023-05-19
# AR拡散:テキスト生成のための自己回帰拡散モデル

AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation ( http://arxiv.org/abs/2305.09515v2 )

ライセンス: Link先を確認
Tong Wu, Zhihao Fan, Xiao Liu, Yeyun Gong, Yelong Shen, Jian Jiao, Hai-Tao Zheng, Juntao Li, Zhongyu Wei, Jian Guo, Nan Duan, Weizhu Chen(参考訳) 拡散モデルはその優れた性能のために画像生成の分野で大きな注目を集めている。 彼らの成功は、シーケンス内のすべてのトークンを同時生成することで、最近テキスト生成に拡大された。 しかし、自然言語は画像と比較してはるかに顕著な依存性を示しており、既存の言語モデルは左から右への自己回帰アプローチで訓練されている。 自然言語の固有な逐次特性を考慮し,自己回帰拡散(AR-Diffusion)を導入する。 AR拡散(AR-Diffusion)は、右のトークンの生成が左の生成されたトークンに依存することを保証します。 この結果、左のトークンは右のトークンよりもデノイングステップが少ないため、より早く生成でき、その後右のトークンの生成に影響を与える。 テキスト要約、機械翻訳、常識生成を含む様々なテキスト生成タスクに関する一連の実験で、ar-diffusionは既存の拡散言語モデルよりも優れていることを明確に証明し、同等の結果を得るには100\times\sim600\times$であることを示した。 私たちのコードはhttps://github.com/microsoft/ProphetNet/tree/master/AR-diffusionで利用可能です。

Diffusion models have gained significant attention in the realm of image generation due to their exceptional performance. Their success has been recently expanded to text generation via generating all tokens within a sequence concurrently. However, natural language exhibits a far more pronounced sequential dependency in comparison to images, and the majority of existing language models are trained with a left-to-right auto-regressive approach. To account for the inherent sequential characteristic of natural language, we introduce Auto-Regressive Diffusion (AR-Diffusion). AR-Diffusion ensures that the generation of tokens on the right depends on the generated ones on the left, a mechanism achieved through employing a dynamic number of denoising steps that vary based on token position. This results in tokens on the left undergoing fewer denoising steps than those on the right, thereby enabling them to generate earlier and subsequently influence the generation of tokens on the right. In a series of experiments on various text generation tasks, including text summarization, machine translation, and common sense generation, AR-Diffusion clearly demonstrated its superiority over existing diffusion language models and that it can be $100\times\sim600\times$ faster when achieving comparable results. Our code is available at https://github.com/microsoft/ProphetNet/tree/master/AR-diffusion.
翻訳日:2023-05-22 18:08:08 公開日:2023-05-19
# 情報抽出のための難易度学習

Easy-to-Hard Learning for Information Extraction ( http://arxiv.org/abs/2305.09193v2 )

ライセンス: Link先を確認
Chang Gao, Wenxuan Zhang, Wai Lam, Lidong Bing(参考訳) 情報抽出(ie)システムは、非構造化テキストから名前付きエンティティ、エンティティ間の関係、イベントなどの構造化情報を自動的に抽出することを目的としている。 既存の作業の多くは特定のIEタスクに対処するが、様々なIEタスクを1つのモデルで普遍的にモデル化することは、最近大きな成功を収めている。 その成功にもかかわらず、彼らは1段階の学習戦略、すなわち、人間の学習プロセスと矛盾する入力テキストが与えられた対象構造を抽出するために直接学習する。 本稿では,人間学習過程を模倣したieの3段階,すなわち,簡単なステージ,難しいステージ,そしてメインステージからなる統一的なハードな学習フレームワークを提案する。 学習プロセスを複数の段階に分割することで,一般のIEタスク知識の獲得と一般化能力の向上が促進される。 4つのIEタスクにわたる大規模な実験は、我々のフレームワークの有効性を示す。 17のデータセットのうち13で最新の結果を得る。 我々のコードは \url{https://github.com/DAMO-NLP-SG/IE-E2H} で入手できる。

Information extraction (IE) systems aim to automatically extract structured information, such as named entities, relations between entities, and events, from unstructured texts. While most existing work addresses a particular IE task, universally modeling various IE tasks with one model has achieved great success recently. Despite their success, they employ a one-stage learning strategy, i.e., directly learning to extract the target structure given the input text, which contradicts the human learning process. In this paper, we propose a unified easy-to-hard learning framework consisting of three stages, i.e., the easy stage, the hard stage, and the main stage, for IE by mimicking the human learning process. By breaking down the learning process into multiple stages, our framework facilitates the model to acquire general IE task knowledge and improve its generalization ability. Extensive experiments across four IE tasks demonstrate the effectiveness of our framework. We achieve new state-of-the-art results on 13 out of 17 datasets. Our code is available at \url{https://github.com/DAMO-NLP-SG/IE-E2H}.
翻訳日:2023-05-22 18:07:47 公開日:2023-05-19
# スキーマ適応型知識グラフ構築

Schema-adaptable Knowledge Graph Construction ( http://arxiv.org/abs/2305.08703v2 )

ライセンス: Link先を確認
Hongbin Ye, Honghao Gui, Xin Xu, Huajun Chen, Ningyu Zhang(参考訳) 従来の知識グラフ構築(KGC)アプローチは、通常、事前定義されたスキーマの閉じたセットで静的情報抽出パラダイムに従う。 その結果、動的なシナリオやドメインに適用した場合、このようなアプローチは短くなりますが、新しいタイプの知識が生まれます。 これは、KGCの情報を取り出すために、進化するスキーマを自動で処理できるシステムを必要とする。 そこで本研究では,動的に変化するスキーマグラフに基づくエンティティ,関係,イベントの連続抽出を目的とした,スキーマ対応型kgcという新たなタスクを提案する。 まず、ベンチマークを構築するための3つの原則、すなわち水平スキーマ拡張、垂直スキーマ拡張、ハイブリッドスキーマ拡張に基づいて既存のデータセットを分割、変換し、その後、Text2Event、TANL、UIE、GPT-3.5といったよく知られたアプローチのスキーマ適応性能を調査した。 我々はさらに,スキーマ拡張型プレフィックスインストラクタとスキーマ条件付き動的デコードを含むadakgcと呼ばれる単純かつ効果的なベースラインを提案する。 総合的な実験結果から、AdaKGCはベースラインより優れているが、改善の余地があることが示された。 提案された作業がコミュニティに利益をもたらすことを願っています。 コードとデータセットはhttps://github.com/zjunlp/AdaKGCで入手できる。

Conventional Knowledge Graph Construction (KGC) approaches typically follow the static information extraction paradigm with a closed set of pre-defined schema. As a result, such approaches fall short when applied to dynamic scenarios or domains, whereas a new type of knowledge emerges. This necessitates a system that can handle evolving schema automatically to extract information for KGC. To address this need, we propose a new task called schema-adaptable KGC, which aims to continually extract entity, relation, and event based on a dynamically changing schema graph without re-training. We first split and convert existing datasets based on three principles to build a benchmark, i.e., horizontal schema expansion, vertical schema expansion, and hybrid schema expansion; then investigate the schema-adaptable performance of several well-known approaches such as Text2Event, TANL, UIE and GPT-3.5. We further propose a simple yet effective baseline dubbed AdaKGC, which contains schema-enriched prefix instructor and schema-conditioned dynamic decoding to better handle evolving schema. Comprehensive experimental results illustrate that AdaKGC can outperform baselines but still have room for improvement. We hope the proposed work can deliver benefits to the community. Code and datasets will be available in https://github.com/zjunlp/AdaKGC.
翻訳日:2023-05-22 18:07:31 公開日:2023-05-19
# 弱教師付き意味セグメンテーションのためのマスキング協調コントラスト

Masked Collaborative Contrast for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2305.08491v2 )

ライセンス: Link先を確認
Fangwen Wu, Jingxuan He, Lechao Cheng, Yufei Yin, Yanbin Hao, Gang Huang(参考訳) 本研究では,弱教師付きセマンティックセマンティックセグメンテーションにおける意味領域を強調するため,Masked Collaborative Contrast (MCC) を提案する。 MCCはマスク付き画像モデリングやコントラスト学習の概念を巧みに取り入れて、意味論的に関連する領域にキーを割り当てるTransformerブロックを考案している。 マスク生成時に入力画像のパッチ領域を直接消去する一般的な手法とは異なり,アフィニティ行列のキーを考慮したマスクを探索することにより,パッチトークンの近傍関係を精査する。 さらに,マスキングローカルアウトプットを活用し,グローバルアウトプットと対比することにより,対照学習において正負のサンプルを生成する。 一般的に使用されるデータセットに関する実験により、提案されたMCCメカニズムが画像内のグローバルとローカルの視点を効果的に整合させ、印象的なパフォーマンスを実現することが証明された。 ソースコードは \url{https://github.com/fwu11/MCC} で入手できる。

This study introduces an efficacious approach, Masked Collaborative Contrast (MCC), to emphasize semantic regions in weakly supervised semantic segmentation. MCC adroitly incorporates concepts from masked image modeling and contrastive learning to devise Transformer blocks that induce keys to contract towards semantically pertinent regions. Unlike prevalent techniques that directly eradicate patch regions in the input image when generating masks, we scrutinize the neighborhood relations of patch tokens by exploring masks considering keys on the affinity matrix. Moreover, we generate positive and negative samples in contrastive learning by utilizing the masked local output and contrasting it with the global output. Elaborate experiments on commonly employed datasets evidences that the proposed MCC mechanism effectively aligns global and local perspectives within the image, attaining impressive performance. The source code is available at \url{https://github.com/fwu11/MCC}.
翻訳日:2023-05-22 18:07:08 公開日:2023-05-19
# 視覚・他領域のセグメンテーションモデルに関する総合的調査

A Comprehensive Survey on Segment Anything Model for Vision and Beyond ( http://arxiv.org/abs/2305.08196v2 )

ライセンス: Link先を確認
Chunhui Zhang, Li Liu, Yawen Cui, Guanjie Huang, Weilin Lin, Yiqian Yang, Yuehong Hu(参考訳) 人工知能(AI)は、AIシステムが幅広いタスクを実行し、人間のものと似たレベルの知性を示す能力を指す人工知能へと進化している。 これは、特定のタスクを高い効率で実行するように設計された、狭いあるいは特殊なAIとは対照的である。 したがって、様々な下流タスクに適応可能な幅広いデータに基づいて訓練された基礎モデルと呼ばれる、一般的なモデルのクラスを設計することが急務である。 最近提案されたセグメンテーションモデル (SAM) は、セグメンテーションの境界を画定し、コンピュータビジョンの基礎モデルの開発を大いに促進している。 SAMを完全に理解するために,我々は調査研究を行う。 ビジョンのためのタスクのセグメンテーションの進捗を、samの基礎モデルに基づいて包括的にレビューするため、本研究は、その歴史的発展、最近の進歩、幅広いアプリケーションへの深い影響について議論することで、様々なタスクやデータタイプへの応用に焦点を当てている。 まず、SAMを含む基礎モデルの背景と用語、およびタスクのセグメンテーションに重要なSAMと同等の最先端の手法について紹介する。 そして,ソフトウェアシーン,現実世界シーン,複雑なシーンなど,様々な画像処理アプリケーションにおけるSAMの利点と限界を分析し,要約する。 重要なことは、将来の研究をガイドして、より汎用的な基礎モデルを開発し、SAMのアーキテクチャを改善するために多くの洞察が導かれることである。 また、SAMの視覚およびそれ以上の素晴らしい応用についてもまとめています。 最後に、継続的に更新されたペーパーリストと foundation model samのオープンソースプロジェクトサマリを、 \href{https://github.com/liliu-avril/awesome-segment-anything}{\color{magenta}{here}}で維持する。

Artificial intelligence (AI) is evolving towards artificial general intelligence, which refers to the ability of an AI system to perform a wide range of tasks and exhibit a level of intelligence similar to that of a human being. This is in contrast to narrow or specialized AI, which is designed to perform specific tasks with a high degree of efficiency. Therefore, it is urgent to design a general class of models, which we term foundation models, trained on broad data that can be adapted to various downstream tasks. The recently proposed segment anything model (SAM) has made significant progress in breaking the boundaries of segmentation, greatly promoting the development of foundation models for computer vision. To fully comprehend SAM, we conduct a survey study. As the first to comprehensively review the progress of segmenting anything task for vision and beyond based on the foundation model of SAM, this work focuses on its applications to various tasks and data types by discussing its historical development, recent progress, and profound impact on broad applications. We first introduce the background and terminology for foundation models including SAM, as well as state-of-the-art methods contemporaneous with SAM that are significant for segmenting anything task. Then, we analyze and summarize the advantages and limitations of SAM across various image processing applications, including software scenes, real-world scenes, and complex scenes. Importantly, many insights are drawn to guide future research to develop more versatile foundation models and improve the architecture of SAM. We also summarize massive other amazing applications of SAM in vision and beyond. Finally, we maintain a continuously updated paper list and an open-source project summary for foundation model SAM at \href{https://github.com/liliu-avril/Awesome-Segment-Anything}{\color{magenta}{here}}.
翻訳日:2023-05-22 18:06:20 公開日:2023-05-19
# フェデレーション学習におけるフェデレーション評価に関する調査

A Survey of Federated Evaluation in Federated Learning ( http://arxiv.org/abs/2305.08070v2 )

ライセンス: Link先を確認
Behnaz Soltani, Yipeng Zhou, Venus Haghighi, John C.S. Lui(参考訳) 従来の機械学習では、すべてのデータサンプルがサーバによって中央管理されているため、モデル評価を行うのは簡単です。 しかし、モデル評価は、この研究でフェデレーション評価と呼ばれるフェデレーション学習(FL)において難しい問題となっている。 これは、クライアントがデータプライバシを保存するために元のデータを公開しないためです。 フェデレーション評価は、クライアント選択、インセンティブ機構設計、悪意のある攻撃検出などにおいて重要な役割を果たす。 本稿では,既存のフェデレーション評価手法の包括的調査を初めて実施する。 さらに,FL性能向上のためのフェデレーション評価の様々な応用について検討し,いくつかの課題を想定して今後の研究の方向性を示す。

In traditional machine learning, it is trivial to conduct model evaluation since all data samples are managed centrally by a server. However, model evaluation becomes a challenging problem in federated learning (FL), which is called federated evaluation in this work. This is because clients do not expose their original data to preserve data privacy. Federated evaluation plays a vital role in client selection, incentive mechanism design, malicious attack detection, etc. In this paper, we provide the first comprehensive survey of existing federated evaluation methods. Moreover, we explore various applications of federated evaluation for enhancing FL performance and finally present future research directions by envisioning some challenges.
翻訳日:2023-05-22 18:05:49 公開日:2023-05-19
# ChatGPTと安定拡散を用いたリッチストーリーによるコヒーレントコミックの生成

Generating coherent comic with rich story using ChatGPT and Stable Diffusion ( http://arxiv.org/abs/2305.11067v2 )

ライセンス: Link先を確認
Ze Jin, Zorina Song(参考訳) 過去の研究では、ニューラルネットワークを使うことで、ミュージシャンの音楽スタイルを維持しながら未完成の音楽を拡張できることを示した。 近年の大規模言語モデルや拡散モデルの発展により,アーティストの芸術スタイルを維持しつつ,面白いストーリーラインで漫画を制作することが可能になった。 本稿では,ChatGPTを用いてストーリーラインと対話を生成し,安定拡散を用いて漫画を生成する。 我々は,AI生成ストーリを評価する新しい手法を導入し,LoRAやControlNetなどを用いた安定した拡散を微調整することで,文字の忠実さとアートスタイルのSOTA性能を実現した。

Past work demonstrated that using neural networks, we can extend unfinished music pieces while maintaining the music style of the musician. With recent advancements in large language models and diffusion models, we are now capable of generating comics with an interesting storyline while maintaining the art style of the artist. In this paper, we used ChatGPT to generate storylines and dialogue and then generated the comic using stable diffusion. We introduced a novel way to evaluate AI-generated stories, and we achieved SOTA performance on character fidelity and art style by fine-tuning stable diffusion using LoRA, ControlNet, etc.
翻訳日:2023-05-22 17:56:03 公開日:2023-05-19
# 詳細な実行コストを伴う効率的な量子線形解法アルゴリズム

Efficient quantum linear solver algorithm with detailed running costs ( http://arxiv.org/abs/2305.11352v1 )

ライセンス: Link先を確認
David Jennings, Matteo Lostaglio, Sam Pallister, Andrew T Sornborger, Yi\u{g}it Suba\c{s}{\i}(参考訳) 量子アルゴリズムの物理的実装に向けて進むにつれ、それらを実行するのに必要な明示的なリソースコストを決定することが不可欠である。 方程式の線形系を解くことは、科学の様々な分野にまたがる幅広い応用の基本的な問題であり、量子線形解法アルゴリズムを開発する努力が増えている。 本稿では, adiabatic quantum computing のアイデアと量子信号処理に基づくフィルタリング手法を組み合わせた量子線形解法を提案する。 線形系行列のブロックエンコーディングへの呼び出しの正確な数を、条件番号$\kappa$、エラー許容度$\epsilon$、ブロックエンコーディングスケーリング係数$\alpha$の関数として、非漸近的クエリ複雑性のクローズド式を与える。 我々のプロトコルは、初期実装において、最先端技術に対する量子線形解決器のコストを桁違いに削減する。 asymptotic scaling は$o(\kappa \log(\kappa/\epsilon))$であり、$o(\kappa \log(1/\epsilon))$ costa et al の漸近的最適アルゴリズムのスケーリングよりやや緩やかである。 しかしながら、我々のアルゴリズムは、最大$\kappa \approx 10^{32}$までの条件数に対して後者よりも優れており、その時点では$Q$は可分に大きい。 現在の最適化された解析は問題非依存かつアーキテクチャ非依存であり、従って線形解法をサブルーチンとして使用する任意の量子アルゴリズムにデプロイすることができる。

As we progress towards physical implementation of quantum algorithms it is vital to determine the explicit resource costs needed to run them. Solving linear systems of equations is a fundamental problem with a wide variety of applications across many fields of science, and there is increasing effort to develop quantum linear solver algorithms. Here we introduce a quantum linear solver algorithm combining ideas from adiabatic quantum computing with filtering techniques based on quantum signal processing. We give a closed formula for the non-asymptotic query complexity $Q$ -- the exact number of calls to a block-encoding of the linear system matrix -- as a function of condition number $\kappa$, error tolerance $\epsilon$ and block-encoding scaling factor $\alpha$. Our protocol reduces the cost of quantum linear solvers over state-of-the-art close to an order of magnitude for early implementations. The asymptotic scaling is $O(\kappa \log(\kappa/\epsilon))$, slightly looser than the $O(\kappa \log(1/\epsilon))$ scaling of the asymptotically optimal algorithm of Costa et al. However, our algorithm outperforms the latter for all condition numbers up to $\kappa \approx 10^{32}$, at which point $Q$ is comparably large, and both algorithms are anyway practically unfeasible. The present optimized analysis is both problem-agnostic and architecture-agnostic, and hence can be deployed in any quantum algorithm that uses linear solvers as a subroutine.
翻訳日:2023-05-22 17:02:07 公開日:2023-05-19
# autotrial: 臨床試験設計のための言語モデルプロンプト

AutoTrial: Prompting Language Models for Clinical Trial Design ( http://arxiv.org/abs/2305.11366v1 )

ライセンス: Link先を確認
Zifeng Wang and Cao Xiao and Jimeng Sun(参考訳) 臨床試験は薬物開発に不可欠である。 適切な適格基準(すなわち、患者採用の包含・排除基準)を構築することは、試験の成功に不可欠である。 臨床治験プロトコルの適切な設計は、患者の十分なカバレッジを確保するために、同様の前例試験とその適格基準を検討するべきである。 本稿では,言語モデルを用いた臨床資格基準の設計を支援するAutoTrialという手法を提案する。 1)離散的およびニューラルプロンプトのハイブリッドによる命令下での制御可能な生成、(2)コンテキスト内学習によるスケーラブルな知識の取り込み、(3)アウトプットを理解するための合理性を提供する明示的推論チェーンを可能にする。 70K以上の臨床試験における実験は、AutoTrialが、流動的で一貫性があり、関連する臨床概念をターゲットトライアルに取得する上で高い精度で高品質な基準テキストを生成することを検証する。 提案手法は, パラメータサイズがはるかに小さいため, 人的評価により, GPT-3.5ベースラインに対して約60倍の勝利率を得る。

Clinical trials are critical for drug development. Constructing the appropriate eligibility criteria (i.e., the inclusion/exclusion criteria for patient recruitment) is essential for the trial's success. Proper design of clinical trial protocols should consider similar precedent trials and their eligibility criteria to ensure sufficient patient coverage. In this paper, we present a method named AutoTrial to aid the design of clinical eligibility criteria using language models. It allows (1) controllable generation under instructions via a hybrid of discrete and neural prompting, (2) scalable knowledge incorporation via in-context learning, and (3) explicit reasoning chains to provide rationales for understanding the outputs. Experiments on over 70K clinical trials verify that AutoTrial generates high-quality criteria texts that are fluent and coherent and with high accuracy in capturing the relevant clinical concepts to the target trial. It is noteworthy that our method, with a much smaller parameter size, gains around 60\% winning rate against the GPT-3.5 baselines via human evaluations.
翻訳日:2023-05-22 16:52:51 公開日:2023-05-19
# エゴセントリックビデオアクションセグメンテーションのためのトランスフォーマーバックボーンの強化

Enhancing Transformer Backbone for Egocentric Video Action Segmentation ( http://arxiv.org/abs/2305.11365v1 )

ライセンス: Link先を確認
Sakib Reza, Balaji Sundareshan, Mohsen Moghaddam, Octavia Camps(参考訳) ビデオにおけるエゴセントリックな時間的アクションセグメンテーションは、混合現実、人間の行動分析、ロボット工学といった様々な分野の応用において、コンピュータビジョンにおいて重要なタスクである。 最近の研究は高度な視覚言語フレームワークを活用しているが、トランスフォーマーはアクションセグメンテーションモデルのバックボーンのままである。 したがって,アクションセグメンテーションモデルの堅牢性を高めるためには,トランスフォーマーの改良が必要である。 本稿では,アクションセグメンテーションのための最先端トランスフォーマーを強化するための2つの新しいアイデアを提案する。 まず,局所的・グローバル的・グローバル的両方の階層的表現を適応的に捉えるために,二重拡張注意機構を導入する。 第二に、デコーダとデコーダブロックの相互接続を組み込んで、デコーダによるローカルコンテキストの損失を防止する。 さらに、最先端のビジュアル言語表現学習技術を用いて、トランスフォーマーのよりリッチでコンパクトな特徴を抽出する。 提案手法は,ジョージア工科大学エゴセントリック活動(gtea)およびhoi4dオフィスツールデータセットにおける他の最先端手法よりも優れており,導入したコンポーネントをアブレーション研究で検証する。 ソースコードと補足資料はhttps://www.sail-nu.com/dxformer.comで公開されている。

Egocentric temporal action segmentation in videos is a crucial task in computer vision with applications in various fields such as mixed reality, human behavior analysis, and robotics. Although recent research has utilized advanced visual-language frameworks, transformers remain the backbone of action segmentation models. Therefore, it is necessary to improve transformers to enhance the robustness of action segmentation models. In this work, we propose two novel ideas to enhance the state-of-the-art transformer for action segmentation. First, we introduce a dual dilated attention mechanism to adaptively capture hierarchical representations in both local-to-global and global-to-local contexts. Second, we incorporate cross-connections between the encoder and decoder blocks to prevent the loss of local context by the decoder. Additionally, we utilize state-of-the-art visual-language representation learning techniques to extract richer and more compact features for our transformer. Our proposed approach outperforms other state-of-the-art methods on the Georgia Tech Egocentric Activities (GTEA) and HOI4D Office Tools datasets, and we validate our introduced components with ablation studies. The source code and supplementary materials are publicly available on https://www.sail-nu.com/dxformer.
翻訳日:2023-05-22 16:52:33 公開日:2023-05-19
# 大規模言語モデルによるテキストデータセットの言語多様性の可視化

Visualizing Linguistic Diversity of Text Datasets Synthesized by Large Language Models ( http://arxiv.org/abs/2305.11364v1 )

ライセンス: Link先を確認
Emily Reif, Minsuk Kahng, Savvas Petridis(参考訳) 大規模言語モデル(LLM)は、ベンチマークや微調整、その他のユースケースのための数ショットプロンプトを通じて、より小さくより洗練されたデータセットを生成するために使用することができる。 しかし、これらのデータセットの理解と評価は困難であり、llm生成データの障害モードはまだよく分かっていない。 特に、データは、意味的にだけでなく、構文的にも、語彙的にも、驚くほど反復的です。 LLM生成したデータセットの構文的多様性を理解し解析するための新しい対話型可視化ツールLinguisticLensを提案する。 languagelensは、構文、語彙、セマンティック軸に沿ってテキストをクラスターする。 テキストデータセットの階層的な視覚化をサポートし、ユーザーは概要をすばやくスキャンし、個々の例を検査できる。 ライブデモは shorturl.at/zHOUV で公開されている。

Large language models (LLMs) can be used to generate smaller, more refined datasets via few-shot prompting for benchmarking, fine-tuning or other use cases. However, understanding and evaluating these datasets is difficult, and the failure modes of LLM-generated data are still not well understood. Specifically, the data can be repetitive in surprising ways, not only semantically but also syntactically and lexically. We present LinguisticLens, a novel inter-active visualization tool for making sense of and analyzing syntactic diversity of LLM-generated datasets. LinguisticLens clusters text along syntactic, lexical, and semantic axes. It supports hierarchical visualization of a text dataset, allowing users to quickly scan for an overview and inspect individual examples. The live demo is available at shorturl.at/zHOUV.
翻訳日:2023-05-22 16:52:11 公開日:2023-05-19
# 放射状パワー様ポテンシャル:bohr-sommerfeld $s$-state energiesから正確なエネルギーへ

Radial power-like potentials: from the Bohr-Sommerfeld $S$-state energies to the exact ones ( http://arxiv.org/abs/2305.11363v1 )

ライセンス: Link先を確認
J.C. del Valle, A.V. Turbiner(参考訳) 1次元の場合のボーア・ソマーフェルト(b-s)量子化条件(del valle \& turbiner (2021) [1])の以前の研究に続いて、これをd$-dimensional power-like radial potentialsに拡張した。 $d$-dimensional radial Schr\"odinger 方程式の$S$状態に対する B-S 量子化条件を提案する。 v(r)=r^m$ with $m \in [-1, \infty)$ のパワー様ポテンシャルのスペクトルについて得られた数値結果に基づいて、提案するb-s量子化条件の正しさを様々な次元のd$に対して確立する。 b-s 量子化条件の r.h.s. に {it wkb correction} $\gamma$ (おそらくは高次 wkb 項から来る) を導入すると、正確なエネルギーを再現する "it exact wkb quantization condition} と呼ばれる条件が現れるが、$\gamma$ は常に非常に小さい。 $m=2$(任意の整数$d$)と$m=-1$($d=2$)の場合、WKB補正は$\gamma=0$:$S$の場合、B-Sスペクトルは正確な値と一致する。 線形, 立方体, クォート, セクシュアル振動子の物理的に重要な症例に対するコンクリート計算と, 次元$d=2,3,6$のクーロンおよび対数ポテンシャルについて述べる。 放射状四波無調波発振器は短時間に検討される。

Following our previous study of the Bohr-Sommerfeld (B-S) quantization condition for one-dimensional case (del Valle \& Turbiner (2021) [1], we extend it to $d$-dimensional power-like radial potentials. The B-S quantization condition for $S$-states of the $d$-dimensional radial Schr\"odinger equation is proposed. Based on numerical results obtained for the spectra of power-like potentials, $V(r)=r^m$ with $m \in [-1, \infty)$, the correctness of the proposed B-S quantization condition is established for various dimensions $d$. It is demonstrated that by introducing the {\it WKB correction} $\gamma$ (supposedly coming from the higher order WKB terms) into the r.h.s. of the B-S quantization condition leads to the so-called {\it exact WKB quantization condition}, which reproduces the exact energies, while $\gamma$ remains always very small. For $m=2$ (any integer $d$) and for $m=-1$ (at $d=2$) the WKB correction $\gamma=0$: for $S$ states the B-S spectra coincides with the exact ones. Concrete calculations for physically important cases of linear, cubic, quartic, and sextic oscillators, as well as Coulomb and logarithmic potentials in dimensions $d=2,3,6$ are presented. Radial quartic anharmonic oscillator is considered briefly.
翻訳日:2023-05-22 16:51:59 公開日:2023-05-19
# 個人用オンラインアイテム価格

Differentially Private Online Item Pricing ( http://arxiv.org/abs/2305.11362v1 )

ライセンス: Link先を確認
Joon Suk Huh(参考訳) 本研究は,購入者のプライバシを保ちながら,反復的かつ無制限のサプライアイテムプライシングオークションにおいて,収益の最大化の問題に対処する。 本稿では,購入者の入力ペアに対する差分プライバシーを提供する新しいアルゴリズムであるアイテム選択と入札を提案する。 特に、私たちのアルゴリズムは、プライバシを保証するサブ線形の$O(\sqrt{T}\log{T})を初めて提供する。 提案手法は指数重みメタアルゴリズムに基づいており, ランダムな摂動による収益関数の不連続の問題を緩和する。 指数的メカニズムと構造的類似性から,本手法は本質的に差分プライバシーを確保する。 また、購入者が連続したラウンドに対して戦略的に入札するシナリオに対応するようにアルゴリズムを拡張します。 固有の差分プライバシーは、この設定においてサブ線形後悔を保証するために、最小限の変更でアルゴリズムを適応することができる。

This work addresses the problem of revenue maximization in a repeated, unlimited supply item-pricing auction while preserving buyer privacy. We present a novel algorithm that provides differential privacy with respect to the buyer's input pair: item selection and bid. Notably, our algorithm is the first to offer a sublinear $O(\sqrt{T}\log{T})$ regret with a privacy guarantee. Our method is based on an exponential weights meta-algorithm, and we mitigate the issue of discontinuities in revenue functions via small random perturbations. As a result of its structural similarity to the exponential mechanism, our method inherently secures differential privacy. We also extend our algorithm to accommodate scenarios where buyers strategically bid over successive rounds. The inherent differential privacy allows us to adapt our algorithm with minimal modification to ensure a sublinear regret in this setting.
翻訳日:2023-05-22 16:51:22 公開日:2023-05-19
# ソーシャルネットワークを用いた人口統計のないグループフェアネス

Group fairness without demographics using social networks ( http://arxiv.org/abs/2305.11361v1 )

ライセンス: Link先を確認
David Liu, Virginie Do, Nicolas Usunier, Maximilian Nickel(参考訳) 集団公平は、人種、性別、障害といった繊細な属性に基づく個人の不利な扱いを防ぐ一般的なアプローチである。 しかしながら、離散的なグループ情報へのアクセスに対するグループフェアネスの依存は、特にプライバシー、交叉性、予期せぬバイアスに関して、いくつかの制限と懸念を引き起こす。 本研究では, 属性に依存せず, その代わりに, ソーシャルネットワークのホモフィリーに基づく「グループフリー」なフェアネス尺度を提案する。 この尺度はグループメンバーシップの任意の形態の回復を回避し、ネットワークのホモフィア構造に対する結果の不等式を定義するために個人間のペアワイズな類似性のみを使用するため、グループフリーである。 理論的には、経済不平等文学における加法的分解可能性の概念と相容れないことを示し、また、非感性共役属性の影響を限定して、我々の測度を正当化する。 さらに,分類,情報アクセスの最大化,レコメンダシステムのための公平なアルゴリズムの開発に本手法を適用した。 提案手法は,属性ラベルの知識がなくても保護クラス間の不平等を低減できることを示す。 最後に、実際の環境で適用した場合のアプローチの制限について論じる。

Group fairness is a popular approach to prevent unfavorable treatment of individuals based on sensitive attributes such as race, gender, and disability. However, the reliance of group fairness on access to discrete group information raises several limitations and concerns, especially with regard to privacy, intersectionality, and unforeseen biases. In this work, we propose a "group-free" measure of fairness that does not rely on sensitive attributes and, instead, is based on homophily in social networks, i.e., the common property that individuals sharing similar attributes are more likely to be connected. Our measure is group-free as it avoids recovering any form of group memberships and uses only pairwise similarities between individuals to define inequality in outcomes relative to the homophily structure in the network. We theoretically justify our measure by showing it is commensurate with the notion of additive decomposability in the economic inequality literature and also bound the impact of non-sensitive confounding attributes. Furthermore, we apply our measure to develop fair algorithms for classification, maximizing information access, and recommender systems. Our experimental results show that the proposed approach can reduce inequality among protected classes without knowledge of sensitive attribute labels. We conclude with a discussion of the limitations of our approach when applied in real-world settings.
翻訳日:2023-05-22 16:51:06 公開日:2023-05-19
# パラメータ効率的な音響モデルのための微分プライベートアダプタ

Differentially Private Adapters for Parameter Efficient Acoustic Modeling ( http://arxiv.org/abs/2305.11360v1 )

ライセンス: Link先を確認
Chun-Wei Ho, Chao-Han Huck Yang, Sabato Marco Siniscalchi(参考訳) 本研究では,言語間音声分類器の適応化に差分プライバシ(DP)を保証するパラメータ効率のソリューションを提案する。 完全モデル微調整を伴わないDP保存音声モデリングのための新しい凍結事前学習適応フレームワークについて検討する。 まず,凍結事前学習音響モデルを用いた従来の適応方式に雑音の多い教師学生のアンサンブルを導入し,DPに基づく確率勾配降下(DPSGD)よりも優れた性能を実現する。 次に,凍結事前学習音響モデルの層間に残留アダプタ(RA)を挿入する。 rasは性能低下によりトレーニングコストと時間を大幅に削減する。 オープンアクセス型マルチリンガル音声単語(MLSW)データセットに基づいて,DP保証を保ちながら言語間音声分類器の微調整を行うため,RAを用いて訓練可能なパラメータ数を97.5%削減する。

In this work, we devise a parameter-efficient solution to bring differential privacy (DP) guarantees into adaptation of a cross-lingual speech classifier. We investigate a new frozen pre-trained adaptation framework for DP-preserving speech modeling without full model fine-tuning. First, we introduce a noisy teacher-student ensemble into a conventional adaptation scheme leveraging a frozen pre-trained acoustic model and attain superior performance than DP-based stochastic gradient descent (DPSGD). Next, we insert residual adapters (RA) between layers of the frozen pre-trained acoustic model. The RAs reduce training cost and time significantly with a negligible performance drop. Evaluated on the open-access Multilingual Spoken Words (MLSW) dataset, our solution reduces the number of trainable parameters by 97.5% using the RAs with only a 4% performance drop with respect to fine-tuning the cross-lingual speech classifier while preserving DP guarantees.
翻訳日:2023-05-22 16:50:41 公開日:2023-05-19
# マルチエージェント強化学習を用いた社会ジレンマ解決の世界理解

Understanding the World to Solve Social Dilemmas Using Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2305.11358v1 )

ライセンス: Link先を確認
Manuel Rios, Nicanor Quijano, Luis Felipe Giraldo(参考訳) 社会的ジレンマ(英: social dilemma)とは、個人の集団が相互協力から利益を得ることができるが、相反する利害関係が彼らを妨げる状況である。 この種の状況は人類の最も重要な課題の多くに似ており、協調行動の出現を促進するメカニズムの発見はまだ未解決の問題である。 本稿では,多エージェント強化学習(RL)環境で世界モデルを学習し,社会的ジレンマが発生する環境において共存する自己関心有理的エージェントの行動について検討する。 シミュレーションの結果,社会的ジレンマが生じるシナリオを扱う場合,世界モデルによって支えられたエージェントのグループは,他のテストモデルよりも優れていた。 我々は,世界モデルアーキテクチャを用いて学習のダイナミクスを定性的に評価し,各エージェントの世界モデルが変化する環境と他のエージェントの行動に関する情報をエンコードできることを確認した。 これは、世界モデルが複雑な協調行動の出現を促進し、相互作用するエージェントが環境と社会のダイナミクスの両方を「理解」できることを示す最初の研究である。

Social dilemmas are situations where groups of individuals can benefit from mutual cooperation but conflicting interests impede them from doing so. This type of situations resembles many of humanity's most critical challenges, and discovering mechanisms that facilitate the emergence of cooperative behaviors is still an open problem. In this paper, we study the behavior of self-interested rational agents that learn world models in a multi-agent reinforcement learning (RL) setting and that coexist in environments where social dilemmas can arise. Our simulation results show that groups of agents endowed with world models outperform all the other tested ones when dealing with scenarios where social dilemmas can arise. We exploit the world model architecture to qualitatively assess the learnt dynamics and confirm that each agent's world model is capable to encode information of the behavior of the changing environment and the other agent's actions. This is the first work that shows that world models facilitate the emergence of complex coordinated behaviors that enable interacting agents to ``understand'' both environmental and social dynamics.
翻訳日:2023-05-22 16:50:24 公開日:2023-05-19
# MD3:対話の多次元データセット

MD3: The Multi-Dialect Dataset of Dialogues ( http://arxiv.org/abs/2305.11355v1 )

ライセンス: Link先を確認
Jacob Eisenstein, Vinodkumar Prabhakaran, Clara Rivera, Dorottya Demszky, Devyani Sharma(参考訳) インド、ナイジェリア、米国からの英語を表現した会話音声のデータセットを新たに紹介する。 Multi-Dialect Dataset of Dialogues (MD3)は、参加者に一連の短い情報共有タスクを実行するよう促すことで、オープンエンドの会話音声とタスク指向対話の新たなバランスを打つ。 これは、方言の特徴の表現を阻害する制限的なタスク構造の導入を回避しつつ、定量的な相互弁別比較を容易にする。 データセットの予備解析は、構文と談話マーカーの使用において大きな違いを示す。 このデータセットは、この論文の公開と共に公開され、20時間以上のオーディオと20万以上の正書法で書き起こされたトークンを含んでいる。

We introduce a new dataset of conversational speech representing English from India, Nigeria, and the United States. The Multi-Dialect Dataset of Dialogues (MD3) strikes a new balance between open-ended conversational speech and task-oriented dialogue by prompting participants to perform a series of short information-sharing tasks. This facilitates quantitative cross-dialectal comparison, while avoiding the imposition of a restrictive task structure that might inhibit the expression of dialect features. Preliminary analysis of the dataset reveals significant differences in syntax and in the use of discourse markers. The dataset, which will be made publicly available with the publication of this paper, includes more than 20 hours of audio and more than 200,000 orthographically-transcribed tokens.
翻訳日:2023-05-22 16:50:07 公開日:2023-05-19
# 閉形式解法を用いた不均一処理効果推定のためのメタラーニング

Meta-learning for heterogeneous treatment effect estimation with closed-form solvers ( http://arxiv.org/abs/2305.11353v1 )

ライセンス: Link先を確認
Tomoharu Iwata, Yoichi Chikahara(参考訳) 本稿では,いくつかの観測データから条件平均処理効果(CATE)を推定するメタラーニング手法を提案する。 提案手法は,複数のタスクからCATEを推定する方法を学習し,未知のタスクの知識を利用する。 提案手法では,meta-learnerフレームワークに基づいてcate推定問題を部分問題に分解する。 各サブプロブレムに対して,タスク共有パラメータとタスク固有パラメータを持つニューラルネットワークを用いて推定モデルを定式化する。 定式化により、タスク共有パラメータに対して異なるクローズドな形で最適なタスク固有パラメータを得ることができるため、効果的なメタ学習が可能となる。 タスク共有パラメータは、大量のデータで推定されたCATEと少数のデータで推定されたCATEとの差を最小化することにより、数ショット設定で期待されるCATE推定性能を改善するように訓練される。 実験の結果,提案手法は既存のメタラーニング手法やCATE推定手法よりも優れていることが示された。

This article proposes a meta-learning method for estimating the conditional average treatment effect (CATE) from a few observational data. The proposed method learns how to estimate CATEs from multiple tasks and uses the knowledge for unseen tasks. In the proposed method, based on the meta-learner framework, we decompose the CATE estimation problem into sub-problems. For each sub-problem, we formulate our estimation models using neural networks with task-shared and task-specific parameters. With our formulation, we can obtain optimal task-specific parameters in a closed form that are differentiable with respect to task-shared parameters, making it possible to perform effective meta-learning. The task-shared parameters are trained such that the expected CATE estimation performance in few-shot settings is improved by minimizing the difference between a CATE estimated with a large amount of data and one estimated with just a few data. Our experimental results demonstrate that our method outperforms the existing meta-learning approaches and CATE estimation methods.
翻訳日:2023-05-22 16:49:54 公開日:2023-05-19
# 情報ボトルネック理論の司法

Justices for Information Bottleneck Theory ( http://arxiv.org/abs/2305.11387v1 )

ライセンス: Link先を確認
Faxian Cao, Yongqiang Cheng, Adil Mehmood Khan, Zhijing Yang(参考訳) この研究は、情報ボトルネック(IB)理論に対する批判の高まりに対するタイムリーな反応であり、誤解を是正し、その妥当性を再確認するために新しい視点を注入する。 まず, ib理論の特殊かつ局所的な最適場合として, 最大符号化率低減法を再解釈する補助関数を導入する。 この補助的機能を通じて,深層学習(DL)ネットワークにおけるReLUアクティベーション適用時の相互情報の減少のパラドックスを明らかにする。 第二に、補助関数のレンズを通して見た場合、隠れた層に線形活性化関数を持つ圧縮位相が存在しないことを説明する能力を示すことにより、ib理論の適用性に疑問を呈する。 最後に、新しい理論的なスタンスを採り、IB理論を用いてDLネットワークの内部組織を解釈し、最近の実験的証拠と整合させる新しい方法を提案する。 そこで本論文は,IDB理論の正義の行為として機能し,その立位とDLおよびコミュニケーションや生物医学研究などの分野への応用を活性化する可能性がある。

This study comes as a timely response to mounting criticism of the information bottleneck (IB) theory, injecting fresh perspectives to rectify misconceptions and reaffirm its validity. Firstly, we introduce an auxiliary function to reinterpret the maximal coding rate reduction method as a special yet local optimal case of IB theory. Through this auxiliary function, we clarify the paradox of decreasing mutual information during the application of ReLU activation in deep learning (DL) networks. Secondly, we challenge the doubts about IB theory's applicability by demonstrating its capacity to explain the absence of a compression phase with linear activation functions in hidden layers, when viewed through the lens of the auxiliary function. Lastly, by taking a novel theoretical stance, we provide a new way to interpret the inner organizations of DL networks by using IB theory, aligning them with recent experimental evidence. Thus, this paper serves as an act of justice for IB theory, potentially reinvigorating its standing and application in DL and other fields such as communications and biomedical research.
翻訳日:2023-05-22 16:42:35 公開日:2023-05-19
# 電子健康記録におけるAIモデルの公正性向上--フェデレートラーニング手法を事例として

Improving Fairness in AI Models on Electronic Health Records: The Case for Federated Learning Methods ( http://arxiv.org/abs/2305.11386v1 )

ライセンス: Link先を確認
Raphael Poulain, Mirza Farhan Bin Tarek and Rahmatollah Beheshti(参考訳) 公平性を維持するAIツールの開発は、特に医療などの高度な応用において、非常に重要である。 しかしながら、ヘルスAIモデルの全体的な予測性能は、そのようなモデルが持つ可能性のあるバイアスよりも優先されることが多い。 本研究では,医療機関が連携学習パラダイム(fl;医療現場で一般的な選択である)を通じて協調させることによって,バイアスの懸念を軽減するための1つのアプローチを示す。 フェアネスを重視したflメソッドは以前にも提案されてきたが、その基礎となるモデルとローカル実装技術、および医療領域への応用の可能性については、広く調査されていない。 そこで本研究では,電子健康記録が使用される医療領域において,様々な公平度指標に適合する,敵対的デバイアスと公平なアグリゲーションを用いた包括的flアプローチを提案する。 私たちのアプローチは、最適化プロセスの一部としてバイアスを明示的に緩和するだけでなく、FLベースのパラダイムは、データ不均衡に対処し、データサイズを増やす上でも暗黙的に役立ち、医療アプリケーションに実用的なソリューションを提供します。 大規模実世界のシナリオをシミュレートした複数の実験において,本手法の優れた性能を実証し,複数のベースラインと比較した。 提案手法は,全体的な識別性能(正確性)に最も影響の少ない公平性性能を達成している。

Developing AI tools that preserve fairness is of critical importance, specifically in high-stakes applications such as those in healthcare. However, health AI models' overall prediction performance is often prioritized over the possible biases such models could have. In this study, we show one possible approach to mitigate bias concerns by having healthcare institutions collaborate through a federated learning paradigm (FL; which is a popular choice in healthcare settings). While FL methods with an emphasis on fairness have been previously proposed, their underlying model and local implementation techniques, as well as their possible applications to the healthcare domain remain widely underinvestigated. Therefore, we propose a comprehensive FL approach with adversarial debiasing and a fair aggregation method, suitable to various fairness metrics, in the healthcare domain where electronic health records are used. Not only our approach explicitly mitigates bias as part of the optimization process, but an FL-based paradigm would also implicitly help with addressing data imbalance and increasing the data size, offering a practical solution for healthcare applications. We empirically demonstrate our method's superior performance on multiple experiments simulating large-scale real-world scenarios and compare it to several baselines. Our method has achieved promising fairness performance with the lowest impact on overall discrimination performance (accuracy).
翻訳日:2023-05-22 16:42:16 公開日:2023-05-19
# モデルは本当に指示に従うことを学ぶのか? 命令調律に関する経験的研究

Do Models Really Learn to Follow Instructions? An Empirical Study of Instruction Tuning ( http://arxiv.org/abs/2305.11383v1 )

ライセンス: Link先を確認
Po-Nien Kung and Nanyun Peng(参考訳) 命令チューニング(IT)に関する最近の研究は、目に見えないタスクに対してゼロショットの一般化性で大きな成果を上げている。 微調整のためのモデルに追加のコンテキスト(例えばタスク定義、例)を提供することで、未調整モデルよりもはるかに高いパフォーマンスを実現した。 しかし、優れたパフォーマンス向上にもかかわらず、ITが機能するための基盤となるメカニズムはまだ検討されていない。 本研究は、モデルトレーニングと修正命令の比較により、モデルがIT中にどのようにインストラクションを利用するかを分析する。 具体的には、すべてのセマンティックコンポーネントを削除し、出力空間情報のみを残すことで、単純化されたタスク定義を作成する。 私たちの実験では、単純化されたタスク定義やごまかしの例で訓練されたモデルが、元の命令や例で訓練されたモデルと同等の性能を達成できることを示しました。 さらに,ゼロショット分類タスクを行うためのランダムベースラインを導入し,同様の性能(40%精度)を達成した(48%精度)。 要約すると、我々の分析は、現在のITモデルの印象的なパフォーマンス向上が、出力フォーマットの学習や推測といった表面的なパターンを拾い上げることによってもたらされることを示す。 本研究は,より信頼性の高いIT手法と評価の必要性を強調した。

Recent works on instruction tuning (IT) have achieved great performance with zero-shot generalizability to unseen tasks. With additional context (e.g., task definition, examples) provided to models for fine-tuning, they achieved much higher performance than untuned models. However, despite impressive performance gains, the underlying mechanism for IT to work remains understudied. In this work, we analyze how models utilize instructions during IT by comparing model training with altered vs. original instructions. Specifically, we create simplified task definitions by removing all semantic components and only leaving the output space information, and delusive examples that contain incorrect input-output mapping. Our experiments show that models trained on simplified task definition or delusive examples can achieve comparable performance to the ones trained on the original instructions and examples. Furthermore, we introduce a random baseline to perform zero-shot classification tasks, and find it achieves similar performance (40% accuracy) as IT does (48% accuracy). In summary, our analysis provides evidence that the impressive performance gain of current IT models can come from picking up superficial patterns, such as learning the output format and guessing. Our study highlights the urgent need for more reliable IT methods and evaluation.
翻訳日:2023-05-22 16:41:55 公開日:2023-05-19
# クリエーター経済におけるオンライン学習

Online Learning in a Creator Economy ( http://arxiv.org/abs/2305.11381v1 )

ライセンス: Link先を確認
Banghua Zhu, Sai Praneeth Karimireddy, Jiantao Jiao, Michael I. Jordan(参考訳) クリエーター経済は、オンラインプラットフォームを通じて個人が利益を得る方法に革命をもたらした。 本稿では,創造者経済をユーザ,プラットフォーム,コンテンツクリエーター間の三者間ゲームとしてモデル化することで,創造者経済におけるオンライン学習の研究を開始する。 さらに、プラットフォームはユーザーと対話して、新しいコンテンツを推薦し、評価を受け、最終的にコンテンツから利益を得る。 本研究の目的は,オンライン学習方式の実用性を最大化するために,プラットフォームがコントラクトとレコメンデーションシステムを共同で最適化する方法を検討することである。 主に、リターンベースの契約とフィーチャーベースの契約の2つのファミリーを分析し比較します。 返却ベースの契約は、プラットフォームが得る報酬のごく一部をコンテンツクリエーターに支払う。 対照的に、機能ベースの契約は、プラットフォームが受け取る報酬に関係なく、コンテンツの品質や特徴に基づいてコンテンツクリエーターに支払う。 スムーズな仮定の下では、リターンベースの契約とレコメンデーションポリシーの合同最適化は、後悔する$\Theta(T^{2/3})$を提供する。 特徴に基づく契約について、本質的な次元を$d$と定義し、契約の学習の難しさを特徴づけ、後悔する$\mathcal{O}(T^{(d+1)/(d+2)})$に上限を与える。 上限は線形族に対して厳密である。

The creator economy has revolutionized the way individuals can profit through online platforms. In this paper, we initiate the study of online learning in the creator economy by modeling the creator economy as a three-party game between the users, platform, and content creators, with the platform interacting with the content creator under a principal-agent model through contracts to encourage better content. Additionally, the platform interacts with the users to recommend new content, receive an evaluation, and ultimately profit from the content, which can be modeled as a recommender system. Our study aims to explore how the platform can jointly optimize the contract and recommender system to maximize the utility in an online learning fashion. We primarily analyze and compare two families of contracts: return-based contracts and feature-based contracts. Return-based contracts pay the content creator a fraction of the reward the platform gains. In contrast, feature-based contracts pay the content creator based on the quality or features of the content, regardless of the reward the platform receives. We show that under smoothness assumptions, the joint optimization of return-based contracts and recommendation policy provides a regret $\Theta(T^{2/3})$. For the feature-based contract, we introduce a definition of intrinsic dimension $d$ to characterize the hardness of learning the contract and provide an upper bound on the regret $\mathcal{O}(T^{(d+1)/(d+2)})$. The upper bound is tight for the linear family.
翻訳日:2023-05-22 16:41:36 公開日:2023-05-19
# 非パラメトリックマルコフネットワークのスケーラブル推定のための一般化精度行列

Generalized Precision Matrix for Scalable Estimation of Nonparametric Markov Networks ( http://arxiv.org/abs/2305.11379v1 )

ライセンス: Link先を確認
Yujia Zheng, Ignavier Ng, Yewen Fan, Kun Zhang(参考訳) マルコフネットワークは、確率変数の集合の中で条件独立構造またはマルコフ特性を特徴づける。 既存の研究は分布の特定の族(例えば指数関数的族)とグラフの特定の構造に焦点を当てており、そのほとんどは単一のデータ型(連続的または離散的)の変数しか扱えない。 本研究では,すべてのデータ型(例えば連続型,離散型,混合型)の一般分布における条件付き独立構造を一般化精度行列(gpm)で特徴づける。 さらに,変数間の一般関数関係も可能とし,マルコフネットワーク構造学習アルゴリズムを最も一般的な設定の1つとして提案する。 この問題の計算問題に対処するため、特に大きなグラフでは、正規化スコアマッチングフレームワークと同じ傘の下で全てのケースを統合する。 理論結果を検証し,様々な環境で経験的に拡張性を示す。

A Markov network characterizes the conditional independence structure, or Markov property, among a set of random variables. Existing work focuses on specific families of distributions (e.g., exponential families) and/or certain structures of graphs, and most of them can only handle variables of a single data type (continuous or discrete). In this work, we characterize the conditional independence structure in general distributions for all data types (i.e., continuous, discrete, and mixed-type) with a Generalized Precision Matrix (GPM). Besides, we also allow general functional relations among variables, thus giving rise to a Markov network structure learning algorithm in one of the most general settings. To deal with the computational challenge of the problem, especially for large graphs, we unify all cases under the same umbrella of a regularized score matching framework. We validate the theoretical results and demonstrate the scalability empirically in various settings.
翻訳日:2023-05-22 16:41:11 公開日:2023-05-19
# GraphFC:ラベルスカルシティによる不正検出のカスタム

GraphFC: Customs Fraud Detection with Label Scarcity ( http://arxiv.org/abs/2305.11377v1 )

ライセンス: Link先を確認
Karandeep Singh, Yu-Che Tsai, Cheng-Te Li, Meeyoug Cha, Shou-De Lin(参考訳) 世界中の税関職員が大量の取引に遭遇する。 接続性の向上とグローバル化により、税関取引は毎年増加を続けている。 税関取引に関連するのは税関詐欺であり、税や義務を避けるために商品宣言を意図的に操作することである。 人員が限られているため、税関は限られた数の宣言を手作業で検査できるのみである。 これにより、機械学習(ML)技術による税関不正検出を自動化する必要が生じる。 新しい宣言をラベル付けするための手動検査が限られているため、MLアプローチはラベル付きデータの不足による堅牢なパフォーマンスを持つべきである。 しかし、現在の税関不正検出のアプローチは、この現実世界の設定にはあまり適していない。 本稿では,モデル非依存,ドメイン固有,半教師付きグラフニューラルネットワークに基づく,セミ教師付きかつ帰納的能力を持つカスタムス不正検出アルゴリズムである,$\textbf{graphfc}$ ($\textbf{graph}$ neural networks for $\textbf{c}$ustoms $\textbf{f}$raudを提案する。 最新技術に対するリコールは252%まで増加しており、3つの異なる国の税関管理からの実際の税関データに関する広範囲な実験は、graphfcが一貫して様々な基準値や現在の技術水準を上回っていることを示している。

Custom officials across the world encounter huge volumes of transactions. With increased connectivity and globalization, the customs transactions continue to grow every year. Associated with customs transactions is the customs fraud - the intentional manipulation of goods declarations to avoid the taxes and duties. With limited manpower, the custom offices can only undertake manual inspection of a limited number of declarations. This necessitates the need for automating the customs fraud detection by machine learning (ML) techniques. Due the limited manual inspection for labeling the new-incoming declarations, the ML approach should have robust performance subject to the scarcity of labeled data. However, current approaches for customs fraud detection are not well suited and designed for this real-world setting. In this work, we propose $\textbf{GraphFC}$ ($\textbf{Graph}$ neural networks for $\textbf{C}$ustoms $\textbf{F}$raud), a model-agnostic, domain-specific, semi-supervised graph neural network based customs fraud detection algorithm that has strong semi-supervised and inductive capabilities. With upto 252% relative increase in recall over the present state-of-the-art, extensive experimentation on real customs data from customs administrations of three different countries demonstrate that GraphFC consistently outperforms various baselines and the present state-of-art by a large margin.
翻訳日:2023-05-22 16:40:56 公開日:2023-05-19
# マルチエージェントシステムにおける言語教育と実演のトレードオフ

Characterizing tradeoffs between teaching via language and demonstrations in multi-agent systems ( http://arxiv.org/abs/2305.11374v1 )

ライセンス: Link先を確認
Dhara Yu, Noah D. Goodman, and Jesse Mu(参考訳) 人間は言語とデモンストレーションを通じて世界について他の人に教えます。 これらのモダリティの一方が他方よりも効果的になるのはいつでしょうか? 本研究では,人間のコミュニケーションをモデル化するマルチエージェントシステムを用いて,言語の有効性と実演の効果を調節する要因について検討する。 具体的には,ニューラルネットワークエージェントを訓練して,言語や実演を通じて,基礎的なコミュニケーションタスクで教示し,操作する。 1)タスクの固有の難しさと課題 2)教師の能力。 実演による指導は、最も簡単な設定でより効果的であることがわかったが、タスクの難しさが増すにつれ、言語はより効果的であることが判明した。 全体として、これらの結果は、人間のモダリティを教えることとしての言語と実演のトレードオフの確固たる証拠を提供し、そして、実演は簡単なタスクに最適であり、言語はより困難な環境での一般化を可能にする、という新しい予測を与える。

Humans teach others about the world through language and demonstration. When might one of these modalities be more effective than the other? In this work, we study the factors that modulate the effectiveness of language vs. demonstration using multi-agent systems to model human communication. Specifically, we train neural network agents to teach via language or demonstration in a grounded communication task, manipulating 1) the inherent difficulty of the task and 2) the competence of the teacher. We find that teaching by demonstration is more effective in the simplest settings, but language is more effective as task difficulty increases, due to its ability to generalize more effectively to unseen scenarios. Overall, these results provide converging evidence for a tradeoff between language and demonstration as teaching modalities in humans, and make the novel predictions that demonstration may be optimal for easy tasks, while language enables generalization in more challenging settings.
翻訳日:2023-05-22 16:40:30 公開日:2023-05-19
# シーンテキスト品質評価を用いた深部画像圧縮

Deep Image Compression Using Scene Text Quality Assessment ( http://arxiv.org/abs/2305.11373v1 )

ライセンス: Link先を確認
Shohei Uchigasaki, Tomo Miyazaki, Shinichiro Omachi(参考訳) 画像圧縮はインターネット通信工学の基本技術である。 しかし、一般的な方法で高い圧縮率で画像が劣化し、読めないテキストが得られる。 本稿では,テキスト品質を維持するための画像圧縮手法を提案する。 圧縮画像のテキスト品質を評価するためのシーンテキスト品質評価モデルを開発した。 評価モデルは、高品質テキストを保持するベスト圧縮画像を反復的に検索する。 その結果,提案手法は既存手法よりも優れていることがわかった。 さらに,提案手法は,他のディープラーニング回帰モデルよりも優れていた。

Image compression is a fundamental technology for Internet communication engineering. However, a high compression rate with general methods may degrade images, resulting in unreadable texts. In this paper, we propose an image compression method for maintaining text quality. We developed a scene text image quality assessment model to assess text quality in compressed images. The assessment model iteratively searches for the best-compressed image holding high-quality text. Objective and subjective results showed that the proposed method was superior to existing methods. Furthermore, the proposed assessment model outperformed other deep-learning regression models.
翻訳日:2023-05-22 16:40:15 公開日:2023-05-19
# 静的量子多体傷の周期二重応答への利用

Leveraging static quantum many-body scars into period-doubled responses ( http://arxiv.org/abs/2305.11368v1 )

ライセンス: Link先を確認
Wentai Deng, Zhi-Cheng Yang(参考訳) 本稿では,量子多体傷を負うハミルトニアンを周期的に駆動することで周期二重応答を生成する手法を提案する。 我々の構成は、静的量子スカーレッドハミルトニアンに付随するsu(2)スペクトル生成代数を利用しており、適切に選択された駆動パラメータである期間の進化の後、スカー部分空間内で$\pi$-rotationを実行する。 これにより、スカー部分空間に存在する初期状態の任意の選択に対して、局所観測可能な周期倍(サブハーモニック)応答が得られる。 準エネルギースペクトルは、非定型的な$\pi$-pairedの固有状態が完全に熱スペクトルに埋め込まれており、このプロトコルは大きな駆動周波数や大きな駆動振幅を必要としない。 本研究では,su(2)スペクトル生成代数を持つスピン1/2およびスピン-1量子スカーレッドモデルと,su(2)代数が近似である対称性変形型pxpモデルを用いて,このスキームを実証する。 実験結果は,周期的駆動下での時間結晶挙動を発生させる量子多体傷をホストするモデルのクラスを拡張した。

We propose a scheme that generates period-doubled responses via periodically driving certain Hamiltonians hosting quantum many-body scars, akin to recent experimental observations in driven Rydberg atom arrays. Our construction takes advantage of an su(2) spectrum generating algebra associated with the static quantum-scarred Hamiltonian, which enacts a $\pi$-rotation within the scar subspace after one period of time evolution with appropriately chosen driving parameters. This yields period-doubled (subharmonic) responses in local observables for any choice of initial state residing in the scar subspace. The quasienergy spectrum features atypical $\pi$-paired eigenstates embedded in an otherwise fully thermal spectrum.The protocol requires neither a large driving frequency nor a large driving amplitude, and is thus distinct from the prethermalization physics in previous investigations of the driven PXP model. We demonstrate our scheme using several spin-1/2 and spin-1 quantum scarred models possessing an exact su(2) spectrum generating algebra, as well as a symmetry-deformed PXP model, where the su(2) algebra is only approximate. Our results extend the class of models hosting quantum many-body scars that can be leveraged to yield time-crystalline behaviors under periodic driving.
翻訳日:2023-05-22 16:40:09 公開日:2023-05-19
# 睡眠姿勢と動的活動認識のためのスマート圧力e-mat

Smart Pressure e-Mat for Human Sleeping Posture and Dynamic Activity Recognition ( http://arxiv.org/abs/2305.11367v1 )

ライセンス: Link先を確認
Liangqi Yuan and Yuan Wei and Jia Li(参考訳) 医療、幼児教育、フィットネスに重点が置かれ、非侵襲的な計測と認識方法が注目されている。 圧力センシングは、単純な構造、容易なアクセス、可視化アプリケーション、無害性などの利点により、広く研究されてきた。 本稿では,睡眠姿勢,スポーツ,ヨガ認識などの人体監視用ピエゾ抵抗性材料であるヴェロスタットを用いたスマートプレッシャe-mat(SPeM)システムを提案する。 サブシステムがe-mat読み込みをスキャンして信号を処理すると、圧力画像ストリームを生成する。 ディープニューラルネットワーク(DNN)は、圧力画像ストリームに適合し、トレーニングし、対応する人間の行動を認識するために使用される。 提案するSPeMシステムの予備検証として,Nintendo Switch Ring Fit Adventure (RFA) にインスパイアされた4つの睡眠姿勢と5つの動的活動を用いた。 SPeMシステムは両方のアプリケーションで高い精度を達成し、モデルの精度と一般化能力を示す。 他の圧力センサベースのシステムと比較すると、SPeMはより柔軟なアプリケーションと商用アプリケーションがあり、信頼性があり、堅牢で、繰り返し可能な特性を持っている。

With the emphasis on healthcare, early childhood education, and fitness, non-invasive measurement and recognition methods have received more attention. Pressure sensing has been extensively studied due to its advantages of simple structure, easy access, visualization application, and harmlessness. This paper introduces a smart pressure e-mat (SPeM) system based on a piezoresistive material Velostat for human monitoring applications, including sleeping postures, sports, and yoga recognition. After a subsystem scans e-mat readings and processes the signal, it generates a pressure image stream. Deep neural networks (DNNs) are used to fit and train the pressure image stream and recognize the corresponding human behavior. Four sleeping postures and five dynamic activities inspired by Nintendo Switch Ring Fit Adventure (RFA) are used as a preliminary validation of the proposed SPeM system. The SPeM system achieves high accuracies on both applications, which demonstrates the high accuracy and generalization ability of the models. Compared with other pressure sensor-based systems, SPeM possesses more flexible applications and commercial application prospects, with reliable, robust, and repeatable properties.
翻訳日:2023-05-22 16:39:44 公開日:2023-05-19
# AlignAtt:同時音声翻訳ガイドとしての注意に基づく音声翻訳アライメント

AlignAtt: Using Attention-based Audio-Translation Alignments as a Guide for Simultaneous Speech Translation ( http://arxiv.org/abs/2305.11408v1 )

ライセンス: Link先を確認
Sara Papi, Marco Turchi, Matteo Negri(参考訳) 自然言語処理に今日最も使われているアーキテクチャの中核的なメカニズムは注意であり、機械翻訳関連タスクの有効性を含む多くの観点から分析されてきた。 これらの研究の中で、音声翻訳(ST)タスクのように、入力テキストを音声セグメントに置き換えた場合にも、単語アライメントに関する洞察を得るのに役立つ情報源として注意が向けられた。 本稿では,提案するAlignAttを提案する。このAlignAttは,アテンション情報を利用して推論時にモデルを誘導するソース・ターゲットアライメントを生成する,同時ST(SimulST)のための新しいポリシーである。 8言語対の MuST-C v1.0 の実験により、AlignAtt はオフライン学習モデルに適用された従来の最先端の SimulST ポリシーよりも優れており、BLEU は 2 点のBLEU で、レイテンシは 8 言語で0.5 から0.8 の範囲で減少している。

Attention is the core mechanism of today's most used architectures for natural language processing and has been analyzed from many perspectives, including its effectiveness for machine translation-related tasks. Among these studies, attention resulted to be a useful source of information to get insights about word alignment also when the input text is substituted with audio segments, as in the case of the speech translation (ST) task. In this paper, we propose AlignAtt, a novel policy for simultaneous ST (SimulST) that exploits the attention information to generate source-target alignments that guide the model during inference. Through experiments on the 8 language pairs of MuST-C v1.0, we show that AlignAtt outperforms previous state-of-the-art SimulST policies applied to offline-trained models with gains in terms of BLEU of 2 points and latency reductions ranging from 0.5s to 0.8s across the 8 languages.
翻訳日:2023-05-22 16:34:28 公開日:2023-05-19
# LATTE: 縦断的電子健康記録からのラベル効率の高いインシデント診断

LATTE: Label-efficient Incident Phenotyping from Longitudinal Electronic Health Records ( http://arxiv.org/abs/2305.11407v1 )

ライセンス: Link先を確認
Jun Wen, Jue Hou, Clara-Lea Bonzel, Yihan Zhao, Victor M. Castro, Vivian S. Gainer, Dana Weisenfeld, Tianrun Cai, Yuk-Lam Ho, Vidul A. Panickan, Lauren Costa, Chuan Hong, J. Michael Gaziano, Katherine P. Liao, Junwei Lu, Kelly Cho, Tianxi Cai(参考訳) 電子健康記録(EHR)データは、現実世界のエビデンス(RWE)研究を支援するためにますます利用されている。 しかし、信頼性の高いRWEを生成する能力は、心不全の発症時間などの臨床イベントのタイミングに関する正確な情報が手に入らないために制限されている。 本稿では, LATTEアルゴリズムを用いて, 経時的EHRデータから臨床イベントのタイミングを正確にアノテートする手法を提案する。 大規模EHRデータからの事前学習されたセマンティック埋め込みベクトルを事前知識として活用することにより、LATTEは、目標イベントとの関係をマイニングして概念再重み付けモジュール内の予測EHR特徴を選択し、訪問注意学習ネットワークを介して、それらの情報を縦方向の訪問埋め込みに圧縮する。 LATTEは、リカレントニューラルネットワークを使用して、ターゲットイベント間のシーケンシャルな依存関係をキャプチャし、その前後の埋め込みを訪問する。 ラベル効率を向上させるため、LATTEは大規模未ラベル患者から高度に有意な縦型銀標準ラベルを構築し、教師なしトレーニングおよび半教師なし共同トレーニングを行う。 最後に、LATTEはコントラスト表現学習を通じてクロスサイトポータビリティを向上させる。 LATTEは2型糖尿病の発症、心不全、多発性硬化症の発症と再発の3つの分析に基づいて評価された。 我々は,ABC_{gain}$,観測された事象指標と予測累積発生率との面積の減少率など,文献に現れる様々な評価指標を用いて,事故発生率の予測について検討した。 LATTEは、すべての設定でSAMGEPやRETAINといったベンチマークメソッドよりも大幅に改善されている。

Electronic health record (EHR) data are increasingly used to support real-world evidence (RWE) studies. Yet its ability to generate reliable RWE is limited by the lack of readily available precise information on the timing of clinical events such as the onset time of heart failure. We propose a LAbel-efficienT incidenT phEnotyping (LATTE) algorithm to accurately annotate the timing of clinical events from longitudinal EHR data. By leveraging the pre-trained semantic embedding vectors from large-scale EHR data as prior knowledge, LATTE selects predictive EHR features in a concept re-weighting module by mining their relationship to the target event and compresses their information into longitudinal visit embeddings through a visit attention learning network. LATTE employs a recurrent neural network to capture the sequential dependency between the target event and visit embeddings before/after it. To improve label efficiency, LATTE constructs highly informative longitudinal silver-standard labels from large-scale unlabeled patients to perform unsupervised pre-training and semi-supervised joint training. Finally, LATTE enhances cross-site portability via contrastive representation learning. LATTE is evaluated on three analyses: the onset of type-2 diabetes, heart failure, and the onset and relapses of multiple sclerosis. We use various evaluation metrics present in the literature including the $ABC_{gain}$, the proportion of reduction in the area between the observed event indicator and the predicted cumulative incidences in reference to the prediction per incident prevalence. LATTE consistently achieves substantial improvement over benchmark methods such as SAMGEP and RETAIN in all settings.
翻訳日:2023-05-22 16:34:07 公開日:2023-05-19
# 単一画像超解像用高能率混合変圧器

Efficient Mixed Transformer for Single Image Super-Resolution ( http://arxiv.org/abs/2305.11403v1 )

ライセンス: Link先を確認
Ling Zheng, Jinchen Zhu, Jinpeng Shi, Shizhuang Weng(参考訳) 近年,変圧器を用いた手法は単一画像超解像法 (sisr) で印象的な結果を得ている。 しかし、局所性機構の欠如と高複雑性は超解像(SR)の分野における応用を制限する。 これらの問題を解決するため,本研究ではEMT(Efficient Mixed Transformer)を提案する。 具体的には,複数の連続トランス層からなるMixed Transformer Block (MTB)を提案する。 PMはピクセルシフト操作によって局所的な知識集約を強化することができる。 pmにはパラメータや浮動小数点演算がないため、追加の複雑さは導入されない。 さらに、画像異方性を利用して、効率的なグローバル依存モデリングを実現するために、SA(SWSA)のストライプウィンドウを用いる。 実験結果から,EMTはベンチマークデータセット上で既存の手法よりも優れ,最先端の性能を達成した。 コードはhttps://github.comで入手できる。 Fried-Rice-Lab/EMT.git.com

Recently, Transformer-based methods have achieved impressive results in single image super-resolution (SISR). However, the lack of locality mechanism and high complexity limit their application in the field of super-resolution (SR). To solve these problems, we propose a new method, Efficient Mixed Transformer (EMT) in this study. Specifically, we propose the Mixed Transformer Block (MTB), consisting of multiple consecutive transformer layers, in some of which the Pixel Mixer (PM) is used to replace the Self-Attention (SA). PM can enhance the local knowledge aggregation with pixel shifting operations. At the same time, no additional complexity is introduced as PM has no parameters and floating-point operations. Moreover, we employ striped window for SA (SWSA) to gain an efficient global dependency modelling by utilizing image anisotropy. Experimental results show that EMT outperforms the existing methods on benchmark dataset and achieved state-of-the-art performance. The Code is available at https://github. com/Fried-Rice-Lab/EMT.git.
翻訳日:2023-05-22 16:33:39 公開日:2023-05-19
# 条件付き生成型adversarial networkのためのマイナショット連続学習

Few-Shot Continual Learning for Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2305.11400v1 )

ライセンス: Link先を確認
Cat P. Le, Juncheng Dong, Ahmed Aloui, Vahid Tarokh(参考訳) 生成モデルに対する数ショット連続学習では、予め学習したモードに悪影響を及ぼすことなく、限られたサンプルで目標モードを学習しなければならない。 本稿では,生成モデルのための新しいモード親和性尺度に基づく条件付き生成逆ネットワーク(cgan)のための連続学習手法を提案する。 我々の測度は、完全にcGANの判別器に基づいており、ターゲットと最もよく似た既存のモードを識別することができる。 その後、最も近いモードから派生した重み付きラベルを用いて目標モードを含む連続学習モデルを拡張した。 そこで我々はまず, cGAN のジェネレータを用いてラベル付きデータサンプルを生成し, 生成したデータをメモリで再生しながら, ターゲットモードの cGAN モデルを訓練する。 実験結果から,本手法がベースラインを超越した生成性能向上と,各種標準データセットに対する最先端手法の有効性を実証し,トレーニングサンプルの削減を図った。

In few-shot continual learning for generative models, a target mode must be learned with limited samples without adversely affecting the previously learned modes. In this paper, we propose a new continual learning approach for conditional generative adversarial networks (cGAN) based on a new mode-affinity measure for generative modeling. Our measure is entirely based on the cGAN's discriminator and can identify the existing modes that are most similar to the target. Subsequently, we expand the continual learning model by including the target mode using a weighted label derived from those of the closest modes. To prevent catastrophic forgetting, we first generate labeled data samples using the cGAN's generator, and then train the cGAN model for the target mode while memory replaying with the generated data. Our experimental results demonstrate the efficacy of our approach in improving the generation performance over the baselines and the state-of-the-art approaches for various standard datasets while utilizing fewer training samples.
翻訳日:2023-05-22 16:33:23 公開日:2023-05-19
# 快適食品とコミュニティコネクテッドネス:twitter上のyoutubeビデオによるcovid-19時の食生活の変化の調査

Comfort Foods and Community Connectedness: Investigating Diet Change during COVID-19 Using YouTube Videos on Twitter ( http://arxiv.org/abs/2305.11398v1 )

ライセンス: Link先を確認
Yelena Mejova, Lydia Manikonda(参考訳) 新型コロナウイルス(COVID-19)のパンデミックの開始に先立つロックダウンは、何百万人もの人々のルーチンを大きく変えた。 本研究では、COVID-19前後に投稿された食事、運動、フィットネスに関するツイートに埋め込まれたYouTubeビデオを用いて、パンデミックのロックダウンが食事と栄養に与える影響を調査する。 特に,6種類の大栄養素 (タンパク質, エネルギー, 脂肪, ナトリウム, 糖, 飽和脂肪) を用いて, それぞれのビデオの転写, 記述, タイトルに記載された食品の栄養プロファイルについて検討した。 これらのマクロ栄養値は、健康な食品の供給源にアクセスできない可能性がある人々に特定の影響があるかどうかを評価するために、人口統計学にさらに関連づけられた。 断続的時系列分析では、新型コロナウイルス前後のマクロ栄養値がかなり変化した。 特に,低所得地域ではエネルギー,脂肪,飽和脂肪の減少がみられたが,高率のアフリカ系アメリカ人ではナトリウムの上昇がみられた。 Word2Vecの単語の類似性とオッズ比分析は、ロックダウン前の人気ダイエットやライフスタイルブロガーから、様々な健康食品への関心、迅速で簡単なレシピの共有、快適な食品への新たな重点へのシフトを示唆した。 私たちの知る限りでは、この研究はツイートの注意信号、ビデオのコンテンツ、栄養素プロファイル、ユーザーの総人口統計をリンクするという点で斬新だ。 この資源の組み合わせによって可能になった洞察は、社会的距離の二次的健康効果を監視し、これらの効果を緩和するために設計された社会プログラムに知らせるために重要である。

Unprecedented lockdowns at the start of the COVID-19 pandemic have drastically changed the routines of millions of people, potentially impacting important health-related behaviors. In this study, we use YouTube videos embedded in tweets about diet, exercise and fitness posted before and during COVID-19 to investigate the influence of the pandemic lockdowns on diet and nutrition. In particular, we examine the nutritional profile of the foods mentioned in the transcript, description and title of each video in terms of six macronutrients (protein, energy, fat, sodium, sugar, and saturated fat). These macronutrient values were further linked to demographics to assess if there are specific effects on those potentially having insufficient access to healthy sources of food. Interrupted time series analysis revealed a considerable shift in the aggregated macronutrient scores before and during COVID-19. In particular, whereas areas with lower incomes showed decrease in energy, fat, and saturated fat, those with higher percentage of African Americans showed an elevation in sodium. Word2Vec word similarities and odds ratio analysis suggested a shift from popular diets and lifestyle bloggers before the lockdowns to the interest in a variety of healthy foods, communal sharing of quick and easy recipes, as well as a new emphasis on comfort foods. To the best of our knowledge, this work is novel in terms of linking attention signals in tweets, content of videos, their nutrients profile, and aggregate demographics of the users. The insights made possible by this combination of resources are important for monitoring the secondary health effects of social distancing, and informing social programs designed to alleviate these effects.
翻訳日:2023-05-22 16:33:08 公開日:2023-05-19
# 重要なこと:人間の動作予測のための因子的マルチヘッド検索と補助記憶安定化スキーム

Remembering What Is Important: A Factorised Multi-Head Retrieval and Auxiliary Memory Stabilisation Scheme for Human Motion Prediction ( http://arxiv.org/abs/2305.11394v1 )

ライセンス: Link先を確認
Tharindu Fernando and Harshala Gammulle and Sridha Sridharan and Simon Denman and Clinton Fookes(参考訳) 人間は、実行しているタスク、従事する相互作用、および主題固有の嗜好によって異なる複雑な動きを示す。 したがって、過去の動きの履歴に基づく将来の動きを予測することは難しい課題である。 本稿では、歴史的知識のモデリングを改善するために、革新的な補助記憶を用いたディープニューラルネットワークフレームワークを提案する。 具体的には、観察したポーズシーケンスから主題別、タスク別、およびその他の補助情報を抽出し、これらの因子化された特徴を利用して記憶を照会する。 新たなマルチヘッド知識検索手法では,これらの特徴埋め込みを利用して,補助メモリ内でキャプチャされた履歴観測に対して複数のクエリ処理を行う。 さらに,提案する動的マスキング戦略により,この特徴の絡み合いが動的になる。 データの不均衡や入力データ分布の多様性によらず、将来の動作の長期予測を支援するために、サレント情報を探索し記憶することができるようにし、補助メモリ内の多様性を促進するために2つの新しい損失関数を導入する。 Human3.6M と CMU-Mocap の2つの公開ベンチマークで実施された広範な実験により、これらの設計選択によって、提案されたアプローチが現在の最先端の手法よりも大きなマージンで優れていることが実証された。

Humans exhibit complex motions that vary depending on the task that they are performing, the interactions they engage in, as well as subject-specific preferences. Therefore, forecasting future poses based on the history of the previous motions is a challenging task. This paper presents an innovative auxiliary-memory-powered deep neural network framework for the improved modelling of historical knowledge. Specifically, we disentangle subject-specific, task-specific, and other auxiliary information from the observed pose sequences and utilise these factorised features to query the memory. A novel Multi-Head knowledge retrieval scheme leverages these factorised feature embeddings to perform multiple querying operations over the historical observations captured within the auxiliary memory. Moreover, our proposed dynamic masking strategy makes this feature disentanglement process dynamic. Two novel loss functions are introduced to encourage diversity within the auxiliary memory while ensuring the stability of the memory contents, such that it can locate and store salient information that can aid the long-term prediction of future motion, irrespective of data imbalances or the diversity of the input data distribution. With extensive experiments conducted on two public benchmarks, Human3.6M and CMU-Mocap, we demonstrate that these design choices collectively allow the proposed approach to outperform the current state-of-the-art methods by significant margins: $>$ 17\% on the Human3.6M dataset and $>$ 9\% on the CMU-Mocap dataset.
翻訳日:2023-05-22 16:32:36 公開日:2023-05-19
# Fast-StrucTexT: 文書理解のためのモダリティ誘導動的トーケンマージを用いた高効率フールグラストランス

Fast-StrucTexT: An Efficient Hourglass Transformer with Modality-guided Dynamic Token Merge for Document Understanding ( http://arxiv.org/abs/2305.11392v1 )

ライセンス: Link先を確認
Mingliang Zhai, Yulin Li, Xiameng Qin, Chen Yi, Qunyi Xie, Chengquan Zhang, Kun Yao, Yuwei Wu, Yunde Jia(参考訳) 変換器はその有効性が高いため文書理解において有望な性能を達成し、シークエンス長の2次計算複雑性に悩まされている。 一般的な効率的なトランスフォーマーは、モデル文書に直接適応することが困難である。 彼らは、単語、行、段落などの文書のレイアウト表現を異なる粒度レベルで扱うことができず、効率と性能の良好なトレードオフを達成できないように思える。 そこで本研究では,砂時計トランスフォーマーアーキテクチャを用いた構造体アルゴリズムに基づく効率的なマルチモーダルフレームワークであるfast-structextを提案する。 具体的には、モーダリティ誘導型動的トークンマージブロックを設計し、モデルを多粒度表現を学習させ、冗長トークンを創発する。 さらに,マルチモーダル融合を考慮し,トークンマージを効率的に導くために,対称クロスアテンション(sca)と呼ばれるマルチモーダルインタラクションモジュールを提案する。 SCAでは、クエリとして1つのモダリティ入力を2つのフェーズで別のモダリティでクロスアテンションを計算することができる。 FUNSD, SROIE, CORDデータセットの大規模な実験により、我々のモデルは最先端の手法よりも1.9倍高速な推論時間を実現することが示された。

Transformers achieve promising performance in document understanding because of their high effectiveness and still suffer from quadratic computational complexity dependency on the sequence length. General efficient transformers are challenging to be directly adapted to model document. They are unable to handle the layout representation in documents, e.g. word, line and paragraph, on different granularity levels and seem hard to achieve a good trade-off between efficiency and performance. To tackle the concerns, we propose Fast-StrucTexT, an efficient multi-modal framework based on the StrucTexT algorithm with an hourglass transformer architecture, for visual document understanding. Specifically, we design a modality-guided dynamic token merging block to make the model learn multi-granularity representation and prunes redundant tokens. Additionally, we present a multi-modal interaction module called Symmetry Cross Attention (SCA) to consider multi-modal fusion and efficiently guide the token mergence. The SCA allows one modality input as query to calculate cross attention with another modality in a dual phase. Extensive experiments on FUNSD, SROIE, and CORD datasets demonstrate that our model achieves the state-of-the-art performance and almost 1.9X faster inference time than the state-of-the-art methods.
翻訳日:2023-05-22 16:32:12 公開日:2023-05-19
# 検証・検証のレンズによる大規模言語モデルの安全性と信頼性調査

A Survey of Safety and Trustworthiness of Large Language Models through the Lens of Verification and Validation ( http://arxiv.org/abs/2305.11391v1 )

ライセンス: Link先を確認
Xiaowei Huang, Wenjie Ruan, Wei Huang, Gaojie Jin, Yi Dong, Changshun Wu, Saddek Bensalem, Ronghui Mu, Yi Qi, Xingyu Zhao, Kaiwen Cai, Yanghao Zhang, Sihao Wu, Peipei Xu, Dengyu Wu, Andre Freitas, Mustafa A. Mustafa(参考訳) 大規模言語モデル(LLM)がAIの新たな熱波を爆発させ、エンドユーザーを人間レベルの会話に巻き込み、多くの知識領域にわたって詳細な回答を得られるようにした。 多くの産業アプリケーションで急速に採用されているこの調査は、安全性と信頼性を懸念している。 まず、llmの既知の脆弱性をレビューし、固有の問題、意図した攻撃、意図しないバグに分類します。 次に、従来のソフトウェアや畳み込みニューラルネットワークなどのディープラーニングモデルで広く開発されている検証検証(V&V)技術が、LCMのライフサイクルを通じて統合され、さらに拡張され、LCMの安全性と信頼性に関する厳密な分析が可能であるかを検討する。 具体的には、ファルシフィケーションと評価、検証、実行監視、倫理的利用の4つの補完手法を検討する。 LLMの急速な開発を考えると、この調査は(300件の参考資料を含むが)完成するつもりはなく、特に各分野におけるLCMの適用に関して、V&Vの観点からの安全性と信頼性の問題の迅速な理解を支援するため、組織化された文献レビューや議論の収集である。

Large Language Models (LLMs) have exploded a new heatwave of AI, for their ability to engage end-users in human-level conversations with detailed and articulate answers across many knowledge domains. In response to their fast adoption in many industrial applications, this survey concerns their safety and trustworthiness. First, we review known vulnerabilities of the LLMs, categorising them into inherent issues, intended attacks, and unintended bugs. Then, we consider if and how the Verification and Validation (V&V) techniques, which have been widely developed for traditional software and deep learning models such as convolutional neural networks, can be integrated and further extended throughout the lifecycle of the LLMs to provide rigorous analysis to the safety and trustworthiness of LLMs and their applications. Specifically, we consider four complementary techniques: falsification and evaluation, verification, runtime monitoring, and ethical use. Considering the fast development of LLMs, this survey does not intend to be complete (although it includes 300 references), especially when it comes to the applications of LLMs in various domains, but rather a collection of organised literature reviews and discussions to support the quick understanding of the safety and trustworthiness issues from the perspective of V&V.
翻訳日:2023-05-22 16:31:48 公開日:2023-05-19
# ALT:ロングテールシナリオモデリングのための自動システム

ALT: An Automatic System for Long Tail Scenario Modeling ( http://arxiv.org/abs/2305.11390v1 )

ライセンス: Link先を確認
Ya-Lin Zhang, Jun Zhou, Yankun Ren, Yue Zhang, Xinxing Yang, Meng Li, Qitao Shi, Longfei Li(参考訳) 本稿では,モデルトレーニング段階における人的資源不足や,モデル推論段階における時間と計算資源不足といった,予算制限を伴う長期シナリオモデリングの問題について考察する。 この問題は様々なアプリケーションで広く認識されているが、今のところは注目されていない。 この問題に対処するために,ALTという自動システムを提案する。 様々な機械学習関連手法の活用、メタ学習哲学の活用、本質的な予算制限型ニューラルネットワーク探索法の提案など、システムで使用されるアルゴリズムの改善にいくつかの取り組みがなされている。 さらに、システムを構築するには、体系的な観点から多くの最適化が行われ、本質的なモジュールは武装しており、システムをより実現可能かつ効率的にする。 我々は,システムの有効性を検証し,システムにおけるクリティカルモジュールの有用性を実証するために,豊富な実験を行った。 さらに,本システムの有効性を十分に検証したオンライン結果も提供される。

In this paper, we consider the problem of long tail scenario modeling with budget limitation, i.e., insufficient human resources for model training stage and limited time and computing resources for model inference stage. This problem is widely encountered in various applications, yet has received deficient attention so far. We present an automatic system named ALT to deal with this problem. Several efforts are taken to improve the algorithms used in our system, such as employing various automatic machine learning related techniques, adopting the meta learning philosophy, and proposing an essential budget-limited neural architecture search method, etc. Moreover, to build the system, many optimizations are performed from a systematic perspective, and essential modules are armed, making the system more feasible and efficient. We perform abundant experiments to validate the effectiveness of our system and demonstrate the usefulness of the critical modules in our system. Moreover, online results are provided, which fully verified the efficacy of our system.
翻訳日:2023-05-22 16:31:26 公開日:2023-05-19
# ドメインの一般化 ディープグラフ変換

Domain Generalization Deep Graph Transformation ( http://arxiv.org/abs/2305.11389v1 )

ライセンス: Link先を確認
Shiyu Wang, Guangji Bai, Qingyang Zhu, Zhaohui Qin, Liang Zhao(参考訳) あるモードから別のモードへのグラフ遷移を予測するグラフ変換は、重要かつ一般的な問題である。 近年の高度なグラフ変換技術の進歩にもかかわらず、機械学習モデルにおいて一般的に必要とされる基本的な前提は、テストデータとトレーニングデータが同じ分布を保持するとは限らないことである。 その結果、トレーニングデータで使用できないグラフを予測するドメイン一般化グラフ変換は、(1)すべての入出力モードの組み合わせでトレーニングする場合の極端な空間複雑性、(2)入力モードと出力モードの間のグラフトポロジの違い、(3)トレーニングデータにないターゲットドメインへのモデル(見当たらない)一般化の方法、など、いくつかの課題に対処しなければならない。 このギャップを埋めるために,入力モードと出力モードの位相を符号化するエンコーダとデコーダと,グラフ変換タスクを強化する半教師付きリンク予測を用いた,マルチインプット,マルチアウトプット,ハイパーネットワークベースのグラフニューラルネットワーク(multihypergnn)を提案する。 すべてのモードの組み合わせでトレーニングする代わりに、multihypergnnは、2つの新しいハイパーネットワークによって生成されるエンコーダとデコーダとの一定の空間複雑性を保持する。 総合的な実験により、MultiHyperGNNは予測タスクとドメイン一般化タスクの両方で競合するモデルよりも優れた性能を示している。

Graph transformation that predicts graph transition from one mode to another is an important and common problem. Despite much progress in developing advanced graph transformation techniques in recent years, the fundamental assumption typically required in machine-learning models that the testing and training data preserve the same distribution does not always hold. As a result, domain generalization graph transformation that predicts graphs not available in the training data is under-explored, with multiple key challenges to be addressed including (1) the extreme space complexity when training on all input-output mode combinations, (2) difference of graph topologies between the input and the output modes, and (3) how to generalize the model to (unseen) target domains that are not in the training data. To fill the gap, we propose a multi-input, multi-output, hypernetwork-based graph neural network (MultiHyperGNN) that employs a encoder and a decoder to encode topologies of both input and output modes and semi-supervised link prediction to enhance the graph transformation task. Instead of training on all mode combinations, MultiHyperGNN preserves a constant space complexity with the encoder and the decoder produced by two novel hypernetworks. Comprehensive experiments show that MultiHyperGNN has a superior performance than competing models in both prediction and domain generalization tasks.
翻訳日:2023-05-22 16:31:12 公開日:2023-05-19
# RGB-Dと熱センサーフュージョン:システム文献レビュー

RGB-D And Thermal Sensor Fusion: A Systematic Literature Review ( http://arxiv.org/abs/2305.11427v1 )

ライセンス: Link先を確認
Martin Brenner, Napoleon H. Reyes, Teo Susnjak, Andre L.C. Barczak(参考訳) 過去10年間、コンピュータビジョン分野は、深度、赤外線、視覚を含む複数のセンサーが様々な範囲の環境を捉えるために使用されるマルチモーダルデータ融合と学習において、大きな進歩を遂げてきた。 これらの進歩にもかかわらず、これまでRGB-Dと熱モダリティを融合させる体系的かつ包括的な評価は行われていない。 ライダー、レーダー、rgb、その他のセンサーを用いた自律運転は、rgbと深度モードの融合と共に、かなりの研究の関心を集めているが、サーマルカメラ、特にrgb-dとサーマルデータの融合は、比較的注目されていない。 これは部分的には、そのようなアプリケーションで利用可能な公開データセットの数が限られているためかもしれない。 本稿では,rgb-dデータとサーマルカメラデータを用いて,現場検査や人的追跡,障害検出など,様々な用途に適用する手法について概観する。 レビューされた文献は、3次元再構成、セグメンテーション、オブジェクト検出、利用可能なデータセット、その他の関連するトピックに分類されている。 方法論の簡単な紹介と概要に続いて,本研究はキャリブレーションと登録手法を掘り下げ,熱可視化と3次元再構成を考察し,古典的特徴に基づく手法と近代的な深層学習アプローチの応用について論じる。 この論文は、現在の限界と将来の研究方向に関する談話で締めくくっている。 この調査は、最新の進歩に精通し、RGB-DT研究分野に貢献することを目指す研究者にとって貴重な参考となるものと期待されている。

In the last decade, the computer vision field has seen significant progress in multimodal data fusion and learning, where multiple sensors, including depth, infrared, and visual, are used to capture the environment across diverse spectral ranges. Despite these advancements, there has been no systematic and comprehensive evaluation of fusing RGB-D and thermal modalities to date. While autonomous driving using LiDAR, radar, RGB, and other sensors has garnered substantial research interest, along with the fusion of RGB and depth modalities, the integration of thermal cameras and, specifically, the fusion of RGB-D and thermal data, has received comparatively less attention. This might be partly due to the limited number of publicly available datasets for such applications. This paper provides a comprehensive review of both, state-of-the-art and traditional methods used in fusing RGB-D and thermal camera data for various applications, such as site inspection, human tracking, fault detection, and others. The reviewed literature has been categorised into technical areas, such as 3D reconstruction, segmentation, object detection, available datasets, and other related topics. Following a brief introduction and an overview of the methodology, the study delves into calibration and registration techniques, then examines thermal visualisation and 3D reconstruction, before discussing the application of classic feature-based techniques as well as modern deep learning approaches. The paper concludes with a discourse on current limitations and potential future research directions. It is hoped that this survey will serve as a valuable reference for researchers looking to familiarise themselves with the latest advancements and contribute to the RGB-DT research field.
翻訳日:2023-05-22 16:25:03 公開日:2023-05-19
# 言語モデルのポストホック説明は言語モデルを改善することができる

Post Hoc Explanations of Language Models Can Improve Language Models ( http://arxiv.org/abs/2305.11426v1 )

ライセンス: Link先を確認
Satyapriya, Krishna, Jiaqi Ma, Dylan Slack, Asma Ghandeharioun, Sameer Singh, Himabindu Lakkaraju(参考訳) 大規模言語モデル(LLM)は複雑なタスクの実行において顕著な能力を示した。 さらに、近年の研究では、コンテキスト内学習中に人間の注釈付き合理性(例えば、連鎖的思考促進)を組み込むことで、これらのモデル、特に推論能力を必要とするタスクのパフォーマンスが大幅に向上することが示されている。 しかし、このような合理性の導入は、高い人間的関与を必要とするため、スケーラビリティの面での課題となる。 そこで本研究では, 論理生成のプロセスを自動化することで, 上記の課題に対処する, AMPLIFY(Post Hoc Explanations)を用いたインテクスト学習の活用によるモデルパフォーマンスの増幅手法を提案する。 この目的のために,各入力特徴がモデル予測に与える影響を捉えた帰属スコア(説明)を出力するポストホックな説明手法を利用する。 より具体的には、ポストホックな説明から洞察を埋め込み、llmに補正信号を提供する自動自然言語理論を構築する。 現実世界のデータセットによる大規模な実験により、私たちのフレームワークAMPLIFYは、Chain-of-Thoughtのような注釈付き論理に依存した従来のアプローチが不足するなど、幅広いタスクに対して約10~25%の精度の向上をもたらすことが示されています。 本研究は,LLMの有効性を高める貴重なツールとして,ポストホック説明の可能性を強調した最初の試みである。 さらに、AMPLIFYの各コンポーネントの影響を実証するために、実験的な分析とアブレーション研究を行い、その結果として、文脈内学習を洗練するための重要な洞察をもたらす。

Large Language Models (LLMs) have demonstrated remarkable capabilities in performing complex tasks. Moreover, recent research has shown that incorporating human-annotated rationales (e.g., Chain-of- Thought prompting) during in-context learning can significantly enhance the performance of these models, particularly on tasks that require reasoning capabilities. However, incorporating such rationales poses challenges in terms of scalability as this requires a high degree of human involvement. In this work, we present a novel framework, Amplifying Model Performance by Leveraging In-Context Learning with Post Hoc Explanations (AMPLIFY), which addresses the aforementioned challenges by automating the process of rationale generation. To this end, we leverage post hoc explanation methods which output attribution scores (explanations) capturing the influence of each of the input features on model predictions. More specifically, we construct automated natural language rationales that embed insights from post hoc explanations to provide corrective signals to LLMs. Extensive experimentation with real-world datasets demonstrates that our framework, AMPLIFY, leads to prediction accuracy improvements of about 10-25% over a wide range of tasks, including those where prior approaches which rely on human-annotated rationales such as Chain-of-Thought prompting fall short. Our work makes one of the first attempts at highlighting the potential of post hoc explanations as valuable tools for enhancing the effectiveness of LLMs. Furthermore, we conduct additional empirical analyses and ablation studies to demonstrate the impact of each of the components of AMPLIFY, which, in turn, lead to critical insights for refining in-context learning.
翻訳日:2023-05-22 16:24:33 公開日:2023-05-19
# グラフ表現学習のためのグラフ伝搬トランス

Graph Propagation Transformer for Graph Representation Learning ( http://arxiv.org/abs/2305.11424v1 )

ライセンス: Link先を確認
Zhe Chen, Hao Tan, Tao Wang, Tianrun Shen, Tong Lu, Qiuying Peng, Cheng Cheng, Yue Qi(参考訳) 本稿では,グラフ表現学習のためのトランスフォーマーアーキテクチャを提案する。 本手法の中核となる洞察は,変圧器ブロックにアテンションモジュールを構築する際に,グラフ内のノードとエッジ間の情報伝達を十分に考慮することである。 具体的には,グラフ伝搬注意(GPA)と呼ばれる新しい注意機構を提案する。 ノード間、ノード間、ノード間、ノード間、ノード間、ノード間という3つの方法で、グラフ構造化データの学習に不可欠な情報を明示的に渡します。 本研究では,グラフデータ学習を支援するために,GPTrans (Graph Propagation Transformer) という効果的なトランスアーキテクチャを設計する。 いくつかのベンチマークデータセットにおいて,GPTransの性能を広範囲にわたるグラフ学習実験で検証する。 これらの結果から,本手法は,最先端のトランスフォーマーベースのグラフモデルよりも優れた性能を持つことを示す。 コードはhttps://github.com/czczup/GPTransでリリースされる。

This paper presents a novel transformer architecture for graph representation learning. The core insight of our method is to fully consider the information propagation among nodes and edges in a graph when building the attention module in the transformer blocks. Specifically, we propose a new attention mechanism called Graph Propagation Attention (GPA). It explicitly passes the information among nodes and edges in three ways, i.e. node-to-node, node-to-edge, and edge-to-node, which is essential for learning graph-structured data. On this basis, we design an effective transformer architecture named Graph Propagation Transformer (GPTrans) to further help learn graph data. We verify the performance of GPTrans in a wide range of graph learning experiments on several benchmark datasets. These results show that our method outperforms many state-of-the-art transformer-based graph models with better performance. The code will be released at https://github.com/czczup/GPTrans.
翻訳日:2023-05-22 16:24:04 公開日:2023-05-19
# PastNet:時空間映像予測のための物理的誘導バイアスの導入

PastNet: Introducing Physical Inductive Biases for Spatio-temporal Video Prediction ( http://arxiv.org/abs/2305.11421v1 )

ライセンス: Link先を確認
Hao Wu, Wei Xion, Fan Xu, Xiao Luo, Chong Chen, Xian-Sheng Hua and Haixin Wang(参考訳) 本稿では,過去のデータストリームに基づく将来の映像生成を伴う時空間的ビデオ予測の課題について検討する。 既存のアプローチでは、典型的にはセマンティックマップなどの外部情報を使用して、ビデオに埋め込まれた物理的知識を無視するビデオ予測を強化する。 さらに、高い計算要求は高解像度ビデオの応用を阻害する可能性がある。 これらの制約に対処するために,我々は,物理支援時空間ネットワーク (pastnet) と呼ばれる,高品質ビデオ予測のための新しい手法を提案する。 私たちのパスネットの中核は、フーリエ領域にスペクトル畳み込み作用素を組み込むことで、基礎となる物理法則からの帰納的バイアスを効率的に導入することにあります。 さらに,複雑な時空間信号の処理中に局所的な特徴を識別するために,推定固有次元のメモリバンクを用いて計算コストを低減し,高解像度映像の予測を容易にする。 様々な広範に使用されるデータセットに関する広範囲な実験は、特に高解像度シナリオにおいて、最先端の手法と比較して提案するパスネットの有効性と効率を示す。

In this paper, we investigate the challenge of spatio-temporal video prediction, which involves generating future videos based on historical data streams. Existing approaches typically utilize external information such as semantic maps to enhance video prediction, which often neglect the inherent physical knowledge embedded within videos. Furthermore, their high computational demands could impede their applications for high-resolution videos. To address these constraints, we introduce a novel approach called Physics-assisted Spatio-temporal Network (PastNet) for generating high-quality video predictions. The core of our PastNet lies in incorporating a spectral convolution operator in the Fourier domain, which efficiently introduces inductive biases from the underlying physical laws. Additionally, we employ a memory bank with the estimated intrinsic dimensionality to discretize local features during the processing of complex spatio-temporal signals, thereby reducing computational costs and facilitating efficient high-resolution video prediction. Extensive experiments on various widely-used datasets demonstrate the effectiveness and efficiency of the proposed PastNet compared with state-of-the-art methods, particularly in high-resolution scenarios.
翻訳日:2023-05-22 16:23:49 公開日:2023-05-19
# 指数グラフを超えて:有限時間収束による分散学習のための通信効率の高いトポロジー

Beyond Exponential Graph: Communication-Efficient Topologies for Decentralized Learning via Finite-time Convergence ( http://arxiv.org/abs/2305.11420v1 )

ライセンス: Link先を確認
Yuki Takezawa, Ryoma Sato, Han Bao, Kenta Niwa, Makoto Yamada(参考訳) 分散学習は、並列計算とプライバシ保護におけるその応用に注目が集まっている。 最近の多くの研究は、より高速なコンセンサス率(スペクトルギャップ)を持つネットワークトポロジーは、分散学習においてより良い収束率と精度をもたらすと述べている。 しかし、例えば指数グラフのような高速なコンセンサスレートを持つトポロジーは、一般的に大きな最大次数を持ち、大きな通信コストがかかる。 したがって、高速なコンセンサス率と小さい最大度の両方を持つ位相を求めることが重要である。 本研究では,高速なコンセンサス率とBase-$(k + 1)$ Graphと呼ばれる最小次を併用した新しいトポロジーを提案する。 既存のトポロジとは異なり、base-$(k + 1)$ graph は全てのノードが任意のノード数と最大次数 k に対して有限個の反復の後に正確なコンセンサスに達することができる。 この好ましい性質のおかげで、Base-$(k + 1)$ Graph は指数グラフよりも高速収束率と通信効率の高い分散 SGD (DSGD) を提供する。 そこで我々は,Base-$(k + 1)$ Graph を用いて様々なトポロジを用いた実験を行い,既存のトポロジよりも高い通信効率で,分散学習を実現できることを示した。

Decentralized learning has recently been attracting increasing attention for its applications in parallel computation and privacy preservation. Many recent studies stated that the underlying network topology with a faster consensus rate (a.k.a. spectral gap) leads to a better convergence rate and accuracy for decentralized learning. However, a topology with a fast consensus rate, e.g., the exponential graph, generally has a large maximum degree, which incurs significant communication costs. Thus, seeking topologies with both a fast consensus rate and small maximum degree is important. In this study, we propose a novel topology combining both a fast consensus rate and small maximum degree called the Base-$(k + 1)$ Graph. Unlike the existing topologies, the Base-$(k + 1)$ Graph enables all nodes to reach the exact consensus after a finite number of iterations for any number of nodes and maximum degree k. Thanks to this favorable property, the Base-$(k + 1)$ Graph endows Decentralized SGD (DSGD) with both a faster convergence rate and more communication efficiency than the exponential graph. We conducted experiments with various topologies, demonstrating that the Base-$(k + 1)$ Graph enables various decentralized learning methods to achieve higher accuracy with better communication efficiency than the existing topologies.
翻訳日:2023-05-22 16:23:30 公開日:2023-05-19
# JetSeg: 低消費電力GPU組み込みシステムのための効率的なリアルタイムセマンティックセマンティックセグメンテーションモデル

JetSeg: Efficient Real-Time Semantic Segmentation Model for Low-Power GPU-Embedded Systems ( http://arxiv.org/abs/2305.11419v1 )

ライセンス: Link先を確認
Miguel Lopez-Montiel, Daniel Alejandro Lopez, Oscar Montiel(参考訳) リアルタイムセマンティクスセグメンテーションは、参照時間の少ない高精度なモデルを必要とする困難なタスクである。 組み込みシステム上でのこれらのモデルの実装は、ハードウェア機能とメモリ使用量によって制限され、ボトルネックが発生する。 本稿では,JetNetと呼ばれるエンコーダと改良されたRegSegデコーダからなる,JetSegと呼ばれるリアルタイムセマンティックセマンティックセマンティクスの効率的なモデルを提案する。 The JetNet is designed for GPU-Embedded Systems and includes two main components: a new light-weight efficient block called JetBlock, that reduces the number of parameters minimizing memory usage and inference time without sacrificing accuracy; a new strategy that involves the combination of asymmetric and non-asymmetric convolutions with depthwise-dilated convolutions called JetConv, a channel shuffle operation, light-weight activation functions, and a convenient number of group convolutions for embedded systems, and an innovative loss function named JetLoss, which integrates the Precision, Recall, and IoUB losses to improve semantic segmentation and reduce computational complexity. 実験によると、JetSegはワークステーションデバイスでははるかに高速で、リアルタイムセマンティックセグメンテーションのための既存の最先端モデルよりも低消費電力GPU組み込みシステムに適している。 我々のアプローチは46.70Mパラメータと5.14%のGFLOPを削減して最先端のリアルタイムエンコーダデコーダモデルより優れており、NVIDIA Titan RTX GPUとJetson Xavierの2倍高速なJetSegを実現している。 jetsegコードはhttps://github.com/mmontielpz/jetsegで入手できる。

Real-time semantic segmentation is a challenging task that requires high-accuracy models with low-inference times. Implementing these models on embedded systems is limited by hardware capability and memory usage, which produces bottlenecks. We propose an efficient model for real-time semantic segmentation called JetSeg, consisting of an encoder called JetNet, and an improved RegSeg decoder. The JetNet is designed for GPU-Embedded Systems and includes two main components: a new light-weight efficient block called JetBlock, that reduces the number of parameters minimizing memory usage and inference time without sacrificing accuracy; a new strategy that involves the combination of asymmetric and non-asymmetric convolutions with depthwise-dilated convolutions called JetConv, a channel shuffle operation, light-weight activation functions, and a convenient number of group convolutions for embedded systems, and an innovative loss function named JetLoss, which integrates the Precision, Recall, and IoUB losses to improve semantic segmentation and reduce computational complexity. Experiments demonstrate that JetSeg is much faster on workstation devices and more suitable for Low-Power GPU-Embedded Systems than existing state-of-the-art models for real-time semantic segmentation. Our approach outperforms state-of-the-art real-time encoder-decoder models by reducing 46.70M parameters and 5.14% GFLOPs, which makes JetSeg up to 2x faster on the NVIDIA Titan RTX GPU and the Jetson Xavier than other models. The JetSeg code is available at https://github.com/mmontielpz/jetseg.
翻訳日:2023-05-22 16:23:08 公開日:2023-05-19
# 関数同値の観点から見たフィードフォワードニューラルネットワークの複雑性

Complexity of Feed-Forward Neural Networks from the Perspective of Functional Equivalence ( http://arxiv.org/abs/2305.11417v1 )

ライセンス: Link先を確認
Guohao Shen(参考訳) 本稿では,機能的等価性の概念を考察することにより,フィードフォワードニューラルネットワークの複雑さを考察し,異なるネットワークパラメータ化が同じ機能をもたらすことを示唆する。 この特性を利用してニューラルネットワークの複雑性を低減できることを示すフィードフォワードニューラルネットワークのクラスにバインドされた新しいカバー番号を導出するために、置換不変性を利用する。 さらに、パラメータ空間の対称構造に基づいて、ランダムパラメータ初期化の適切な戦略が最適化のための収束確率を増加させることを実証する。 過パラメータ化ネットワークは、ニューラルネットワークの幅が大きくなると、有効パラメータ空間の容量が消滅するという意味で、訓練がより容易であることがわかった。 今回の知見は,過剰パラメータ化に対する新たな洞察を提供し,ディープラーニングの一般化と最適化を理解する上で重要な意味を持つ。

In this paper, we investigate the complexity of feed-forward neural networks by examining the concept of functional equivalence, which suggests that different network parameterizations can lead to the same function. We utilize the permutation invariance property to derive a novel covering number bound for the class of feedforward neural networks, which reveals that the complexity of a neural network can be reduced by exploiting this property. Furthermore, based on the symmetric structure of parameter space, we demonstrate that an appropriate strategy of random parameter initialization can increase the probability of convergence for optimization. We found that overparameterized networks tend to be easier to train in the sense that increasing the width of neural networks leads to a vanishing volume of the effective parameter space. Our findings offer new insights into overparameterization and have significant implications for understanding generalization and optimization in deep learning.
翻訳日:2023-05-22 16:22:25 公開日:2023-05-19
# フェデレーションモデル:大規模モデルのプライバシ保護と協調学習

Federated Foundation Models: Privacy-Preserving and Collaborative Learning for Large Models ( http://arxiv.org/abs/2305.11414v1 )

ライセンス: Link先を確認
Sixing Yu, J. Pablo Mu\~noz, Ali Jannesari(参考訳) BERT、GPT、ViT、CLIPといったファンデーションモデル(FM)は、事前トレーニングに大量のデータを活用する能力によって、幅広いアプリケーションで顕著な成功を収めている。 しかし、FMを最適化するには、機密データへのアクセス、プライバシー上の懸念の高まり、特定のドメインでの適用性を制限する必要がある。 本稿では、FMとFederated Learning(FL)の利点を組み合わせた新しいアプローチであるFederated Foundation Models(FFMs)の概念を導入し、複数の機関におけるプライバシー保護と協調学習を実現する。 我々は,FMの寿命にFLを組み込むことの潜在的なメリットと課題について論じ,事前学習,微調整,応用について論じる。 さらに、FFM事前訓練、FFM微調整、フェデレートされたプロンプトエンジニアリングを含むFFMタスクの正式な定義を提供し、データプライバシを維持しながら、よりパーソナライズされたコンテキスト対応モデルを可能にする。 さらに、エッジでの計算能力の増大は、エッジで新たに生成されたプライベートデータを用いてFMを最適化する可能性を解放する。 本研究では,FFMと従来のFMの性能を比較する実験と評価を行い,プライバシの保護,過度な適合の低減,モデル一般化性の向上といったアプローチの有効性を実証する。 提案するフェデレーション基盤モデルは,大規模言語モデルをプライバシ保護方法でトレーニングするためのフレキシブルでスケーラブルなフレームワークを提供し,fmプリトレーニングとフェデレーション学習の両方において,今後の進歩への道を開くものだ。

Foundation Models (FMs), such as BERT, GPT, ViT, and CLIP, have demonstrated remarkable success in a wide range of applications, driven by their ability to leverage vast amounts of data for pre-training. However, optimizing FMs often requires access to sensitive data, raising privacy concerns and limiting their applicability in certain domains. In this paper, we introduce the concept of Federated Foundation Models (FFMs), a novel approach that combines the benefits of FMs and Federated Learning (FL) to enable privacy-preserving and collaborative learning across multiple institutions. We discuss the potential benefits and challenges of integrating FL into the lifespan of FMs, covering pre-training, fine-tuning, and application. We further provide formal definitions of FFM tasks, including FFM pre-training, FFM fine-tuning, and federated prompt engineering, allowing for more personalized and context-aware models while maintaining data privacy. Moreover, we explore the possibility of continual/lifelong learning in FFMs, as increased computational power at the edge unlocks the potential for optimizing FMs using newly generated private data at edges. We present experiments and evaluations comparing the performance of FFMs to traditional FMs on various downstream tasks, demonstrating the effectiveness of our approach in preserving privacy, reducing overfitting, and improving model generalizability. The proposed Federated Foundation Models offer a flexible and scalable framework for training large language models in a privacy-preserving manner, paving the way for future advancements in both FM pre-training and federated learning.
翻訳日:2023-05-22 16:21:48 公開日:2023-05-19
# DUB: 音声翻訳のための離散単位逆翻訳

DUB: Discrete Unit Back-translation for Speech Translation ( http://arxiv.org/abs/2305.11411v1 )

ライセンス: Link先を確認
Dong Zhang, Rong Ye, Tom Ko, Mingxuan Wang, Yaqian Zhou(参考訳) 音声テキスト翻訳(ST)と機械翻訳(MT)はどのように機能するのか? 音声とテキストのモダリティギャップを橋渡しし,有用なmt手法をstに適用することのキーポイントである。最近,教師なし離散単位を用いた音声表現のアプローチが,モダリティ問題を緩和するための新たな方法を生み出している。 これは、(1)直接STにおける連続的な特徴よりも、離散単位による発話を表現する方がよいか? 2) MT技術がSTにどの程度の恩恵をもたらすか。 DUBでは、バックトランスレーション技術が直接STに適用され、MuST-C En-De/Fr/Es上で平均5.5BLEUを得る。 低リソースの言語シナリオでは,大規模な外部データに依存する既存手法と同等の性能を実現する。 コードとモデルはhttps://github.com/0nutation/dub.comで入手できる。

How can speech-to-text translation (ST) perform as well as machine translation (MT)? The key point is to bridge the modality gap between speech and text so that useful MT techniques can be applied to ST. Recently, the approach of representing speech with unsupervised discrete units yields a new way to ease the modality problem. This motivates us to propose Discrete Unit Back-translation (DUB) to answer two questions: (1) Is it better to represent speech with discrete units than with continuous features in direct ST? (2) How much benefit can useful MT techniques bring to ST? With DUB, the back-translation technique can successfully be applied on direct ST and obtains an average boost of 5.5 BLEU on MuST-C En-De/Fr/Es. In the low-resource language scenario, our method achieves comparable performance to existing methods that rely on large-scale external data. Code and models are available at https://github.com/0nutation/DUB.
翻訳日:2023-05-22 16:21:14 公開日:2023-05-19
# ECDLP用拡張ショアアルゴリズムの量子回路におけるCNOT数最小化

Minimizing CNOT-count in quantum circuit of the extended Shor's algorithm for ECDLP ( http://arxiv.org/abs/2305.11410v1 )

ライセンス: Link先を確認
Xia Liu, Huan Yang, Li Yang(参考訳) 楕円曲線離散対数問題 (ECDLP) が提案されて以来、強力なセキュリティのために暗号システムで広く使われている。 拡張Shorのアルゴリズムの提案はECDLPのクラックを期待するが、実際にそのアルゴリズムが脅威となるかどうかは議論の余地がある。 アルゴリズムの量子回路の観点から、イオントラップ量子コンピュータを用いて、改良された量子回路を用いてECDLPのクラックの可能性を分析する。 拡張ショアのアルゴリズムに対して高精度量子回路を与え、モジュラス減算、3つの異なるモジュラス乗算、モジュラス逆算術、ウィンドウ演算を含む素体上の楕円曲線上の離散対数を計算する。 従来の研究では、量子ビット数や回路深さの最小化に重点を置いていたが、CNOTの数を最小化することは、イオントラップ量子コンピュータ上でアルゴリズムを実行する時間に大きな影響を与える。 まず,最小数の CNOT を用いた基本演算の実装と,改良されたモジュラー逆数,点加算,ウィンドウ化技術の構築について述べる。 そこで我々は,nビット整数を分解するShorアルゴリズムの拡張に必要な改良量子回路の数を正確に推定する。 イオントラップ量子コンピュータ上で拡張されたshorアルゴリズムの実行時間と実行可能性について,cnot数に応じて解析する。 最後に、拡張されたshorアルゴリズムを実装するのに必要なcnotの数の下限について論じた。

Since the elliptic curve discrete logarithms problem (ECDLP) was proposed, it has been widely used in cryptosystem because of its strong security. Although the proposal of the extended Shor's algorithm offers hope for cracking ECDLP, it is debatable whether the algorithm can actually pose a threat in practice. From the perspective of the quantum circuit of the algorithm, we analyze the feasibility of cracking ECDLP with improved quantum circuits using an ion trap quantum computer. We give precise quantum circuits for extended Shor's algorithm to calculate discrete logarithms on elliptic curves over prime fields, including modulus subtraction, three different modulus multiplication, modulus inverse, and windowed arithmetic. Whereas previous studies mostly focused on minimizing the number of qubits or the depth of the circuit, we minimize the number of CNOTs, which greatly affects the time to run the algorithm on an ion trap quantum computer. First, we give the implementation of the basic arithmetic with the lowest known number of CNOTs and the construction of an improved modular inverse, point addition, and the windowing technique. Then, we precisely estimate the number of improved quantum circuits needed to perform the extended Shor's algorithm for factoring an n-bit integer. We analyze the running time and feasibility of the extended Shor's algorithm on an ion trap quantum computer according to the number of CNOTs. Finally, we discussed the lower bound of the number of CNOTs needed to implement the extended Shor's algorithm.
翻訳日:2023-05-22 16:20:58 公開日:2023-05-19
# 微調整速度, 速さによる言語間移動における性能ギャップの解析と低減

Analyzing and Reducing the Performance Gap in Cross-Lingual Transfer with Fine-tuning Slow and Fast ( http://arxiv.org/abs/2305.11449v1 )

ライセンス: Link先を確認
Yiduo Guo, Yaobo Liang, Dongyan Zhao, Bing Liu, Duan Nan(参考訳) 既存の研究によると、1つの(ソース)言語で微調整された多言語事前学習言語モデルは、これらの言語では微調整が行われなくても、非ソース言語の下流タスクでもうまく機能している。 しかし、ソース言語のパフォーマンスと非ソース言語のパフォーマンスの間には明確なギャップがある。 本稿では、微調整プロセスを分析し、パフォーマンスギャップがいつ変化するかを分析し、ネットワークの重みが全体のパフォーマンスに最も影響するかを特定する。 さらに, 紙は, 忘れを減らし, ギャップを減らそうとしている。 分析結果から,4つの学習方針を組み込んだ微調整方式であるslow and fastが提案されている。 実験結果から,提案手法はベースラインをクリアマージンで上回った。

Existing research has shown that a multilingual pre-trained language model fine-tuned with one (source) language also performs well on downstream tasks for non-source languages, even though no fine-tuning is done on these languages. However, there is a clear gap between the performance of the source language and that of the non-source languages. This paper analyzes the fine-tuning process, discovers when the performance gap changes and identifies which network weights affect the overall performance most. Additionally, the paper seeks to answer to what extent the gap can be reduced by reducing forgetting. Based on the analysis results, a method named Fine-tuning slow and fast with four training policies is proposed to address these issues. Experimental results show the proposed method outperforms baselines by a clear margin.
翻訳日:2023-05-22 16:15:06 公開日:2023-05-19
# 音響と電磁の時空幾何学

Spacetime geometry of acoustics and electromagnetism ( http://arxiv.org/abs/2305.11448v1 )

ライセンス: Link先を確認
Lucas Burns, Tatsuya Daniel, Stephon Alexander, Justin Dressel(参考訳) 音響と電磁界は、動的ポテンシャル場の観点から測定可能な場を表す。 電磁力場は、動的エネルギー運動量4-ベクトルポテンシャル場で表される時空のベクトルを形成する。 音圧と速度場は、動的作用スカラーポテンシャル場によって表されるエネルギー-運動密度4-ベクトル場を形成する。 驚くべきことに、これらの従来のポテンシャル表現に基づくスピン角運動量の標準場理論解析は、両方の理論を慎重に再評価する動機となる最近の実験と矛盾する。 真空波伝搬によって強制される本質的対称性を尊重するために時空の全幾何構造を用いる両理論の拡張を分析する。 結果として得られる拡張は、幾何学的に完全かつ位相不変(すなわち双対称)な定式化であり、時空ベクトル微分(すなわち量子ディラック作用素)によって関連づけられた相補的な階数(英語版)にまたがる力学ポテンシャルと測定可能な場を持つ。 これらの完全な表現は運動方程式、エネルギー-運動量テンソル、プローブで経験した力、ラグランジュ密度、ゲージ自由度を補正し、相対論的場の量子論に深い構造的関係を示す。 最後に,これらの補正が実験実験に与える影響について考察する。

Both acoustics and electromagnetism represent measurable fields in terms of dynamical potential fields. Electromagnetic force-fields form a spacetime bivector that is represented by a dynamical energy-momentum 4-vector potential field. Acoustic pressure and velocity fields form an energy-momentum density 4-vector field that is represented by a dynamical action scalar potential field. Surprisingly, standard field theory analyses of spin angular momentum based on these traditional potential representations contradict recent experiments, which motivates a careful reassessment of both theories. We analyze extensions of both theories that use the full geometric structure of spacetime to respect essential symmetries enforced by vacuum wave propagation. The resulting extensions are geometrically complete and phase-invariant (i.e., dual-symmetric) formulations that span all five grades of spacetime, with dynamical potentials and measurable fields spanning complementary grades that are related by a spacetime vector derivative (i.e., the quantum Dirac operator). These complete representations correct the equations of motion, energy-momentum tensors, forces experienced by probes, Lagrangian densities, and allowed gauge freedoms, while making manifest the deep structural connections to relativistic quantum field theories. Finally, we discuss the implications of these corrections to experimental tests.
翻訳日:2023-05-22 16:14:51 公開日:2023-05-19
# arukikata travelogueデータセット

Arukikata Travelogue Dataset ( http://arxiv.org/abs/2305.11444v1 )

ライセンス: Link先を確認
Hiroki Ouchi, Hiroyuki Shindo, Shoko Wakamiya, Yuki Matsuda, Naoya Inoue, Shohei Higashiyama, Satoshi Nakamura, Taro Watanabe(参考訳) 我々は,arukikata travelogueデータセットを構築し,学術研究のための無償公開を行った。 このデータセットは、国内旅行4,672件、海外旅行9,607件からなる、合計3100万語以上の日本語テキストデータセットである。 データセットを提供する前は、研究目的のために広く利用可能なトラベローグデータが少なく、各研究者は独自のデータを用意する必要があった。 これにより、既存の研究の再現と実験結果の公平な比較分析が妨げられる。 当社のデータセットでは、研究者が同じデータを調査し、研究における透明性と再現性を確保することができます。 本稿では,データセットの学術的意義,特徴,今後の展望について述べる。

We have constructed Arukikata Travelogue Dataset and released it free of charge for academic research. This dataset is a Japanese text dataset with a total of over 31 million words, comprising 4,672 Japanese domestic travelogues and 9,607 overseas travelogues. Before providing our dataset, there was a scarcity of widely available travelogue data for research purposes, and each researcher had to prepare their own data. This hinders the replication of existing studies and fair comparative analysis of experimental results. Our dataset enables any researchers to conduct investigation on the same data and to ensure transparency and reproducibility in research. In this paper, we describe the academic significance, characteristics, and prospects of our dataset.
翻訳日:2023-05-22 16:14:26 公開日:2023-05-19
# 等変多モード画像融合

Equivariant Multi-Modality Image Fusion ( http://arxiv.org/abs/2305.11443v1 )

ライセンス: Link先を確認
Zixiang Zhao, Haowen Bai, Jiangshe Zhang, Yulun Zhang, Kai Zhang, Shuang Xu, Dongdong Chen, Radu Timofte, Luc Van Gool(参考訳) マルチモダリティ画像融合(multi-modality image fusion)は、異なるセンサーやモダリティの情報を組み合わせて、機能的なハイライトやテクスチャの詳細といった各モダリティから補完的な特徴を保持する技術である。 しかし,地上真理融合データの欠如により,効果的に核融合モデルを訓練することは困難である。 この問題に対処するため,エンド・ツー・エンドの自己教師型学習のためのEMMA(Equivariant Multi-Modality imAge fusion)パラダイムを提案する。 我々のアプローチは、自然画像が特定の変換に同値であるという事前の知識に基づいている。 そこで本研究では,統合モジュールと学習可能な擬似センシングモジュールを含む新たなトレーニングフレームワークを導入する。これにより,ネットワークトレーニングは物理センシングおよび撮像プロセスの原則に従うことができ,一方,自然画像の同変を満たすことができる。 提案手法は, 赤外線画像と医用画像の両方に対して高品質な融合結果を生成するとともに, 下流のマルチモーダルセグメンテーションおよび検出作業を容易にする。 コードはリリースされます。

Multi-modality image fusion is a technique used to combine information from different sensors or modalities, allowing the fused image to retain complementary features from each modality, such as functional highlights and texture details. However, effectively training such fusion models is difficult due to the lack of ground truth fusion data. To address this issue, we propose the Equivariant Multi-Modality imAge fusion (EMMA) paradigm for end-to-end self-supervised learning. Our approach is based on the prior knowledge that natural images are equivariant to specific transformations. Thus, we introduce a novel training framework that includes a fusion module and a learnable pseudo-sensing module, which allow the network training to follow the principles of physical sensing and imaging process, and meanwhile satisfy the equivariant prior for natural images. Our extensive experiments demonstrate that our method produces high-quality fusion results for both infrared-visible and medical images, while facilitating downstream multi-modal segmentation and detection tasks. The code will be released.
翻訳日:2023-05-22 16:14:17 公開日:2023-05-19
# 自己監督型チューニングによるゼロショットテキスト分類

Zero-Shot Text Classification via Self-Supervised Tuning ( http://arxiv.org/abs/2305.11442v1 )

ライセンス: Link先を確認
Chaoqun Liu, Wenxuan Zhang, Guizhen Chen, Xiaobao Wu, Anh Tuan Luu, Chip Hong Chang, Lidong Bing(参考訳) 既存のゼロショットテキスト分類のソリューションは、テンプレートの選択に敏感な事前訓練された言語モデルでプロンプトを行うか、あるいはメタチューニングに関連するタスクの大規模アノテートデータに依存する。 本研究では,自己教師付きチューニングと呼ばれるラベルなしデータを用いて言語モデルをチューニングすることにより,ゼロショットテキスト分類タスクを解決するための,自己教師付き学習に基づく新しいパラダイムを提案する。 自由テキストの本質的な構造を探索することにより,未ラベルデータとテキスト分類タスクのギャップを埋める第1文予測という新たな学習目標を提案する。 モデルをチューニングして、残りに基づいて段落で最初の文を予測するように学習した後、モデルはトピック分類や感情分析のような目に見えないタスクに対してゼロショット推論を行うことができる。 実験の結果,本モデルは10タスク中7タスクで最先端のベースラインを上回った。 さらに,分析結果から,モデルがプロンプト設計に対する感度が低いことが判明した。 私たちのコードと事前トレーニングされたモデルはhttps://github.com/DAMO-NLP-SG/SSTuningで公開されています。

Existing solutions to zero-shot text classification either conduct prompting with pre-trained language models, which is sensitive to the choices of templates, or rely on large-scale annotated data of relevant tasks for meta-tuning. In this work, we propose a new paradigm based on self-supervised learning to solve zero-shot text classification tasks by tuning the language models with unlabeled data, called self-supervised tuning. By exploring the inherent structure of free texts, we propose a new learning objective called first sentence prediction to bridge the gap between unlabeled data and text classification tasks. After tuning the model to learn to predict the first sentence in a paragraph based on the rest, the model is able to conduct zero-shot inference on unseen tasks such as topic classification and sentiment analysis. Experimental results show that our model outperforms the state-of-the-art baselines on 7 out of 10 tasks. Moreover, the analysis reveals that our model is less sensitive to the prompt design. Our code and pre-trained models are publicly available at https://github.com/DAMO-NLP-SG/SSTuning .
翻訳日:2023-05-22 16:13:58 公開日:2023-05-19
# 視覚分布校正とクロスモーダル分布アライメントを用いたFew-Shot Learning

Few-Shot Learning with Visual Distribution Calibration and Cross-Modal Distribution Alignment ( http://arxiv.org/abs/2305.11439v1 )

ライセンス: Link先を確認
Runqi Wang, Hao Zheng, Xiaoyue Duan, Jianzhuang Liu, Yuning Lu, Tian Wang, Songcen Xu, Baochang Zhang(参考訳) 事前訓練された視覚言語モデルは、数ショット学習に関する多くの研究にインスピレーションを与えている。 しかし、いくつかの訓練画像では、(1)視覚特徴分布は、画像中のクラス非関連情報によって容易に邪魔され、(2)視覚特徴分布と言語特徴分布のアライメントは困難である。 そこで本研究では,画像の空間的注意マップを生成して,クラス非関連領域に対する攻撃を誘導する,訓練可能なアダプタで構成される選択攻撃モジュールを提案する。 これらの領域を乱すことで、重要な特徴を捉え、画像の特徴の視覚的分布を校正する。 そこで我々は,同じオブジェクトクラスを記述した視覚的特徴分布と言語的特徴分布の整合性を改善するために,各クラスに対する視覚言語型プロトタイプを導入し,プロトタイプを最適化するためにEarth Mover's Distance (EMD)を採用した。 効率的な計算のために、emdの上限を導出する。 さらに,画像とテキストプロンプトの多様性を高めるための拡張戦略を提案する。 11のデータセットに対する広範囲な実験により,本手法は,小数点学習において,先行技術よりも常に優れていることが証明された。 実装コードはhttps://github.com/bhrqw/SADAで公開される。

Pre-trained vision-language models have inspired much research on few-shot learning. However, with only a few training images, there exist two crucial problems: (1) the visual feature distributions are easily distracted by class-irrelevant information in images, and (2) the alignment between the visual and language feature distributions is difficult. To deal with the distraction problem, we propose a Selective Attack module, which consists of trainable adapters that generate spatial attention maps of images to guide the attacks on class-irrelevant image areas. By messing up these areas, the critical features are captured and the visual distributions of image features are calibrated. To better align the visual and language feature distributions that describe the same object class, we propose a cross-modal distribution alignment module, in which we introduce a vision-language prototype for each class to align the distributions, and adopt the Earth Mover's Distance (EMD) to optimize the prototypes. For efficient computation, the upper bound of EMD is derived. In addition, we propose an augmentation strategy to increase the diversity of the images and the text prompts, which can reduce overfitting to the few-shot training images. Extensive experiments on 11 datasets demonstrate that our method consistently outperforms prior arts in few-shot learning. The implementation code will be available at https://github.com/bhrqw/SADA.
翻訳日:2023-05-22 16:13:40 公開日:2023-05-19
# 韻律的・韻律的自己教師付き学習手法による非母語流束スコアリング

Phonetic and Prosody-aware Self-supervised Learning Approach for Non-native Fluency Scoring ( http://arxiv.org/abs/2305.11438v1 )

ライセンス: Link先を確認
Kaiqi Fu, Shaojun Gao, Shuju Shi, Xiaohai Tian, Wei Li, Zejun Ma(参考訳) 音韻的特徴と韻律的特徴を解析することにより、音声のフルーレンス/ディフルエンシーを評価することができる。 ディープニューラルネットワークは一般的に、フラレンシーに関連する特徴を人間のスコアにマッピングするために訓練される。 しかし、深層学習モデルの有効性はラベル付きトレーニングサンプルの限られた量によって制限されている。 そこで本稿では,音声と韻律の認識を考慮した自己教師型学習(SSL)手法を提案する。 具体的には,大量のラベルなし音声とテキストプロンプトで携帯電話とその継続時間を同時にマスキングすることで,復元損失関数を用いてモデルを事前学習した。 次に、人間の注釈スコアデータを用いて事前学習したモデルを微調整する。 本研究では,pearson correlation coefficients (pcc) を用いて,提案手法がベースラインシステムを上回ることを示す。 また,前訓練段階における音声的および韻律的要因の寄与をよりよく理解するために,アブレーション研究を行った。

Speech fluency/disfluency can be evaluated by analyzing a range of phonetic and prosodic features. Deep neural networks are commonly trained to map fluency-related features into the human scores. However, the effectiveness of deep learning-based models is constrained by the limited amount of labeled training samples. To address this, we introduce a self-supervised learning (SSL) approach that takes into account phonetic and prosody awareness for fluency scoring. Specifically, we first pre-train the model using a reconstruction loss function, by masking phones and their durations jointly on a large amount of unlabeled speech and text prompts. We then fine-tune the pre-trained model using human-annotated scoring data. Our experimental results, conducted on datasets such as Speechocean762 and our non-native datasets, show that our proposed method outperforms the baseline systems in terms of Pearson correlation coefficients (PCC). Moreover, we also conduct an ablation study to better understand the contribution of phonetic and prosody factors during the pre-training stage.
翻訳日:2023-05-22 16:13:14 公開日:2023-05-19
# PS-FedGAN - データプライバシのための部分共有ジェネレータネットワークに基づく効率的なフェデレーション学習フレームワーク

PS-FedGAN: An Efficient Federated Learning Framework Based on Partially Shared Generative Adversarial Networks For Data Privacy ( http://arxiv.org/abs/2305.11437v1 )

ライセンス: Link先を確認
Achintha Wijesinghe, Songyang Zhang, Zhi Ding(参考訳) 分散学習(federated learning, fl)は,データのプライバシを保ちながら,基礎となるデータ統計を捉える強力な可能性から,分散計算の効果的な学習パラダイムとして登場した。 しかし、FLクライアント間での実用的なデータ不均一性の場合、既存のFLフレームワークは、異なる分布を示すローカルクライアントデータの全体的な特徴特性を捉えるのに不足している。 その結果,GANは生データを公開せずにデータ再生に利用できるため,データ不均一性に対処するため,GAN(Generative Adversarial Network)が最近FLで活用されている。 いくつかの成功にもかかわらず、既存のGAN関連のFLフレームワークは、しばしば大きな通信コストを発生させ、他のプライバシー上の懸念も引き起こす。 そこで本研究では,部分的なGANモデル共有のみを必要とする新しいFLフレームワークを提案する。 PS-FedGANと名付けられたこの新しいフレームワークは、クライアント間の異種データ分散に対処し、特に無線ネットワーク上での通信コストの低減によるプライバシー保護を強化するため、GANリリースおよびトレーニングメカニズムを強化する。 本分析は,提案したPS-FEdGANフレームワークの収束とプライバシの利点を示す。 複数の有名なベンチマークデータセットに基づく実験結果から,提案するps-fedganは,データプライバシの確保と通信オーバーヘッドの低減を両立しつつ,非iidクライアントデータ分散下でflに取り組むという大きな期待を示す。

Federated Learning (FL) has emerged as an effective learning paradigm for distributed computation owing to its strong potential in capturing underlying data statistics while preserving data privacy. However, in cases of practical data heterogeneity among FL clients, existing FL frameworks still exhibit deficiency in capturing the overall feature properties of local client data that exhibit disparate distributions. In response, generative adversarial networks (GANs) have recently been exploited in FL to address data heterogeneity since GANs can be integrated for data regeneration without exposing original raw data. Despite some successes, existing GAN-related FL frameworks often incur heavy communication cost and also elicit other privacy concerns, which limit their applications in real scenarios. To this end, this work proposes a novel FL framework that requires only partial GAN model sharing. Named as PS-FedGAN, this new framework enhances the GAN releasing and training mechanism to address heterogeneous data distributions across clients and to strengthen privacy preservation at reduced communication cost, especially over wireless networks. Our analysis demonstrates the convergence and privacy benefits of the proposed PS-FEdGAN framework. Through experimental results based on several well-known benchmark datasets, our proposed PS-FedGAN shows great promise to tackle FL under non-IID client data distributions, while securing data privacy and lowering communication overhead.
翻訳日:2023-05-22 16:12:58 公開日:2023-05-19
# 視覚的接地・自己監督型音声モードにおけるシラブル発見と言語間一般化

Syllable Discovery and Cross-Lingual Generalization in a Visually Grounded, Self-Supervised Speech Mode ( http://arxiv.org/abs/2305.11435v1 )

ライセンス: Link先を確認
Puyuan Peng, Shang-Wen Li, Okko R\"as\"anen, Abdelrahman Mohamed, David Harwath(参考訳) 本稿では,視座訓練目標を用いた自己教師あり音声モデルの訓練において,音節単位を捉えた表現が出現することを示す。 マスク付き言語モデリング損失で訓練されたほぼ同一のモデルアーキテクチャ(HuBERT)が、このような能力を示していないことを実証し、この現象の出現に視覚的基盤が関与していることを示す。 本研究では,音声中の音節境界を自動的に予測する最小カットアルゴリズムと,同一音節をグループ化する2段階クラスタリング法を提案する。 我々のモデルは、訓練された言語(英語)で最先端の音節セグメンテーション法を上回っているだけでなく、ゼロショット方式でエストニア語に一般化している。 最後に,Zerospeech Challengeの他の4言語に対する単語分割タスクに対して,同じモデルでゼロショットの一般化が可能であることを示す。

In this paper, we show that representations capturing syllabic units emerge when training a self-supervised speech model with a visually-grounded training objective. We demonstrate that a nearly identical model architecture (HuBERT) trained with a masked language modeling loss does not exhibit this same ability, suggesting that the visual grounding objective is responsible for the emergence of this phenomenon. We propose the use of a minimum cut algorithm to automatically predict syllable boundaries in speech, followed by a 2-stage clustering method to group identical syllables together. We show that our model not only outperforms a state-of-the-art syllabic segmentation method on the language it was trained on (English), but also generalizes in a zero-shot fashion to Estonian. Finally, we show that the same model is capable of zero-shot generalization for a word segmentation task on 4 other languages from the Zerospeech Challenge, in some cases beating the previous state-of-the-art.
翻訳日:2023-05-22 16:12:33 公開日:2023-05-19
# TELeR:複雑なタスクのベンチマークのためのLLMプロンプトの一般的な分類法

TELeR: A General Taxonomy of LLM Prompts for Benchmarking Complex Tasks ( http://arxiv.org/abs/2305.11430v1 )

ライセンス: Link先を確認
Shubhra Kanti Karmaker Santu and Dongji Feng(参考訳) LLMは従来の会話環境におけるテキストの理解と生成に大きな成功を収めてきたが、不明確な複雑なタスクを実行する可能性はほとんど研究されていない。 実際、我々は複雑なタスクにのみ焦点を絞った複数のLSMを用いて包括的なベンチマーク研究を行っていません。 しかし,このようなベンチマーク研究を行うことは,プロンプトタイプやスタイルが異なる場合や,プロンプトで詳細度が異なる場合,llmsの性能のばらつきが大きいため,困難である。 この問題に対処するため,本論文では,様々な複雑なタスクを実行するために,特定の特性を持つプロンプトを設計できる汎用分類法を提案する。 この分類は、将来のベンチマーク研究が研究の一部として使用される特定のカテゴリのプロンプトを報告し、異なる研究間で有意義な比較を可能にする。 また、この分類学を通じて共通標準を確立することで、研究者は特定の複雑なタスクにおいてLLMのパフォーマンスについてより正確な結論を導き出すことができる。

While LLMs have shown great success in understanding and generating text in traditional conversational settings, their potential for performing ill-defined complex tasks is largely under-studied. Indeed, we are yet to conduct comprehensive benchmarking studies with multiple LLMs that are exclusively focused on a complex task. However, conducting such benchmarking studies is challenging because of the large variations in LLMs' performance when different prompt types/styles are used and different degrees of detail are provided in the prompts. To address this issue, the paper proposes a general taxonomy that can be used to design prompts with specific properties in order to perform a wide range of complex tasks. This taxonomy will allow future benchmarking studies to report the specific categories of prompts used as part of the study, enabling meaningful comparisons across different studies. Also, by establishing a common standard through this taxonomy, researchers will be able to draw more accurate conclusions about LLMs' performance on a specific complex task.
翻訳日:2023-05-22 16:12:12 公開日:2023-05-19
# Rieszカーネルを用いたジェネレーションスライスMD流れ

Generative Sliced MMD Flows with Riesz Kernels ( http://arxiv.org/abs/2305.11463v1 )

ライセンス: Link先を確認
Johannes Hertrich, Christian Wald, Fabian Altekr\"uger, Paul Hagemann(参考訳) 最大平均誤差(MMD)フローは大規模計算において高い計算コストを被る。 本稿では, Riesz カーネルでの MMD フローが $K(x,y) = - \|x-y\|^r$, $r \in (0,2)$ であることを示す。 まず、RieszカーネルのMDDは、スライスされたバージョンのMDDと一致する。 その結果、MDDの勾配の計算は1次元の設定で行うことができる。 ここでは、$r=1$の場合、単純なソートアルゴリズムを用いて複雑さを$O(MN+N^2)$から$O((M+N)\log(M+N))$に減らすことができる。 実装のために、スライスした mmd の勾配を有限個のスライス数 $p$ だけを用いて近似する。 結果の誤差は複雑さ$O(\sqrt{d/P})$であり、$d$はデータ次元である。 これらの結果から,大規模応用においてもニューラルネットワークによるmmd勾配流を近似して生成モデルの訓練が可能となった。 MNIST, FashionMNIST, CIFAR10の画像生成によるモデルの有効性を示す。

Maximum mean discrepancy (MMD) flows suffer from high computational costs in large scale computations. In this paper, we show that MMD flows with Riesz kernels $K(x,y) = - \|x-y\|^r$, $r \in (0,2)$ have exceptional properties which allow for their efficient computation. First, the MMD of Riesz kernels coincides with the MMD of their sliced version. As a consequence, the computation of gradients of MMDs can be performed in the one-dimensional setting. Here, for $r=1$, a simple sorting algorithm can be applied to reduce the complexity from $O(MN+N^2)$ to $O((M+N)\log(M+N))$ for two empirical measures with $M$ and $N$ support points. For the implementations we approximate the gradient of the sliced MMD by using only a finite number $P$ of slices. We show that the resulting error has complexity $O(\sqrt{d/P})$, where $d$ is the data dimension. These results enable us to train generative models by approximating MMD gradient flows by neural networks even for large scale applications. We demonstrate the efficiency of our model by image generation on MNIST, FashionMNIST and CIFAR10.
翻訳日:2023-05-22 16:06:02 公開日:2023-05-19
# 言語モデリングのためのメモリ拡張

Extending Memory for Language Modelling ( http://arxiv.org/abs/2305.11462v1 )

ライセンス: Link先を確認
Anupiya Nugaliyadde(参考訳) ディープラーニングとメモリネットワークのブレークスルーは、自然言語理解に大きな進歩をもたらした。 言語はシーケンシャルであり、シーケンシャルを通じて運ばれる情報はメモリネットワークを介してキャプチャできる。 シーケンスを学ぶことは、言語を学ぶ上で重要な側面の1つです。 しかし、メモリネットワークは無限に長いシーケンスを記憶に保持できず、消滅や爆発といった様々な制約によって制限される。 したがって、長い逐次テキストを提示する場合、自然言語理解モデルが影響を受ける。 無限に長いシーケンスから学習するためにLong Term Memory Network (LTM)を導入する。 LTMは現在の入力に優先順位を与え、高いインパクトを与える。 言語モデリングは自然言語理解において重要な要素である。 LTMは長期記憶を必要とする言語モデリングでテストされた。 ltmはpenn tree bank dataset、google billion word dataset、wikitext-2 datasetでテストされている。 ltmを長期記憶を必要とする他の言語モデルと比較する。

Breakthroughs in deep learning and memory networks have made major advances in natural language understanding. Language is sequential and information carried through the sequence can be captured through memory networks. Learning the sequence is one of the key aspects in learning the language. However, memory networks are not capable of holding infinitely long sequences in their memories and are limited by various constraints such as the vanishing or exploding gradient problem. Therefore, natural language understanding models are affected when presented with long sequential text. We introduce Long Term Memory network (LTM) to learn from infinitely long sequences. LTM gives priority to the current inputs to allow it to have a high impact. Language modeling is an important factor in natural language understanding. LTM was tested in language modeling, which requires long term memory. LTM is tested on Penn Tree bank dataset, Google Billion Word dataset and WikiText-2 dataset. We compare LTM with other language models which require long term memory.
翻訳日:2023-05-22 16:05:42 公開日:2023-05-19
# SelfzCoT: セマンティックレベルからコードレベルへの自己プロンプトゼロショットCoTによるLCMのより良い利用

SelfzCoT: a Self-Prompt Zero-shot CoT from Semantic-level to Code-level for a Better Utilization of LLMs ( http://arxiv.org/abs/2305.11461v1 )

ライセンス: Link先を確認
IokTong Lei and ZhiDong Deng(参考訳) 本稿では,自己プロンプトゼロショットCoTであるSelfzCoTを用いたLCMの有効利用について述べる。 特にゼロショット算術推論タスクでは、提案されたSelfzCoTの精度は、GSM8Kを40.50%から82.34%に改善し、MultiArithを79.3%から94.7%、ADDSUBを74.70%から94.10%、SingleEqを78.70%から91.30%、Aquaを31.90%から82.33%、SVAMPを63.70%から79.70%に改善した。 LLMへの最初の2つのパスアクティベート、特にコードレベルのセルフプロンプトを使用して、SelfzCoTは6つのゼロショット算術推論タスクを大幅に改善した。 さらに,修正したゼロショットCoT (MzCoT) も推論タスクにおいて顕著な性能を発揮する。 提案されたMzCoTの精度はGSM8Kが40.50%から76.32%、MultiArithが79.3%から96.97%、ABDSUBが74.70%から92.39%、SingleEqが78.70%から94.60%、AQUAが31.90%から79.90%、SVAMPが63.70%から81.50%に向上した。 特にSelfzCoTは、最近のゼロショットメソッドの中でもGSM8Kで最高のパフォーマンスを示している。

This paper show a work on better use of LLMs with SelfzCoT a self-prompt zero-shot CoT. Specifically, on the zero-shot arithmetic reasoning tasks, the accuracy of the proposed SelfzCoT is improved with GSM8K from 40.50% to 82.34%, with MultiArith from 79.3% to 94.7%, with ADDSUB from 74.70% to 94.10%, with SingleEq from 78.70% to 91.30%, with AQUA from 31.90% to 82.33%, and with SVAMP from 63.70% to 79.70%. Totally, using the first two lasting path activations to LLM and particularly, the code-level self-prompt, the SelfzCoT has a huge improvement on all six zero-shot arithmetic reasoning tasks. Additionally, our modified zero-shot CoT (MzCoT) also achieves remarkable performance in the reasoning tasks. The accuracy of the proposed MzCoT is enhanced with GSM8K from 40.50% to 76.32%, with MultiArith from 79.3% to 96.97%, with ADDSUB from 74.70% to 92.39%, with SingleEq from 78.70% to 94.60%, with AQUA from 31.90% to 79.90%, and with SVAMP from 63.70% to 81.50%. Notably, SelfzCoT has the best performance on GSM8K among all the recent zero-shot methods.
翻訳日:2023-05-22 16:05:30 公開日:2023-05-19
# 自己アグリメント: さまざまな意見の一致を見つけるための微調整言語モデルのためのフレームワーク

Self-Agreement: A Framework for Fine-tuning Language Models to Find Agreement among Diverse Opinions ( http://arxiv.org/abs/2305.11460v1 )

ライセンス: Link先を確認
Shiyao Ding and Takayuki Ito(参考訳) 多様な意見の合意を見つけることは、マルチエージェントシステムにおいて難しいトピックである。 近年,大きな言語モデル (LLM) は,人的意見の理解や人間的な文章の生成に際し,この課題に対処する大きな可能性を示している。 しかし、一般的には人間の注釈付きデータに依存する。 本稿では,LLM自体が生成するデータを用いて合意を自律的に見つけるための,微調整LDMのための新しいフレームワークであるSelf-Agreementを提案する。 具体的には,質問データセットの各質問に対して複数の意見を生成し,これらの意見の中から複数の合意候補を作成するために,生成前訓練トランスフォーマ3(gpt-3)を用いる。 そして、変換器(BERT)ベースのモデルから双方向エンコーダ表現を行い、各合意候補の合意スコアを評価し、最も合意スコアの高いものを選択する。 このプロセスは、様々な意見の合意を発見するために、事前学習されたLLMを微調整するために使用する質問-回答-アグリメントのデータセットを生成する。 注目すべきは、我々のセルフアグリメントフレームワークによって微調整されたLLMは、パラメータの1/25しか持たないGPT-3に匹敵する性能を達成し、人間に注釈付けされたデータを必要としない様々な意見の合意を識別する能力を示していることである。

Finding an agreement among diverse opinions is a challenging topic in multiagent systems. Recently, large language models (LLMs) have shown great potential in addressing this challenge due to their remarkable capabilities in comprehending human opinions and generating human-like text. However, they typically rely on extensive human-annotated data. In this paper, we propose Self-Agreement, a novel framework for fine-tuning LLMs to autonomously find agreement using data generated by LLM itself. Specifically, our approach employs the generative pre-trained transformer-3 (GPT-3) to generate multiple opinions for each question in a question dataset and create several agreement candidates among these opinions. Then, a bidirectional encoder representations from transformers (BERT)-based model evaluates the agreement score of each agreement candidate and selects the one with the highest agreement score. This process yields a dataset of question-opinion-agreements, which we use to fine-tune a pre-trained LLM for discovering agreements among diverse opinions. Remarkably, a pre-trained LLM fine-tuned by our Self-Agreement framework achieves comparable performance to GPT-3 with only 1/25 of its parameters, showcasing its ability to identify agreement among various opinions without the need for human-annotated data.
翻訳日:2023-05-22 16:04:52 公開日:2023-05-19
# 不正確なランク推定に対するロバスト性を有する新しいテンソル因子分解法

A Novel Tensor Factorization-Based Method with Robustness to Inaccurate Rank Estimation ( http://arxiv.org/abs/2305.11458v1 )

ライセンス: Link先を確認
Jingjing Zheng, Wenzhe Wang, Xiaoqin Zhang, Xianta Jiang(参考訳) 本研究では,標準テンソル分解に基づくテンソル回復におけるランク推定戦略と,標準t-svdに基づくテンソル回復における大きな計算コストの問題に過度に依存することを目的とする。 そこで本研究では,低ランク先行情報とランク情報を同時に利用する2つの低ランク制約を持つ新しいテンソルノルムを提案する。 提案するテンソルノルムでは、テンソルチューバルランクの一連のサロゲート関数は、テンソルデータ内の低ランク性を活用するための優れた性能を達成するために使用できる。 結果のテンソル完成モデルが不正確なランク推定による性能劣化を効果的に回避できることが理論的に証明されている。 一方、提案した2つの低ランク制約により、元の大小ではなく小さなテンソルの t-SVD はサンプルトリックを用いて計算される。 これに基づいて、最適化アルゴリズムの各イテレーションの合計コストは、標準メソッドで達成された$\mathcal{o}(n^3\log n +kn^3)$から$\mathcal{o}(n^4)$に削減される。 本手法は合成および実世界のデータを用いて評価し,既存のテンソル補完法よりも優れた性能と効率を示した。

This study aims to solve the over-reliance on the rank estimation strategy in the standard tensor factorization-based tensor recovery and the problem of a large computational cost in the standard t-SVD-based tensor recovery. To this end, we proposes a new tensor norm with a dual low-rank constraint, which utilizes the low-rank prior and rank information at the same time. In the proposed tensor norm, a series of surrogate functions of the tensor tubal rank can be used to achieve better performance in harness low-rankness within tensor data. It is proven theoretically that the resulting tensor completion model can effectively avoid performance degradation caused by inaccurate rank estimation. Meanwhile, attributed to the proposed dual low-rank constraint, the t-SVD of a smaller tensor instead of the original big one is computed by using a sample trick. Based on this, the total cost at each iteration of the optimization algorithm is reduced to $\mathcal{O}(n^3\log n +kn^3)$ from $\mathcal{O}(n^4)$ achieved with standard methods, where $k$ is the estimation of the true tensor rank and far less than $n$. Our method was evaluated on synthetic and real-world data, and it demonstrated superior performance and efficiency over several existing state-of-the-art tensor completion methods.
翻訳日:2023-05-22 16:04:28 公開日:2023-05-19
# 課題形成における進化的多様性の最適化

Evolutionary Diversity Optimisation in Constructing Satisfying Assignments ( http://arxiv.org/abs/2305.11457v1 )

ライセンス: Link先を確認
Adel Nikfarjam and Ralf Rothenberger and Frank Neumann and Tobias Friedrich(参考訳) 与えられた問題に対する多様な解、特に進化的多様性最適化(EDO)は、進化的計算コミュニティにおいてホットな研究トピックである。 本稿では,EDOの文脈におけるブール充足可能性問題(SAT)について検討する。 SATは計算機科学において非常に重要であり、KPやTSPといったEDO文献で研究されている他の問題とは異なる。 SATは制約が強く、従来の進化作用素はSAT溶液を生成するのに非効率である。 SATの特徴は以下の通りである。 1)解を禁止したり,変数を修正したりする問題に,より多くの制約を加える可能性 2)ミニサットなどの文学における強力な問題解決者。 このような解法を多種多様な解集合の構築に利用する。 さらに、多様性の最大化は、あるSAT問題の解空間に関する貴重な情報を与えてくれる。 本研究では,一組のSAT解の多様性を明示的に最大化するためによく知られたSATソルバを用いた進化的アルゴリズム(EA)を提案する。 実験の結果,SATソリューション間の多様性を最大化するアルゴリズムの能力が示唆された。

Computing diverse solutions for a given problem, in particular evolutionary diversity optimisation (EDO), is a hot research topic in the evolutionary computation community. This paper studies the Boolean satisfiability problem (SAT) in the context of EDO. SAT is of great importance in computer science and differs from the other problems studied in EDO literature, such as KP and TSP. SAT is heavily constrained, and the conventional evolutionary operators are inefficient in generating SAT solutions. Our approach avails of the following characteristics of SAT: 1) the possibility of adding more constraints (clauses) to the problem to forbid solutions or to fix variables, and 2) powerful solvers in the literature, such as minisat. We utilise such a solver to construct a diverse set of solutions. Moreover, maximising diversity provides us with invaluable information about the solution space of a given SAT problem, such as how large the feasible region is. In this study, we introduce evolutionary algorithms (EAs) employing a well-known SAT solver to maximise diversity among a set of SAT solutions explicitly. The experimental investigations indicate the introduced algorithms' capability to maximise diversity among the SAT solutions.
翻訳日:2023-05-22 16:04:01 公開日:2023-05-19
# ベクトルモデル波動関数:量子力学角モータの空間記述とウェーブパレット形成

The Vector-Model Wavefunction: spatial description and wavepacket formation of quantum-mechanical angular momenta ( http://arxiv.org/abs/2305.11456v1 )

ライセンス: Link先を確認
T. Peter Rakitzis, Michail E. Koutrakis, George E. Katsoprinakis(参考訳) 量子力学において、空間波動関数は粒子の位置や運動量の分布を記述するが、角運動量$j$ではない。 これとは対照的に、空間波動関数 $j_m (\phi,\theta,\chi)=~e^{i m \phi} \delta (\theta - \theta_m) ~e^{i(j+1/2)\chi}$ は3次元の実体として$|jm>$状態を扱うもので、角運動作用素の漸近固有函数である。 j_m (\phi,\theta,\chi)$は、粒子と軌道角波束の計算学的に単純な記述($j$と$m$のガウス分布から構成される)を与え、$\Delta m \Delta \phi $, $\Delta j \Delta \chi$, $\Delta\phi\Delta\theta$の効果的な波束角不確実性関係と軌道面上の粒子-波束角運動の位置を予測する。 粒子波の回転は、連続的および非破壊的な$j$回転測定によって実験的に観測することができる。 また、Clebsch-Gordan係数、ウィグナーd関数、素粒子のジャイロ磁性比$g=2$、m状態相関行列要素$<j_3m_3|j_{1X} j_{2X}|j_3m_3>$のよく知られた漸近式を決定するために$j_m(\phi,\theta,\chi)$を用いる。 興味深いことに、低い j に対して、$j=1/2$ であるとしても、これらの式は正確(最後の2つ)または優れた近似(最初の2つ)であり、$j_m (\phi,\theta,\chi)$ は量子力学的角運動量の有用な空間的記述を与え、古典的角運動量との滑らかな接続を提供する。

In quantum mechanics, spatial wavefunctions describe distributions of a particle's position or momentum, but not of angular momentum $j$. In contrast, here we show that a spatial wavefunction, $j_m (\phi,\theta,\chi)=~e^{i m \phi} \delta (\theta - \theta_m) ~e^{i(j+1/2)\chi}$, which treats $j$ in the $|jm>$ state as a three-dimensional entity, is an asymptotic eigenfunction of angular-momentum operators; $\phi$, $\theta$, $\chi$ are the Euler angles, and $cos \theta_m=(m/|j|)$ is the Vector-Model polar angle. The $j_m (\phi,\theta,\chi)$ gives a computationally simple description of particle and orbital-angular-momentum wavepackets (constructed from Gaussian distributions in $j$ and $m$) which predicts the effective wavepacket angular uncertainty relations for $\Delta m \Delta \phi $, $\Delta j \Delta \chi$, and $\Delta\phi\Delta\theta$, and the position of the particle-wavepacket angular motion on the orbital plane. The particle-wavepacket rotation can be experimentally probed through continuous and non-destructive $j$-rotation measurements. We also use the $j_m (\phi,\theta,\chi)$ to determine well-known asymptotic expressions for Clebsch-Gordan coefficients, Wigner d-functions, the gyromagnetic ratio of elementary particles, $g=2$, and the m-state-correlation matrix elements, $<j_3 m_3|j_{1X} j_{2X}|j_3 m_3>$. Interestingly, for low j, even down to $j=1/2$, these expressions are either exact (the last two) or excellent approximations (the first two), showing that $j_m (\phi,\theta,\chi)$ gives a useful spatial description of quantum-mechanical angular momentum, and provides a smooth connection with classical angular momentum.
翻訳日:2023-05-22 16:03:44 公開日:2023-05-19
# インクルーシブ言語モデルの微調整のためのエージェント環境インタフェースの粉々化

Shattering the Agent-Environment Interface for Fine-Tuning Inclusive Language Models ( http://arxiv.org/abs/2305.11455v1 )

ライセンス: Link先を確認
Wanqiao Xu, Shi Dong, Dilip Arumugam, Benjamin Van Roy(参考訳) 人的フィードバック(RLHF)による細調整型自己回帰言語モデルへのアプローチの中心は、人的フィードバックをエミュレートする報酬モデルの明示的な訓練であり、言語モデル自体とは異なっている。 この報酬モデルは、言語モデル出力と所望の応答とのアライメントを劇的に改善するポリシー段階の手法と結合される。 本研究では,事前学習された言語モデル自体が方針,報酬関数,トランジッション関数である新しい視点を採用する。 即ち、報酬学習と言語モデルの微調整は、さらに下流のポリシー最適化を必要とせずに、共同で直接行うことができる。 この観点は従来のエージェント・環境インタフェースを損なうが、強化学習から従来のアルゴリズムの概念を身につけることで、膨大な統計的な利益が得られると我々は主張している。 本実験は,認識的不確かさの表現と解決に基づく効率的な探索を通じて,その具体例を示す。 これらのアイデアを透明に説明するために,我々は単純なディダクティックなデータ生成プロセスに注意を向け,実用規模のシステムへの今後の作業拡張に留意する。

A centerpiece of the ever-popular reinforcement learning from human feedback (RLHF) approach to fine-tuning autoregressive language models is the explicit training of a reward model to emulate human feedback, distinct from the language model itself. This reward model is then coupled with policy-gradient methods to dramatically improve the alignment between language model outputs and desired responses. In this work, we adopt a novel perspective wherein a pre-trained language model is itself simultaneously a policy, reward function, and transition function. An immediate consequence of this is that reward learning and language model fine-tuning can be performed jointly and directly, without requiring any further downstream policy optimization. While this perspective does indeed break the traditional agent-environment interface, we nevertheless maintain that there can be enormous statistical benefits afforded by bringing to bear traditional algorithmic concepts from reinforcement learning. Our experiments demonstrate one concrete instance of this through efficient exploration based on the representation and resolution of epistemic uncertainty. In order to illustrate these ideas in a transparent manner, we restrict attention to a simple didactic data generating process and leave for future work extension to systems of practical scale.
翻訳日:2023-05-22 16:02:52 公開日:2023-05-19
# ReDirTrans: Gaze と Head Redirection の潜時翻訳

ReDirTrans: Latent-to-Latent Translation for Gaze and Head Redirection ( http://arxiv.org/abs/2305.11452v1 )

ライセンス: Link先を確認
Shiwei Jin, Zhen Wang, Lei Wang, Ning Bi, Truong Nguyen(参考訳) 学習に基づく視線推定法は、正確な視線アノテーションを用いた大量の訓練データを必要とする。 このような視線データ収集と注記の要求に対して,複数の画像合成手法が提案され,与えられた条件により視線方向を高精度にリダイレクトすることに成功した。 しかし、これらの手法は、被写体の視線方向を変えることに焦点を当てており、例えばヘアなどの他の属性からの干渉を減らすために、解像度が低く(128\times 128$以下)、用途シナリオを制限する。 この制限に対処するため,我々は,視線方向と頭部方向を解釈可能な方法でリダイレクトするための潜在翻訳を実現する,redertransと呼ばれる携帯ネットワークを提案した。 redirtransプロジェクトは、潜在ベクトルをターゲティング-属性埋め込みに入力し、これらの埋め込みを割り当てられたピッチとyaw値でリダイレクトする。 次に、初期および編集された埋め込みを初期潜伏空間に投影し(デジェクト)、入力潜伏ベクトルを減算と加算によって修正し、古い状態除去と新しい状態付加を表す。 目的属性のみの投影と状態置換のための減算付加操作は、本質的に他の属性に対する影響と潜在ベクトルの分布を緩和する。 そこで,プリトレーニングされたe4e-styleganペアとredirtransを組み合わせることで,同一性,表現性,髪型などの他の属性を保ちながら,フルフェイス画像中の視線を正確に1024\times1024$解像度でリダイレクトできるredirtrans-ganを開発した。 さらに,リダイレクトサンプルをデータセット拡張として,下流学習に基づく視線推定タスクの改善も行った。

Learning-based gaze estimation methods require large amounts of training data with accurate gaze annotations. Facing such demanding requirements of gaze data collection and annotation, several image synthesis methods were proposed, which successfully redirected gaze directions precisely given the assigned conditions. However, these methods focused on changing gaze directions of the images that only include eyes or restricted ranges of faces with low resolution (less than $128\times128$) to largely reduce interference from other attributes such as hairs, which limits application scenarios. To cope with this limitation, we proposed a portable network, called ReDirTrans, achieving latent-to-latent translation for redirecting gaze directions and head orientations in an interpretable manner. ReDirTrans projects input latent vectors into aimed-attribute embeddings only and redirects these embeddings with assigned pitch and yaw values. Then both the initial and edited embeddings are projected back (deprojected) to the initial latent space as residuals to modify the input latent vectors by subtraction and addition, representing old status removal and new status addition. The projection of aimed attributes only and subtraction-addition operations for status replacement essentially mitigate impacts on other attributes and the distribution of latent vectors. Thus, by combining ReDirTrans with a pretrained fixed e4e-StyleGAN pair, we created ReDirTrans-GAN, which enables accurately redirecting gaze in full-face images with $1024\times1024$ resolution while preserving other attributes such as identity, expression, and hairstyle. Furthermore, we presented improvements for the downstream learning-based gaze estimation task, using redirected samples as dataset augmentation.
翻訳日:2023-05-22 16:02:31 公開日:2023-05-19
# SurgMAE:長期手術用ビデオ分析用マスク付きオートエンコーダ

SurgMAE: Masked Autoencoders for Long Surgical Video Analysis ( http://arxiv.org/abs/2305.11451v1 )

ライセンス: Link先を確認
Muhammad Abdullah Jamal, Omid Mohareri(参考訳) ワークフロー効率のツールやアプリケーションを可能にするメトリクスを抽出し、臨床・手術活動を自動的に検出するために、長い手術ビデオの処理にディープラーニングモデルを使用することへの関心が高まっている。 しかし、そのようなモデルのトレーニングには膨大な量のラベル付きデータが必要です。 近年,コンピュータビジョンコミュニティにおいて,アノテーションコストの負担を軽減するために,自己教師付き学習が研究されている。 Masked Autoencoders (MAE) は、画像やビデオクリップの可視パッチからランダムにマスキングされた領域を予測することで、視覚変換器(ViT)の自己監督パラダイムに注目され、ベンチマークデータセット上で優れたパフォーマンスを示している。 しかし, 外科的データへのMAEの適用は未定である。 本稿では, mae が手術ビデオ領域で転送可能表現を学習できるかどうかを最初に検討する。 本稿では,MAEのための高時空間トークンのサンプリングに基づくマスキング戦略を備えた新しいアーキテクチャであるSurgMAEを提案する。 本研究では,SurgMAEを2つの大規模長期手術用ビデオデータセット上で実証的に検討し,本手法が低データレシエーションにおいていくつかのベースラインを上回っていることを見出した。 本研究は,本手法の有効性を示すため,広範囲にわたるアブレーション研究を行い,UCF-101の優れた性能を示した。

There has been a growing interest in using deep learning models for processing long surgical videos, in order to automatically detect clinical/operational activities and extract metrics that can enable workflow efficiency tools and applications. However, training such models require vast amounts of labeled data which is costly and not scalable. Recently, self-supervised learning has been explored in computer vision community to reduce the burden of the annotation cost. Masked autoencoders (MAE) got the attention in self-supervised paradigm for Vision Transformers (ViTs) by predicting the randomly masked regions given the visible patches of an image or a video clip, and have shown superior performance on benchmark datasets. However, the application of MAE in surgical data remains unexplored. In this paper, we first investigate whether MAE can learn transferrable representations in surgical video domain. We propose SurgMAE, which is a novel architecture with a masking strategy based on sampling high spatio-temporal tokens for MAE. We provide an empirical study of SurgMAE on two large scale long surgical video datasets, and find that our method outperforms several baselines in low data regime. We conduct extensive ablation studies to show the efficacy of our approach and also demonstrate it's superior performance on UCF-101 to prove it's generalizability in non-surgical datasets as well.
翻訳日:2023-05-22 16:01:59 公開日:2023-05-19
# ccgen:eコマースにおける補完的な概念生成

CCGen: Explainable Complementary Concept Generation in E-Commerce ( http://arxiv.org/abs/2305.11480v1 )

ライセンス: Link先を確認
Jie Huang, Yifan Gao, Zheng Li, Jingfeng Yang, Yangqiu Song, Chao Zhang, Zining Zhu, Haoming Jiang, Kevin Chen-Chuan Chang, Bing Yin(参考訳) 我々は,補完的概念生成(CCGen)を提案し,研究し,例えば「デジタルカメラ」のような興味ある概念を付与し,補完的概念のリストを作成する。 1)カメラレンズ 2)電池 3)カメラケース 4)メモリカード 5) 電池充電器。 CCGenは、クエリ提案やアイテムレコメンデーションといった様々なアプリケーション、特にeコマースドメインに有用である。 CCGenを解決するために,2段階の学習戦略を用いて概念のランク付けリストを生成する言語モデルを提案する。 また,大規模な教師モデルから抽出した説明を取り入れて説明文を生成するモデルも指導する。 大規模な実験と分析により,我々のモデルは入力概念に相補的な高品質な概念を生成できることを示した。

We propose and study Complementary Concept Generation (CCGen): given a concept of interest, e.g., "Digital Cameras", generating a list of complementary concepts, e.g., 1) Camera Lenses 2) Batteries 3) Camera Cases 4) Memory Cards 5) Battery Chargers. CCGen is beneficial for various applications like query suggestion and item recommendation, especially in the e-commerce domain. To solve CCGen, we propose to train language models to generate ranked lists of concepts with a two-step training strategy. We also teach the models to generate explanations by incorporating explanations distilled from large teacher models. Extensive experiments and analysis demonstrate that our model can generate high-quality concepts complementary to the input concept while producing explanations to justify the predictions.
翻訳日:2023-05-22 15:56:05 公開日:2023-05-19
# 集団型セルフプレイにおける異種リスクの学習

Learning Diverse Risk Preferences in Population-based Self-play ( http://arxiv.org/abs/2305.11476v1 )

ライセンス: Link先を確認
Yuhua Jiang, Qihan Liu, Xiaoteng Ma, Chenghao Li, Yiqin Yang, Jun Yang, Bin Liang, Qianchuan Zhao(参考訳) 強化学習(Reinforcement Learning, RL)の成功のうち, セルフプレイアルゴリズムは, 競争ゲームを解く上で重要な役割を担っている。 現在の自己再生アルゴリズムは、エージェントを最適化して、現在のまたは歴史的なコピーに対する期待のウィンレートを最大化し、しばしば局所的最適化と戦略スタイルをシンプルで均質に保ちます。 可能な解決策は、ポリシーの多様性を改善することである。これはエージェントが停滞状態を打ち破るのを手助けし、異なる敵と向き合う際の堅牢性を高める。 しかし,自己再生アルゴリズムの多様性の向上は容易ではない。 本稿では,不確実性に直面したエージェントが多様なリスク嗜好を持つという観点から多様性を導入することを目的とする。 具体的には,リスクに敏感な近位政策最適化 (rppo) と呼ばれる新しい強化学習アルゴリズムを考案した。 RPPOと人口ベースのセルフプレイをシームレスに統合したエージェントは、多様な対戦相手と対戦した経験から、動的にリスクに敏感な目標を最適化する。 実験の結果,本手法は競争ゲームにおいて同等または優れた性能を達成し,多様な行動モードが出現することが示された。 私たちのコードは \url{https://github.com/Jackory/RPBT} で公開されています。

Among the great successes of Reinforcement Learning (RL), self-play algorithms play an essential role in solving competitive games. Current self-play algorithms optimize the agent to maximize expected win-rates against its current or historical copies, making it often stuck in the local optimum and its strategy style simple and homogeneous. A possible solution is to improve the diversity of policies, which helps the agent break the stalemate and enhances its robustness when facing different opponents. However, enhancing diversity in the self-play algorithms is not trivial. In this paper, we aim to introduce diversity from the perspective that agents could have diverse risk preferences in the face of uncertainty. Specifically, we design a novel reinforcement learning algorithm called Risk-sensitive Proximal Policy Optimization (RPPO), which smoothly interpolates between worst-case and best-case policy learning and allows for policy learning with desired risk preferences. Seamlessly integrating RPPO with population-based self-play, agents in the population optimize dynamic risk-sensitive objectives with experiences from playing against diverse opponents. Empirical results show that our method achieves comparable or superior performance in competitive games and that diverse modes of behaviors emerge. Our code is public online at \url{https://github.com/Jackory/RPBT}.
翻訳日:2023-05-22 15:55:51 公開日:2023-05-19
# curve your enthusiasm: 微分可能一般化加法モデルにおけるconcurvity regularization

Curve Your Enthusiasm: Concurvity Regularization in Differentiable Generalized Additive Models ( http://arxiv.org/abs/2305.11475v1 )

ライセンス: Link先を確認
Julien Siems, Konstantin Ditschuneit, Winfried Ripken, Alma Lindborg, Maximilian Schambach, Johannes S. Otterbach, Martin Genzel(参考訳) 一般化加法モデル(GAM)は、最近、その解釈可能性によって、特徴の非線形変換の和として目的値を表現することから、人気が回復した。 GAMに対する現在の熱意にもかかわらず、その不確実性への感受性、すなわち機能間の(おそらく非線形ではない)依存関係は、ほとんど見過ごされてしまった。 本稿では, コンカービリティがガンの解釈可能性に悪影響を及ぼすことを実証し, 非線型変換された特徴変数の対関係をペナライズする概念的単純かつ効果的な正則化法を提案する。 この手順は、Neural Additive ModelsやNeuralProphetなど、任意の微分可能な付加モデルに適用でき、自己キャンセル機能によるあいまいさを排除して解釈性を高める。 時系列および表データのための実世界のデータセットと合成実験における正規化器の有効性を検証する。 実験の結果,GAMの精度は予測品質を著しく損なうことなく低下し,解釈性が向上し,特徴量のばらつきを低減できることがわかった。

Generalized Additive Models (GAMs) have recently experienced a resurgence in popularity due to their interpretability, which arises from expressing the target value as a sum of non-linear transformations of the features. Despite the current enthusiasm for GAMs, their susceptibility to concurvity - i.e., (possibly non-linear) dependencies between the features - has hitherto been largely overlooked. Here, we demonstrate how concurvity can severly impair the interpretability of GAMs and propose a remedy: a conceptually simple, yet effective regularizer which penalizes pairwise correlations of the non-linearly transformed feature variables. This procedure is applicable to any differentiable additive model, such as Neural Additive Models or NeuralProphet, and enhances interpretability by eliminating ambiguities due to self-canceling feature contributions. We validate the effectiveness of our regularizer in experiments on synthetic as well as real-world datasets for time-series and tabular data. Our experiments show that concurvity in GAMs can be reduced without significantly compromising prediction quality, improving interpretability and reducing variance in the feature importances.
翻訳日:2023-05-22 15:55:27 公開日:2023-05-19
# RAMiT:軽量画像復元用相互注意混合変換器

RAMiT: Reciprocal Attention Mixing Transformer for Lightweight Image Restoration ( http://arxiv.org/abs/2305.11474v1 )

ライセンス: Link先を確認
Haram Choi, Cheolwoong Na, Jihyeon Oh, Seungjae Lee, Jinseop Kim, Subeen Choe, Jeongmin Lee, Taehoon Kim, Jihoon Yang(参考訳) 近年の多くの作品は画像復元(ir)の分野で進歩を遂げているが、パラメータの多さに苦しむことが多い。 もうひとつの問題は、ほとんどのTransformerベースのIRメソッドがローカルまたはグローバルな機能にのみ焦点をあてていることだ。 そこで本稿では,軽量irネットワークであるreciprocal attention mixed transformer (ramit)を提案する。 提案する次元相互注意混合トランス(d-ramit)ブロックを用いて,複数ヘッドの異なる数に並列に2次元(空間的およびチャネル的)自己アテンションを計算する。 二次元の注意は互いの欠点を補うのに役立ち、その後混合される。 さらに,画素レベルの情報損失を補償し,効率的な階層構造を維持しつつ意味情報を利用する階層的相互注意混合(h-rami)層を導入する。 さらに,提案するコンポーネントに効率的な畳み込みをアタッチするためにmobilenet v1とv2を再検討し,修正する。 実験の結果,RAMiTは高分解能,カラーデノナイジング,グレースケールデノナイジング,低照度エンハンスメント,デラナイジングなど,複数の軽量IRタスクにおいて最先端性能を実現することが示された。 コードはもうすぐ入手できる。

Although many recent works have made advancements in the image restoration (IR) field, they often suffer from an excessive number of parameters. Another issue is that most Transformer-based IR methods focus only on either local or global features, leading to limited receptive fields or deficient parameter issues. To address these problems, we propose a lightweight IR network, Reciprocal Attention Mixing Transformer (RAMiT). It employs our proposed dimensional reciprocal attention mixing Transformer (D-RAMiT) blocks, which compute bi-dimensional (spatial and channel) self-attentions in parallel with different numbers of multi-heads. The bi-dimensional attentions help each other to complement their counterpart's drawbacks and are then mixed. Additionally, we introduce a hierarchical reciprocal attention mixing (H-RAMi) layer that compensates for pixel-level information losses and utilizes semantic information while maintaining an efficient hierarchical structure. Furthermore, we revisit and modify MobileNet V1 and V2 to attach efficient convolutions to our proposed components. The experimental results demonstrate that RAMiT achieves state-of-the-art performance on multiple lightweight IR tasks, including super-resolution, color denoising, grayscale denoising, low-light enhancement, and deraining. Codes will be available soon.
翻訳日:2023-05-22 15:55:08 公開日:2023-05-19
# graphologue:インタラクティブダイアグラムによる大規模言語モデル応答の検討

Graphologue: Exploring Large Language Model Responses with Interactive Diagrams ( http://arxiv.org/abs/2305.11473v1 )

ライセンス: Link先を確認
Peiling Jiang, Jude Rayan, Steven P. Dow, Haijun Xia(参考訳) 大規模言語モデル(llm)は最近、アクセスの容易さと、様々なアプリケーションで前例のない知性によって人気が高まっている。 しかし、ChatGPTのようなLLMは、テキストベースメディアと線形会話構造が不十分なため、複雑な情報タスクをサポートするのに重大な制限がある。 10人の参加者によるフォーマティブな調査を通じて,llmインタフェースは長めの応答をしばしば呈し,特に複雑なタスクにおいて,情報を迅速に理解し,柔軟に操作することが困難であることを見出した。 本稿では,LLMからのテキストベースの応答を図形に変換する対話型システムであるGraphologueについて述べる。 Graphologueは、LCM応答からエンティティと関係を抽出し、ノードリンク図をリアルタイムで構築する新しいプロンプト戦略とインターフェース設計を採用している。 さらに、ユーザは図と対話して、グラフィカルなプレゼンテーションを柔軟に調整し、さらに情報を得るためにコンテキスト固有のプロンプトを提出することができる。 図を利用して、グラフィカルで非線形な人間とLLMの対話を可能にし、情報探索、組織化、理解を容易にする。

Large language models (LLMs) have recently soared in popularity due to their ease of access and the unprecedented intelligence exhibited on diverse applications. However, LLMs like ChatGPT present significant limitations in supporting complex information tasks due to the insufficient affordances of the text-based medium and linear conversational structure. Through a formative study with ten participants, we found that LLM interfaces often present long-winded responses, making it difficult for people to quickly comprehend and interact flexibly with various pieces of information, particularly during more complex tasks. We present Graphologue, an interactive system that converts text-based responses from LLMs into graphical diagrams to facilitate information-seeking and question-answering tasks. Graphologue employs novel prompting strategies and interface designs to extract entities and relationships from LLM responses and constructs node-link diagrams in real-time. Further, users can interact with the diagrams to flexibly adjust the graphical presentation and to submit context-specific prompts to obtain more information. Utilizing diagrams, Graphologue enables graphical, non-linear dialogues between humans and LLMs, facilitating information exploration, organization, and comprehension.
翻訳日:2023-05-22 15:54:41 公開日:2023-05-19
# システムインテリジェンスのテスト

Testing System Intelligence ( http://arxiv.org/abs/2305.11472v1 )

ライセンス: Link先を確認
Joseph Sifakis(参考訳) 本稿では,インテリジェントシステムにおけるテストの妥当性と,その実装による実践的問題について議論する。 そこで本研究では,ある状況下でタスクを遂行する他のシステムを置き換えるシステムの能力として,代替テストを提案する。 チューリングテストでは考慮できない人間の知性の突出した側面をいかに特徴付けるかを示す。 我々は、置換テストに合格するインテリジェントなシステムの構築には、現在のAIの範囲外にある一連の技術的な問題が含まれると主張している。 提案するテストを実装し,インテリジェントシステムの特性を検証するためのフレームワークを提案する。 知的システム検証の固有の限界を議論し、既存の厳密なテスト手法を拡張するための新しい理論的基礎を提唱する。 我々は、人間と機械のスキルの相補性に基づいて、代替テストが、データベースと記号的知識を様々な程度に組み合わせる能力を反映した、多種多様な知性概念をもたらすことを示唆する。

We discuss the adequacy of tests for intelligent systems and practical problems raised by their implementation. We propose the replacement test as the ability of a system to replace successfully another system performing a task in a given context. We show how it can characterize salient aspects of human intelligence that cannot be taken into account by the Turing test. We argue that building intelligent systems passing the replacement test involves a series of technical problems that are outside the scope of current AI. We present a framework for implementing the proposed test and validating the properties of the intelligent systems. We discuss the inherent limitations of intelligent system validation and advocate new theoretical foundations for extending existing rigorous test methods. We suggest that the replacement test, based on the complementarity of skills between human and machine, can lead to a multitude of intelligence concepts reflecting the ability to combine data-based and symbolic knowledge to varying degrees.
翻訳日:2023-05-22 15:54:21 公開日:2023-05-19
# 具体的な量子チャネルと抽象量子チャネルの代数構造

Concrete Quantum Channels and Algebraic Structure of Abstract Quantum Channels ( http://arxiv.org/abs/2305.11471v1 )

ライセンス: Link先を確認
M. N. N. Namboodiri(参考訳) 正の線形近似のコロフキンの古典的な定理を用いたtoeplitz/block toeplitz行列の前条件の構成とテストが知られている。 後にプリコンディショナーを実装する写像は完全に正の写像であることが観測され、この構造は非可換な設定でコロフキン型定理の抽象的定式化につながった。 興味深いことに、これらの前提条件写像の性質は量子情報理論における抽象量子チャネルの性質を満たす。 本稿では,クラウス表現,チャネル容量,忠実度などの関連する量を計算することにより,この視点を考察する。 さらに、量子チャネルのクラスの代数的性質についても論じる。

Construction and testing of preconditioners of Toeplitz/block Toeplitz matrices using Korovkin's classic theorems of positive linear approximations are known. Later the map implementing preconditioners was observed to be a completely positive map, and this structure led to an abstract formulation of Korovkin-type theorems in a non-commutative setting. Interestingly enough, these preconditioner maps' properties satisfy the properties of an abstract quantum channel in quantum information theory. In this short article, this viewpoint is discussed by computing related quantities such as Kraus representation, channel capacity, fidelity etc. Moreover, the algebraic properties of the class of quantum channels are also discussed.
翻訳日:2023-05-22 15:54:06 公開日:2023-05-19
# 強化学習によるテンソルネットワーク符号の最適化

Optimization of Tensor Network Codes with Reinforcement Learning ( http://arxiv.org/abs/2305.11470v1 )

ライセンス: Link先を確認
Caroline Mauron, Terry Farrelly, Thomas M. Stace(参考訳) テンソルネットワークコードは、小さなシードコードからスタビライザコードの構造構築と操作を可能にする。 ここではテンソルネットワークコードジオメトリに強化学習を適用し,最適安定化符号を見出す方法を示す。 我々の強化学習エージェントは、投影型シミュレーションフレームワークを用いて、複数の論理量子ビットを持つコードを含む、環境と許容される一連のアクションが与えられた最高のコードを見つける。 エージェントはまた、1000回の試行後に10\%の周波数で最適なコードを見つけるのに対して、ランダム検索から0.16\%の確率で、65の係数で改善するなど、ランダム検索を一貫して上回る。

Tensor network codes enable structured construction and manipulation of stabilizer codes out of small seed codes. Here, we apply reinforcement learning to tensor network code geometries and demonstrate how optimal stabilizer codes can be found. Using the projective simulation framework, our reinforcement learning agent consistently finds the best possible codes given an environment and set of allowed actions, including for codes with more than one logical qubit. The agent also consistently outperforms a random search, for example finding an optimal code with a $10\%$ frequency after 1000 trials, vs a theoretical $0.16\%$ from random search, an improvement by a factor of 65.
翻訳日:2023-05-22 15:53:56 公開日:2023-05-19
# トポロジック・アグノシズムを克服する: 骨格トポロジカル・アウェアネスによる骨格に基づく行動認識の強化

Overcoming Topology Agnosticism: Enhancing Skeleton-Based Action Recognition through Redefined Skeletal Topology Awareness ( http://arxiv.org/abs/2305.11468v1 )

ライセンス: Link先を確認
Yuxuan Zhou, Zhi-Qi Cheng, Jun-Yan He, Bin Luo, Yifeng Geng, Xuansong Xie, Margret Keuper(参考訳) グラフ畳み込みネットワーク(GCN)は、長い間、骨格に基づく行動認識の最先端を定義しており、グラフの隣接行列を通して人間の関節トポロジーの複雑なダイナミクスを解き放つ能力を活用してきた。 しかし、これらの最先端モデルには固有の欠陥があり、モデルの重みとともに隣接行列を最適化する傾向がある。 このプロセスは、一見効率的だが、骨の接続データが徐々に崩壊し、マップに求めていたトポロジーとは無関係なモデルで終わる。 そこで我々は,(1) 骨結合を符号化する革新的な経路を, グラフ距離のパワーを利用して構築する3つの戦略を提案する。 このアプローチは、従来のGCNでしばしば失われる重要なトポロジカルニュアンスを保存する。 2) 骨格配列の時間的平均は, 控えめな視線にもかかわらず, 行動特異的な情報を持っている。 3) 異なる行動にまたがる共同対共同関係の強い変動がみられた。 この発見は、人間の動きを象徴する関係構成のバリエーションを捉えるための単一の隣接行列の限界を明らかにする。 この進化は、パラメータを実質的なマージン(40%以上)で削減し、元のGCNよりもパフォーマンスを高めます。 私たちのフルモデルであるblockgcnは、小さなモデルサイズに対するスケルトンベースのアクション認識の新しい標準を確立します。 その高精度、特に大規模なNTU RGB+D 120データセットは、BlockGCNの有効性の説得力のある証明である。 ソースコードとモデルはhttps://github.com/ZhouYuxuanYX/BlockGCNで見ることができる。

Graph Convolutional Networks (GCNs) have long defined the state-of-the-art in skeleton-based action recognition, leveraging their ability to unravel the complex dynamics of human joint topology through the graph's adjacency matrix. However, an inherent flaw has come to light in these cutting-edge models: they tend to optimize the adjacency matrix jointly with the model weights. This process, while seemingly efficient, causes a gradual decay of bone connectivity data, culminating in a model indifferent to the very topology it sought to map. As a remedy, we propose a threefold strategy: (1) We forge an innovative pathway that encodes bone connectivity by harnessing the power of graph distances. This approach preserves the vital topological nuances often lost in conventional GCNs. (2) We highlight an oft-overlooked feature - the temporal mean of a skeletal sequence, which, despite its modest guise, carries highly action-specific information. (3) Our investigation revealed strong variations in joint-to-joint relationships across different actions. This finding exposes the limitations of a single adjacency matrix in capturing the variations of relational configurations emblematic of human movement, which we remedy by proposing an efficient refinement to Graph Convolutions (GC) - the BlockGC. This evolution slashes parameters by a substantial margin (above 40%), while elevating performance beyond original GCNs. Our full model, the BlockGCN, establishes new standards in skeleton-based action recognition for small model sizes. Its high accuracy, notably on the large-scale NTU RGB+D 120 dataset, stand as compelling proof of the efficacy of BlockGCN. The source code and model can be found at https://github.com/ZhouYuxuanYX/BlockGCN.
翻訳日:2023-05-22 15:53:44 公開日:2023-05-19
# 時空間注意に基づく視覚的位置認識のための学習シーケンス記述子

Learning Sequence Descriptor based on Spatiotemporal Attention for Visual Place Recognition ( http://arxiv.org/abs/2305.11467v1 )

ライセンス: Link先を確認
Fenglin Zhang, Junqiao Zhao, Yingfeng Cai, Gengxuan Tian, Wenjie Mu, Chen Ye(参考訳) シーケンスベースの視覚的位置認識(sVPR)は、フレームシーケンスと参照マップに格納されたフレームとのマッチングを目的とする。 既存の方法はシーケンスマッチングとシーケンスディスクリプタベースの検索である。 前者は、実際のシナリオでは保持が困難であり、本質的な単一フレーム記述子ミスマッチを排除できない定数速度の仮定に基づいている。 後者はシーケンス全体の記述子を抽出することでこの問題を解決するが、現在のシーケンス記述子は時間的情報相互作用のない多フレームの特徴集約によってのみ構成される。 本稿では,時空間情報を効果的に融合し,識別的記述子を生成する逐次記述子抽出手法を提案する。 具体的には、同じフレームfocu上の類似した機能同士が互いに空間構造を学習し、異なるフレームの同じローカル領域が時間とともに局所的な特徴変化を学習する。 また、スライディングウィンドウを用いて時間的自己注意範囲を制御し、相対的な位置エンコーディングを付加し、異なる特徴間の位置関係を構築することにより、ディスクリプタはフレームシーケンスと局所的特徴運動の固有ダイナミクスをキャプチャできる。

Sequence-based visual place recognition (sVPR) aims to match frame sequences with frames stored in a reference map for localization. Existing methods include sequence matching and sequence descriptor-based retrieval. The former is based on the assumption of constant velocity, which is difficult to hold in real scenarios and does not get rid of the intrinsic single frame descriptor mismatch. The latter solves this problem by extracting a descriptor for the whole sequence, but current sequence descriptors are only constructed by feature aggregation of multi-frames, with no temporal information interaction. In this paper, we propose a sequential descriptor extraction method to fuse spatiotemporal information effectively and generate discriminative descriptors. Specifically, similar features on the same frame focu on each other and learn space structure, and the same local regions of different frames learn local feature changes over time. And we use sliding windows to control the temporal self-attention range and adpot relative position encoding to construct the positional relationships between different features, which allows our descriptor to capture the inherent dynamics in the frame sequence and local feature motion.
翻訳日:2023-05-22 15:53:12 公開日:2023-05-19
# 可逆拡散による大域的非凸最適化における収束の促進

Accelerating Convergence in Global Non-Convex Optimization with Reversible Diffusion ( http://arxiv.org/abs/2305.11493v1 )

ライセンス: Link先を確認
Ryo Fujino(参考訳) ランジュバンダイナミクスは、低温でのポテンシャル関数の極小付近で定常分布が集中するため、大域的な非凸最適化に広く用いられている。 本稿では,可逆拡散(reversible diffusion)と呼ばれるより包括的な確率過程のクラスを活用し,大域的非凸最適化にオイラー・マルヤマ離散化を適用することを提案する。 本研究では, 地形変化にインスパイアされた戦略である, 離散化誤差を規制しながら, 収束速度を促進できるような拡散係数を設計する。 提案手法はLangevin Dynamicsの時間的変化と見なすことができ,KLの発散に関して収束を証明し,収束速度と離散化誤差のトレードオフについて検討する。 提案手法の有効性を数値実験により実証した。

Langevin Dynamics has been extensively employed in global non-convex optimization due to the concentration of its stationary distribution around the global minimum of the potential function at low temperatures. In this paper, we propose to utilize a more comprehensive class of stochastic processes, known as reversible diffusion, and apply the Euler-Maruyama discretization for global non-convex optimization. We design the diffusion coefficient to be larger when distant from the optimum and smaller when near, thus enabling accelerated convergence while regulating discretization error, a strategy inspired by landscape modifications. Our proposed method can also be seen as a time change of Langevin Dynamics, and we prove convergence with respect to KL divergence, investigating the trade-off between convergence speed and discretization error. The efficacy of our proposed method is demonstrated through numerical experiments.
翻訳日:2023-05-22 15:45:57 公開日:2023-05-19
# スプリットエキシトン-ポーラリトン凝縮体における絡み合い生成と検出

Entanglement generation and detection in split exciton-polariton condensates ( http://arxiv.org/abs/2305.11491v1 )

ライセンス: Link先を確認
Jingyan Feng, Hui Li, Zheng Sun, and Tim Byrnes(参考訳) 本研究では,空間的に分離された2つのエキシトンポラリトンボース・アインシュタイン凝縮体(becs)の定常状態における絡み合いの発生と検出法を提案する。 このスキームでは、まずスピノルポラリトンBECを作成し、1軸ねじれ相互作用の下で定常なスクイーズを得る。 その後、凝縮体は物理的にまたは実質的に分裂し、2つの部分間の絡み合いが生じる。 仮想分割は、凝縮体が物理的に分裂しないことを意味するが、その近接場像は2つの部分に分けられ、スピン相関は各部分における偏光測定から推定される。 理論上, 対数ネガティビティ基準といくつかの相関に基づく基準をモデル化し, 実験可能なパラメータ下での絡み合いが存在することを示す。

We propose a method of generating and detecting entanglement in two spatially separated excitonpolariton Bose-Einstein condensates (BECs) at steady-state. In our scheme we first create a spinor polariton BEC, such that steady-state squeezing is obtained under a one-axis twisting interaction. Then the condensate is split either physically or virtually, which results in entanglement generated between the two parts. A virtual split means that the condensate is not physically split, but its near-field image is divided into two parts and the spin correlations are deduced from polarization measurements in each half. We theoretically model and examine logarithmic negativity criterion and several correlation-based criteria to show that entanglement exists under experimentally achievable parameters.
翻訳日:2023-05-22 15:45:42 公開日:2023-05-19
# LLM、CXR画像の読み書きが可能に

LLM Itself Can Read and Generate CXR Images ( http://arxiv.org/abs/2305.11490v1 )

ライセンス: Link先を確認
Suhyeon Lee, Won Jun Kim, Jong Chul Ye(参考訳) 近年の大規模言語モデル(LLM)の顕著な発展を基盤として,LLMの実用性をマルチモーダルタスクに拡張する試みが活発に行われている。 これまでも言語と視覚情報を結びつける努力が続けられており、LLMに視覚機能を追加する試みも進行中である。 しかし、既存の試みは画像デコーダとしてのみllmを使用し、自然言語と同じ行で画像を生成する試みは行われていない。 画像の潜在表現をテキストトークンの一種として扱うvq-ganフレームワークを採用することにより,事前学習されたllmを微調整し,構造的な変更や追加のトレーニング目標,アドホックネットワークのトレーニングの必要性をなくし,llmの命令追従能力を維持しつつ,テキストなどの画像の読み書きを行う新しい手法を提案する。 このフレームワークを胸部x線(cxr)画像とレポート生成タスクに適用し,視覚領域と言語領域間の複雑な情報の変換が重要となる領域であることを示す。 コードは間もなく公開される予定だ。

Building on the recent remarkable development of large language models (LLMs), active attempts are being made to extend the utility of LLMs to multimodal tasks. There have been previous efforts to link language and visual information, and attempts to add visual capabilities to LLMs are ongoing as well. However, existing attempts use LLMs only as image decoders and no attempt has been made to generate images in the same line as the natural language. By adopting a VQ-GAN framework in which latent representations of images are treated as a kind of text tokens, we present a novel method to fine-tune a pre-trained LLM to read and generate images like text without any structural changes, extra training objectives, or the need for training an ad-hoc network while still preserving the of the instruction-following capability of the LLM. We apply this framework to chest X-ray (CXR) image and report generation tasks as it is a domain in which translation of complex information between visual and language domains is important. The code will soon be made publicly available.
翻訳日:2023-05-22 15:45:30 公開日:2023-05-19
# 拡散完了による不完全多視点クラスタリング

Incomplete Multi-view Clustering via Diffusion Completion ( http://arxiv.org/abs/2305.11489v1 )

ライセンス: Link先を確認
Sifan Fang(参考訳) 不完全なマルチビュークラスタリングは、実世界の大量の未ラベルデータに対して効果的なデータ分析を提供するための、困難かつ非自明なタスクである。 不完全なマルチビュークラスタリング手法はすべて、ビューの欠如の影響を減らす方法の問題に対処する必要がある。 この問題に対処するために,不完全なマルチビュークラスタリングフレームワークに組み込まれた行方不明なビューを復元する拡散補完を提案する。 観測可能なビュー情報に基づいて、拡散モデルを用いて、欠落したビューを復元し、マルチビューデータの一貫性情報をコントラスト学習により学習し、マルチビュークラスタリングの性能を向上させる。 私たちの知る限りでは、拡散モデルを不完全なマルチビュークラスタリングフレームワークに組み込む最初の作業になるかもしれません。 提案手法は,最先端手法に比べて優れたクラスタリング性能を実現しつつ,行方不明のビューの復元に有効であることを示す。

Incomplete multi-view clustering is a challenging and non-trivial task to provide effective data analysis for large amounts of unlabeled data in the real world. All incomplete multi-view clustering methods need to address the problem of how to reduce the impact of missing views. To address this issue, we propose diffusion completion to recover the missing views integrated into an incomplete multi-view clustering framework. Based on the observable views information, the diffusion model is used to recover the missing views, and then the consistency information of the multi-view data is learned by contrastive learning to improve the performance of multi-view clustering. To the best of our knowledge, this may be the first work to incorporate diffusion models into an incomplete multi-view clustering framework. Experimental results show that the proposed method performs well in recovering the missing views while achieving superior clustering performance compared to state-of-the-art methods.
翻訳日:2023-05-22 15:45:10 公開日:2023-05-19
# AttriCLIP : インクリメンタル知識学習のための非インクリメンタル学習システム

AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning ( http://arxiv.org/abs/2305.11488v1 )

ライセンス: Link先を確認
Runqi Wang, Xiaoyue Duan, Guoliang Kang, Jianzhuang Liu, Shaohui Lin, Songcen Xu, Jinhu Lv, Baochang Zhang(参考訳) 連続学習は、モデルが逐次到着したデータから徐々に知識を学習できるようにすることを目的としている。 以前の作品は、特徴抽出器と分類器からなる従来の分類アーキテクチャを採用している。 特徴抽出器は順次到着したタスクやクラス間で共有されるが、新しいクラスに対応する分類器の重みの1つの特定のグループをインクリメンタルに拡張する必要がある。 その結果、連続学習者のパラメータは徐々に増加する。 さらに、分類器は歴史的に到達した全てのクラスを含んでいるため、記憶の特定のサイズは、分類器バイアスと破滅的な忘れを緩和するためにリハーサルデータを格納する必要がある。 本稿では,新しいクラスやタスクの知識を段階的に抽出する,AttriCLIPという非インクリメンタル学習手法を提案する。 具体的には、AttriCLIPは事前訓練されたビジュアル言語モデルCLIPに基づいている。 画像エンコーダとテキストエンコーダは、画像とテキストの両方から特徴を抽出するために固定されている。 テキストはカテゴリ名と,設計した属性単語バンクから選択され,属性として機能する,一定の数の学習可能なパラメータから構成される。 分類のための視覚的およびテキスト的類似性を計算すると、AttriCLIPは非インクリメンタル学習者となる。 属性プロンプトは、分類に有用な共通知識をエンコードし、壊滅的な忘れを効果的に軽減し、リプレイメモリの構築を避けることができる。 我々はAttriCLIPを評価し,CLIPをベースとした従来の最先端の連続学習手法と比較した。 その結果,本手法は従来の最先端技術に対して良好に動作することがわかった。 実装コードはhttps://github.com/bhrqw/AttriCLIPで入手できる。

Continual learning aims to enable a model to incrementally learn knowledge from sequentially arrived data. Previous works adopt the conventional classification architecture, which consists of a feature extractor and a classifier. The feature extractor is shared across sequentially arrived tasks or classes, but one specific group of weights of the classifier corresponding to one new class should be incrementally expanded. Consequently, the parameters of a continual learner gradually increase. Moreover, as the classifier contains all historical arrived classes, a certain size of the memory is usually required to store rehearsal data to mitigate classifier bias and catastrophic forgetting. In this paper, we propose a non-incremental learner, named AttriCLIP, to incrementally extract knowledge of new classes or tasks. Specifically, AttriCLIP is built upon the pre-trained visual-language model CLIP. Its image encoder and text encoder are fixed to extract features from both images and text. Text consists of a category name and a fixed number of learnable parameters which are selected from our designed attribute word bank and serve as attributes. As we compute the visual and textual similarity for classification, AttriCLIP is a non-incremental learner. The attribute prompts, which encode the common knowledge useful for classification, can effectively mitigate the catastrophic forgetting and avoid constructing a replay memory. We evaluate our AttriCLIP and compare it with CLIP-based and previous state-of-the-art continual learning methods in realistic settings with domain-shift and long-sequence learning. The results show that our method performs favorably against previous state-of-the-arts. The implementation code can be available at https://github.com/bhrqw/AttriCLIP.
翻訳日:2023-05-22 15:44:54 公開日:2023-05-19
# PointGPT: ポイントクラウドからの自動回帰生成事前トレーニング

PointGPT: Auto-regressively Generative Pre-training from Point Clouds ( http://arxiv.org/abs/2305.11487v1 )

ライセンス: Link先を確認
Guangyan Chen, Meiling Wang, Yi Yang, Kai Yu, Li Yuan, Yufeng Yue(参考訳) GPT(generative pre-training transformer)に基づく大規模言語モデル(LLM)は、様々な下流タスクにおいて顕著な効果を示した。 GPTの進歩にインスパイアされたPointGPTは、GPTの概念をポイントクラウドに拡張し、障害特性、低情報密度、タスクギャップに関連する課題に対処する新しいアプローチである。 具体的には、変圧器モデルの事前学習にポイントクラウド自動回帰生成タスクが提案されている。 提案手法は,入力点雲を複数の点パッチに分割し,その空間的近接に基づいて順序順に配置する。 そして、抽出器ジェネレータをベースとしたトランスフォーマーデコーダを2つのマスキング戦略により、先行する点パッチに条件付き潜時表現を学習し、次の点を自動回帰的に予測する。 当社のスケーラブルなアプローチでは、さまざまな下流タスクで最先端のパフォーマンスを実現することによって、一般化された高容量モデルを学ぶことができます。 特に,ModelNet40データセットでは94.9%,ScanObjectNNデータセットでは93.4%の分類精度を達成し,他のトランスフォーマーモデルよりも優れている。 さらに,本手法は,4つの数発の学習ベンチマークにおいて,最先端の精度を新たに達成する。

Large language models (LLMs) based on the generative pre-training transformer (GPT) have demonstrated remarkable effectiveness across a diverse range of downstream tasks. Inspired by the advancements of the GPT, we present PointGPT, a novel approach that extends the concept of GPT to point clouds, addressing the challenges associated with disorder properties, low information density, and task gaps. Specifically, a point cloud auto-regressive generation task is proposed to pre-train transformer models. Our method partitions the input point cloud into multiple point patches and arranges them in an ordered sequence based on their spatial proximity. Then, an extractor-generator based transformer decoder, with a dual masking strategy, learns latent representations conditioned on the preceding point patches, aiming to predict the next one in an auto-regressive manner. Our scalable approach allows for learning high-capacity models that generalize well, achieving state-of-the-art performance on various downstream tasks. In particular, our approach achieves classification accuracies of 94.9% on the ModelNet40 dataset and 93.4% on the ScanObjectNN dataset, outperforming all other transformer models. Furthermore, our method also attains new state-of-the-art accuracies on all four few-shot learning benchmarks.
翻訳日:2023-05-22 15:44:27 公開日:2023-05-19
# 神経異質性のパワーへの期待

Dive into the Power of Neuronal Heterogeneity ( http://arxiv.org/abs/2305.11484v1 )

ライセンス: Link先を確認
Guobin Shen, Dongcheng Zhao, Yiting Dong, Yang Li, Yi Zeng(参考訳) 生物学的ニューラルネットワークは巨大で多様な構造であり、高い神経異質性を持つ。 従来のニューラルネットワーク(anns)は、トレーニングを通じて接続の重み付けを変更することに集中し、ニューロンを高度に均質な実体としてモデル化し、神経の不均一性の探索を欠いている。 神経特性と接続重みを最適化し、ネットワーク性能を確保することで神経不均一性に対処した研究はわずかである。 しかし、この戦略は神経異質性の特定の寄与に影響を及ぼす。 本稿では,スパイクニューラルネットワーク(snn)の最適化において,バックプロパゲーションに基づく手法が直面する課題を最初に提示し,進化戦略(es)を用いたランダムネットワークにおける異種ニューロンのより堅牢な最適化を実現する。 作業記憶、連続制御、画像認識などのタスクの実験は、特に長いシーケンスタスクにおいて、神経の不均一性がパフォーマンスを向上させることを示す。 さらに, 膜時間定数は神経異質性において重要な役割を担っており, その分布は生物学的実験で観察されたものと類似している。 したがって、無視された神経の異質性は、生物学における神経の異質性を探究するための新しいアプローチと、より生物学的に妥当なニューラルネットワークを設計するための新しい方法を提供する。

The biological neural network is a vast and diverse structure with high neural heterogeneity. Conventional Artificial Neural Networks (ANNs) primarily focus on modifying the weights of connections through training while modeling neurons as highly homogenized entities and lacking exploration of neural heterogeneity. Only a few studies have addressed neural heterogeneity by optimizing neuronal properties and connection weights to ensure network performance. However, this strategy impact the specific contribution of neuronal heterogeneity. In this paper, we first demonstrate the challenges faced by backpropagation-based methods in optimizing Spiking Neural Networks (SNNs) and achieve more robust optimization of heterogeneous neurons in random networks using an Evolutionary Strategy (ES). Experiments on tasks such as working memory, continuous control, and image recognition show that neuronal heterogeneity can improve performance, particularly in long sequence tasks. Moreover, we find that membrane time constants play a crucial role in neural heterogeneity, and their distribution is similar to that observed in biological experiments. Therefore, we believe that the neglected neuronal heterogeneity plays an essential role, providing new approaches for exploring neural heterogeneity in biology and new ways for designing more biologically plausible neural networks.
翻訳日:2023-05-22 15:44:07 公開日:2023-05-19
# Sensecape: 大規模言語モデルによるマルチレベル探索とセンスメイキングの実現

Sensecape: Enabling Multilevel Exploration and Sensemaking with Large Language Models ( http://arxiv.org/abs/2305.11483v1 )

ライセンス: Link先を確認
Sangho Suh, Bryan Min, Srishti Palani, Haijun Xia(参考訳) 人々は、学術研究や他の都市への移動計画といった複雑な情報処理のために、大きな言語モデル(LLM)に目を向けている。 しかし、例えば、情報を空間的に配置して整理し、理解するためには、しばしば非線型な方法で作業する必要があるが、LLMと対話するための現在のインターフェースは、一般的には会話の相互作用をサポートするために線形である。 この制限に対処し、LLMによる探索とセンスメイキングを支援するために、Sensecapeを開発した。Sensecapeは、LLMで複雑な情報タスクをサポートするための対話型システムであり、ユーザーは(1)多段階の抽象化を通して情報の複雑さを管理し、(2)飼料とセンスメイキングをシームレスに切り替えることができる。 Sensecapeはユーザーがより多くのトピックを探索し、知識を階層的に構造化することを可能にする。 我々は、情報処理のためのLLMベースのワークフローとインタフェースに寄与する。

People are increasingly turning to large language models (LLMs) for complex information tasks like academic research or planning a move to another city. However, while they often require working in a nonlinear manner - e.g., to arrange information spatially to organize and make sense of it, current interfaces for interacting with LLMs are generally linear to support conversational interaction. To address this limitation and explore how we can support LLM-powered exploration and sensemaking, we developed Sensecape, an interactive system designed to support complex information tasks with an LLM by enabling users to (1) manage the complexity of information through multilevel abstraction and (2) seamlessly switch between foraging and sensemaking. Our within-subject user study reveals that Sensecape empowers users to explore more topics and structure their knowledge hierarchically. We contribute implications for LLM-based workflows and interfaces for information tasks.
翻訳日:2023-05-22 15:43:44 公開日:2023-05-19
# 比較潜在変数による個人化対話生成の促進:スパースとディエンスペルソナの組み合わせ

Enhancing Personalized Dialogue Generation with Contrastive Latent Variables: Combining Sparse and Dense Persona ( http://arxiv.org/abs/2305.11482v1 )

ライセンス: Link先を確認
Yihong Tang, Bo Wang, Miao Fang, Dongming Zhao, Kun Huang, Ruifang He, Yuexian Hou(参考訳) パーソナライズされた対話は、対話生成とパーソナリティの一貫性を探求する。 既存のパーソナライズされた対話エージェントは、3つのリソースからペルソナプロファイルをモデル化する。 しかしながら、スパースな構造化ペルソナ属性は明示的だが非形式的で、密集したペルソナテキストは、ノイズの多い豊富なパーソナ記述を含み、対話履歴クエリは、ペルソナモデリングにおいてノイズと非形式の両方である。 本研究では,3つの資源の利点を組み合わせて,より豊かで正確なペルソナを得る。 本研究では,高密度なペルソナ記述をスパースカテゴリにクラスタリングするContrastive Latent Variable-based Model(CLV)を設計し,履歴クエリと組み合わせてパーソナライズされた応答を生成する。 中国語と英語のデータセットに対する実験結果は、パーソナライゼーションにおけるモデルの優位性を示している。

The personalized dialogue explores the consistent relationship between dialogue generation and personality. Existing personalized dialogue agents model persona profiles from three resources: sparse or dense persona descriptions and dialogue histories. However, sparse structured persona attributes are explicit but uninformative, dense persona texts contain rich persona descriptions with much noise, and dialogue history query is both noisy and uninformative for persona modeling. In this work, we combine the advantages of the three resources to obtain a richer and more accurate persona. We design a Contrastive Latent Variable-based model (CLV) that clusters the dense persona descriptions into sparse categories, which are combined with the history query to generate personalized responses. Experimental results on Chinese and English datasets demonstrate our model's superiority in personalization.
翻訳日:2023-05-22 15:43:28 公開日:2023-05-19
# CM-MaskSD:画像セグメント参照のためのクロスモダリティ仮設自己蒸留

CM-MaskSD: Cross-Modality Masked Self-Distillation for Referring Image Segmentation ( http://arxiv.org/abs/2305.11481v1 )

ライセンス: Link先を確認
Wenxuan Wang, Jing Liu, Xingjian He, Yisi Zhang, Chen Chen, Jiachen Shen, Yan Zhang, Jiangyun Li(参考訳) 参照画像セグメンテーション(RIS)は、所与の自然言語表現に基づいた画像から所望のオブジェクトをセグメントする基本的な視覚言語タスクである。 画像とテキストの間に本質的に異なるデータ特性があるため、既存の手法のほとんどは、細粒度の視覚言語アライメントに向けた複雑な設計を導入するか、あるいは高密度なアライメントが欠如しているため、スケーラビリティの問題や過度なセグメンテーションやアンダーセグメンテーションのようなミスセグメンテーションの問題を引き起こす。 risタスクで効果的かつ効率的な細粒化機能アライメントを実現するために, 自己蒸留を併用したマスク型マルチモーダルモデリングの可能性を検討し, cm-masksdと呼ばれる新しいクロスモダリティマスク型自己蒸留フレームワークを提案し, クリップモデルから画像テキスト意味アライメントの伝達知識を継承し, セグメント精度を向上させるためのパッチワード特徴アライメントを実現する。 さらに,本手法では,主セグメント分割枝と導入した自己蒸留枝との重みを共有でき,マルチモーダル特徴をコーディネートするための無視可能なパラメータのみを導入するため,モデル性能をほぼパラメータフリーで大幅に向上させることができる。 RISタスクに対する3つのベンチマークデータセット(RefCOCO、RefCOCO+、G-Ref)の総合的な実験により、提案したフレームワークが従来の最先端手法よりも優れていることを示す。

Referring image segmentation (RIS) is a fundamental vision-language task that intends to segment a desired object from an image based on a given natural language expression. Due to the essentially distinct data properties between image and text, most of existing methods either introduce complex designs towards fine-grained vision-language alignment or lack required dense alignment, resulting in scalability issues or mis-segmentation problems such as over- or under-segmentation. To achieve effective and efficient fine-grained feature alignment in the RIS task, we explore the potential of masked multimodal modeling coupled with self-distillation and propose a novel cross-modality masked self-distillation framework named CM-MaskSD, in which our method inherits the transferred knowledge of image-text semantic alignment from CLIP model to realize fine-grained patch-word feature alignment for better segmentation accuracy. Moreover, our CM-MaskSD framework can considerably boost model performance in a nearly parameter-free manner, since it shares weights between the main segmentation branch and the introduced masked self-distillation branches, and solely introduces negligible parameters for coordinating the multimodal features. Comprehensive experiments on three benchmark datasets (i.e. RefCOCO, RefCOCO+, G-Ref) for the RIS task convincingly demonstrate the superiority of our proposed framework over previous state-of-the-art methods.
翻訳日:2023-05-22 15:42:59 公開日:2023-05-19
# 距離測度空間におけるランダム探索からバンディット学習へ

From Random Search to Bandit Learning in Metric Measure Spaces ( http://arxiv.org/abs/2305.11509v1 )

ライセンス: Link先を確認
Chuying Han, Yasong Feng, Tianyu Wang(参考訳) ランダム検索はハイパーパラメータ最適化の最も広く使われている手法の1つであり、ディープラーニングモデルの成功に不可欠である。 驚くべき性能にもかかわらず、基礎となる作用機構を記述するために非ヒューリスティック理論はほとんど開発されていない。 本稿ではランダム探索に関する理論的考察を行う。 本稿では,基礎となる関数のランドスケープを記述する「emph{scattering dimension}」の概念を導入し,ランダム探索の性能を定量化する。 環境がノイズのない場合、ランダム探索の出力はレート $ \widetilde{\mathcal{o}} \left( \left( \frac{1}{t} \right)^{ \frac{1}{d_s} } \right) $ の確率において最適値に収束する。 観測された関数値が有界な$iid$ノイズによって破損した場合、ランダム探索の出力は、$ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s + 1} } \right)$で確率の最適値に収束する。 さらに、ランダム探索の原理に基づき、ボレル測度を具現化した計量空間におけるリプシッツの帯域幅を2倍にするアルゴリズム「BLiN-MOS」を導入し、BLiN-MOSが次数$ \widetilde{\mathcal{O}} \left(T^{ \frac{d_z}{d_z + 1} } \right)$であることを示す。 この結果は、ボレル測度を持つ距離空間において、リプシッツバンドイットの古典的な理論が改善可能であることを示している。 この結果は、測度空間における上界が測度構造を持たない計量空間におけるリプシッツ包帯の既知の情報理論的下界を破るので、アルゴリズムの観点から距離空間と計量測度空間の間の固有の公理的ギャップが示唆される。

Random Search is one of the most widely-used method for Hyperparameter Optimization, and is critical to the success of deep learning models. Despite its astonishing performance, little non-heuristic theory has been developed to describe the underlying working mechanism. This paper gives a theoretical accounting of Random Search. We introduce the concept of \emph{scattering dimension} that describes the landscape of the underlying function, and quantifies the performance of random search. We show that, when the environment is noise-free, the output of random search converges to the optimal value in probability at rate $ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s} } \right) $, where $ d_s \ge 0 $ is the scattering dimension of the underlying function. When the observed function values are corrupted by bounded $iid$ noise, the output of random search converges to the optimal value in probability at rate $ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s + 1} } \right) $. In addition, based on the principles of random search, we introduce an algorithm, called BLiN-MOS, for Lipschitz bandits in doubling metric spaces that are also emdowed with a Borel measure, and show that BLiN-MOS achieves a regret rate of order $ \widetilde{\mathcal{O}} \left( T^{ \frac{d_z}{d_z + 1} } \right) $, where $d_z$ is the zooming dimension of the problem instance. Our results show that in metric spaces with a Borel measure, the classic theory of Lipschitz bandits can be improved. This result suggests an intrinsic axiomatic gap between metric spaces and metric measure spaces from an algorithmic perspective, since the upper bound in a metric measure space breaks the known information-theoretical lower bounds for Lipschitz bandits in a metric space with no measure structure.
翻訳日:2023-05-22 15:37:59 公開日:2023-05-19
# プラグアンドプレイ医療対話システム

Plug-and-Play Medical Dialogue System ( http://arxiv.org/abs/2305.11508v1 )

ライセンス: Link先を確認
Chengfeng Dou, Zhi Jin, Wenping Jiao, Haiyan Zhao, Zhenwei Tao, Yongqiang Zhao(参考訳) 医療対話システムは、特定のドメイン知識を必要とする患者に正確な回答を提供することを目的としている。 近年のLarge Language Models (LLMs) の進歩は、医学的Q&A領域におけるその例外的な能力を実証しており、常識の深い理解を示している。 しかし, LLMは診断戦略が欠如しているため, 直接診断には不十分である。 この課題に対処する従来のアプローチは、高価なllmの微調整を伴う。 あるいは、より魅力的なソリューションは、llmが医療会話タスクを実行できるプラグインの開発である。 In-context Learning からインスピレーションを得た PlugMed は,LLM による適切な対話動作を容易にするプラグイン・アンド・プレイ型医療対話システムであり,プロンプト生成 (PG) モジュールと応答ランキング (RR) モジュールである。 PGモジュールは、グローバルとローカルの両方の観点から対話情報をキャプチャするように設計されている。 患者の症状によってグループ化された対話履歴と最近の発話との類似性を評価することで、適切なプロンプトを選択する。 さらに、RRモジュールは細調整されたSLMを応答フィルタとして組み込み、LLMが生成する適切な応答を選択する。 さらに,医療対話における対話戦略の有効性をより効果的に評価するために,意図に基づく新しい評価手法と医療機関を考案する。 自動評価と手動評価の両方を含む3つのラベルなしの医療対話データセットで行った実験評価により,本モデルが強力な微調整基準を超えることが示された。

Medical dialogue systems aim to provide accurate answers to patients, necessitating specific domain knowledge. Recent advancements in Large Language Models (LLMs) have demonstrated their exceptional capabilities in the medical Q&A domain, indicating a rich understanding of common sense. However, LLMs are insufficient for direct diagnosis due to the absence of diagnostic strategies. The conventional approach to address this challenge involves expensive fine-tuning of LLMs. Alternatively, a more appealing solution is the development of a plugin that empowers LLMs to perform medical conversation tasks. Drawing inspiration from in-context learning, we propose PlugMed, a Plug-and-Play Medical Dialogue System that facilitates appropriate dialogue actions by LLMs through two modules: the prompt generation (PG) module and the response ranking (RR) module. The PG module is designed to capture dialogue information from both global and local perspectives. It selects suitable prompts by assessing their similarity to the entire dialogue history and recent utterances grouped by patient symptoms, respectively. Additionally, the RR module incorporates fine-tuned SLMs as response filters and selects appropriate responses generated by LLMs. Moreover, we devise a novel evaluation method based on intent and medical entities matching to assess the efficacy of dialogue strategies in medical conversations more effectively. Experimental evaluations conducted on three unlabeled medical dialogue datasets, including both automatic and manual assessments, demonstrate that our model surpasses the strong fine-tuning baselines.
翻訳日:2023-05-22 15:37:10 公開日:2023-05-19
# jointrans: 光学ディスク/カップセグメンテーションとfovea検出のための事前誘導マルチタスクトランス

JOINEDTrans: Prior Guided Multi-task Transformer for Joint Optic Disc/Cup Segmentation and Fovea Detection ( http://arxiv.org/abs/2305.11504v1 )

ライセンス: Link先を確認
Huaqing He, Li Lin, Zhiyuan Cai, Pujin Cheng, Xiaoying Tang(参考訳) 深層学習に基づく画像セグメンテーションと検出モデルは、光学ディスク(OD)、光学カップ(OC)、フォビアなどの網膜のランドマークを分析する効率を大幅に改善した。 しかし,眼疾患関連病変や画像品質の低下などの要因は,自動OD/OCセグメンテーションや卵胞検出を著しく複雑にする可能性がある。 現存する作品の多くは、各ランドマークの識別を1つのタスクとして扱い、事前の情報を考慮しない。 これらの問題に対処するため,我々はジョイントod/ocセグメンテーションとfovea検出のための事前誘導型マルチタスクトランスフォーマーフレームワークであるjointransを提案する。 jointransは、眼底画像の様々な空間的特徴を効果的に結合し、病変やその他の画像問題によって引き起こされる構造的歪みを緩和する。 セグメンテーションブランチと検出ブランチを含む。 本稿では,血管分割作業で予め訓練されたエンコーダを用いて,血管の位置関係,OD/OC,foveaを効果的に活用し,提案したJOINEDTransフレームワークに空間的事前を組み込むことに成功した。 JOINEDTransには粗いステージと細かいステージがある。 粗い段階では、ジョイントセグメンテーション及び検出モジュールを介してOD/OC粗いセグメンテーション及び葉熱マップの局在を得る。 微細な段階では、粗い段階で得られた改良と利用予測のために興味のある領域を収穫し、より良い性能とより高速な収束のための追加情報を提供する。 実験の結果,JOINEDTrans は GAMMA, REFUGE, PALM 画像データセットにおいて既存の最先端手法よりも優れていた。 コードはhttps://github.com/HuaqingHe/JOINEDTransで公開しています。

Deep learning-based image segmentation and detection models have largely improved the efficiency of analyzing retinal landmarks such as optic disc (OD), optic cup (OC), and fovea. However, factors including ophthalmic disease-related lesions and low image quality issues may severely complicate automatic OD/OC segmentation and fovea detection. Most existing works treat the identification of each landmark as a single task, and take into account no prior information. To address these issues, we propose a prior guided multi-task transformer framework for joint OD/OC segmentation and fovea detection, named JOINEDTrans. JOINEDTrans effectively combines various spatial features of the fundus images, relieving the structural distortions induced by lesions and other imaging issues. It contains a segmentation branch and a detection branch. To be noted, we employ an encoder pretrained in a vessel segmentation task to effectively exploit the positional relationship among vessel, OD/OC, and fovea, successfully incorporating spatial prior into the proposed JOINEDTrans framework. There are a coarse stage and a fine stage in JOINEDTrans. In the coarse stage, OD/OC coarse segmentation and fovea heatmap localization are obtained through a joint segmentation and detection module. In the fine stage, we crop regions of interest for subsequent refinement and use predictions obtained in the coarse stage to provide additional information for better performance and faster convergence. Experimental results demonstrate that JOINEDTrans outperforms existing state-of-the-art methods on the publicly available GAMMA, REFUGE, and PALM fundus image datasets. We make our code available at https://github.com/HuaqingHe/JOINEDTrans
翻訳日:2023-05-22 15:36:46 公開日:2023-05-19
# モーダルサイド情報が異なるトピックアウェアな要約フレームワーク

A Topic-aware Summarization Framework with Different Modal Side Information ( http://arxiv.org/abs/2305.11503v1 )

ライセンス: Link先を確認
Xiuying Chen, Mingzhe Li, Shen Gao, Xin Cheng, Qiang Yang, Qishen Zhang, Xin Gao, Xiangliang Zhang(参考訳) ウェブ上の指数関数的文書成長において,自動要約が重要な役割を担っている。 CNN.com や WikiHow.com などのコンテンツサイトでは、ビデオ、画像、クエリなど、注意喚起や理解の容易化のための主要な文書とともに、様々な種類のサイド情報が存在することが多い。 このような情報は、しばしば記事の本質を明示的にまたは暗黙的に言及するため、より良い要約に使用できる。 しかし、既存のサイドアウェアの要約手法のほとんどは、シングルモーダルまたはマルチモーダルのサイド情報を組み込むように設計されており、互いに効果的に適応できない。 本稿では,様々な側面情報を柔軟に組み込む汎用的な要約フレームワークを提案する。 側面情報を持つ柔軟な要約モデルを設計する際の主な課題は、(1)サイド情報はテキスト的または視覚的なフォーマットであり、そのモデルが文書を同じ意味空間に整列して統一する必要があること、(2)サイドインプットに様々な側面の情報が含まれること、そして、モデルが要約に有用な側面を認識すること、である。 この2つの課題に対処するために,我々はまず,文書から潜在トピックと各種のサイド情報を同時に発見する統一トピックエンコーダを提案する。 学習したトピックは、トピック認識インタラクションを通じて、グラフエンコーダ内の複数の入力間の情報フローを柔軟にブリッジし、ガイドする。 第2に、文書と側情報をよりよく理解することで要約品質を向上させる統一意味空間に、単一のモーダルまたはマルチモーダル情報を整合させる3重対向学習機構を提案する。 その結果,本モデルは3つの公開シングルモーダル・マルチモーダルベンチマーク集計データセットにおいて,強いベースラインを著しく上回っていることがわかった。

Automatic summarization plays an important role in the exponential document growth on the Web. On content websites such as CNN.com and WikiHow.com, there often exist various kinds of side information along with the main document for attention attraction and easier understanding, such as videos, images, and queries. Such information can be used for better summarization, as they often explicitly or implicitly mention the essence of the article. However, most of the existing side-aware summarization methods are designed to incorporate either single-modal or multi-modal side information, and cannot effectively adapt to each other. In this paper, we propose a general summarization framework, which can flexibly incorporate various modalities of side information. The main challenges in designing a flexible summarization model with side information include: (1) the side information can be in textual or visual format, and the model needs to align and unify it with the document into the same semantic space, (2) the side inputs can contain information from various aspects, and the model should recognize the aspects useful for summarization. To address these two challenges, we first propose a unified topic encoder, which jointly discovers latent topics from the document and various kinds of side information. The learned topics flexibly bridge and guide the information flow between multiple inputs in a graph encoder through a topic-aware interaction. We secondly propose a triplet contrastive learning mechanism to align the single-modal or multi-modal information into a unified semantic space, where the summary quality is enhanced by better understanding the document and side information. Results show that our model significantly surpasses strong baselines on three public single-modal or multi-modal benchmark summarization datasets.
翻訳日:2023-05-22 15:36:14 公開日:2023-05-19
# アライメントからエンテーメントへ:エンティティアライメントのための統一テキストエンテーメントフレームワーク

From Alignment to Entailment: A Unified Textual Entailment Framework for Entity Alignment ( http://arxiv.org/abs/2305.11501v1 )

ライセンス: Link先を確認
Yu Zhao, Yike Wu, Xiangrui Cai, Ying Zhang, Haiwei Zhang, Xiaojie Yuan(参考訳) エンティティアライメント(EA)は、2つの知識グラフ(KG)の間に同等のエンティティを見つけることを目的としている。 既存のメソッドは通常、エンティティのトリプルを埋め込みとしてエンコードし、埋め込みの調整を学ぶ。 さらに、不均一な埋め込み空間における実体の3重項と属性の3重項を符号化し、互いに助け合うのを防ぐ。 本稿では,両トリプルを統一されたテキストシーケンスに変換し,EAタスクをクロスKGエンティティのシーケンス間の双方向テキスト補完タスクとしてモデル化する。 具体的には、2つのエンティティのシーケンスを同時に事前学習した言語モデル (plm) に供給し、シーケンス間の帰属確率をエンティティ間の類似性としてモデル化する2種類のplmベースのエンティティアライナーを提案する。 提案手法は,エンティティ間の2種類の情報の統合相関パターンを捕捉し,元のエンティティ情報間のきめ細かい相互作用をモデル化する。 5つの言語横断型eaデータセットの実験により、このアプローチは最先端のea手法よりも優れており、相互に異種情報の強化が可能となった。 コードはhttps://github.com/oreozhao/teaで入手できる。

Entity Alignment (EA) aims to find the equivalent entities between two Knowledge Graphs (KGs). Existing methods usually encode the triples of entities as embeddings and learn to align the embeddings, which prevents the direct interaction between the original information of the cross-KG entities. Moreover, they encode the relational triples and attribute triples of an entity in heterogeneous embedding spaces, which prevents them from helping each other. In this paper, we transform both triples into unified textual sequences, and model the EA task as a bi-directional textual entailment task between the sequences of cross-KG entities. Specifically, we feed the sequences of two entities simultaneously into a pre-trained language model (PLM) and propose two kinds of PLM-based entity aligners that model the entailment probability between sequences as the similarity between entities. Our approach captures the unified correlation pattern of two kinds of information between entities, and explicitly models the fine-grained interaction between original entity information. The experiments on five cross-lingual EA datasets show that our approach outperforms the state-of-the-art EA methods and enables the mutual enhancement of the heterogeneous information. Codes are available at https://github.com/OreOZhao/TEA.
翻訳日:2023-05-22 15:35:47 公開日:2023-05-19
# 小型・高温気相セルにおける光偏光原子の壁面衝突効果

Wall-Collision Effect on Optically-Polarized Atoms in Small and Hot Vapor Cells ( http://arxiv.org/abs/2305.11500v1 )

ライセンス: Link先を確認
Yue Chang and Jie Qin(参考訳) 原子の蒸気細胞では、原子は内部の表面と衝突し、スピンが壁上でランダムになる。 この壁脱分極効果は拡散性があり、高温下ではより小さな蒸気電池で顕著になる。 本研究では,光励起アルカリ金属原子の偏光を150ドルのセシウスに加熱したミリサイズのセルで調べる。 我々は,完全非分極化と非分極化の2つの極限境界条件を検討し,それらの境界間の分極差の解析的推定を行う。 非偏極の場合、ポンプビームの吸収は平均的な原子偏極に比例する。 しかし、完全な偏極壁の場合、吸収ピークは極性最小値に対応できる。 壁効果を軽減するため, ポンプパワーを維持しながらポンプビームの直径を小さくし, セル壁の照明を防止し, 中央のポンプ強度を高めることを提案する。 これは、レーザー周波数が吸収ピークにロックされているため、分解できない小型の蒸気セルデバイスにとって重要である。 さらに, スピン交換緩和系で作動するアルカリ金属原子磁気センサの性能に及ぼす壁偏極効果を解析した。 信号強度は壁面衝突によって非常に制限されていることを示し,その上界を提供する。

In atomic vapor cells, atoms collide with the inner surface, causing their spin to randomize on the walls. This wall-depolarizing effect is diffusive, and it becomes more pronounced in smaller vapor cells under high temperatures. In this work, we investigate the polarization of optically-pumped alkali-metal atoms in a millimeter-sized cell heated to $% 150 $ Celsius. We consider two extreme boundary conditions: fully depolarizing and nondepolarizing boundaries, and we provide an analytical estimation of the polarization difference between them. In the nondepolarizing case, the pump beam's absorption is proportional to the average atomic polarization. However, for fully depolarizing walls, the absorption peak may correspond to a polarization minimum. To mitigate the wall effect, we propose reducing the pump beam's diameter while maintaining the pump power to prevent illumination of the cell wall and increase the pump intensity in the central area. This is crucial for compact vapor-cell devices where the laser frequency can not be detuned since it is locked to the absorption peaks. Additionally, we analyze the wall-depolarizing effect on the performance of an alkali-metal atomic magnetometer operating in the spin-exchange relaxation-free regime. We show that the signal strength is highly limited by wall collisions, and we provide an upper bound for it.
翻訳日:2023-05-22 15:35:25 公開日:2023-05-19
# RCOT:思考の連鎖逆転による推論の不整合の検出と抑制

RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought ( http://arxiv.org/abs/2305.11499v1 )

ライセンス: Link先を確認
Tianci Xue, Ziqi Wang, Zhenhailong Wang, Chi Han, Pengfei Yu, Heng Ji(参考訳) 大規模言語モデル(LLM)は、ステップ・バイ・ステップ・チェーン・オブ・シークレット(CoT)プロンプトを導入し、算術推論タスクにおいて有望な性能を達成した。 しかし、LLMは、推論中の事実整合性の維持、条件見落としの傾向、疑わしい解釈、与えられた問題に対する条件幻覚といった課題に直面している。 既存の方法は、粗いフィードバック(例えば、答えが正しいかどうか)を使って、事実整合性を改善する。 本研究では,LLMの生成したソリューションにおける現実的矛盾を自動的に検出し,修正することにより,LLMの推論能力を向上させる新しい手法であるRCoT(Reversing Chain-of-Thought)を提案する。 事実整合性を検出するために、RCoT はまず LLM に対して、生成した解に基づいて問題を再構築するよう要求する。 そして、元の問題と再構成された問題の細かな比較は、元の解の事実的矛盾を露呈する。 解を正すために、RCoT式は、実際の矛盾を検出してきめ細かいフィードバックを与え、解の修正にLSMを導く。 実験により、7つの算術データセット間で標準CoTよりも一貫した改善が示された。 さらに、手書きのきめ細かいフィードバックは、LCMの推論能力(例えば、ChatGPTはGSM8Kで94.6%の精度に達する)を劇的に向上させ、よりきめ細かいフィードバック生成方法の探求を促している。

Large language Models (LLMs) have achieved promising performance on arithmetic reasoning tasks by incorporating step-by-step chain-of-thought (CoT) prompting. However, LLMs face challenges in maintaining factual consistency during reasoning, exhibiting tendencies to condition overlooking, question misinterpretation, and condition hallucination over given problems. Existing methods use coarse-grained feedback (e.g., whether the answer is correct) to improve factual consistency. In this work, we propose RCoT (Reversing Chain-of-Thought), a novel method to improve LLMs' reasoning abilities by automatically detecting and rectifying factual inconsistency in LLMs' generated solutions. To detect factual inconsistency, RCoT first asks LLMs to reconstruct the problem based on generated solutions. Then fine-grained comparisons between the original problem and the reconstructed problem expose the factual inconsistency in the original solutions. To rectify the solution, RCoT formulates detected factual inconsistency into fine-grained feedback to guide LLMs in revising solutions. Experimental results demonstrate consistent improvements of RCoT over standard CoT across seven arithmetic datasets. Moreover, we find that manually written fine-grained feedback can dramatically improve LLMs' reasoning abilities (e.g., ChatGPT reaches 94.6% accuracy on GSM8K), encouraging the community to further explore the fine-grained feedback generation methods.
翻訳日:2023-05-22 15:35:04 公開日:2023-05-19
# 事象抽出のための確率バイアスによるイベントフィールドの再結合

Recouple Event Field via Probabilistic Bias for Event Extraction ( http://arxiv.org/abs/2305.11498v1 )

ライセンス: Link先を確認
Xingyu Bai, Taiqiang Wu, Han Guo, Zhe Zhao, Xuefeng Yang, Jiayi Li, Weijie Liu, Qi Ju, Weigang Guo, Yujiu Yang(参考訳) イベントトリガとイベント参照からの引数の識別と分類を目的としたイベント抽出(EE)は、事前訓練された言語モデル(PLM)の恩恵を受けている。 しかし、既存のPLMベースの手法は、イベントスキーマを理解するのに不可欠であるトリガー/引数フィールドの情報を無視している。 この目的のために,確率的再結合モデル拡張イベント抽出フレームワーク(ProCE)を提案する。 具体的には,構文関連イベントフィールドを確率バイアスとしてモデル化し,あいまいな絡み合いからイベントフィールドを明らかにする。 さらに、脳内の同じトリガ/引数の複数発生を考慮し、同一トリガ/引数の複数のフィールド間の確率的相互作用戦略を探索し、対応する明確化分布を再定義し、より潜時的な情報フィールドをキャプチャする。 eeデータセットに関する実験は、提案手法の有効性と一般化を示しています。

Event Extraction (EE), aiming to identify and classify event triggers and arguments from event mentions, has benefited from pre-trained language models (PLMs). However, existing PLM-based methods ignore the information of trigger/argument fields, which is crucial for understanding event schemas. To this end, we propose a Probabilistic reCoupling model enhanced Event extraction framework (ProCE). Specifically, we first model the syntactic-related event fields as probabilistic biases, to clarify the event fields from ambiguous entanglement. Furthermore, considering multiple occurrences of the same triggers/arguments in EE, we explore probabilistic interaction strategies among multiple fields of the same triggers/arguments, to recouple the corresponding clarified distributions and capture more latent information fields. Experiments on EE datasets demonstrate the effectiveness and generalization of our proposed approach.
翻訳日:2023-05-22 15:34:36 公開日:2023-05-19
# TreePrompt: 説明可能なビジュアルグラウンドのためのツリープロンプを学習する

TreePrompt: Learning to Compose Tree Prompts for Explainable Visual Grounding ( http://arxiv.org/abs/2305.11497v1 )

ライセンス: Link先を確認
Chenchi Zhang, Jun Xiao, Lei Chen, Jian Shao, Long Chen(参考訳) プロンプトチューニングは、大きな事前訓練されたビジョン言語モデルの知識をダウンストリームタスクに移すことで大きな成功を収め、視覚グラウンド(vg)のパフォーマンスを支配した。 しかし、ほとんどの既存のプロンプトチューニングパラダイムは、解釈性に乏しい。 本稿では,それらの解釈の貧弱さが,総合的なプロンプト生成と推論のプロセスに起因していると主張する。 総称的」とは、通常、一連のベクトルをプロンプト(即ちプロンプト生成)として直接学習し、学習されたグローバルプロンプトを使用して、vgモデルのテキスト入力(即ちプロンプト推論)を増強することを意味する。 この目的のために,treeprompt という明示的な説明能力を持つ新しいプロンプト構築パラダイムを提案する。 具体的には、まず複雑な文を木に分解し、それは人間の推論と一致する。 次に、構文木に従い、ボトムアップ方式で構造化されたプロンプトを構成する。 このステップバイステップのプロンプト構築プロセスのおかげで、各中間プロンプト(つまりツリーノード)は推論プロセスを理解することができる。 さまざまなバックボーンやベンチマークに対する大規模な改善は、TreePromptの有効性と解釈性を一貫して示しています。

Prompt tuning has achieved great success in transferring the knowledge from large pretrained vision-language models into downstream tasks, and has dominated the performance on visual grounding (VG). However, almost all existing prompt tuning paradigms suffer from poor interpretability. In this paper, we argue that their poor interpretability is attributed to the holistic prompt generation and inference process. By "holistic", we mean that they usually directly learn a set of vectors as the prompt (i.e., prompt generation), and use the learned global prompt to augment the textual input for the VG model (i.e., prompt inference). To this end, we propose a new prompt construction paradigm with explicit explainable ability, named TreePrompt. Specifically, we first deconstruct a complex sentence into a tree, that is consistent with human reasoning. Then, following the syntax tree, we compose a structured prompt in a bottom-up manner. Thanks to this step-by-step prompt construction process, each intermediate prompt (i.e., tree node) permits us to understand the reasoning process. Extensive ablations on various backbones and benchmarks consistently demonstrate the effectiveness and interpretability of our TreePrompt.
翻訳日:2023-05-22 15:34:20 公開日:2023-05-19
# ランダム化低ランク近似を用いた非凸ロバスト高次テンソル補完

Nonconvex Robust High-Order Tensor Completion Using Randomized Low-Rank Approximation ( http://arxiv.org/abs/2305.11495v1 )

ライセンス: Link先を確認
Wenjin Qin, Hailin Wang, Feng Zhang, Weijun Ma, Jianjun Wang, and Tingwen Huang(参考訳) テンソル特異値分解(T-SVD)フレームワークでは、既存の堅牢な低ランクテンソル完備化アプローチが科学や工学の分野で大きな成果を上げている。 しかしながら、これらの手法は、大規模テンソルデータを扱う場合の計算コストが高いT-SVDベースの低ランク近似を含む。 さらに、それらのほとんどは三階テンソルにのみ適用できる。 これらの問題に対して,本稿では,ランダム化手法を用いた2つの効率的な低ランクテンソル近似手法を,次数 d (d >= 3) t-svd の枠組みを用いて考案した。 そこで本研究では,高次テンソル補完法(rhtc)問題をさらに検討し,収束保証付き高速最適化アルゴリズムとともに2重非凸モデルを開発した。 我々の知る限りでは、このランダム化された低ランク近似をrhtc問題に組み込んだ最初の研究である。 大規模合成および実テンソルデータに関する実証研究は,提案手法が計算効率と推定精度の両方の観点から,他の最先端手法よりも優れていることを示している。

Within the tensor singular value decomposition (T-SVD) framework, existing robust low-rank tensor completion approaches have made great achievements in various areas of science and engineering. Nevertheless, these methods involve the T-SVD based low-rank approximation, which suffers from high computational costs when dealing with large-scale tensor data. Moreover, most of them are only applicable to third-order tensors. Against these issues, in this article, two efficient low-rank tensor approximation approaches fusing randomized techniques are first devised under the order-d (d >= 3) T-SVD framework. On this basis, we then further investigate the robust high-order tensor completion (RHTC) problem, in which a double nonconvex model along with its corresponding fast optimization algorithms with convergence guarantees are developed. To the best of our knowledge, this is the first study to incorporate the randomized low-rank approximation into the RHTC problem. Empirical studies on large-scale synthetic and real tensor data illustrate that the proposed method outperforms other state-of-the-art approaches in terms of both computational efficiency and estimated precision.
翻訳日:2023-05-22 15:33:59 公開日:2023-05-19
# 経路積分法による励起状態に対する一般化量子幾何テンソル

Generalized quantum geometric tensor for excited states using the path integral approach ( http://arxiv.org/abs/2305.11525v1 )

ライセンス: Link先を確認
Sergio B. Ju\'arez, Diego Gonzalez, Daniel Guti\'errez-Ruiz and J. David Vergara(参考訳) 量子計量テンソルとベリー曲率からなる量子幾何学テンソルは、物理系のパラメータ空間幾何学を完全に符号化する。 まず、基底状態と励起状態の両方を扱える経路積分形式論における量子幾何学的テンソルの定式化を行い、励起状態の量子相転移(ESQPT)を特徴づけるのに有用である。 この設定では、量子幾何学的テンソルを一般化し、系パラメータと位相空間座標のバリエーションを取り込む。 これにより、純度やフォン・ノイマンエントロピーのようなツールによってガウス状態の量子絡み合いに関する情報を得ることができる量子共分散行列への別のアプローチが導かれる。 第二に、経路積分形式と他の既存手法における量子幾何テンソルの定式化の等価性を示す。 さらに、いくつかの量子系に対するリッチテンソルとスカラー曲率を計算し、一般化された量子計量テンソルの幾何学的性質を深く探究し、この幾何学的情報への洞察を与える。

The quantum geometric tensor, composed of the quantum metric tensor and Berry curvature, fully encodes the parameter space geometry of a physical system. We first provide a formulation of the quantum geometrical tensor in the path integral formalism that can handle both the ground and excited states, making it useful to characterize excited state quantum phase transitions (ESQPT). In this setting, we also generalize the quantum geometric tensor to incorporate variations of the system parameters and the phase-space coordinates. This gives rise to an alternative approach to the quantum covariance matrix, from which we can get information about the quantum entanglement of Gaussian states through tools such as purity and von Neumann entropy. Second, we demonstrate the equivalence between the formulation of the quantum geometric tensor in the path integral formalism and other existing methods. Furthermore, we explore the geometric properties of the generalized quantum metric tensor in depth by calculating the Ricci tensor and scalar curvature for several quantum systems, providing insight into this geometric information.
翻訳日:2023-05-22 15:26:42 公開日:2023-05-19
# DSFNet:Occlusion-Robust 3D Dense Faceアライメントのためのデュアルスペースフュージョンネットワーク

DSFNet: Dual Space Fusion Network for Occlusion-Robust 3D Dense Face Alignment ( http://arxiv.org/abs/2305.11522v1 )

ライセンス: Link先を確認
Heyuan Li, Bo Wang, Yu Cheng, Mohan Kankanhalli, Robby T. Tan(参考訳) 重度の閉塞と大きな視角に対する感度は、既存のモノクル3D高密度顔アライメント法の使用シナリオを制限する。 最先端の3DMMベースの手法では、モデルの係数を直接回帰し、低レベルな2次元空間情報と意味情報を活用する。 本研究では,画像空間とモデル空間における3次元顔形状のモデリングが咬合と視野角の問題をどのように解決するかを実証する。 顔全体を直接予測する代わりに、まず濃密な予測により、目に見える顔領域における画像空間の特徴を回帰する。 次に,可視領域の回帰的特徴に基づいてモデル係数を予測し,モーファブルモデルから全体の顔形状に関する事前知識を活用し,可視領域を完成させる。 さらに,画像とモデル空間予測の利点を組み合わせて,制約のないシナリオにおいて高い堅牢性と精度を実現する融合ネットワークを提案する。 提案する融合モジュールにより,画像空間アプローチの利点であるオクルージョンと大きなピッチとロールビュー角だけでなく,ノイズや大きなヨーアングルにもロバストな手法が提案されている。 本手法の総合評価は,最先端手法と比較して優れた性能を示す。 3次元高密度顔アライメントタスクでは,aflw2000-3dデータセット上で3.80%のnmeを達成し,最先端手法を5.5%上回った。 コードはhttps://github.com/lhyfst/DSFNetで入手できる。

Sensitivity to severe occlusion and large view angles limits the usage scenarios of the existing monocular 3D dense face alignment methods. The state-of-the-art 3DMM-based method, directly regresses the model's coefficients, underutilizing the low-level 2D spatial and semantic information, which can actually offer cues for face shape and orientation. In this work, we demonstrate how modeling 3D facial geometry in image and model space jointly can solve the occlusion and view angle problems. Instead of predicting the whole face directly, we regress image space features in the visible facial region by dense prediction first. Subsequently, we predict our model's coefficients based on the regressed feature of the visible regions, leveraging the prior knowledge of whole face geometry from the morphable models to complete the invisible regions. We further propose a fusion network that combines the advantages of both the image and model space predictions to achieve high robustness and accuracy in unconstrained scenarios. Thanks to the proposed fusion module, our method is robust not only to occlusion and large pitch and roll view angles, which is the benefit of our image space approach, but also to noise and large yaw angles, which is the benefit of our model space method. Comprehensive evaluations demonstrate the superior performance of our method compared with the state-of-the-art methods. On the 3D dense face alignment task, we achieve 3.80% NME on the AFLW2000-3D dataset, which outperforms the state-of-the-art method by 5.5%. Code is available at https://github.com/lhyfst/DSFNet.
翻訳日:2023-05-22 15:26:23 公開日:2023-05-19
# 制御可能な画像合成のための遅延制約拡散誘導

Late-Constraint Diffusion Guidance for Controllable Image Synthesis ( http://arxiv.org/abs/2305.11520v1 )

ライセンス: Link先を確認
Chang Liu, Dong Liu(参考訳) 拡散モデルは、テキスト条件の有無にかかわらず、数語または全くの単語を与えられたフォトリアリスティック画像の合成能力を示す。 通常のユーザーやアーティストは、全体的なレイアウト、色、構造、オブジェクトの形状など、特定のガイダンスで合成画像を制御するつもりなので、これらのモデルはユーザーのニーズを十分に満たさないかもしれない。 制御可能な画像合成に拡散モデルを適用するために,拡散復調ネットワークの中間特性を正則化するためのいくつかの手法が提案されている。 本稿では, 早期制約法として知られ, 単一解法で複数の条件を扱うのに困難がある。 彼らは、多くのトレーニングコストと一般化不可能なソリューションを必要とする、特定の条件ごとに別々のモデルをトレーニングすることを意図している。 これらの問題に対処するために,我々は拡散ネットワークをそのまま残しながら,その出力が要求条件に合致するように制約するという,遅延制約という新しいアプローチを提案する。 具体的には,外部条件と拡散モデルの内部表現との相関性を確立するために,軽量条件アダプタを訓練する。 反復分別処理の間、条件付きガイダンスを対応する条件アダプタに送信してサンプリングプロセスを確立された相関で操作する。 さらに,提案手法に準拠した合成画像の品質向上を図るため,時間ステップリサンプリング法と早期停止法を用いて,導入した遅延制約戦略を導入する。 提案手法は,既存の早期制約法よりも優れ,未確認条件の一般化に優れる。

Diffusion models, either with or without text condition, have demonstrated impressive capability in synthesizing photorealistic images given a few or even no words. These models may not fully satisfy user need, as normal users or artists intend to control the synthesized images with specific guidance, like overall layout, color, structure, object shape, and so on. To adapt diffusion models for controllable image synthesis, several methods have been proposed to incorporate the required conditions as regularization upon the intermediate features of the diffusion denoising network. These methods, known as early-constraint ones in this paper, have difficulties in handling multiple conditions with a single solution. They intend to train separate models for each specific condition, which require much training cost and result in non-generalizable solutions. To address these difficulties, we propose a new approach namely late-constraint: we leave the diffusion networks unchanged, but constrain its output to be aligned with the required conditions. Specifically, we train a lightweight condition adapter to establish the correlation between external conditions and internal representations of diffusion models. During the iterative denoising process, the conditional guidance is sent into corresponding condition adapter to manipulate the sampling process with the established correlation. We further equip the introduced late-constraint strategy with a timestep resampling method and an early stopping technique, which boost the quality of synthesized image meanwhile complying with the guidance. Our method outperforms the existing early-constraint methods and generalizes better to unseen condition.
翻訳日:2023-05-22 15:25:57 公開日:2023-05-19
# アダム・スミスの公平な観察者としての人工知能道徳エージェント

Artificial intelligence moral agent as Adam Smith's impartial spectator ( http://arxiv.org/abs/2305.11519v1 )

ライセンス: Link先を確認
Nikodem Tomczak(参考訳) アダム・スミスは道徳的哲学を考案し、我々の中に公平な観客を尋問することでより良い判断を下した。 我々は、内的精神プロセスを強化し、公平なオブザーバーの役割を担う外部非人間ベースの代替ツールを使用することの可能性について議論する。 そのようなツールは、世界に関するより多くの知識を持ち、より公平であり、道徳的評価に関するより包括的な視点を提供するだろう。

Adam Smith developed a version of moral philosophy where better decisions are made by interrogating an impartial spectator within us. We discuss the possibility of using an external non-human-based substitute tool that would augment our internal mental processes and play the role of the impartial spectator. Such tool would have more knowledge about the world, be more impartial, and would provide a more encompassing perspective on moral assessment.
翻訳日:2023-05-22 15:25:32 公開日:2023-05-19
# 粒子物理学のための量子センシング

Quantum sensing for particle physics ( http://arxiv.org/abs/2305.11518v1 )

ライセンス: Link先を確認
Steven D. Bass and Michael Doser(参考訳) 量子センシングは、基礎物理学を探索するための急速に成長するアプローチであり、物質の深い構造とその相互作用を理解するために、精密な測定によってフロンティアを推し進めている。 この分野は、検出器における量子力学の特性を利用して、従来の測定技術を超える。 量子センシングが重要な役割を果たす主要な素粒子物理学のトピックは、ニュートリノの性質、基本対称性の試験(ローレンツ不変性と等価原理)、基本定数の可能な変動の探索、電気双極子モーメントの探索を含む)、ダークマターの探索、ダークエネルギーの性質に関するテストなどである。 興味深い新しいセンサー技術としては、原子干渉計、オプティメカルデバイス、そして絡み合いを含む原子と原子の時計がある。このパースペクティブは、将来の粒子物理学実験におけるこれらの技術の可能性を探り、宇宙の構造に新しい窓を開く。

Quantum sensing is a rapidly growing approach to probe fundamental physics, pushing the frontiers with precision measurements in our quest to understand the deep structure of matter and its interactions. This field uses properties of quantum mechanics in the detectors to go beyond traditional measurement techniques. Key particle physics topics where quantum sensing can play a vital role include neutrino properties, tests of fundamental symmetries (Lorentz invariance and the equivalence principle including searches for possible variations in fundamental constants as well as searches for electric dipole moments), the search for dark matter and testing ideas about the nature of dark energy. Interesting new sensor technologies include atom interferometry, optomechanical devices, and atomic and nuclear clocks including with entanglement.This Perspective explores the opportunities for these technologies in future particle physics experiments, opening new windows on the structure of the Universe.
翻訳日:2023-05-22 15:25:24 公開日:2023-05-19
# DiffuSIA:エンコーダ-デコーダテキスト拡散のためのスパイラルインタラクションアーキテクチャ

DiffuSIA: A Spiral Interaction Architecture for Encoder-Decoder Text Diffusion ( http://arxiv.org/abs/2305.11517v1 )

ライセンス: Link先を確認
Chao-Hong Tan, Jia-Chen Gu, Zhen-Hua Ling(参考訳) 拡散モデルが、深層生成モデルの新たな最先端ファミリーとして登場し、テキスト生成の有望なポテンシャルが最近注目を集めている。 既存の研究では、条件付きテキスト生成のために部分的にノーミングプロセスを持つ単一のエンコーダアーキテクチャを採用することが多いが、条件付きモデリングの柔軟性は限られている。 実際、エンコーダ-デコーダアーキテクチャは、条件や対象テキストに対する多言語およびマルチモーダル生成タスクに拡張可能な、分離可能なエンコーダとデコーダモジュールに対して、自然に柔軟である。 しかし、条件付きテキストの符号化プロセスは、ターゲットテキストの理解に欠ける。 この目的のために、エンコーダ-デコーダテキスト拡散(DiffuSIA)のためのスパイラル相互作用アーキテクチャを提案する。 具体的には、エンコーダの条件情報は拡散復号器によってキャプチャされるように設計され、デコーダの目標情報は条件エンコーダによってキャプチャされるように設計されている。 これら2種類の情報フローは、深い融合と理解のために多層的な相互作用をスパイラルに流れる。 diffusiaは、パラフレーズ、テキスト単純化、質問生成、オープンドメイン対話生成を含む4つのテキスト生成タスクで評価される。 実験結果から,DiffuSIAは従来の4つの課題すべてにおいて競合性能を達成し,提案手法の有効性と一般化能力を実証した。

Diffusion models have emerged as the new state-of-the-art family of deep generative models, and their promising potentials for text generation have recently attracted increasing attention. Existing studies mostly adopt a single encoder architecture with partially noising processes for conditional text generation, but its degree of flexibility for conditional modeling is limited. In fact, the encoder-decoder architecture is naturally more flexible for its detachable encoder and decoder modules, which is extensible to multilingual and multimodal generation tasks for conditions and target texts. However, the encoding process of conditional texts lacks the understanding of target texts. To this end, a spiral interaction architecture for encoder-decoder text diffusion (DiffuSIA) is proposed. Concretely, the conditional information from encoder is designed to be captured by the diffusion decoder, while the target information from decoder is designed to be captured by the conditional encoder. These two types of information flow run through multilayer interaction spirally for deep fusion and understanding. DiffuSIA is evaluated on four text generation tasks, including paraphrase, text simplification, question generation, and open-domain dialogue generation. Experimental results show that DiffuSIA achieves competitive performance among previous methods on all four tasks, demonstrating the effectiveness and generalization ability of the proposed method.
翻訳日:2023-05-22 15:25:06 公開日:2023-05-19
# 学習や単語アライメントを伴わない意味的差異発見のための文脈化単語ベクトルに基づく手法

Contextualized Word Vector-based Methods for Discovering Semantic Differences with No Training nor Word Alignment ( http://arxiv.org/abs/2305.11516v1 )

ライセンス: Link先を確認
Ryo Nagata, Hiroya Takamura, Naoki Otani, and Yoshifumi Kawasaki(参考訳) 本稿では,文脈化された単語ベクトルの規範に基づいて,二つのコーパスに出現する単語の意味的差異を検出する手法を提案する。 重要な考え方は、意味の範囲が平均語ベクトルのノルムに反映されるということである。 提案手法は,従来の手法と比較して,単語やコーパスに関する仮定を必要としない。 必要となるのは、文脈化された単語ベクトルの平均ベクトルとその単語タイプごとのノルムを計算することである。 しかし、それらは (i)コーパスサイズにおけるスキューの堅牢性 二 少ない単語の意味的差異を検出することができること、及び (iii)比較のために2つのコーパスのうちの1つに欠けている意味を持つ単語をピンポイントするのに有効である。 これらの利点は、母国英語のコーパスや歴史的コーパスにも見られる。

In this paper, we propose methods for discovering semantic differences in words appearing in two corpora based on the norms of contextualized word vectors. The key idea is that the coverage of meanings is reflected in the norm of its mean word vector. The proposed methods do not require the assumptions concerning words and corpora for comparison that the previous methods do. All they require are to compute the mean vector of contextualized word vectors and its norm for each word type. Nevertheless, they are (i) robust for the skew in corpus size; (ii) capable of detecting semantic differences in infrequent words; and (iii) effective in pinpointing word instances that have a meaning missing in one of the two corpora for comparison. We show these advantages for native and non-native English corpora and also for historical corpora.
翻訳日:2023-05-22 15:24:43 公開日:2023-05-19
# SAMがシャドー検出に出会ったとき

When SAM Meets Shadow Detection ( http://arxiv.org/abs/2305.11513v1 )

ライセンス: Link先を確認
Leiping Jie, Hui Zhang(参考訳) プロンプト可能な汎用オブジェクトセグメンテーションモデルとして、S segment Any Model (SAM) が最近注目され、その強力なパフォーマンスを示している。 それでも、医用画像のセグメンテーション、カモフラージュされた物体検出など、いくつかのタスクに遭遇すると、まだウォータールーを満たしている。 本報告では、探索されていない一般的なタスクであるシャドー検出についてSAMを試す。 具体的には、4つのベンチマークが選択され、広く使用されているメトリクスで評価された。 実験結果から,特に精巧なモデルと比較した場合,SAMを用いた影検出の性能は良好ではないことがわかった。 コードはhttps://github.com/LeipingJie/SAMSh.comで入手できる。

As a promptable generic object segmentation model, segment anything model (SAM) has recently attracted significant attention, and also demonstrates its powerful performance. Nevertheless, it still meets its Waterloo when encountering several tasks, e.g., medical image segmentation, camouflaged object detection, etc. In this report, we try SAM on an unexplored popular task: shadow detection. Specifically, four benchmarks were chosen and evaluated with widely used metrics. The experimental results show that the performance for shadow detection using SAM is not satisfactory, especially when comparing with the elaborate models. Code is available at https://github.com/LeipingJie/SAMSh.
翻訳日:2023-05-22 15:24:29 公開日:2023-05-19
# 絡み合いの強化:メトリクスの定義

Enriching Disentanglement: Definitions to Metrics ( http://arxiv.org/abs/2305.11512v1 )

ライセンス: Link先を確認
Yivan Zhang, Masashi Sugiyama(参考訳) 分散表現学習は、複雑なデータの変動の複数の要因を分離する難題である。 不整合表現の学習と評価のための様々な指標が提案されているが、これらの指標が真に何を定量化し、どのように比較するかは定かではない。 本研究は,一階方程式述語が与える絡み合いの定義を考察し,等式の定義を富化圏理論に基づく相溶性のある量的計量に変換するための体系的アプローチを提案する。 具体的には どのように置き換えるか (i)メートル法または分岐法との等式 (ii)順序演算による論理接続 三 集約を伴う普遍的定量化器、及び (iv)最良の近似を持つ存在量化器。 提案手法は,不整合表現抽出器の所望特性を測定するための指標を導出し,合成データ上での有効性を示す。 提案手法は,適切な評価指標を選定し,不連続表現学習のための効果的な学習アルゴリズムを設計するための実践的ガイダンスを提供する。

Disentangled representation learning is a challenging task that involves separating multiple factors of variation in complex data. Although various metrics for learning and evaluating disentangled representations have been proposed, it remains unclear what these metrics truly quantify and how to compare them. In this work, we study the definitions of disentanglement given by first-order equational predicates and introduce a systematic approach for transforming an equational definition into a compatible quantitative metric based on enriched category theory. Specifically, we show how to replace (i) equality with metric or divergence, (ii) logical connectives with order operations, (iii) universal quantifier with aggregation, and (iv) existential quantifier with the best approximation. Using this approach, we derive metrics for measuring the desired properties of a disentangled representation extractor and demonstrate their effectiveness on synthetic data. Our proposed approach provides practical guidance for researchers in selecting appropriate evaluation metrics and designing effective learning algorithms for disentangled representation learning.
翻訳日:2023-05-22 15:24:18 公開日:2023-05-19
# Terraforming - マルチエージェントピックアップとデリバリのための障害時の環境操作

Terraforming -- Environment Manipulation during Disruptions for Multi-Agent Pickup and Delivery ( http://arxiv.org/abs/2305.11510v1 )

ライセンス: Link先を確認
David Vainshtein, Yaakov Sherma, Kiril Solovey and Oren Salzman(参考訳) 自動倉庫では、在庫ポッドを指定されたワークステーションに移動させ、密集したポッドで形成された狭い通路を航行することで、移動ロボットのチームがパッケージングプロセスを満たす。 この問題は一般的にMAPD(Multi-Agent Pickup and Delivery)問題としてモデル化され、RHCR(Rolling-Horizon Collision Resolution)アルゴリズムのように、固定グラフ上のエージェントに対する衝突のない経路を繰り返し計画することで解決される。 しかし、既存のアプローチでは、エージェントは現在のタスクに対応するポッドのみを移動でき、他のポッドは(すべてのポッドが移動可能であっても)静止した障害として考慮できるという限定的な仮定となっている。 この挙動は、ポッド操作によって追加の廊下を開くことで避けられるような不要な長い経路をもたらす可能性がある。 この目的のために,エージェントが動的にポッドを移動させることの柔軟性について検討する。 我々はこの新たな問題をTerraforming MAPD (tMAPD)と呼び、それに取り組むためのRHCRベースのアプローチを開発します。 terraformの余分な柔軟性が大きな計算コストになるため、ソリューションの品質に大きな影響を与える可能性のある状況を特定することで、この機能を公平に活用します。 特に、アイテムがpodからドロップされたり、エージェントが機能不全になったりするなど、自動化された倉庫でしばしば発生する混乱に対応して、terraformを起動します。 実例では,確率的プロセスで破壊をモデル化するtMAPDの手法を用いてスループットを10%以上改善し,最大サービス時間(ドロップオフ時間とポッドのピックアップ時間の違い)を最大50%以上削減する。

In automated warehouses, teams of mobile robots fulfill the packaging process by transferring inventory pods to designated workstations while navigating narrow aisles formed by tightly packed pods. This problem is typically modeled as a Multi-Agent Pickup and Delivery (MAPD) problem, which is then solved by repeatedly planning collision-free paths for agents on a fixed graph, as in the Rolling-Horizon Collision Resolution (RHCR) algorithm. However, existing approaches make the limiting assumption that agents are only allowed to move pods that correspond to their current task, while considering the other pods as stationary obstacles (even though all pods are movable). This behavior can result in unnecessarily long paths which could otherwise be avoided by opening additional corridors via pod manipulation. To this end, we explore the implications of allowing agents the flexibility of dynamically relocating pods. We call this new problem Terraforming MAPD (tMAPD) and develop an RHCR-based approach to tackle it. As the extra flexibility of terraforming comes at a significant computational cost, we utilize this capability judiciously by identifying situations where it could make a significant impact on the solution quality. In particular, we invoke terraforming in response to disruptions that often occur in automated warehouses, e.g., when an item is dropped from a pod or when agents malfunction. Empirically, using our approach for tMAPD, where disruptions are modeled via a stochastic process, we improve throughput by over 10%, reduce the maximum service time (the difference between the drop-off time and the pickup time of a pod) by more than 50%, without drastically increasing the runtime, compared to the MAPD setting.
翻訳日:2023-05-22 15:24:02 公開日:2023-05-19
# 解釈可能な言語モデルのための連想的知識関係を考慮した単語文脈結合空間の構築

Constructing Word-Context-Coupled Space Aligned with Associative Knowledge Relations for Interpretable Language Modeling ( http://arxiv.org/abs/2305.11543v1 )

ライセンス: Link先を確認
Fanyu Wang and Zhenping Xie(参考訳) 現在の自然言語処理手法の基礎として、事前学習された言語モデルは優れた性能を達成している。 しかし、事前訓練された言語モデルにおけるディープニューラルネットワークのブラックボックス構造は、言語モデリングプロセスの解釈可能性を大幅に制限する。 言語モデリングにおけるディープニューラル表現とセマンティクス論理の結合要件を再考した後,非解釈型ニューラル表現と解釈型統計論理のアライメント処理を導入することで,Word-Context-Coupled Space(W2CSpace)を提案する。 さらに、単語と文脈レベルのセマンティクスを接続するクラスタリングプロセスも設計されている。 具体的には、単語レベルの意味論のアライメントプロセスにおいて、解釈可能な統計論理と見なされる連想知識ネットワーク(AKN)を導入する。 さらに、文脈相対距離は、事前学習されたモデルの現在の解釈不能なセマンティック表現とは大きく異なる下流分類器のセマンティック特徴として使用される。 SIGHAN, Weibo, ChnSenti など, 複数種類のデータセットに対して, 性能評価と解釈解析を行う実験を行った。 一方,機械学習モデルの解釈可能性に関する新たな評価戦略が提案されている。 実験結果によると,我々の言語モデルは,関連する最先端手法と比較して,優れた性能と信頼性の高い解釈能力が得られる。

As the foundation of current natural language processing methods, pre-trained language model has achieved excellent performance. However, the black-box structure of the deep neural network in pre-trained language models seriously limits the interpretability of the language modeling process. After revisiting the coupled requirement of deep neural representation and semantics logic of language modeling, a Word-Context-Coupled Space (W2CSpace) is proposed by introducing the alignment processing between uninterpretable neural representation and interpretable statistical logic. Moreover, a clustering process is also designed to connect the word- and context-level semantics. Specifically, an associative knowledge network (AKN), considered interpretable statistical logic, is introduced in the alignment process for word-level semantics. Furthermore, the context-relative distance is employed as the semantic feature for the downstream classifier, which is greatly different from the current uninterpretable semantic representations of pre-trained models. Our experiments for performance evaluation and interpretable analysis are executed on several types of datasets, including SIGHAN, Weibo, and ChnSenti. Wherein a novel evaluation strategy for the interpretability of machine learning models is first proposed. According to the experimental results, our language model can achieve better performance and highly credible interpretable ability compared to related state-of-the-art methods.
翻訳日:2023-05-22 15:18:03 公開日:2023-05-19
# 大規模言語モデルによる産業ドメイン固有の質問応答の性能向上

Empower Large Language Model to Perform Better on Industrial Domain-Specific Question Answering ( http://arxiv.org/abs/2305.11541v1 )

ライセンス: Link先を確認
Zezhong Wang, Fangkai Yang, Pu Zhao, Lu Wang, Jue Zhang, Mohit Garg, Qingwei Lin, Dongmei Zhang(参考訳) 大規模言語モデル(LLM)は、オープンドメインタスクにおいて顕著な成果を上げているが、実際の産業ドメイン固有のシナリオでは、特定の知識がないため、そのパフォーマンスは平均的である。 この問題は広く注目を集めているが、関連するベンチマークはほとんどない。 本稿では、MSQAという、Microsoft製品と顧客が遭遇するIT技術的問題に関するベンチマーク質問応答(QA)データセットを提供する。 このデータセットには、業界クラウド固有のQA知識が含まれており、一般のLLMでは利用できないため、LLMのドメイン固有能力向上を目的とした評価方法に適している。 さらに,LLMが熟練していない領域固有のタスクにおいて,より優れたパフォーマンスを実現するための新しいモデル相互作用パラダイムを提案する。 大規模な実験により, モデル融合フレームワークによるアプローチは, 一般的なLLMよりも高い性能を示した。

Large Language Model (LLM) has gained popularity and achieved remarkable results in open-domain tasks, but its performance in real industrial domain-specific scenarios is average since there is no specific knowledge in it. This issue has attracted widespread attention, but there are few relevant benchmarks available. In this paper, we provide a benchmark Question Answering (QA) dataset named MSQA, which is about Microsoft products and IT technical problems encountered by customers. This dataset contains industry cloud-specific QA knowledge, which is not available for general LLM, so it is well suited for evaluating methods aimed at improving domain-specific capabilities of LLM. In addition, we propose a new model interaction paradigm that can empower LLM to achieve better performance on domain-specific tasks where it is not proficient. Extensive experiments demonstrate that the approach following our model fusion framework outperforms the commonly used LLM with retrieval methods.
翻訳日:2023-05-22 15:17:43 公開日:2023-05-19
# 画像を用いた中国語安定拡散の多言語間移動

Efficient Cross-Lingual Transfer for Chinese Stable Diffusion with Images as Pivots ( http://arxiv.org/abs/2305.11540v1 )

ライセンス: Link先を確認
Jinyi Hu, Xu Han, Xiaoyuan Yi, Yutong Chen, Wenhao Li, Zhiyuan Liu, Maosong Sun(参考訳) 拡散モデルはテキストと画像の合成において顕著な進歩を遂げた。 しかし、そのような大規模モデル(例えば安定拡散)をスクラッチからトレーニングするには、高い計算コストと大量の高品質のテキスト画像ペアが必要である。 この課題に対処するために、英語の安定拡散を中国語に転送する簡易かつ効果的な方法であるIAPを提案する。 IAPは中国語のテキストエンコーダのみを最適化し、他のすべてのパラメータはCLIPで中国語のセマンティクス空間を英語のエンコーダに合わせるように固定されている。 これを実現するために,画像をピボットとして革新的に扱い,画像と言語間の交差から生じる注意的特徴の距離を最小化する。 このようにして、IAPはCLIPの埋め込み空間における中国語、英語、視覚的意味論の接続を効率的に確立し、生成した画像の品質を直接中国語のプロンプトで向上させる。 実験の結果,本手法は,5%~10%のトレーニングデータしか持たない強い中国拡散モデルよりも優れていた。

Diffusion models have made impressive progress in text-to-image synthesis. However, training such large-scale models (e.g. Stable Diffusion), from scratch requires high computational costs and massive high-quality text-image pairs, which becomes unaffordable in other languages. To handle this challenge, we propose IAP, a simple but effective method to transfer English Stable Diffusion into Chinese. IAP optimizes only a separate Chinese text encoder with all other parameters fixed to align Chinese semantics space to the English one in CLIP. To achieve this, we innovatively treat images as pivots and minimize the distance of attentive features produced from cross-attention between images and each language respectively. In this way, IAP establishes connections of Chinese, English and visual semantics in CLIP's embedding space efficiently, advancing the quality of the generated image with direct Chinese prompts. Experimental results show that our method outperforms several strong Chinese diffusion models with only 5%~10% training data.
翻訳日:2023-05-22 15:17:27 公開日:2023-05-19
# 信頼に値する連合学習:調査

Trustworthy Federated Learning: A Survey ( http://arxiv.org/abs/2305.11537v1 )

ライセンス: Link先を確認
Asadullah Tariq, Mohamed Adel Serhani, Farag Sallabi, Tariq Qayyum, Ezedin S. Barka, Khaled A. Shuaib(参考訳) フェデレートラーニング(FL)は、AI(Artificial Intelligence)分野における重要な進歩として現れ、データのプライバシを維持しながら、分散デバイス間で協調的なモデルトレーニングを可能にする。 flの重要性が高まるにつれて、その様々な側面における信頼性の問題への対処が重要となる。 本稿では、Trustworthy FLの現状を概観し、既存のソリューションとTrustworthy FLに関連する明確に定義された柱を探求する。 信頼性の高い集中型機械学習(ML)/深層学習(DL)に関する文献の増大にもかかわらず、FLモデル特有の信頼性柱と評価指標を特定し、信頼性レベルを計算するためのソリューションを開発するためにはさらなる努力が必要である。 我々は,解釈可能性,公平性,セキュリティとプライバシの3つの柱を包含する分類法を提案する。 各柱は信頼の次元を表し、さらに異なる概念に分解される。 FL設定のあらゆるレベルにおける信頼性の課題について調査した。 我々は,信頼に値するflの包括的アーキテクチャを提示し,概念の基礎となる基本原理を取り上げ,信頼評価機構の詳細な分析を行う。 結論として,Trustworthy FLのすべての側面に関連する重要な研究課題を特定し,今後の研究方向性を提案する。 この包括的な調査は、信頼できるflシステムの開発と実装に取り組んでいる研究者や実践者にとって貴重なリソースとなり、より安全で信頼性の高いai環境に寄与する。

Federated Learning (FL) has emerged as a significant advancement in the field of Artificial Intelligence (AI), enabling collaborative model training across distributed devices while maintaining data privacy. As the importance of FL increases, addressing trustworthiness issues in its various aspects becomes crucial. In this survey, we provide an extensive overview of the current state of Trustworthy FL, exploring existing solutions and well-defined pillars relevant to Trustworthy . Despite the growth in literature on trustworthy centralized Machine Learning (ML)/Deep Learning (DL), further efforts are necessary to identify trustworthiness pillars and evaluation metrics specific to FL models, as well as to develop solutions for computing trustworthiness levels. We propose a taxonomy that encompasses three main pillars: Interpretability, Fairness, and Security & Privacy. Each pillar represents a dimension of trust, further broken down into different notions. Our survey covers trustworthiness challenges at every level in FL settings. We present a comprehensive architecture of Trustworthy FL, addressing the fundamental principles underlying the concept, and offer an in-depth analysis of trust assessment mechanisms. In conclusion, we identify key research challenges related to every aspect of Trustworthy FL and suggest future research directions. This comprehensive survey serves as a valuable resource for researchers and practitioners working on the development and implementation of Trustworthy FL systems, contributing to a more secure and reliable AI landscape.
翻訳日:2023-05-22 15:17:07 公開日:2023-05-19
# PortraIT: ハイブリッドaPproach tO cReate抽出地-TRuth summAry for dIsaster evenT

PORTRAIT: a hybrid aPproach tO cReate extractive ground-TRuth summAry for dIsaster evenT ( http://arxiv.org/abs/2305.11536v1 )

ライセンス: Link先を確認
Piyush Kumar Garg, Roshni Chakraborty, and Sourav Kumar Dandapat(参考訳) 災害要約アプローチは、Twitterなどのソーシャルメディアプラットフォームで災害イベント中に投稿された重要な情報の概要を提供する。 しかし、投稿される情報の種類は、場所、種類、深刻度などによって、災害によって大きく異なる。 災害要約手法の有効性の検証は, 良好なデータセットが得られていないことや, 地要要約の欠如により, いまだに困難である。 既存の基底要約生成のアプローチ(抽出要約のための基底要約)は、注釈者の知恵と直観に依存している。 アノテーションには、要約のためにアノテータによってツイートのサブセットが選択された入力ツイートの完全なセットが提供される。 このプロセスには膨大な労力と膨大な時間が必要です。 さらに、この直観に基づくツイートの選択は、注釈者間で生成された要約に高いばらつきをもたらす可能性がある。 そこで本稿では,これらの課題に対処するため,提案手法を部分的に自動化するハイブリッド(半自動)手法を提案する。 このアプローチはアノテータの労力と時間を削減し、生成した地文要約の品質を確保します。 本研究では,既存の直観的アプローチ,半自動アプローチ,および PortraIT による地中真実の定量的,定性的な比較による5つの災害事象に対する PortraIT の有効性を検証する。 我々は,4カ国に属する自然災害と人的災害の両方からなる5つの災害イベントについて,その概要をまとめ,公開する。 最後に, ROUGE-N F1スコアを用いた PortraIT が生成した基底トラス・サマリーに対する, 最先端の要約手法の性能について検討する。

Disaster summarization approaches provide an overview of the important information posted during disaster events on social media platforms, such as, Twitter. However, the type of information posted significantly varies across disasters depending on several factors like the location, type, severity, etc. Verification of the effectiveness of disaster summarization approaches still suffer due to the lack of availability of good spectrum of datasets along with the ground-truth summary. Existing approaches for ground-truth summary generation (ground-truth for extractive summarization) relies on the wisdom and intuition of the annotators. Annotators are provided with a complete set of input tweets from which a subset of tweets is selected by the annotators for the summary. This process requires immense human effort and significant time. Additionally, this intuition-based selection of the tweets might lead to a high variance in summaries generated across annotators. Therefore, to handle these challenges, we propose a hybrid (semi-automated) approach (PORTRAIT) where we partly automate the ground-truth summary generation procedure. This approach reduces the effort and time of the annotators while ensuring the quality of the created ground-truth summary. We validate the effectiveness of PORTRAIT on 5 disaster events through quantitative and qualitative comparisons of ground-truth summaries generated by existing intuitive approaches, a semi-automated approach, and PORTRAIT. We prepare and release the ground-truth summaries for 5 disaster events which consist of both natural and man-made disaster events belonging to 4 different countries. Finally, we provide a study about the performance of various state-of-the-art summarization approaches on the ground-truth summaries generated by PORTRAIT using ROUGE-N F1-scores.
翻訳日:2023-05-22 15:16:41 公開日:2023-05-19
# 限定データと不完全データの導入:深層学習を用いた植物ストレス認識の検討

Embracing Limited and Imperfect Data: A Review on Plant Stress Recognition Using Deep Learning ( http://arxiv.org/abs/2305.11533v1 )

ライセンス: Link先を確認
Mingle Xu and Hyongsuk Kim and Jucheng Yang and Alvaro Fuentes and Yao Meng and Sook Yoon and Taehyun Kim and Dong Sun Park(参考訳) 植物ストレス認識は、ディープラーニングの出現によって近年大きく改善されている。 適度なパフォーマンスを達成するには、大規模で注釈付きのトレーニングデータセットが必要であるが、収集はしばしば困難で高価である。 したがって、現在のディープラーニングベースのメソッドを現実世界のアプリケーションにデプロイすることは、主に制限された不完全なデータに苦しむ可能性がある。 それらを受け入れることは、十分な注目を集めていない有望な戦略である。 そこで本研究では,人間を解放し,植物ストレスによる損失を低減させる深層学習の導入により,植物の成長を監視することを目的とした系統的な調査を行った。 我々は、この制限された不完全なデータを受け入れることの重要性を強調し、関連する理解を高めたと信じている。

Plant stress recognition has witnessed significant improvements in recent years with the advent of deep learning. A large-scale and annotated training dataset is required to achieve decent performance; however, collecting it is frequently difficult and expensive. Therefore, deploying current deep learning-based methods in real-world applications may suffer primarily from limited and imperfect data. Embracing them is a promising strategy that has not received sufficient attention. From this perspective, a systematic survey was conducted in this study, with the ultimate objective of monitoring plant growth by implementing deep learning, which frees humans and potentially reduces the resultant losses from plant stress. We believe that our paper has highlighted the importance of embracing this limited and imperfect data and enhanced its relevant understanding.
翻訳日:2023-05-22 15:16:17 公開日:2023-05-19
# 高速カロリーメータシミュレーションのための幾何学的自己回帰モデル(GAAM)による新しいカロリーメータの一般化

Generalizing to new calorimeter geometries with Geometry-Aware Autoregressive Models (GAAMs) for fast calorimeter simulation ( http://arxiv.org/abs/2305.11531v1 )

ライセンス: Link先を確認
Junze Liu, Aishik Ghosh, Dylan Smith, Pierre Baldi, Daniel Whiteson(参考訳) 衝突生成物に対するシミュレート検出器の応答は素粒子物理学のデータ解析に不可欠であるが、計算量は非常に高価である。 1つのサブ検出器であるカロリメータは、細胞の粒度が高く、相互作用の複雑さのために計算時間を支配している。 生成モデルはより高速なサンプル生産を提供することができるが、現在は特定の検出器ジオメトリのパフォーマンスを最適化するために多大な努力を必要としており、多くのネットワークが様々なセルサイズと配列を記述する必要がある。 我々は,熱量計の応答が幾何にどのように変化するかを学習する自己回帰モデルを開発し,追加のトレーニングを必要とせず,未知の測地に対してシミュレーション応答を生成できる。 幾何・アウェアモデルは、シミュレーション応答を要約するキー量の生成と真の分布の間のワッサースタイン距離のような測定値において、ベースライン、無認識モデルを50\%上回る。 1つの幾何学的認識モデルは、大型ハドロン衝突型加速器で収集されたデータを分析する物理学者によって、現在カロリーメーターシミュレーション用に設計された数百の生成モデルを置き換えることができる。 将来の検出器の研究のためには、このような基礎モデルが重要なツールとなり、通常生成熱量計モデルを開発するのに必要な大規模な事前投資を劇的に削減する。

Generation of simulated detector response to collision products is crucial to data analysis in particle physics, but computationally very expensive. One subdetector, the calorimeter, dominates the computational time due to the high granularity of its cells and complexity of the interaction. Generative models can provide more rapid sample production, but currently require significant effort to optimize performance for specific detector geometries, often requiring many networks to describe the varying cell sizes and arrangements, which do not generalize to other geometries. We develop a {\it geometry-aware} autoregressive model, which learns how the calorimeter response varies with geometry, and is capable of generating simulated responses to unseen geometries without additional training. The geometry-aware model outperforms a baseline, unaware model by 50\% in metrics such as the Wasserstein distance between generated and true distributions of key quantities which summarize the simulated response. A single geometry-aware model could replace the hundreds of generative models currently designed for calorimeter simulation by physicists analyzing data collected at the Large Hadron Collider. For the study of future detectors, such a foundational model will be a crucial tool, dramatically reducing the large upfront investment usually needed to develop generative calorimeter models.
翻訳日:2023-05-22 15:16:05 公開日:2023-05-19
# アラビア代名詞解決のためのシーケンス・ツー・シークエンスアプローチ

A Sequence-to-Sequence Approach for Arabic Pronoun Resolution ( http://arxiv.org/abs/2305.11529v1 )

ライセンス: Link先を確認
Hanan S. Murayshid, Hafida Benhidour, Said Kerrache(参考訳) 本稿では,アラビア語における代名詞解決問題の解法として,高度自然言語処理(特に Bi-LSTM と BERT 事前学習言語モデル)技術を用いたアラビア代名詞解決のためのシーケンス・ツー・シーケンス学習手法を提案する。 提案手法はAnATArデータセットに基づいて評価され,従来の機械学習モデルや手作り特徴ベースモデルなど,いくつかのベースラインモデルと比較される。 その結果,提案モデルでは,KNN,ロジスティック回帰,SVMなど,すべての指標において,ベースラインモデルよりも優れていた。 また, モデルに対する様々な変更の有効性について検討し, 段落テキストの横にあるアパルトテキストを入力として結合し, 候補スコアにマスクを付加し, 性別とアパルトとの番号合意に基づいて候補をフィルタリングする。 以上の結果から,MRRでは最大81%,F1では71%,精度,リコール,精度は向上した。 これらの結果は,提案モデルがアラビア語の代名詞分解に対する効果的なアプローチであり,高度なNLPニューラルモデルを活用する可能性を強調していることを示唆している。

This paper proposes a sequence-to-sequence learning approach for Arabic pronoun resolution, which explores the effectiveness of using advanced natural language processing (NLP) techniques, specifically Bi-LSTM and the BERT pre-trained Language Model, in solving the pronoun resolution problem in Arabic. The proposed approach is evaluated on the AnATAr dataset, and its performance is compared to several baseline models, including traditional machine learning models and handcrafted feature-based models. Our results demonstrate that the proposed model outperforms the baseline models, which include KNN, logistic regression, and SVM, across all metrics. In addition, we explore the effectiveness of various modifications to the model, including concatenating the anaphor text beside the paragraph text as input, adding a mask to focus on candidate scores, and filtering candidates based on gender and number agreement with the anaphor. Our results show that these modifications significantly improve the model's performance, achieving up to 81% on MRR and 71% for F1 score while also demonstrating higher precision, recall, and accuracy. These findings suggest that the proposed model is an effective approach to Arabic pronoun resolution and highlights the potential benefits of leveraging advanced NLP neural models.
翻訳日:2023-05-22 15:15:43 公開日:2023-05-19
# InstructIE: 中国のインストラクションに基づく情報抽出データセット

InstructIE: A Chinese Instruction-based Information Extraction Dataset ( http://arxiv.org/abs/2305.11527v1 )

ライセンス: Link先を確認
Honghao Gui, Jintian Zhang, Hongbin Ye, Ningyu Zhang(参考訳) 本稿では,情報抽出のための具体的な指示やガイドラインに従うようシステムに依頼する命令ベースieと呼ばれる新しい情報抽出(ie)タスクを提案する。 この領域の研究を容易にするために,中国ウィキペディアの270,000の弱教師付きデータと,高品質のクラウドソースアノテーション付インスタンス1,000のデータセットを構築した。 InstructIEデータセット上での各種ベースラインモデルの性能をさらに評価する。 その結果,現在のモデルでは有望な性能を示すが,改善の余地はまだある。 さらに、包括的なケーススタディ分析を行い、命令ベースのieタスクに内在する課題を概説する。 コードとデータセットはhttps://github.com/zjunlp/DeepKE/tree/main/example/llm.comから入手できる。

We introduce a new Information Extraction (IE) task dubbed Instruction-based IE, which aims to ask the system to follow specific instructions or guidelines to extract information. To facilitate research in this area, we construct a dataset called InstructIE, consisting of 270,000 weakly supervised data from Chinese Wikipedia and 1,000 high-quality crowdsourced annotated instances. We further evaluate the performance of various baseline models on the InstructIE dataset. The results reveal that although current models exhibit promising performance, there is still room for improvement. Furthermore, we conduct a comprehensive case study analysis, underlining the challenges inherent in the Instruction-based IE task. Code and dataset are available at https://github.com/zjunlp/DeepKE/tree/main/example/llm.
翻訳日:2023-05-22 15:15:21 公開日:2023-05-19
# グラフ注意と周波数強化機構を用いた短期風速予測の強化

Enhancing Short-Term Wind Speed Forecasting using Graph Attention and Frequency-Enhanced Mechanisms ( http://arxiv.org/abs/2305.11526v1 )

ライセンス: Link先を確認
Hao Liu, Tianyu Hu(参考訳) 電力系統の安全かつ安定な運転は、大規模風力統合グリッドにおける風力の高変動性とランダム性によって大きな課題である。 風力予測はこの問題に対処するための有効な解決策であり、風速予測が重要な側面である。 本稿では,短時間の風速予測の精度向上を目的として,グラフ注意と周波数強調機構に基づく空間時風速予測モデル(GFST-WSF)を提案する。 GFST-WSFは、時間的特徴抽出のためのトランスフォーマーアーキテクチャと空間的特徴抽出のためのグラフ注意ネットワーク(GAT)とを備える。 gatは、風速局間の複雑な空間依存を捉えて、グラフ内の隣接ノードからの情報を効果的に集約し、データの空間表現を強化するように設計されている。 地理的要因による隣接する風力発電所間の風速相関の時間遅れをモデル化するため、gatにより動的複素隣接行列を定式化し活用する。 GFST-WSFは, 有効時空間特徴抽出とトランスフォーマーの深部構造から, 風速予測において, 6~24時間前向きの風速予測において, その他のベースラインよりも優れていた。

The safe and stable operation of power systems is greatly challenged by the high variability and randomness of wind power in large-scale wind-power-integrated grids. Wind power forecasting is an effective solution to tackle this issue, with wind speed forecasting being an essential aspect. In this paper, a Graph-attentive Frequency-enhanced Spatial-Temporal Wind Speed Forecasting model based on graph attention and frequency-enhanced mechanisms, i.e., GFST-WSF, is proposed to improve the accuracy of short-term wind speed forecasting. The GFST-WSF comprises a Transformer architecture for temporal feature extraction and a Graph Attention Network (GAT) for spatial feature extraction. The GAT is specifically designed to capture the complex spatial dependencies among wind speed stations to effectively aggregate information from neighboring nodes in the graph, thus enhancing the spatial representation of the data. To model the time lag in wind speed correlation between adjacent wind farms caused by geographical factors, a dynamic complex adjacency matrix is formulated and utilized by the GAT. Benefiting from the effective spatio-temporal feature extraction and the deep architecture of the Transformer, the GFST-WSF outperforms other baselines in wind speed forecasting for the 6-24 hours ahead forecast horizon in case studies.
翻訳日:2023-05-22 15:15:07 公開日:2023-05-19
# 深部増進時間治療モデル

The Deep Promotion Time Cure Model ( http://arxiv.org/abs/2305.11575v1 )

ライセンス: Link先を確認
Victor Medina-Olivares, Stefan Lessmann, Nadja Klein(参考訳) 本稿では,深層ニューラルネットワークフレームワークに組み込まれたフレキシブルサバイバルモデルに基づいて,治療率の有無を予測する新しい手法を提案する。 本手法は,共変量と生存率の非線型関係と高次元相互作用を可能とし,大規模応用に適している。 さらに,解釈可能な線形および非線形効果を付加分解した同定された予測器を組み込んで直交層を追加することにより,より高次元の相互作用を捉えることができる。 本手法の有用性と計算効率をシミュレーションにより実証し,米国の住宅ローンローンの大規模ポートフォリオに適用する。 ここでは、我々のフレームワークのより良い予測性能だけでなく、共変量効果のより現実的な図面も見出す。

We propose a novel method for predicting time-to-event in the presence of cure fractions based on flexible survivals models integrated into a deep neural network framework. Our approach allows for non-linear relationships and high-dimensional interactions between covariates and survival and is suitable for large-scale applications. Furthermore, we allow the method to incorporate an identified predictor formed of an additive decomposition of interpretable linear and non-linear effects and add an orthogonalization layer to capture potential higher dimensional interactions. We demonstrate the usefulness and computational efficiency of our method via simulations and apply it to a large portfolio of US mortgage loans. Here, we find not only a better predictive performance of our framework but also a more realistic picture of covariate effects.
翻訳日:2023-05-22 15:08:19 公開日:2023-05-19
# 低リソース音声認識のための多言語音声前訓練における言語-普遍音声表現

Language-Universal Phonetic Representation in Multilingual Speech Pretraining for Low-Resource Speech Recognition ( http://arxiv.org/abs/2305.11569v1 )

ライセンス: Link先を確認
Siyuan Feng, Ming Tu, Rui Xia, Chuanzeng Huang, Yuxuan Wang(参考訳) 我々は,多言語学習と自己教師付き学習のアイデアを統合することにより,低リソースasrを改善する。 具体的には、IPA(International Phonetic Alphabet)多言語モデルを用いて、未ラベル音声のためのフレームレベル擬似ラベルを作成し、これらの擬似ラベルを用いて、隠れユニットBERT(HuBERT)に基づく事前学習を音声インフォームでガイドする。 多言語音声コーパス(mls)実験の結果,提案手法は,すべての対象言語において,標準ヒューバートを一貫して上回っていることがわかった。 さらに,標準のHuBERTと比較して,4言語のうち3言語では,教師付きトレーニングデータを最大1.5k時間(75%)節約できる一方で,パフォーマンスが向上している。 当社のアプローチは、時間と言語の多様性の観点から、事前学習データが少なく、芸術のほとんどの州よりも優れています。 xlsr-53やリトレーニングベースの多言語法と比較して,本手法は完全かつ限定的な微調整データシナリオで性能が向上した。

We improve low-resource ASR by integrating the ideas of multilingual training and self-supervised learning. Concretely, we leverage an International Phonetic Alphabet (IPA) multilingual model to create frame-level pseudo labels for unlabeled speech, and use these pseudo labels to guide hidden-unit BERT (HuBERT) based speech pretraining in a phonetically-informed manner. The experiments on the Multilingual Speech (MLS) Corpus show that the proposed approach consistently outperforms the standard HuBERT on all the target languages. Moreover, on 3 of the 4 languages, comparing to the standard HuBERT, the approach performs better, meanwhile is able to save supervised training data by 1.5k hours (75%) at most. Our approach outperforms most of the state of the arts, with much less pretraining data in terms of hours and language diversity. Compared to XLSR-53 and a retraining based multilingual method, our approach performs better with full and limited finetuning data scenarios.
翻訳日:2023-05-22 15:07:59 公開日:2023-05-19
# TSGM: 合成時系列の生成モデリングのための柔軟なフレームワーク

TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series ( http://arxiv.org/abs/2305.11567v1 )

ライセンス: Link先を確認
Alexander Nikitin, Letizia Iannucci, Samuel Kaski(参考訳) テンポラリインデックスされたデータは、幅広い分野や機械学習研究者にとって重要なデータである。 しかし、時系列データは、研究者と産業組織間のデータの共有や、既存のおよび新しいデータ集約型ML手法の適用を妨げているため、少ないか非常に敏感であることが多い。 このボトルネックの可能な解決策は、合成データを生成することである。 本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。 TSGMには、生成モデル、確率論的、シミュレータベースのアプローチといった機械学習手法の幅広いレパートリーが含まれている。 このフレームワークは、類似性、下流の有効性、予測一貫性、多様性、プライバシーなど、さまざまな角度から生成されたデータの品質を評価することができる。 このフレームワークは拡張可能で、研究者は自身のメソッドを迅速に実装し、共有可能な環境で比較することができる。 TSGMはオープンデータセットと本番環境でテストされ、両方のケースで有益であることが証明された。 ライブラリに加えて、このプロジェクトでは、プログラミングのバックグラウンドを持たない人のエントリしきい値を下げる合成データ生成にコマンドラインインターフェイスを使用することができる。

Temporally indexed data are essential in a wide range of fields and of interest to machine learning researchers. Time series data, however, are often scarce or highly sensitive, which precludes the sharing of data between researchers and industrial organizations and the application of existing and new data-intensive ML methods. A possible solution to this bottleneck is to generate synthetic data. In this work, we introduce Time Series Generative Modeling (TSGM), an open-source framework for the generative modeling of synthetic time series. TSGM includes a broad repertoire of machine learning methods: generative models, probabilistic, and simulator-based approaches. The framework enables users to evaluate the quality of the produced data from different angles: similarity, downstream effectiveness, predictive consistency, diversity, and privacy. The framework is extensible, which allows researchers to rapidly implement their own methods and compare them in a shareable environment. TSGM was tested on open datasets and in production and proved to be beneficial in both cases. Additionally to the library, the project allows users to employ command line interfaces for synthetic data generation which lowers the entry threshold for those without a programming background.
翻訳日:2023-05-22 15:07:23 公開日:2023-05-19
# StereoVAE:組み込みGPUによる軽量ステレオマッチングシステム

StereoVAE: A lightweight stereo matching system through embedded GPUs ( http://arxiv.org/abs/2305.11566v1 )

ライセンス: Link先を確認
Qiong Chang, Xiang Li, Xin Xu, Xin Liu, Yun Li and Miyazaki Jun(参考訳) 組込みGPUによるステレオマッチングのための軽量システムを提案する。 ステレオマッチングにおける精度と処理速度のトレードオフを解消し、リアルタイム処理を確保しつつ、組み込みシステムによるマッチング精度の向上を可能にします。 提案手法の主な考え方は,従来のマッチング手法によって最初に生成される粗い不均一マップの小型化と改善のために,可変オートエンコーダ(VAE)に基づく小さなニューラルネットワークを構築することである。 提案したハイブリッド構造は、計算複雑性の観点から従来の手法の利点をもたらすだけでなく、ニューラルネットワークの影響下でのマッチング精度を確保することもできる。 KITTI 2015ベンチマークの大規模な実験により、我々の小さなシステムは、異なるアルゴリズムによって生成された粗い不均一マップの精度を向上し、組込みGPU上でリアルタイムに動作していることを示す。

We present a lightweight system for stereo matching through embedded GPUs. It breaks the trade-off between accuracy and processing speed in stereo matching, enabling our embedded system to further improve the matching accuracy while ensuring real-time processing. The main idea of our method is to construct a tiny neural network based on variational auto-encoder (VAE) to upsample and refinement a small size of coarse disparity map, which is first generated by a traditional matching method. The proposed hybrid structure cannot only bring the advantage of traditional methods in terms of computational complexity, but also ensure the matching accuracy under the impact of neural network. Extensive experiments on the KITTI 2015 benchmark demonstrate that our tiny system exhibits high robustness in improving the accuracy of the coarse disparity maps generated by different algorithms, while also running in real-time on embedded GPUs.
翻訳日:2023-05-22 15:06:46 公開日:2023-05-19
# プラグアンドプレイ言語モデリングのためのパラメータからの知識の分離

Decouple knowledge from paramters for plug-and-play language modeling ( http://arxiv.org/abs/2305.11564v1 )

ライセンス: Link先を確認
Xin Cheng, Yankai Lin, Xiuying Chen, Dongyan Zhao, Rui Yan(参考訳) プレトレーニング言語モデル(PLM)は、様々なNLPタスクにおいて印象的な結果をもたらした。 成功の鍵となる要因の1つは、これらのモデルのパラメーターが、事前学習中に暗黙的にあらゆる種類の知識を学習することである。 しかし、モデルパラメータに暗黙的に知識をエンコーディングすることは、2つの根本的な欠点がある。 第一に、モデルがトレーニングされると、その知識は編集可能でもスケーラブルでもない。 第二に、解釈可能性に欠けており、ある問題に PLM が必要とする知識を人間が理解できないようにする。 本稿では,差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルであるPlugLMを紹介する。 鍵となる直感は、モデルパラメータから編集可能でスケーラブルなキーバリューメモリで知識ストレージを分離し、DPMの知識検索によって説明可能な方法で知識を活用することである。 この設計選択を正当化するために、(1)ドメイン適応を含む3つの設定で評価を行う。 PlugLMは4つのドメインで平均3.95のF1改善を実現している。 (2) 知識更新。 PlugLMは、事前トレーニングが完了した後、トレーニング不要の方法で新しい知識を吸収する可能性がある。 (3)タスク内知識学習。 訓練サンプルをDPMに組み込むことで、PlugLMをさらに改善することができる。

Pre-trained language models(PLM) have made impressive results in various NLP tasks. It has been revealed that one of the key factors to their success is the parameters of these models implicitly learn all kinds of knowledge during pre-training. However, encoding knowledge implicitly in the model parameters has two fundamental drawbacks. First, the knowledge is neither editable nor scalable once the model is trained, which is especially problematic in that knowledge is consistently evolving. Second, it lacks interpretability and prevents humans from understanding which knowledge PLM requires for a certain problem. In this paper, we introduce PlugLM, a pre-training model with differentiable plug-in memory(DPM). The key intuition is to decouple the knowledge storage from model parameters with an editable and scalable key-value memory and leverage knowledge in an explainable manner by knowledge retrieval in the DPM. To justify this design choice, we conduct evaluations in three settings including: (1) domain adaptation. PlugLM obtains 3.95 F1 improvements across four domains on average without any in-domain pre-training. (2) knowledge update. PlugLM could absorb new knowledge in a training-free way after pre-training is done. (3) in-task knowledge learning. PlugLM could be further improved by incorporating training samples into DPM with knowledge prompting.
翻訳日:2023-05-22 15:06:22 公開日:2023-05-19
# 脳のキャプション:人間の脳活動を画像とテキストにデコードする

Brain Captioning: Decoding human brain activity into images and text ( http://arxiv.org/abs/2305.11560v1 )

ライセンス: Link先を確認
Matteo Ferrante, Furkan Ozcelik, Tommaso Boccato, Rufin VanRullen, Nicola Toschi(参考訳) 毎日、人間の脳は大量の視覚情報を処理し、これらの刺激を知覚し、解釈するために複雑な神経機構に依存する。 機能的磁気共鳴イメージング(fMRI)の最近の進歩は、人間の脳活動パターンから視覚情報を抽出することを可能にする。 本研究では,脳活動を意味のある画像やキャプションにデコードするための革新的な手法を提案する。 提案手法は最先端画像キャプションモデルを利用しており,遅延拡散モデルと深度推定を利用した独自の画像再構成パイプラインを組み込んでいる。 cocoデータセットから画像を見た8名の被験者による総合的fmriデータセットであるnatural scenes datasetを用いた。 我々は,画像からテキストへ変換する生成変換器(GIT)をキャプションのバックボーンとして使用し,潜時拡散モデルに基づく新しい画像再構成パイプラインを提案する。 この方法は、脳活動と抽出された特徴の間の正規化線形回帰モデルを訓練することを含む。 さらに,制御ネットモデルから深度マップを組み込んで,再構築プロセスをさらにガイドした。 本手法は,生成キャプションと画像の両方に対して定量的指標を用いて評価する。 脳のキャプションアプローチは既存の手法よりも優れており、画像再構成パイプラインは空間的関係を改善した可視画像を生成する。 結論として,人間の認知をよりよく理解するための視覚と言語の統合の可能性を示すとともに,脳デコーディングの著しい進歩を示す。 われわれのアプローチは将来の研究に柔軟なプラットフォームを提供し、ニューラルアート、スタイル転送、ポータブルデバイスなど様々な分野に応用できる可能性がある。

Every day, the human brain processes an immense volume of visual information, relying on intricate neural mechanisms to perceive and interpret these stimuli. Recent breakthroughs in functional magnetic resonance imaging (fMRI) have enabled scientists to extract visual information from human brain activity patterns. In this study, we present an innovative method for decoding brain activity into meaningful images and captions, with a specific focus on brain captioning due to its enhanced flexibility as compared to brain decoding into images. Our approach takes advantage of cutting-edge image captioning models and incorporates a unique image reconstruction pipeline that utilizes latent diffusion models and depth estimation. We utilized the Natural Scenes Dataset, a comprehensive fMRI dataset from eight subjects who viewed images from the COCO dataset. We employed the Generative Image-to-text Transformer (GIT) as our backbone for captioning and propose a new image reconstruction pipeline based on latent diffusion models. The method involves training regularized linear regression models between brain activity and extracted features. Additionally, we incorporated depth maps from the ControlNet model to further guide the reconstruction process. We evaluate our methods using quantitative metrics for both generated captions and images. Our brain captioning approach outperforms existing methods, while our image reconstruction pipeline generates plausible images with improved spatial relationships. In conclusion, we demonstrate significant progress in brain decoding, showcasing the enormous potential of integrating vision and language to better understand human cognition. Our approach provides a flexible platform for future research, with potential applications in various fields, including neural art, style transfer, and portable devices.
翻訳日:2023-05-22 15:06:03 公開日:2023-05-19
# ニューラルトランスデューサにおけるフレームスキッピングのためのブランク正規化CTC

Blank-regularized CTC for Frame Skipping in Neural Transducer ( http://arxiv.org/abs/2305.11558v1 )

ライセンス: Link先を確認
Yifan Yang, Xiaoyu Yang, Liyong Guo, Zengwei Yao, Wei Kang, Fangjun Kuang, Long Lin, Xie Chen, Daniel Povey(参考訳) ニューラルトランスデューサとコネクショニスト時間分類(CTC)は、エンドツーエンドの自動音声認識システムとして人気がある。 フレーム同期設計のため、音響フレームと出力トークンの間の長さミスマッチに対処するブランクシンボルが導入され、冗長な計算をもたらす可能性がある。 従来の研究は、CTCが予測した空白シンボルに基づいてフレームを破棄することで、ニューラルトランスデューサのトレーニングと推論を加速した。 しかし、共同訓練されたCTCが空白記号の比率を最大化できる保証はない。 本稿では,CTCにおける非ブランクシンボルの自己ループを制約することにより,ブランクを明示的に促進する2つの新しい正規化手法を提案する。 神経トランスデューサのフレーム縮小比が理論境界に近づくことができることが興味深い。 LibriSpeech corpus の実験により,提案手法は,性能を犠牲にすることなく,ニューラルトランスデューサの推論を4倍高速化することを示した。 私たちの仕事はオープンソースであり、https://github.com/k2-fsa/icefall.comで公開されている。

Neural Transducer and connectionist temporal classification (CTC) are popular end-to-end automatic speech recognition systems. Due to their frame-synchronous design, blank symbols are introduced to address the length mismatch between acoustic frames and output tokens, which might bring redundant computation. Previous studies managed to accelerate the training and inference of neural Transducers by discarding frames based on the blank symbols predicted by a co-trained CTC. However, there is no guarantee that the co-trained CTC can maximize the ratio of blank symbols. This paper proposes two novel regularization methods to explicitly encourage more blanks by constraining the self-loop of non-blank symbols in the CTC. It is interesting to find that the frame reduction ratio of the neural Transducer can approach the theoretical boundary. Experiments on LibriSpeech corpus show that our proposed method accelerates the inference of neural Transducer by 4 times without sacrificing performance. Our work is open-sourced and publicly available https://github.com/k2-fsa/icefall.
翻訳日:2023-05-22 15:05:40 公開日:2023-05-19
# ToolkenGPT: ツール埋め込みによる大量ツールによる凍結言語モデルの拡張

ToolkenGPT: Augmenting Frozen Language Models with Massive Tools via Tool Embeddings ( http://arxiv.org/abs/2305.11554v1 )

ライセンス: Link先を確認
Shibo Hao, Tianyang Liu, Zhen Wang, Zhiting Hu(参考訳) 言語モデル(LLM)を外部ツールで拡張することは、複雑な問題を解決するための有望なアプローチとして現れている。 しかし、ツールのデモデータでLSMを微調整する従来の手法は、コストと事前定義されたツールセットに制限される可能性がある。 最近のインコンテキスト学習パラダイムはこれらの問題を緩和するが、制限されたコンテキスト長はいくつかのデモのみを可能にし、ツールの最適下理解につながる。 さらに、多くのツールが選択できる場合、コンテキスト内学習は完全に機能しない可能性がある。 本稿では,両面の利点を組み合わせた代替手法として$\textbf{ToolkenGPT}$を提案する。 我々のアプローチは、各$\underline{tool}$をto$\underline{ken}$ ($\textit{toolken}$)として表現し、埋め込みを学習し、通常のワードトークンを生成するのと同じようにツール呼び出しを可能にする。 ツールケンが起動されると、LSMはツールの実行のための引数を完了するように促される。 toolkengptは、ツールケンのセットをオンザフライで拡大することで、任意の数のツールをプラグインする柔軟性を提供します。 さらに、ツールケン埋め込みを学習するための広範なデモデータを提供することで、ツール使用を改善する。 数値推論,知識に基づく質問応答,具体化計画生成など,多様な領域において,我々のアプローチはLLMをツールで効果的に強化し,最新のベースラインを大幅に上回っている。 ToolkenGPTは、複雑なシナリオにおいて、大きなツールセットから関連するツールを使用する有望な能力を示す。

Augmenting large language models (LLMs) with external tools has emerged as a promising approach to solving complex problems. However, traditional methods, which finetune LLMs with tool demonstration data, can be both costly and restricted to a predefined set of tools. Recent in-context learning paradigm alleviates these issues, but the limited context length only allows for a few shots of demonstrations, leading to suboptimal understandings of the tools. Moreover, when there are numerous tools to choose from, in-context learning could completely fail to work. In this paper, we propose an alternative approach, $\textbf{ToolkenGPT}$, which combines the benefits of both sides. Our approach represents each $\underline{tool}$ as a to$\underline{ken}$ ($\textit{toolken}$) and learns an embedding for it, enabling tool calls in the same way as generating a regular word token. Once a toolken is triggered, the LLM is prompted to complete arguments for the tool to execute. ToolkenGPT offers the flexibility to plug in an arbitrary number of tools by expanding the set of toolkens on the fly. In addition, it improves tool use by allowing extensive demonstration data for learning the toolken embeddings. In diverse domains, including numerical reasoning, knowledge-based question answering, and embodied plan generation, our approach effectively augments LLMs with tools and substantially outperforms various latest baselines. ToolkenGPT demonstrates the promising ability to use relevant tools from a large tool set in complex scenarios.
翻訳日:2023-05-22 15:05:23 公開日:2023-05-19
# 正規化相互情報を用いた教師なし科学的抽象セグメンテーション

Unsupervised Scientific Abstract Segmentation with Normalized Mutual Information ( http://arxiv.org/abs/2305.11553v1 )

ライセンス: Link先を確認
Yingqiang Gao, Jessica Lam, Nianlong Gu, Richard H.R. Hahnloser(参考訳) 科学論文の要約は前提と結論から成り立っている。 構造的抽象は結論文を明確に強調するが、非構造的抽象は不確実な位置で結論文を持つ。 この暗黙的な帰結位置の性質は、科学的抽象を前提に自動的に分割し、結論を困難なタスクにする。 本研究では,抽象的セグメンテーションのための正規化相互情報(NMI)を実証的に検討する。 我々は,各要約を,前提と結論のNMIスコアを鮮やかに最適化することにより,文の繰り返しサイクルと場所分割境界とみなす。 構造化された抽象化では、GreedyCASは$P_k$で測定されたすべてのベースラインメソッドよりも優れています。 NMIと評価指標との強い相関は,NMIが抽象的セグメンテーションに有効であることを明らかにする。

The abstracts of scientific papers consist of premises and conclusions. Structured abstracts explicitly highlight the conclusion sentences, whereas non-structured abstracts may have conclusion sentences at uncertain positions. This implicit nature of conclusion positions makes the automatic segmentation of scientific abstracts into premises and conclusions a challenging task. In this work, we empirically explore using Normalized Mutual Information (NMI) for abstract segmentation. We consider each abstract as a recurrent cycle of sentences and place segmentation boundaries by greedily optimizing the NMI score between premises and conclusions. On non-structured abstracts, our proposed unsupervised approach GreedyCAS achieves the best performance across all evaluation metrics; on structured abstracts, GreedyCAS outperforms all baseline methods measured by $P_k$. The strong correlation of NMI to our evaluation metrics reveals the effectiveness of NMI for abstract segmentation.
翻訳日:2023-05-22 15:04:54 公開日:2023-05-19
# 表現レンズを用いた多言語機械翻訳における知識伝達

Viewing Knowledge Transfer in Multilingual Machine Translation Through a Representational Lens ( http://arxiv.org/abs/2305.11550v1 )

ライセンス: Link先を確認
David Stap, Vlad Niculae, Christof Monz(参考訳) 翻訳品質だけでは多言語ニューラルマシン翻訳における知識伝達を測定するには十分ではない。 この主張を支持するために,言語間の表現的類似度を測定するRepresentational Transfer potential (RTP)を導入する。 本稿では,RTPが正と負の両方の転送(干渉)を計測できることを示し,RTPが翻訳品質の変化と強く相関していることを見出した。 さらに,転送に関連するデータや言語特性を調査し,マルチ並列重なりが重要ではあるが未検討の機能であることを見出す。 そこで我々は,複数並列データを活用することで,言語間での表現の不変性を向上する,補助的類似性損失を用いた新しい学習手法を開発した。 提案手法は,複数のデータおよびモデル設定にまたがる低級・中級言語における翻訳品質の向上を示す。

We argue that translation quality alone is not a sufficient metric for measuring knowledge transfer in multilingual neural machine translation. To support this claim, we introduce Representational Transfer Potential (RTP), which measures representational similarities between languages. We show that RTP can measure both positive and negative transfer (interference), and find that RTP is strongly correlated with changes in translation quality, indicating that transfer does occur. Furthermore, we investigate data and language characteristics that are relevant for transfer, and find that multi-parallel overlap is an important yet under-explored feature. Based on this, we develop a novel training scheme, which uses an auxiliary similarity loss that encourages representations to be more invariant across languages by taking advantage of multi-parallel data. We show that our method yields increased translation quality for low- and mid-resource languages across multiple data and model setups.
翻訳日:2023-05-22 15:04:39 公開日:2023-05-19
# IKDSumm: 災害ツイート要約のためのキーフレーズをBERTに組み込む

IKDSumm: Incorporating Key-phrases into BERT for extractive Disaster Tweet Summarization ( http://arxiv.org/abs/2305.11592v1 )

ライセンス: Link先を確認
Piyush Kumar Garg, Roshni Chakraborty, Srishti Gupta, and Sourav Kumar Dandapat(参考訳) twitterのようなオンライン・ソーシャルメディア・プラットフォームは災害時に最も価値ある情報源の1つだ。 したがって、人道的組織、政府機関、ボランティアは、効果的な災害管理のために、この情報、すなわちツイートの要約に依存している。 自動ツイートサマリーアプローチには,既存の教師付きアプローチや教師なしアプローチがいくつか存在するが,これらのアプローチではラベル付き情報を幅広く必要とするか,災害に関する特定のドメイン知識を組み込んでいない。 さらに,最近の災害要約手法では,要約品質向上のためのbertモデルが提案されている。 しかし、さらなるパフォーマンス向上のために、要約作成と要約品質の向上に役立つツイートの重要性(信頼性)を理解するために、人間の努力なしにドメイン固有の知識の利用を導入する。 本稿では,災害固有のツイート要約フレームワークikdsummを提案する。このフレームワークはまず,災害に関連する各ツイートから,そのツイートのキーフレーズを通じて重要かつ重要な情報を識別する。 災害のドメイン知識(既存のオントロジーを用いて)を人間の介入なしに活用することにより,これらのキーフレーズを識別する。 さらに,これらのキーフレーズを用いて,ツイートの要約を自動生成する。 それゆえ、災害に関連するツイートを考えると、ikdsummは、人間の介入なしに要約における情報カバレッジ、関連性、多様性といった、要約の重要な目的の達成を保証する。 IKDSummを12の災害データセット上で8つの最先端技術を用いて評価した。 評価の結果,ikdsumm は rouge-n f1-score で既存手法を約2~79%上回っている。

Online social media platforms, such as Twitter, are one of the most valuable sources of information during disaster events. Therefore, humanitarian organizations, government agencies, and volunteers rely on a summary of this information, i.e., tweets, for effective disaster management. Although there are several existing supervised and unsupervised approaches for automated tweet summary approaches, these approaches either require extensive labeled information or do not incorporate specific domain knowledge of disasters. Additionally, the most recent approaches to disaster summarization have proposed BERT-based models to enhance the summary quality. However, for further improved performance, we introduce the utilization of domain-specific knowledge without any human efforts to understand the importance (salience) of a tweet which further aids in summary creation and improves summary quality. In this paper, we propose a disaster-specific tweet summarization framework, IKDSumm, which initially identifies the crucial and important information from each tweet related to a disaster through key-phrases of that tweet. We identify these key-phrases by utilizing the domain knowledge (using existing ontology) of disasters without any human intervention. Further, we utilize these key-phrases to automatically generate a summary of the tweets. Therefore, given tweets related to a disaster, IKDSumm ensures fulfillment of the summarization key objectives, such as information coverage, relevance, and diversity in summary without any human intervention. We evaluate the performance of IKDSumm with 8 state-of-the-art techniques on 12 disaster datasets. The evaluation results show that IKDSumm outperforms existing techniques by approximately 2-79% in terms of ROUGE-N F1-score.
翻訳日:2023-05-22 14:59:07 公開日:2023-05-19
# Sim2Realトランスファーを用いたビジョンベースDRL自律運転エージェント

Vision-based DRL Autonomous Driving Agent with Sim2Real Transfer ( http://arxiv.org/abs/2305.11589v1 )

ライセンス: Link先を確認
Dianzhao Li and Ostap Okhrin(参考訳) 完全自動運転を実現するためには、車線維持や車追従など、基本かつ十分に研究された運転タスクを継続的に行う必要がある。 しかし、以前の研究では主に個々のタスクに焦点を合わせており、自動車追従タスクは通常、最適なパフォーマンスを達成するために完全なリーダ・フォロワー情報に依存している。 この制限に対処するために,車線維持と車線追従操作を同時に行うことができるビジョンベース深部強化学習(DRL)エージェントを提案する。 DRLエージェントの性能を評価するため,ベースラインコントローラと比較し,様々な性能指標を用いて定量的解析を行った。 さらに,訓練されたDRLエージェントのSim2Real転送能力を示す実世界の評価を行った。 われわれの知る限りでは、われわれのビジョンベースの車追従およびレーン維持エージェントがsim2real転送能力を持つのは、この種の最初のものだ。

To achieve fully autonomous driving, vehicles must be capable of continuously performing various driving tasks, including lane keeping and car following, both of which are fundamental and well-studied driving ones. However, previous studies have mainly focused on individual tasks, and car following tasks have typically relied on complete leader-follower information to attain optimal performance. To address this limitation, we propose a vision-based deep reinforcement learning (DRL) agent that can simultaneously perform lane keeping and car following maneuvers. To evaluate the performance of our DRL agent, we compare it with a baseline controller and use various performance metrics for quantitative analysis. Furthermore, we conduct a real-world evaluation to demonstrate the Sim2Real transfer capability of the trained DRL agent. To the best of our knowledge, our vision-based car following and lane keeping agent with Sim2Real transfer capability is the first of its kind.
翻訳日:2023-05-22 14:58:40 公開日:2023-05-19
# Text2NeRF:ニューラルラジアンスフィールドを用いたテキスト駆動3次元シーン生成

Text2NeRF: Text-Driven 3D Scene Generation with Neural Radiance Fields ( http://arxiv.org/abs/2305.11588v1 )

ライセンス: Link先を確認
Jingbo Zhang, Xiaoyu Li, Ziyu Wan, Can Wang, and Jing Liao(参考訳) テキスト駆動の3dシーン生成は、ビデオゲーム、映画産業、そして3dシーンに対する大きな需要を持つメタバースアプリケーションに適用できる。 しかし、既存のtext-to-3d生成法は、現実性に欠ける単純なジオメトリや夢のようなスタイルを持つ3dオブジェクトの生成に限定されている。 本稿では,テキストプロンプトから,複雑な幾何学的構造と高精細なテクスチャを持つ広い範囲の3dシーンを生成できるtext2nerfを提案する。 そこで我々は,NeRFを3次元表現として採用し,事前学習したテキスト・画像拡散モデルを用いて,NeRFの3次元再構成を制約し,シーン記述を反映する。 具体的には,テキスト関連画像を内容先として推定するために拡散モデルを用い,幾何学的先行を提供するために単眼深度推定法を用いる。 コンテンツと幾何学的事前情報の両方を用いてNeRFモデルを更新する。 異なる視点間のテクスチャと幾何学的一貫性を保証するため,新たな視点合成のためのプログレッシブ・シーンのインペインティングと更新戦略を提案する。 本手法は,追加の訓練データを必要としないが,入力としてシーンの自然言語記述のみを必要とする。 我々のText2NeRFは、さまざまな自然言語プロンプトからフォトリアリスティック、マルチビュー、多様な3Dシーンを生成する既存の手法よりも優れています。

Text-driven 3D scene generation is widely applicable to video gaming, film industry, and metaverse applications that have a large demand for 3D scenes. However, existing text-to-3D generation methods are limited to producing 3D objects with simple geometries and dreamlike styles that lack realism. In this work, we present Text2NeRF, which is able to generate a wide range of 3D scenes with complicated geometric structures and high-fidelity textures purely from a text prompt. To this end, we adopt NeRF as the 3D representation and leverage a pre-trained text-to-image diffusion model to constrain the 3D reconstruction of the NeRF to reflect the scene description. Specifically, we employ the diffusion model to infer the text-related image as the content prior and use a monocular depth estimation method to offer the geometric prior. Both content and geometric priors are utilized to update the NeRF model. To guarantee textured and geometric consistency between different views, we introduce a progressive scene inpainting and updating strategy for novel view synthesis of the scene. Our method requires no additional training data but only a natural language description of the scene as the input. Extensive experiments demonstrate that our Text2NeRF outperforms existing methods in producing photo-realistic, multi-view consistent, and diverse 3D scenes from a variety of natural language prompts.
翻訳日:2023-05-22 14:58:25 公開日:2023-05-19
# 不確定入力を用いたガウス過程回帰に対するベイズ的アプローチ

Bayesian approach to Gaussian process regression with uncertain inputs ( http://arxiv.org/abs/2305.11586v1 )

ライセンス: Link先を確認
Dongwei Ye, Mengwu Guo(参考訳) 従来のガウス過程の回帰は、モデル観測の出力データにノイズの存在を前提としている。 しかし、多くの科学的・工学的応用において、観測データの入力位置は、モデリングの仮定や測定誤差などによる不確実性によっても損なわれる可能性がある。 本研究では,ガウス過程の回帰に入力データの可変性を統合するベイズ法を提案する。 2種類のオブザーバブル -- 固定入力を持つノイズ分解出力と、予め分布が定義された不確定入力を持つ出力を考えると、後方分布はベイズフレームワークによって推定され、不確かさデータの位置を推定する。 その後、そのような入力の定量化された不確かさを限界化によってガウス過程予測に組み込む。 この新しい回帰手法の有効性は、不確定入力のベイズ推定によって予測の不確実性が大幅に減少するのに対し、一般化の一貫して良好な性能が観察されるいくつかの数値例を通して実証される。

Conventional Gaussian process regression exclusively assumes the existence of noise in the output data of model observations. In many scientific and engineering applications, however, the input locations of observational data may also be compromised with uncertainties owing to modeling assumptions, measurement errors, etc. In this work, we propose a Bayesian method that integrates the variability of input data into Gaussian process regression. Considering two types of observables -- noise-corrupted outputs with fixed inputs and those with prior-distribution-defined uncertain inputs, a posterior distribution is estimated via a Bayesian framework to infer the uncertain data locations. Thereafter, such quantified uncertainties of inputs are incorporated into Gaussian process predictions by means of marginalization. The effectiveness of this new regression technique is demonstrated through several numerical examples, in which a consistently good performance of generalization is observed, while a substantial reduction in the predictive uncertainties is achieved by the Bayesian inference of uncertain inputs.
翻訳日:2023-05-22 14:58:01 公開日:2023-05-19
# フェデレーション学習における動的正規化シャープネスの最小化:グローバル一貫性と平滑な景観へのアプローチ

Dynamic Regularized Sharpness Aware Minimization in Federated Learning: Approaching Global Consistency and Smooth Landscape ( http://arxiv.org/abs/2305.11584v1 )

ライセンス: Link先を確認
Yan Sun, Li Shen, Shixiang Chen, Liang Ding, Dacheng Tao(参考訳) フェデレートラーニング(FL)では、ローカルクライアントのクラスタがグローバルサーバの調整の下で調整され、1つのモデルをプライバシ保護で協調的にトレーニングする。 複数のローカル更新と分離された非IDデータセットのため、クライアントは自身のオプティマに過度に適合する傾向にあり、グローバルな目標から著しく逸脱し、パフォーマンスを著しく損なう。 これまでのほとんどの研究は、この偏見的なクライアントのドリフトを最適化の観点から緩和するために、局所的な目的とグローバルな目的の整合性を高めることだけに重点を置いていた。 本研究では,FLの性能向上を目的とした最適化と一般化の目標を共同で検討し,新しい一般アルゴリズム(FedSMOO)を提案する。 具体的には、FedSMOO {\displaystyle {\tt Family FedSMOO} は、グローバルな目的に対して局所的な最適性を保証するために動的正規化器を採用し、一方、一貫したフラットなミニマを探すために、グローバルなシャープネス認識最小化(SAM)オプティマイザによって修正される。 我々の理論的解析は、FedSMOO} が低い一般化境界を持つ高速$\mathcal{O}(1/T)$収束率を達成することを示している。 実世界のデータセットを用いて、そのピアレス効率と優れた一般性を検証する。

In federated learning (FL), a cluster of local clients are chaired under the coordination of the global server and cooperatively train one model with privacy protection. Due to the multiple local updates and the isolated non-iid dataset, clients are prone to overfit into their own optima, which extremely deviates from the global objective and significantly undermines the performance. Most previous works only focus on enhancing the consistency between the local and global objectives to alleviate this prejudicial client drifts from the perspective of the optimization view, whose performance would be prominently deteriorated on the high heterogeneity. In this work, we propose a novel and general algorithm {\ttfamily FedSMOO} by jointly considering the optimization and generalization targets to efficiently improve the performance in FL. Concretely, {\ttfamily FedSMOO} adopts a dynamic regularizer to guarantee the local optima towards the global objective, which is meanwhile revised by the global Sharpness Aware Minimization (SAM) optimizer to search for the consistent flat minima. Our theoretical analysis indicates that {\ttfamily FedSMOO} achieves fast $\mathcal{O}(1/T)$ convergence rate with low generalization bound. Extensive numerical studies are conducted on the real-world dataset to verify its peerless efficiency and excellent generality.
翻訳日:2023-05-22 14:57:45 公開日:2023-05-19
# 音質測定値:画像の質測定値から音質測定値がわかる

What You Hear Is What You See: Audio Quality Metrics From Image Quality Metrics ( http://arxiv.org/abs/2305.11582v1 )

ライセンス: Link先を確認
Tashi Namgyal, Alexander Hepburn, Raul Santos-Rodriguez, Valero Laparra, Jesus Malo(参考訳) 本研究では,映像知覚指標を用いて音響信号の評価を行い,それをスペクトログラムとして表現することの実現可能性について検討する。 提案手法の促進的結果は、聴覚経路と視覚経路における神経機構の類似性に基づいている。 さらに,音響信号の特異性を考慮し,心理音響学的に妥当な構造を持つ指標の1つをカスタマイズする。 提案手法の有効性を音楽データセットを用いて評価し,その評価値と人間の評価値との相関関係について有望な結果を得た。

In this study, we investigate the feasibility of utilizing state-of-the-art image perceptual metrics for evaluating audio signals by representing them as spectrograms. The encouraging outcome of the proposed approach is based on the similarity between the neural mechanisms in the auditory and visual pathways. Furthermore, we customise one of the metrics which has a psychoacoustically plausible architecture to account for the peculiarities of sound signals. We evaluate the effectiveness of our proposed metric and several baseline metrics using a music dataset, with promising results in terms of the correlation between the metrics and the perceived quality of audio as rated by human evaluators.
翻訳日:2023-05-22 14:57:17 公開日:2023-05-19
# 製造とサプライチェーンにおける信頼できる、責任ある倫理的AI--合成と新たな研究課題

Trustworthy, responsible, ethical AI in manufacturing and supply chains: synthesis and emerging research questions ( http://arxiv.org/abs/2305.11581v1 )

ライセンス: Link先を確認
Alexandra Brintrup, George Baryannis, Ashutosh Tiwari, Svetan Ratchev, Giovanna Martinez-Arellano, Jatinder Singh(参考訳) 製造業におけるAIの利用の増加は注目されているが、製造業組織においてAIがもたらすリスクについてはほとんど理解されていない。 潜在的なリスクを統合するために様々な高度なフレームワークや定義が提案されているが、実践者は理解と実装に苦労している。 この理解の欠如により、製造業は組織やその労働者、サプライヤーや顧客を含む多くのリスクにさらされる。 本稿では,製造における責任,倫理的,信頼に値するAIの適用性について検討し,解釈する。 次に、機械学習ライフサイクルのより広範な適応を使用して、実証的な例を用いて、各ステップが与えられたAIの信頼性に関する懸念にどのように影響するかを議論します。 また,製造におけるAIによる経済的・社会的利益が安全かつ責任を持って届けられるように,今後の研究の指導を支援するために,製造研究コミュニティにいくつかの研究課題を提案する。

While the increased use of AI in the manufacturing sector has been widely noted, there is little understanding on the risks that it may raise in a manufacturing organisation. Although various high level frameworks and definitions have been proposed to consolidate potential risks, practitioners struggle with understanding and implementing them. This lack of understanding exposes manufacturing to a multitude of risks, including the organisation, its workers, as well as suppliers and clients. In this paper, we explore and interpret the applicability of responsible, ethical, and trustworthy AI within the context of manufacturing. We then use a broadened adaptation of a machine learning lifecycle to discuss, through the use of illustrative examples, how each step may result in a given AI trustworthiness concern. We additionally propose a number of research questions to the manufacturing research community, in order to help guide future research so that the economic and societal benefits envisaged by AI in manufacturing are delivered safely and responsibly.
翻訳日:2023-05-22 14:57:07 公開日:2023-05-19
# 明示的クロスモーダルアライメントを用いた音声対話理解のための音声テキスト対話事前学習

Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment ( http://arxiv.org/abs/2305.11579v1 )

ライセンス: Link先を確認
Tianshu Yu, Haoyu Gao, Ting-En Lin, Min Yang, Yuchuan Wu, Wentao Ma, Chao Wang, Fei Huang, Yongbin Li(参考訳) 近年,音声・自然言語処理タスクにおいて,音声テキスト事前学習手法が有意な成功を収めている。 しかし、以前のほとんどの事前学習されたモデルは、1つまたは2つの特定のタスク用に調整されるが、幅広い音声テキストタスクを克服できない。 さらに、既存の音声テキスト事前学習手法では、対話内の文脈情報を探索することができず、発話表現を豊かにする。 本稿では,最初の音声テキスト対話事前学習モデルであるExpliCiT cRoss-Modal Alignment (SPECTRA)を用いた音声対話理解のための音声テキスト対話事前学習を提案する。 具体的には,音声モダリティの時間性を考慮した新しい時間位置予測タスクの設計を行い,音声とテキストのアライメントを捉える。 この事前学習タスクは、対応する音声波形における各単語の開始と終了時間を予測することを目的としている。 さらに, 音声対話の特徴を学習するために, テキスト対話の事前学習から音声-テキスト対話の事前学習シナリオまで, 応答選択タスクを一般化する。 4つの下流音声テキストタスクの実験結果から,音声テキストアライメント学習におけるSPECTRAの優位性が示された。

Recently, speech-text pre-training methods have shown remarkable success in many speech and natural language processing tasks. However, most previous pre-trained models are usually tailored for one or two specific tasks, but fail to conquer a wide range of speech-text tasks. In addition, existing speech-text pre-training methods fail to explore the contextual information within a dialogue to enrich utterance representations. In this paper, we propose Speech-text dialog Pre-training for spoken dialog understanding with ExpliCiT cRoss-Modal Alignment (SPECTRA), which is the first-ever speech-text dialog pre-training model. Concretely, to consider the temporality of speech modality, we design a novel temporal position prediction task to capture the speech-text alignment. This pre-training task aims to predict the start and end time of each textual word in the corresponding speech waveform. In addition, to learn the characteristics of spoken dialogs, we generalize a response selection task from textual dialog pre-training to speech-text dialog pre-training scenarios. Experimental results on four different downstream speech-text tasks demonstrate the superiority of SPECTRA in learning speech-text alignment and multi-turn dialog context.
翻訳日:2023-05-22 14:56:52 公開日:2023-05-19
# 参照型画像マニピュレーションのための統一型プロンプトガイド型インテクストインペインティングフレームワーク

A Unified Prompt-Guided In-Context Inpainting Framework for Reference-based Image Manipulations ( http://arxiv.org/abs/2305.11577v1 )

ライセンス: Link先を確認
Chenjie Cao, Qiaole Dong, Yikai Wang, Yunuo Cai, Yanwei Fu(参考訳) 最近のtext-to-image (t2i)生成モデルの進歩は、一貫したテキストプロンプトに基づいて高忠実度画像を生成する素晴らしい結果をもたらした。 しかし、空間的理解と視覚的コンテキストを必要とする、より多様な参照ベースの画像操作タスクに対して、これらのモデルの可能性を探ることへの関心が高まっている。 以前のアプローチでは、追加の制御モジュールを組み込んだり、収束するまで各タスクに特別に生成モデルを微調整することでこれを達成していた。 本稿では,異なる視点を提案する。 我々は、現在の大規模T2I生成モデルは、これらのタスクを実行する能力を持っているが、標準生成プロセス内で完全に活性化されていないと推測する。 これらの機能を解き放つために,大規模T2Iモデルを活用して参照誘導画像操作を再現・解決する,統一されたPrompt-Guided In-Context In-painting(PGIC)フレームワークを導入する。 PGICフレームワークでは、生成モデルの新たな入力として、参照とマスクされたターゲットを縫合し、マスクされた領域の充填を最終結果として実現する。 さらに,T2Iモデルにおける自己注意モジュールは,空間相関の確立や参照誘導操作の効率化に適していることを示す。 これらの大きなT2Iモデルは、最小のトレーニングコストでタスク固有のプロンプトによって効果的に駆動できる。 提案するpgicフレームワークの有効性を,参照誘導型画像インパインティング,忠実なインパインティング,アウトパインティング,局所超解像,新規ビュー合成など様々なタスクで総合的に評価した。 その結果,PGICは他の微調整方式に比べて計算量が少なく,性能は大幅に向上した。

Recent advancements in Text-to-Image (T2I) generative models have yielded impressive results in generating high-fidelity images based on consistent text prompts. However, there is a growing interest in exploring the potential of these models for more diverse reference-based image manipulation tasks that require spatial understanding and visual context. Previous approaches have achieved this by incorporating additional control modules or fine-tuning the generative models specifically for each task until convergence. In this paper, we propose a different perspective. We conjecture that current large-scale T2I generative models already possess the capability to perform these tasks but are not fully activated within the standard generation process. To unlock these capabilities, we introduce a unified Prompt-Guided In-Context inpainting (PGIC) framework, which leverages large-scale T2I models to re-formulate and solve reference-guided image manipulations. In the PGIC framework, the reference and masked target are stitched together as a new input for the generative models, enabling the filling of masked regions as producing final results. Furthermore, we demonstrate that the self-attention modules in T2I models are well-suited for establishing spatial correlations and efficiently addressing challenging reference-guided manipulations. These large T2I models can be effectively driven by task-specific prompts with minimal training cost or even with frozen backbones. We synthetically evaluate the effectiveness of the proposed PGIC framework across various tasks, including reference-guided image inpainting, faithful inpainting, outpainting, local super-resolution, and novel view synthesis. Our results show that PGIC achieves significantly better performance while requiring less computation compared to other fine-tuning based approaches.
翻訳日:2023-05-22 14:56:28 公開日:2023-05-19
# 低リソース音声認識のための言語共通音声エンコーダ

Language-universal phonetic encoder for low-resource speech recognition ( http://arxiv.org/abs/2305.11576v1 )

ライセンス: Link先を確認
Siyuan Feng, Ming Tu, Rui Xia, Chuanzeng Huang, Yuxuan Wang(参考訳) 多言語訓練は、言語間の音声表現共有によって部分的に説明できる低リソースasrを改善するのに有効である。 エンドツーエンド(E2E)のASRシステムでは、グラテムはしばしば基本的なモデリング単位として使用されるが、グラテムは多言語音声の共有には適していない。 本稿では,IPA(International Phonetic Alphabet)に基づく言語ユニバーサル音声モデルを用いて,アテンションエンコーダ・デコーダアーキテクチャにおいて,低リソースASR性能を初めて向上する。 極低リソース言語に対する提案手法をさらに改善するために,音素IPAモデルへの適応手法を提案する。 オープンソースのMLSコーパスと内部データベースで行った実験では,ベースライン単言語モデルや最先端の作業よりも優れた結果が得られた。 私たちの主なアプローチと適応は、ドメインや言語ミスマッチしたシナリオであっても、極端に低リソースな言語で有効です。

Multilingual training is effective in improving low-resource ASR, which may partially be explained by phonetic representation sharing between languages. In end-to-end (E2E) ASR systems, graphemes are often used as basic modeling units, however graphemes may not be ideal for multilingual phonetic sharing. In this paper, we leverage International Phonetic Alphabet (IPA) based language-universal phonetic model to improve low-resource ASR performances, for the first time within the attention encoder-decoder architecture. We propose an adaptation method on the phonetic IPA model to further improve the proposed approach on extreme low-resource languages. Experiments carried out on the open-source MLS corpus and our internal databases show our approach outperforms baseline monolingual models and most state-of-the-art works. Our main approach and adaptation are effective on extremely low-resource languages, even within domain- and language-mismatched scenarios.
翻訳日:2023-05-22 14:55:56 公開日:2023-05-19
# 冷原子不純物モデルを用いたフェルミオン物質波量子光学

Fermionic matter-wave quantum optics with cold-atom impurity models ( http://arxiv.org/abs/2305.11610v1 )

ライセンス: Link先を確認
Bennet Windt, Miguel Bello, Eugene Demler, J. Ignacio Cirac(参考訳) 物質-波導波路QEDの近年のコールド原子実現により、簡単なフェルミオン不純物モデルが研究され、非自明な境界状態の形成、(マター波)放出ダイナミクス、集団散逸など、量子光学におけるいくつかのパラダイム現象のフェルミオン類似が議論される。 単一不純物の場合、特に不純物スクリーニングクラウドに関連する創発的長さスケールの実際の空間シグネチャに焦点を当て、興味深い基底状態の特徴を強調します。 また,単重および多重不純物系のクエンチダイナミクスにおいて,フェルミ準位付近の分数減衰や連続体の束縛状態による多重励起集団トラップを含む,新しい非マルコフ多体効果を示す。

Motivated by recent cold-atom realisations of matter-wave waveguide QED, we study simple fermionic impurity models and discuss fermionic analogues of several paradigmatic phenomena in quantum optics, including formation of non-trivial bound states, (matter-wave) emission dynamics, and collective dissipation. For a single impurity, we highlight interesting ground-state features, focusing in particular on real-space signatures of an emergent length scale associated with an impurity screening cloud. We also present novel non-Markovian many-body effects in the quench dynamics of single- and multiple-impurity systems, including fractional decay around the Fermi level and multi-excitation population trapping due to bound states in the continuum.
翻訳日:2023-05-22 14:48:32 公開日:2023-05-19
# MIDI-Draw:メロディ生成を制御するスケッチ

MIDI-Draw: Sketching to Control Melody Generation ( http://arxiv.org/abs/2305.11605v1 )

ライセンス: Link先を確認
Tashi Namgyal, Peter Flach, Raul Santos-Rodriguez(参考訳) 本稿では,旋律輪郭による音階入力表現を抽象化するメロディ描画システムの実装について述べる。 その目的は、ユーザが音楽の意図を事前に理解することなく表現できるようにすることだ。 メロディ生成を制御する現在のアプローチでは、ユーザはボタンやスライダを通じて、シーケンス全体にわたって静的なパラメータを選択する必要がある。 対照的に,提案手法では輪郭を描くことで,時間とともにパラメータがどのように変化するべきかを素早く指定できる。

We describe a proof-of-principle implementation of a system for drawing melodies that abstracts away from a note-level input representation via melodic contours. The aim is to allow users to express their musical intentions without requiring prior knowledge of how notes fit together melodiously. Current approaches to controllable melody generation often require users to choose parameters that are static across a whole sequence, via buttons or sliders. In contrast, our method allows users to quickly specify how parameters should change over time by drawing a contour.
翻訳日:2023-05-22 14:48:16 公開日:2023-05-19
# 帰属的かつスケーラブルなオピニオン要約

Attributable and Scalable Opinion Summarization ( http://arxiv.org/abs/2305.11603v1 )

ライセンス: Link先を確認
Tom Hosking and Hao Tang and Mirella Lapata(参考訳) 本研究では,顧客レビューの文章を階層的離散的潜在空間にエンコードし,それらのエンコード頻度に基づいて共通の意見を識別する非教師なし意見要約手法を提案する。 このような頻繁なエンコーディングをデコードすることで抽象的な要約と、同じ頻繁なエンコーディングに割り当てられた文を選択することで抽出的な要約の両方を生成できる。 本手法は,要約プロセスの一部として要約を生成するために使用される文を同定するため,帰属的手法である。 集約はトークンの長いシーケンスよりも、潜在空間で実行されるため、数百の入力レビューに簡単にスケールできる。 また,本手法により,所望のアスペクト(位置や食べ物など)に対応する符号化空間の一部にモデルを限定することで,アスペクト固有の要約を生成することができることを示す。 異なる領域からの2つのデータセットに対する自動的および人為的評価は,本手法が先行作業よりも有意義な要約を生成し,入力レビューに基礎を置いていることを示す。

We propose a method for unsupervised opinion summarization that encodes sentences from customer reviews into a hierarchical discrete latent space, then identifies common opinions based on the frequency of their encodings. We are able to generate both abstractive summaries by decoding these frequent encodings, and extractive summaries by selecting the sentences assigned to the same frequent encodings. Our method is attributable, because the model identifies sentences used to generate the summary as part of the summarization process. It scales easily to many hundreds of input reviews, because aggregation is performed in the latent space rather than over long sequences of tokens. We also demonstrate that our appraoch enables a degree of control, generating aspect-specific summaries by restricting the model to parts of the encoding space that correspond to desired aspects (e.g., location or food). Automatic and human evaluation on two datasets from different domains demonstrates that our method generates summaries that are more informative than prior work and better grounded in the input reviews.
翻訳日:2023-05-22 14:48:06 公開日:2023-05-19
# 潜在イミッタ:ブラックボックスフェアネステストのための自然個人識別インスタンスの生成

Latent Imitator: Generating Natural Individual Discriminatory Instances for Black-Box Fairness Testing ( http://arxiv.org/abs/2305.11602v1 )

ライセンス: Link先を確認
Yisong Xiao, Aishan Liu, Tianlin Li, and Xianglong Liu(参考訳) 機械学習(ML)システムは、広範囲のアプリケーションで顕著なパフォーマンスを達成した。 しかし、センシティブなアプリケーションドメインでは不公平な振る舞いをしばしば示し、厳しい公平を懸念する。 公平性を評価しテストするために、エンジニアはモデル展開の前に不公平な行動を暴露するために、個別の差別インスタンスを生成することが多い。 しかし、既存のベースラインは生成の自然性を無視し、実際のデータ分布から逸脱したインスタンスを生成する。 そこで本稿では,gan(generative adversarial network)の助けを借りて,より自然な個人識別インスタンスを生成するために,ganの意味的潜在空間における目標モデルの決定境界を模倣し,さらに潜在インスタンスをサンプル化する,ultent imitator(limi)というフレームワークを提案する。 具体的には、まず、元のデータ分布の性質を反映したターゲットモデルの決定境界を粗く近似するために、代理線形境界を導出する。 その後、より自然な例を得るために、1ステップの運動で代理境界へのランダム潜在ベクトルを演算し、さらにベクトル計算を行い、実際の決定境界により近い2つの潜在的な識別候補を探索する。 さまざまなデータセットに関する広範囲な実験によって、私たちのlimiが他のベースラインよりも効率性($9.42インスタンス)、効率性($8.71スピード)、自然性(+19.65%)の面で優れていることが示されています。 さらに、我々のアプローチによって生成されたテストサンプルの再トレーニングは、個々のフェアネス(IF_r$が45.67%、IF_o$が32.81%)とグループフェアネス(SPD$が9.86%、AOD$が28.38%)の改善につながることを実証的に示しています。

Machine learning (ML) systems have achieved remarkable performance across a wide area of applications. However, they frequently exhibit unfair behaviors in sensitive application domains, raising severe fairness concerns. To evaluate and test fairness, engineers often generate individual discriminatory instances to expose unfair behaviors before model deployment. However, existing baselines ignore the naturalness of generation and produce instances that deviate from the real data distribution, which may fail to reveal the actual model fairness since these unnatural discriminatory instances are unlikely to appear in practice. To address the problem, this paper proposes a framework named Latent Imitator (LIMI) to generate more natural individual discriminatory instances with the help of a generative adversarial network (GAN), where we imitate the decision boundary of the target model in the semantic latent space of GAN and further samples latent instances on it. Specifically, we first derive a surrogate linear boundary to coarsely approximate the decision boundary of the target model, which reflects the nature of the original data distribution. Subsequently, to obtain more natural instances, we manipulate random latent vectors to the surrogate boundary with a one-step movement, and further conduct vector calculation to probe two potential discriminatory candidates that may be more closely located in the real decision boundary. Extensive experiments on various datasets demonstrate that our LIMI outperforms other baselines largely in effectiveness ($\times$9.42 instances), efficiency ($\times$8.71 speeds), and naturalness (+19.65%) on average. In addition, we empirically demonstrate that retraining on test samples generated by our approach can lead to improvements in both individual fairness (45.67% on $IF_r$ and 32.81% on $IF_o$) and group fairness (9.86% on $SPD$ and 28.38% on $AOD$}).
翻訳日:2023-05-22 14:47:48 公開日:2023-05-19
# レベルセットアライメントによるニューラルサイン付き距離関数のグラディエント整合性向上に向けて

Towards Better Gradient Consistency for Neural Signed Distance Functions via Level Set Alignment ( http://arxiv.org/abs/2305.11601v1 )

ライセンス: Link先を確認
Baorui Ma, Junsheng Zhou, Yu-Shen Liu, Zhizhong Han(参考訳) ニューラルサイン付き距離関数(SDF)は、詳細な幾何学を表現する際、顕著な能力を示した。 しかし、サイン付き距離監視がなければ、sdfsをポイントクラウドやニューラルネットワークを用いたマルチビュー画像から推測することは依然として困難である。 本稿では,フィールドの勾配整合性が,レベル集合の並列性によって示される,推論精度に影響を与える重要な要因であると主張する。 そこで,我々はレベルセットの並列性を評価するためにレベルセットアライメント損失を提案する。 我々の目新しさは、クエリの勾配とそれらの射影を適応的にゼロレベル集合に制限することにより、すべてのレベル集合をゼロレベル集合に整列できるということです。 我々の洞察は、3d点雲の離散性や多視点画像からの観測の欠如によって引き起こされる不確実性を取り除くために、一貫した勾配を通じてフィールドのあらゆる場所にゼロレベル集合を伝播させることである。 提案する損失は,3次元点雲と多視点画像からSDFを推定する様々な手法で利用できる一般用語である。 数値的および視覚的比較により,様々なベンチマークによる点雲や多視点画像から推定されるSDFの精度が著しく向上することが示された。 コードとデータはhttps://github.com/mabaorui/TowardsBetterGradient.orgで公開されている。

Neural signed distance functions (SDFs) have shown remarkable capability in representing geometry with details. However, without signed distance supervision, it is still a challenge to infer SDFs from point clouds or multi-view images using neural networks. In this paper, we claim that gradient consistency in the field, indicated by the parallelism of level sets, is the key factor affecting the inference accuracy. Hence, we propose a level set alignment loss to evaluate the parallelism of level sets, which can be minimized to achieve better gradient consistency. Our novelty lies in that we can align all level sets to the zero level set by constraining gradients at queries and their projections on the zero level set in an adaptive way. Our insight is to propagate the zero level set to everywhere in the field through consistent gradients to eliminate uncertainty in the field that is caused by the discreteness of 3D point clouds or the lack of observations from multi-view images. Our proposed loss is a general term which can be used upon different methods to infer SDFs from 3D point clouds and multi-view images. Our numerical and visual comparisons demonstrate that our loss can significantly improve the accuracy of SDFs inferred from point clouds or multi-view images under various benchmarks. Code and data are available at https://github.com/mabaorui/TowardsBetterGradient .
翻訳日:2023-05-22 14:47:08 公開日:2023-05-19
# イントロスペクティブ・チップ:インテクスト決定のための大規模言語モデル

Introspective Tips: Large Language Model for In-Context Decision Making ( http://arxiv.org/abs/2305.11598v1 )

ライセンス: Link先を確認
Liting Chen, Lu Wang, Hang Dong, Yali Du, Jie Yan, Fangkai Yang, Shuang Li, Pu Zhao, Si Qin, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang(参考訳) 大規模言語モデル(LLM)の出現は自然言語処理に大きな影響を与え、様々なタスクにおいて例外的な結果を示した。 本研究では,LLMの自己最適化を支援するために,「イントロスペクティブティップス」を用いた。 軌道を内省的に調べることで、LLMは簡潔で価値のあるヒントを生成することでその方針を洗練させる。 本手法は,エージェントの過去の経験から学ぶこと,専門家によるデモンストレーションを統合すること,多種多様なゲームにまたがって一般化すること,の3つの重要なシナリオを考慮して,エージェントのパフォーマンスを向上させる。 重要なことは、これらの改善はLLMパラメータを微調整することなく達成し、上記の3つの状況からの洞察を一般化するプロンプトを調整することである。 当社のフレームワークは, サポートだけでなく, コンタクスト内意思決定において LLM を採用するメリットも強調している。 TextWorldにおける100以上のゲームに関する実験は、我々のアプローチの優れたパフォーマンスを示している。

The emergence of large language models (LLMs) has substantially influenced natural language processing, demonstrating exceptional results across various tasks. In this study, we employ ``Introspective Tips" to facilitate LLMs in self-optimizing their decision-making. By introspectively examining trajectories, LLM refines its policy by generating succinct and valuable tips. Our method enhances the agent's performance in both few-shot and zero-shot learning situations by considering three essential scenarios: learning from the agent's past experiences, integrating expert demonstrations, and generalizing across diverse games. Importantly, we accomplish these improvements without fine-tuning the LLM parameters; rather, we adjust the prompt to generalize insights from the three aforementioned situations. Our framework not only supports but also emphasizes the advantage of employing LLM in in-contxt decision-making. Experiments involving over 100 games in TextWorld illustrate the superior performance of our approach.
翻訳日:2023-05-22 14:46:44 公開日:2023-05-19
# 生産環境におけるデータ効率の良い学習と信頼できる人間-機械チームのためのフレキシブルで分かりやすい知識表現

Flexible and Inherently Comprehensible Knowledge Representation for Data-Efficient Learning and Trustworthy Human-Machine Teaming in Manufacturing Environments ( http://arxiv.org/abs/2305.11597v1 )

ライセンス: Link先を確認
Vedran Galeti\'c, Alistair Nottle(参考訳) 人工知能エージェントの信頼性は、産業生産環境における人間と機械の協調の受容に不可欠である。 予測可能な行動と説明可能な(そして理解可能な)理性によって、人間はこれらのエージェントと(そして構築する)協力し、モチベーションを理解し、従って決定を下すことができる。 その目的のために、我々はg\"ardenfors の認知的インスパイアされた概念的空間フレームワークを用いて、本質的に理解可能な品質次元にまたがる空間内の凸領域として概念を用いてエージェントの知識を表現する。 ファジィカテゴリのメンバシップを判定し、解釈可能なインスタンスを分類するために、その上に単純な典型性定量モデルを構築する。 本稿では,コボットの搭載センサーから得られる物体の物理的特性と,公共知識ベースで利用可能なクラウドソースコモンセンス知識から得られる利用特性を用いて,製造領域のユースケースに適用する。 このような特性分解に基づく柔軟な知識表現は、典型的には高度に専門的あるいは特定の製造成果物のデータ効率のよい表現学習を可能にする。 このような環境では、従来のデータ駆動型(例えばコンピュータビジョンに基づく)分類アプローチは、データ不足の訓練のために困難である。 これにより、AIエージェントの取得した知識を人間の協力者によって理解できるようになる。 説明デシデラタ(desiderata)を規定する既存の説明可能性フレームワークにこのアプローチを組み込む。 我々は,その設計,検証,運用を通じて,AIシステムと協調する人間エージェントの役割に対するシステムの適用性と適切性について論じる。

Trustworthiness of artificially intelligent agents is vital for the acceptance of human-machine teaming in industrial manufacturing environments. Predictable behaviours and explainable (and understandable) rationale allow humans collaborating with (and building) these agents to understand their motivations and therefore validate decisions that are made. To that aim, we make use of G\"ardenfors's cognitively inspired Conceptual Space framework to represent the agent's knowledge using concepts as convex regions in a space spanned by inherently comprehensible quality dimensions. A simple typicality quantification model is built on top of it to determine fuzzy category membership and classify instances interpretably. We apply it on a use case from the manufacturing domain, using objects' physical properties obtained from cobots' onboard sensors and utilisation properties from crowdsourced commonsense knowledge available at public knowledge bases. Such flexible knowledge representation based on property decomposition allows for data-efficient representation learning of typically highly specialist or specific manufacturing artefacts. In such a setting, traditional data-driven (e.g., computer vision-based) classification approaches would struggle due to training data scarcity. This allows for comprehensibility of an AI agent's acquired knowledge by the human collaborator thus contributing to trustworthiness. We situate our approach within an existing explainability framework specifying explanation desiderata. We provide arguments for our system's applicability and appropriateness for different roles of human agents collaborating with the AI system throughout its design, validation, and operation.
翻訳日:2023-05-22 14:46:29 公開日:2023-05-19
# 偽相関レンズによるバックドア毒殺攻撃の軽減

Mitigating Backdoor Poisoning Attacks through the Lens of Spurious Correlation ( http://arxiv.org/abs/2305.11596v1 )

ライセンス: Link先を確認
Xuanli He, Qiongkai Xu, Jun Wang, Benjamin Rubinstein, Trevor Cohn(参考訳) 現代のNLPモデルは、しばしば大きな信頼できないデータセット上で訓練され、悪意のある敵がモデルの振る舞いを妥協する可能性を高める。 例えば、特定のテキストトリガーとターゲットラベルでトレーニングインスタンスを作成することで、バックドアを埋め込むことができる。 本論文は, バックドア毒殺攻撃は, 簡単なテキスト特徴と分類ラベルの相互関係を示すことを示唆し, 防御手段としての相互相関を緩和する手法を提案する。 実験の結果,悪意のあるトリガーがターゲットラベルと高い相関関係にあることが明らかとなった。そのため,このような相関関係は,良質な特徴のスコアと比較すると極めて識別可能であり,潜在的に問題のあるインスタンスを除去できる可能性がある。 本手法は, 既存の防衛手法と比べ, バックドア攻撃における攻撃成功率を大幅に削減し, 挿入ベース攻撃の場合, ほぼ完全な防御を提供する。

Modern NLP models are often trained over large untrusted datasets, raising the potential for a malicious adversary to compromise model behaviour. For instance, backdoors can be implanted through crafting training instances with a specific textual trigger and a target label. This paper posits that backdoor poisoning attacks exhibit spurious correlation between simple text features and classification labels, and accordingly, proposes methods for mitigating spurious correlation as means of defence. Our empirical study reveals that the malicious triggers are highly correlated to their target labels; therefore such correlations are extremely distinguishable compared to those scores of benign features, and can be used to filter out potentially problematic instances. Compared with several existing defences, our defence method significantly reduces attack success rates across backdoor attacks, and in the case of insertion based attacks, our method provides a near-perfect defence.
翻訳日:2023-05-22 14:46:03 公開日:2023-05-19
# 大規模言語モデルの一貫性に潜む:議論による洞察豊かな分析

Diving into the Inter-Consistency of Large Language Models: An Insightful Analysis through Debate ( http://arxiv.org/abs/2305.11595v1 )

ライセンス: Link先を確認
Kai Xiong, Xiao Ding, Yixin Cao, Ting Liu and Bing Qin(参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、印象的なゼロショットまたは少数ショットのコモンセンス推論性能を示す。 しかし、LLMは強い常識的推論能力にもかかわらず、様々な不整合問題を呈している。 従来の研究は, 1 つの LLM 内の自己整合性に着目していたが, 多様な意思決定プロセスにおいて重要な2 つ以上の LLM 間の相互整合性問題について検討する。 LLMは、人間のフィードバックによる指導訓練と強化学習(RLHF)の後、人間のような知性を持っているため、我々は、3段階の議論である公正な議論、不一致な議論、丸みを帯びた議論において、LLM間の一貫性の問題に精通する正式な議論枠組みを設計する。 7つのコモンセンス推論データセットに関する広範な実験を通じて、llmは、妥協と反論によって一貫性が増すだけでなく、より高いパフォーマンスとより強力な解釈性を達成する。 さらに、より複雑な議論シナリオである丸みを帯びた議論において、より弱い LLM によって容易に誤解される一方、ミスマッチした議論において、より強い LLM が支配的になる。

Large language models (LLMs) have demonstrated impressive zero-shot or few-shot commonsense reasoning performance on various natural language processing (NLP) tasks. However, despite their strong commonsense reasoning abilities, LLMs still exhibit various kinds of inconsistency problems. While previous researches mainly focused on the self-consistency within a single LLM, we propose to explore the inter-consistency issue between two or more LLMs, which is critical for diverse and precise decision-making processes. Since the LLMs possess human-like intelligence after instruction tuning and reinforcement learning with human feedback (RLHF), we design a formal debate framework to delve into the inter-consistency problem among LLMs with three-stage debate: fair debate, mismatched debate, and roundtable debate. Through extensive experiments on 7 commonsense reasoning datasets, LLMs not only become more inter-consistent by compromising and refuting but also achieve higher performance and stronger interpretability. Furthermore, we find a much stronger LLM would be dominant in mismatched debates, while it will be easily misled by relatively weaker LLMs in a more complex debate scenario such as roundtable debate.
翻訳日:2023-05-22 14:45:46 公開日:2023-05-19
# 2membrane cavity optomechanicsの振幅と位相ノイズ

Amplitude and phase noise in Two-membrane cavity optomechanics ( http://arxiv.org/abs/2305.11594v1 )

ライセンス: Link先を確認
Francesco Marzioni, Francesco Rasponi, Paolo Piergentili, Riccardo Natali, Giovanni Di Giuseppe, David Vitali(参考訳) キャビティ光学は、マクロオブジェクトの量子効果を探索し、量子技術応用を開発するのに最適な分野である。 レーザーノイズの完全な制御は、量子状態に到達するために必要な極端な条件下でシステムを操作するために必要である。 本稿では,2つのレーザー場によって駆動されるファブリペロキャビティと,その内部に2つの部分反射性sin膜について考察する。 システムのダイナミクスのランジュバン方程式に2つの追加ノイズ項を導入することで,レーザーに対する振幅と位相雑音の影響について述べる。 実験的にレーザーに人工的なノイズ源を付加する。 システムに注入した雑音の強度を校正し,理論モデルの妥当性を確認する。 この手順は、オプティメカカルセットアップにおけるノイズレーザーの効果を正確に記述し、ノイズの量を定量化することができる。

Cavity optomechanics is a suitable field to explore quantum effects on macroscopic objects, and to develop quantum technologies applications. A perfect control on the laser noises is required to operate the system in such extreme conditions, necessary to reach the quantum regime. In this paper we consider a Fabry-Perot cavity, driven by two laser fields, with two partially reflective SiN membranes inside it. We describe the effects of amplitude and phase noise on the laser introducing two additional noise terms in the Langevin equations of the system's dynamics. Experimentally, we add an artificial source of noise on the laser. We calibrate the intensity of the noise we inject into the system, and we check the validity of the theoretical model. This procedure provides an accurate description of the effects of a noisy laser in the optomechanical setup, and it allows to quantify the amount of noise.
翻訳日:2023-05-22 14:45:25 公開日:2023-05-19
# スケーラブル連続変数クラスタ状態の等価雑音特性

Equivalent noise properties of scalable continuous-variable cluster states ( http://arxiv.org/abs/2305.11630v1 )

ライセンス: Link先を確認
Blayney W. Walshe, Rafael N. Alexander, Takaya Matsuura, Ben Q. Baragiola, Nicolas C. Menicucci(参考訳) Gottesman-Kitaev-Preskill~(GKP)量子ビットと組み合わせた光連続可変クラスター状態(CVCS)は、これらのリソースが十分に高品質である限り、フォールトトレラントな量子計算を可能にする。 以前の研究では、特定のCVCSであるクアッドレール格子~(QRL)は、他のものよりもGKPゲートエラー率が低いと結論付けられていた。 本研究では,他の多くのCVCSがQRLの操作等価性を同定することにより,このレベルの性能を実現することを示す。 この等価性の下で、各CVCS に対する GKP Clifford ゲートは QRL から直接写像され、そのノイズ特性を継承する。 さらに、各クラスタ状態は、バランスドビームスプリッタへの4モード拡張であるバランスド4スプリッターを持つ。 スワップとパリティ演算子の下で1つの同値クラスを形成し、線形光学を持つ任意の4つのスプリッターの構成を与えることにより、理論的および実験的クラスター状態設計および分析のためのツールボックスを拡張する。

Optical continuous-variable cluster states (CVCSs) in combination with Gottesman-Kitaev-Preskill~(GKP) qubits enable fault-tolerant quantum computation so long as these resources are of high enough quality. Previous studies concluded that a particular CVCS, the quad rail lattice~(QRL), exhibits lower GKP gate-error rate than others do. We show in this work that many other experimentally accessible CVCSs also achieve this level of performance by identifying operational equivalences to the QRL. Under this equivalence, the GKP Clifford gate set for each CVCS maps straightforwardly from that of the QRL, inheriting its noise properties. Furthermore, each cluster state has at its heart a balanced four-splitter -- the four-mode extension to a balanced beam splitter. We classify all four-splitters, show they form a single equivalence class under SWAP and parity operators, and we give a construction of any four-splitter with linear optics, thus extending the toolbox for theoretical and experimental cluster-state design and analysis.
翻訳日:2023-05-22 14:40:07 公開日:2023-05-19
# 電気光学・電気光学系における超伝導量子ビットの量子トランスダクション

Quantum transduction of superconducting qubit in electro-optomechanical and electro-optomagnonical system ( http://arxiv.org/abs/2305.11629v1 )

ライセンス: Link先を確認
Roson Nongthombam, Pooja Kumari Gupta, and Amarendra K. Sarma(参考訳) 超伝導量子ビットの光子への量子変換を電気力学および電気光学系で研究する。 電気オプトメカニカルシステムは、吊り下げられたメカニカルビームに結合されたフラックス可変トランスモンキュービットを含み、光キャビティに結合する。 同様に、電磁気システムにおいて、磁束可変トランスモン量子ビットはyig強磁性球面内のマグノン励起を介して光ささやきギャラリーモードに結合される。 どちらのシステムでも、変換プロセスはシーケンシャルに行われる。 第1のシーケンスでは、クビット状態はフォノン/マグノン-クビット相互作用を通じてフォノン/マグノンモードのコヒーレント励起で符号化される。 次に、光キャビティ内の光子の平均数を数えて量子状態を示すフォノン/マグノン励起を測定する。 フォノン/マグノン励起の測定は一定間隔で行うことができる。

We study the quantum transduction of a superconducting qubit to an optical photon in electro-optomechanical and electro-optomagnonical systems. The electro-optomechanical system comprises a flux-tunable transmon qubit coupled to a suspended mechanical beam, which then couples to an optical cavity. Similarly, in an electro-optomagnonical system, a flux-tunable transmon qubit is coupled to an optical whispering gallery mode via a magnon excitation in a YIG ferromagnetic sphere. In both systems, the transduction process is done in sequence. In the first sequence, the qubit states are encoded in coherent excitations of phonon/magnon modes through the phonon/magnon-qubit interaction, which is non-demolition in the qubit part. We then measure the phonon/magnon excitations, which reveal the qubit states, by counting the average number of photons in the optical cavities. The measurement of the phonon/magnon excitations can be performed at a regular intervals of time.
翻訳日:2023-05-22 14:39:48 公開日:2023-05-19
# LLM-Pruner:大規模言語モデルの構造解析について

LLM-Pruner: On the Structural Pruning of Large Language Models ( http://arxiv.org/abs/2305.11627v1 )

ライセンス: Link先を確認
Xinyin Ma, Gongfan Fang, Xinchao Wang(参考訳) 大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。 しかしながら、そのような印象的な機能は通常、相当なモデルサイズが伴い、デプロイメント、推論、トレーニングステージの両方において大きな課題が生じる。 LLMは汎用的なタスクソルバであり,従来のLLMのマルチタスク解決と言語生成能力の維持を目的とした,タスク非依存の方法で圧縮を探索する。 これを実現するための1つの課題は、データ転送と後トレーニングのオーバーバーデンサムをモデル化するLLMのトレーニングコーパスの巨大なサイズである。 そこで本研究では,LLMの圧縮をタスク依存的であること,トレーニングデータセットへの依存を最小限に抑えること,という2つの制約の範囲内で行う。 llm-pruner という手法では,勾配情報に基づく非臨界結合構造を選択的に除去し,llmの機能の大部分を最大に保持する構造的プルーニングを採用する。 この目的のために、プルーニングされたモデルの性能は、わずか3時間で、わずか50Kのデータしか必要とせず、チューニング技術であるLoRAによって効率よく回復することができる。 LLaMA, Vicuna, ChatGLM の3つの LLM 上で LLM-Pruner の有効性を検証し, 圧縮されたモデルがゼロショットの分類と生成に満足できることを示す。 コードは、https://github.com/horseee/LLM-Prunerで入手できる。

Large language models (LLMs) have shown remarkable capabilities in language understanding and generation. However, such impressive capability typically comes with a substantial model size, which presents significant challenges in both the deployment, inference, and training stages. With LLM being a general-purpose task solver, we explore its compression in a task-agnostic manner, which aims to preserve the multi-task solving and language generation ability of the original LLM. One challenge to achieving this is the enormous size of the training corpus of LLM, which makes both data transfer and model post-training over-burdensome. Thus, we tackle the compression of LLMs within the bound of two constraints: being task-agnostic and minimizing the reliance on the original training dataset. Our method, named LLM-Pruner, adopts structural pruning that selectively removes non-critical coupled structures based on gradient information, maximally preserving the majority of the LLM's functionality. To this end, the performance of pruned models can be efficiently recovered through tuning techniques, LoRA, in merely 3 hours, requiring only 50K data. We validate the LLM-Pruner on three LLMs, including LLaMA, Vicuna, and ChatGLM, and demonstrate that the compressed models still exhibit satisfactory capabilities in zero-shot classification and generation. The code is available at: https://github.com/horseee/LLM-Pruner
翻訳日:2023-05-22 14:39:31 公開日:2023-05-19
# cct-code: 多言語クローン検出とコード検索のためのクロスコンシスタンストレーニング

CCT-Code: Cross-Consistency Training for Multilingual Clone Detection and Code Search ( http://arxiv.org/abs/2305.11626v1 )

ライセンス: Link先を確認
Nikita Sorokin, Dmitry Abulkhanov, Sergey Nikolenko, Valentin Malykh(参考訳) 本稿では,ソースコードのクローン検出と情報検索の問題について考察する。 同一に動作するが、異なるプログラミング言語で記述されているコードスニペットを見つけることは、重要かつ興味深い問題でもあるが、我々の知る限り、多言語クローン検出は文献で研究されていない。 本稿では,多言語クローン検出問題を定式化し,codeforces submitsデータセットから生成されたベンチマークデータセットであるxcdを提案する。 さらに、異なるプログラミング言語のソースコード上で、言語モデルをトレーニングするために、クロス一貫性トレーニング(CCT)と呼ばれる新しいトレーニング手順を提案する。 結果として得られたCCT-LMモデルはGraphCodeBERTで初期化され、CCTで微調整され、POJ-104クローン検出ベンチマークにおいて 95.67\% MAP と AdvTest のコード検索ベンチマークで 47.18\% MRR で既存のアプローチを上回り、新しい最先端技術を実現している。

We consider the clone detection and information retrieval problems for source code, well-known tasks important for any programming language. Although it is also an important and interesting problem to find code snippets that operate identically but are written in different programming languages, to the best of our knowledge multilingual clone detection has not been studied in literature. In this work, we formulate the multilingual clone detection problem and present XCD, a new benchmark dataset produced from the CodeForces submissions dataset. Moreover, we present a novel training procedure, called cross-consistency training (CCT), that we apply to train language models on source code in different programming languages. The resulting CCT-LM model, initialized with GraphCodeBERT and fine-tuned with CCT, achieves new state of the art, outperforming existing approaches on the POJ-104 clone detection benchmark with 95.67\% MAP and AdvTest code search benchmark with 47.18\% MRR; it also shows the best results on the newly created multilingual clone detection benchmark XCD across all programming languages.
翻訳日:2023-05-22 14:39:04 公開日:2023-05-19
# コードによる検索:新しいSearchBySnippetデータセットとコードスニペットによる検索のためのSnippeR検索モデル

Searching by Code: a New SearchBySnippet Dataset and SnippeR Retrieval Model for Searching by Code Snippets ( http://arxiv.org/abs/2305.11625v1 )

ライセンス: Link先を確認
Ivan Sedykh, Dmitry Abulkhanov, Nikita Sorokin, Sergey Nikolenko, Valentin Malykh(参考訳) コード検索は近年多くの発展を遂げてきた重要な課題である。 しかし、以前の試みでは、主にテキストクエリによるコード検索の問題を考慮していた。 私たちは、コードスニペット(およびおそらく関連するトレースバック)をクエリとして使用し、バグフィックス命令とコードサンプルによる回答を探すことは、既存のアプローチでカバーされていない自然なユースケースである、と論じています。 さらに、既存のデータセットはテキストとしてフルテキスト記述ではなく、コードから抽出されたコメントを使用するため、このユースケースには適さない。 そこで本研究では,StackOverflowデータに基づく検索・バイ・コード・ユースケースを実装した SearchBySnippet データセットを提案する。 我々は,新しい単一エンコーダモデルであるSnippeRを提案する。このモデルでは,SearchBySnippetデータセットの強いベースラインを0.451 Recall@10で上回り,コード検索評価のための新しい重要なベンチマークとしてSearchBySnippetデータセットとSnippeRを提案する。

Code search is an important task that has seen many developments in recent years. However, previous attempts have mostly considered the problem of searching for code by a text query. We argue that using a code snippet (and possibly an associated traceback) as a query and looking for answers with bugfixing instructions and code samples is a natural use case that is not covered by existing approaches. Moreover, existing datasets use comments extracted from code rather than full-text descriptions as text, making them unsuitable for this use case. We present a new SearchBySnippet dataset implementing the search-by-code use case based on StackOverflow data; it turns out that in this setting, existing architectures fall short of the simplest BM25 baseline even after fine-tuning. We present a new single encoder model SnippeR that outperforms several strong baselines on the SearchBySnippet dataset with a result of 0.451 Recall@10; we propose the SearchBySnippet dataset and SnippeR as a new important benchmark for code search evaluation.
翻訳日:2023-05-22 14:38:40 公開日:2023-05-19
# 効率的なトランスファー学習のためのTune-Mode ConvBNブロック

Tune-Mode ConvBN Blocks For Efficient Transfer Learning ( http://arxiv.org/abs/2305.11624v1 )

ライセンス: Link先を確認
Kaichao You, Anchang Bao, Guo Qin, Meng Cao, Ping Huang, Jiulong Shan, Mingsheng Long(参考訳) Convolution-BatchNorm (ConvBN) ブロックは、様々なコンピュータビジョンタスクや他のドメインにおいて重要なコンポーネントである。 ConvBNブロックはTrain、Eval、Deployの3つのモードで操作できる。 Trainモードはスクラッチからモデルのトレーニングには不可欠だが、Evalモードは移行学習やモデルの検証に適しており、Deployモードはモデルのデプロイに設計されている。 本稿では,ConvBNブロックの安定性と効率性のトレードオフに着目し,デプロイモードは効率的だが,トレーニングの不安定性に悩まされている。 ジレンマを解決するため,デプロイモードで観測されるトレーニング安定性の低下の原因を理論的に明らかにした。 次に,evalモードとデプロイモードのギャップを埋める新しいチューニングモードを提案する。 提案するチューンモードは、転送学習のためのevalモードと同じくらい安定であり、その計算効率はデプロイモードと密接に一致する。 様々なデータセットとモデルアーキテクチャで実行されるオブジェクト検出タスクと分類タスクの両方の広範な実験を通じて、提案するチューンモードは、gpuメモリのフットプリントとトレーニング時間を著しく削減しながらも、元のパフォーマンスを損なわないことを実証し、畳み込みネットワークによる学習の効率的なソリューションを提供する。

Convolution-BatchNorm (ConvBN) blocks are integral components in various computer vision tasks and other domains. A ConvBN block can operate in three modes: Train, Eval, and Deploy. While the Train mode is indispensable for training models from scratch, the Eval mode is suitable for transfer learning and model validation, and the Deploy mode is designed for the deployment of models. This paper focuses on the trade-off between stability and efficiency in ConvBN blocks: Deploy mode is efficient but suffers from training instability; Eval mode is widely used in transfer learning but lacks efficiency. To solve the dilemma, we theoretically reveal the reason behind the diminished training stability observed in the Deploy mode. Subsequently, we propose a novel Tune mode to bridge the gap between Eval mode and Deploy mode. The proposed Tune mode is as stable as Eval mode for transfer learning, and its computational efficiency closely matches that of the Deploy mode. Through extensive experiments in both object detection and classification tasks, carried out across various datasets and model architectures, we demonstrate that the proposed Tune mode does not hurt the original performance while significantly reducing GPU memory footprint and training time, thereby contributing an efficient solution to transfer learning with convolutional networks.
翻訳日:2023-05-22 14:38:17 公開日:2023-05-19
# BDDテストケース仕様からのコード生成に向けて: ビジョン

Towards Code Generation from BDD Test Case Specifications: A Vision ( http://arxiv.org/abs/2305.11619v1 )

ライセンス: Link先を確認
Leon Chemnitz, David Reichenbach, Hani Aldebes, Mariam Naveed, Krishna Narasimhan, Mira Mezini(参考訳) 自動コード生成は最近大きな注目を集め、ソフトウェア開発プロセスにおいてより重要になっている。 機械学習と人工知能に基づくソリューションは、強力で革新的な方法で人間とソフトウェアの効率を高めるために使われています。 本稿では、これらの開発を活用し、人気のあるAngularフレームワーク用のフロントエンドコンポーネントコードを生成する新しいアプローチを提案する。 トランスフォーマーベースの機械学習モデルへの入力として,行動駆動開発テスト仕様を用いてこれを行う。 提案手法は,Webアプリケーションに必要な開発時間を劇的に短縮するとともに,ソフトウェア品質を向上し,自動コード生成に向けた新たな研究アイデアを導入することを目的としている。

Automatic code generation has recently attracted large attention and is becoming more significant to the software development process. Solutions based on Machine Learning and Artificial Intelligence are being used to increase human and software efficiency in potent and innovative ways. In this paper, we aim to leverage these developments and introduce a novel approach to generating frontend component code for the popular Angular framework. We propose to do this using behavior-driven development test specifications as input to a transformer-based machine learning model. Our approach aims to drastically reduce the development time needed for web applications while potentially increasing software quality and introducing new research ideas toward automatic code generation.
翻訳日:2023-05-22 14:37:54 公開日:2023-05-19
# DAP: Evading Person Detectorのための動的対向パッチ

DAP: A Dynamic Adversarial Patch for Evading Person Detectors ( http://arxiv.org/abs/2305.11618v1 )

ライセンス: Link先を確認
Amira Guesmi, Ruitian Ding, Muhammad Abdullah Hanif, Ihsen Alouani, Muhammad Shafique(参考訳) 本稿では,GANを使わずに自然主義的逆パッチを生成する新しい手法を提案する。 提案手法は,実世界のシナリオにおいて高い攻撃効率とロバスト性を保ちながら,自然的に見える動的適応パッチ(DAP)を生成する。 これを実現するために、類似度メトリックを用いて類似度損失を構成する新しい目的関数を導入することにより、最適化問題を再定義する。 これにより、被害者モデルの損失関数を最大化しながら、事前に定義されたパターンに従うパッチがガイドされる。 本手法は、GANベースの手法と比較して、高い柔軟性と大きな空間を提供するパッチの画素値を直接修正することに基づいている。 さらに、衣服ベースの物理的攻撃の多くは静的な物体を想定し、人のポーズの変化による非剛性変形による変形を無視する。 この制限に対処するために、"creases transformation'(ct)"ブロック、すなわち、トレーニングプロセスに組み込まれた変換パッチの多種多様なバリエーションを生成するために使用される変換オーバートランスフォーメーション(eot)ブロックに続く前処理ブロックを組み込んで、異なる現実世界の歪み(例えば、衣服の折り目、回転、再スケーリング、ランダムノイズ、輝度、コントラスト変化など)に対して頑健性を高める。 衣服や物体のポーズ(上述の歪み)に異なる現実世界のバリエーションが存在することが、最先端の攻撃性能の低下につながることを実証する。 例えば、これらの技術は、デジタル世界では、物理世界では20%、デジタル世界では30.8%しか達成できないが、我々の攻撃は、エッジのスマートカメラに配備されたYOLOv3tiny検出器を攻撃する際に、それぞれ65\%と84.56\%の優れた成功率を提供する。

In this paper, we present a novel approach for generating naturalistic adversarial patches without using GANs. Our proposed approach generates a Dynamic Adversarial Patch (DAP) that looks naturalistic while maintaining high attack efficiency and robustness in real-world scenarios. To achieve this, we redefine the optimization problem by introducing a new objective function, where a similarity metric is used to construct a similarity loss. This guides the patch to follow predefined patterns while maximizing the victim model's loss function. Our technique is based on directly modifying the pixel values in the patch which gives higher flexibility and larger space to incorporate multiple transformations compared to the GAN-based techniques. Furthermore, most clothing-based physical attacks assume static objects and ignore the possible transformations caused by non-rigid deformation due to changes in a person's pose. To address this limitation, we incorporate a ``Creases Transformation'' (CT) block, i.e., a preprocessing block following an Expectation Over Transformation (EOT) block used to generate a large variation of transformed patches incorporated in the training process to increase its robustness to different possible real-world distortions (e.g., creases in the clothing, rotation, re-scaling, random noise, brightness and contrast variations, etc.). We demonstrate that the presence of different real-world variations in clothing and object poses (i.e., above-mentioned distortions) lead to a drop in the performance of state-of-the-art attacks. For instance, these techniques can merely achieve 20\% in the physical world and 30.8\% in the digital world while our attack provides superior success rate of up to 65\% and 84.56\%, respectively when attacking the YOLOv3tiny detector deployed in smart cameras at the edge.
翻訳日:2023-05-22 14:37:43 公開日:2023-05-19
# 深層アンサンブルの多様化:ood検出,キャリブレーション,精度向上のためのsaliency mapアプローチ

Diversifying Deep Ensembles: A Saliency Map Approach for Enhanced OOD Detection, Calibration, and Accuracy ( http://arxiv.org/abs/2305.11616v1 )

ライセンス: Link先を確認
Stanislav Dereka, Ivan Karpukhin, Sergey Kolesnikov(参考訳) 深層アンサンブルは分類とアウト・オブ・ディストリビューション(OOD)の検出において最先端の結果を得たが、その効果はアンサンブル内の学習パターンの均一性によって制限されている。 そこで本研究では,サリエンシマップを活用することで,アンサンブルメンバー間の多様性を促進する新しいアプローチを提案する。 本手法は,複数分類およびOOD検出タスクにおいて従来のアンサンブル手法より優れ,校正性も向上した。 確立されたOpenOODベンチマークの実験では,本手法の実用化の可能性を強調した。

Deep ensembles achieved state-of-the-art results in classification and out-of-distribution (OOD) detection; however, their effectiveness remains limited due to the homogeneity of learned patterns within the ensemble. To overcome this challenge, our study introduces a novel approach that promotes diversity among ensemble members by leveraging saliency maps. By incorporating saliency map diversification, our method outperforms conventional ensemble techniques in multiple classification and OOD detection tasks, while also improving calibration. Experiments on well-established OpenOOD benchmarks highlight the potential of our method in practical applications.
翻訳日:2023-05-22 14:37:08 公開日:2023-05-19
# sfp: 分散一般化のためのスプリアス機能目標プルーニング

SFP: Spurious Feature-targeted Pruning for Out-of-Distribution Generalization ( http://arxiv.org/abs/2305.11615v1 )

ライセンス: Link先を確認
ingchun Wang, Jingcai Guo, Yi Liu, Song Guo, Weizhan Zhang, Xiangyong Cao, Qinghua Zheng(参考訳) モデルサブストラクチャ学習は、元の完全構造よりもより良いアウト・オブ・ディストリビューション(ood)一般化をもたらす不変ネットワークサブストラクチャを見つけることを目的としている。 既存の作業は通常、モジュラーリスク最小化(MRM)を使用して不変部分構造を、完全に露出したドメイン外データで探索する。 1) ドメイン外データの完全な露出の依存による不公平 2)データ分布全体における等しく特徴のないプルーニングのため,OODの準最適一般化を行う。 本稿では, 突発的特徴を持つ内分布(ID)データが, 経験リスクを低く抑えるという考え方に基づいて, SFPと呼ばれる新規なSpurious Feature-targeted Model Pruningフレームワークを提案し, 上記の欠点に言及することなく, 不変部分構造を自動探索する。 具体的には、SFPは、理論的に検証されたタスク損失を用いて、訓練中のIDインスタンス内の素早い特徴を特定し、それに基づいてモデル空間内の対応する特徴投影を減衰させ、いわゆる素早い特徴目標プルーニングを実現する。 これは典型的には、特定されたスプリアス機能に強い依存を持つネットワークブランチを削除することで実現されるため、SFPはモデル学習を不変機能へと押し上げ、スプリアス機能から抽出し、最適なOOD一般化を考案することができる。 さらに,モデル空間によるOOD構造の合理性保証と証明フレームワークを提供するための詳細な理論的解析を行い,モデル空間の偏りがOODの一般化にどのように影響するかを初めて明らかにした。 様々なOODデータセットの実験により、SFPは構造ベースと非構造ベースの両方のOOD一般化SOTAを著しく上回り、精度は4.72%と23.35%に向上した。

Model substructure learning aims to find an invariant network substructure that can have better out-of-distribution (OOD) generalization than the original full structure. Existing works usually search the invariant substructure using modular risk minimization (MRM) with fully exposed out-domain data, which may bring about two drawbacks: 1) Unfairness, due to the dependence of the full exposure of out-domain data; and 2) Sub-optimal OOD generalization, due to the equally feature-untargeted pruning on the whole data distribution. Based on the idea that in-distribution (ID) data with spurious features may have a lower experience risk, in this paper, we propose a novel Spurious Feature-targeted model Pruning framework, dubbed SFP, to automatically explore invariant substructures without referring to the above drawbacks. Specifically, SFP identifies spurious features within ID instances during training using our theoretically verified task loss, upon which, SFP attenuates the corresponding feature projections in model space to achieve the so-called spurious feature-targeted pruning. This is typically done by removing network branches with strong dependencies on identified spurious features, thus SFP can push the model learning toward invariant features and pull that out of spurious features and devise optimal OOD generalization. Moreover, we also conduct detailed theoretical analysis to provide the rationality guarantee and a proof framework for OOD structures via model sparsity, and for the first time, reveal how a highly biased data distribution affects the model's OOD generalization. Experiments on various OOD datasets show that SFP can significantly outperform both structure-based and non-structure-based OOD generalization SOTAs, with accuracy improvement up to 4.72% and 23.35%, respectively
翻訳日:2023-05-22 14:36:55 公開日:2023-05-19
# 多言語一貫性によるタスク理解の評価:ChatGPTケーススタディ

Evaluating task understanding through multilingual consistency: A ChatGPT case study ( http://arxiv.org/abs/2305.11662v1 )

ライセンス: Link先を確認
Xenia Ohmer, Elia Bruni, Dieuwke Hupkes(参考訳) 大規模言語モデル(LLM)の能力が増大する停滞するペースでは、その理解を評価するための将来的な評価セットがますます難しくなっている。 本稿では, 正しい世界理解は, 同じ意味の異なる(Fregean)感覚にまたがって整合するべきだという考え方を生かして, LLMを評価するための新しいパラダイムを提案する。 したがって、モデルの正確性ではなく、モデル自体によって生成される複数の感覚の一貫性を評価することで理解度を測定する。 我々は,異なる感覚が異なる言語であるテストのインスタンス化を行い,モデル理解のためのリトマステストとして多言語自己一貫性を用い,同時に多言語主義の重要な話題に対処した。 そこで我々は,ChatGPTの最新バージョンを研究対象として,3言語にわたる2つのタスクの多言語一貫性を評価した。 その多言語一貫性は依然として欠如しており、そのタスクと世界理解は言語に依存しない。 我々のアプローチは英語以外の言語で静的評価コーパスを必要としないため、様々な言語やタスクに簡単かつ安価に拡張することができ、将来のベンチマーク活動の不可欠な部分となる可能性がある。

At the staggering pace with which the capabilities of large language models (LLMs) are increasing, creating future-proof evaluation sets to assess their understanding becomes more and more challenging. In this paper, we propose a novel paradigm for evaluating LLMs which leverages the idea that correct world understanding should be consistent across different (Fregean) senses of the same meaning. Accordingly, we measure understanding not in terms of correctness but by evaluating consistency across multiple senses that are generated by the model itself. We showcase our approach by instantiating a test where the different senses are different languages, hence using multilingual self-consistency as a litmus test for the model's understanding and simultaneously addressing the important topic of multilingualism. Taking one of the latest versions of ChatGPT as our object of study, we evaluate multilingual consistency for two different tasks across three different languages. We show that its multilingual consistency is still lacking, and that its task and world understanding are thus not language-independent. As our approach does not require any static evaluation corpora in languages other than English, it can easily and cheaply be extended to different languages and tasks and could become an integral part of future benchmarking efforts.
翻訳日:2023-05-22 14:28:36 公開日:2023-05-19
# petzリカバリマップ:幾何学的側面とquditチャネルの解析

Petz recovery maps: Geometrical aspects and an analysis for qudit channels ( http://arxiv.org/abs/2305.11658v1 )

ライセンス: Link先を確認
Lea Lautenbacher, Vinayak Jagadish, Francesco Petruccione, and Nadja K. Bernardes(参考訳) petzマップを用いて, デファスメントや振幅減衰チャネルに曝された場合の状態回復の可能性について検討する。 具体的には、アクセス可能な状態の体積の変化に関連付けられたキュービットの場合のpetzマップの幾何学的側面を分析する。 以上より, 幾何学的特徴付けは, 回復過程の詳細を理解する上で有効なツールであることが示唆された。 さらに,任意の次元に対する状態回復のためのpetzマップの能力を定量化する状態に依存しないフレームワークを考案し,quditチャネルに解析を拡張した。 特定の条件下では、次元は状態回復に寄与する。

Using the Petz map, we investigate the potential of state recovery when exposed to dephasing and amplitude-damping channels. Specifically, we analyze the geometrical aspects of the Petz map for the qubit case, which is linked to the change in the volume of accessible states. Our findings suggest that the geometrical characterization can serve as a potent tool for understanding the details of the recovery procedure. Furthermore, we extend our analysis to qudit channels by devising a state-independent framework that quantifies the ability of the Petz map to recover a state for any dimension. Under certain conditions, the dimensionality plays a role in state recovery.
翻訳日:2023-05-22 14:28:14 公開日:2023-05-19
# V2X-Boosted Federated Learning for Cooperative Intelligent Transportation Systems with Contextual Client Selection

V2X-Boosted Federated Learning for Cooperative Intelligent Transportation Systems with Contextual Client Selection ( http://arxiv.org/abs/2305.11654v1 )

ライセンス: Link先を確認
Rui Song, Lingjuan Lyu, Wei Jiang, Andreas Festag and Alois Knoll(参考訳) 機械学習(ML)は、自動運転とスマート交通サービスを可能にする交通システムに革命をもたらした。 フェデレートラーニング(FL)は、分散システムでMLモデルをトレーニングし、生のデータの代わりにモデルパラメータを交換することで、プライバシ制約を克服する。 しかし、連結車両の動的状態はネットワーク接続品質に影響を与え、fl性能に影響を及ぼす。 この課題に対処するため,予測通信遅延に基づいて,V2X (Vaby-to-Everything) メッセージを用いてクライアントを選択するコンテキストクライアント選択パイプラインを提案する。 パイプラインには (i)V2Xメッセージの融合 (ii)将来の交通トポロジーの予測 (iii)ローカルデータ分布類似性に基づくプリクラスタクライアント、及び (iv) 将来のモデルアグリゲーションに最小限のレイテンシでクライアントを選択する。 実験の結果、パイプラインはさまざまなデータセット、特に非ID設定でのベースラインよりも優れています。

Machine learning (ML) has revolutionized transportation systems, enabling autonomous driving and smart traffic services. Federated learning (FL) overcomes privacy constraints by training ML models in distributed systems, exchanging model parameters instead of raw data. However, the dynamic states of connected vehicles affect the network connection quality and influence the FL performance. To tackle this challenge, we propose a contextual client selection pipeline that uses Vehicle-to-Everything (V2X) messages to select clients based on the predicted communication latency. The pipeline includes: (i) fusing V2X messages, (ii) predicting future traffic topology, (iii) pre-clustering clients based on local data distribution similarity, and (iv) selecting clients with minimal latency for future model aggregation. Experiments show that our pipeline outperforms baselines on various datasets, particularly in non-iid settings.
翻訳日:2023-05-22 14:28:03 公開日:2023-05-19
# Moment Matching Denoisingギブズサンプリング

Moment Matching Denoising Gibbs Sampling ( http://arxiv.org/abs/2305.11650v1 )

ライセンス: Link先を確認
Mingtian Zhang and Alex Hawkins-Hooker and Brooks Paige and David Barber(参考訳) エネルギーベースモデル(ebms)は複雑なデータ分布をモデリングするための汎用フレームワークを提供する。 しかし、ESMからのトレーニングとサンプリングは引き続き大きな課題を呈している。 スケーラブルなEMMトレーニングのための広く使われているDenoising Score Matching (DSM) 法は不整合の問題に悩まされ、エネルギーモデルが「ノイズの多い」データ分布を学習する。 そこで本研究では,DSM で十分に訓練された 'ノイズ' モデルが与えられた場合に,基礎となるクリーンモデルから効果的なサンプリングを可能にする,モーメントマッチングを用いた効率的なサンプリングフレームワークを提案する。 関連手法と比較して,本手法の利点を考察し,高次元データセットへの拡張方法を示す。

Energy-Based Models (EBMs) offer a versatile framework for modeling complex data distributions. However, training and sampling from EBMs continue to pose significant challenges. The widely-used Denoising Score Matching (DSM) method for scalable EBM training suffers from inconsistency issues, causing the energy model to learn a `noisy' data distribution. In this work, we propose an efficient sampling framework: (pseudo)-Gibbs sampling with moment matching, which enables effective sampling from the underlying clean model when given a `noisy' model that has been well-trained via DSM. We explore the benefits of our approach compared to related methods and demonstrate how to scale the method to high-dimensional datasets.
翻訳日:2023-05-22 14:27:49 公開日:2023-05-19
# 多目的QUBOへのIsing Machineの適用

Applying Ising Machines to Multi-objective QUBOs ( http://arxiv.org/abs/2305.11648v1 )

ライセンス: Link先を確認
Mayowa Ayodele, Richard Allmendinger, Manuel L\'opez-Ib\'a\~nez, Arnaud Liefooghe, Matthieu Parizy(参考訳) 多目的最適化問題は、複数の目的としばしば矛盾する目標の間のトレードオフの異なるソリューションを見つけることを伴う。 イジングマシンは、イジングモデルの絶対的あるいは近似的な基底状態を見つけることを目的とした物理デバイスである。 イジングマシンを多目的問題に適用するには、重み付き和目的関数を用いて多目的問題を単目的問題に変換する。 しかし、パレートフロントに均等に分散したソリューションをアーカイブするスカラー化重みの導出は簡単ではない。 従来の研究では、二コトミック探索に基づく適応重みと、以前に探索された平均重みに基づく重みは、均一に生成された重みよりも早くパレートフロントを探索できることが示された。 しかし、これらの適応法は、これまで二目的問題にのみ適用されてきた。 本研究では,平均値に基づく適応手法を2つの方法で拡張する。 i)2つ以上の目的を持つ問題に対するスカラー化重みを導出する適応的手法を拡張し, (ii)〜距離の代替尺度を用いて性能を向上させる。 提案手法を既存手法と比較した結果,3 と 4 の目的を持つマルチオブジェクト非制約バイナリ二次プログラミング (mUBQP) インスタンス上での最高の性能と,2 つの目的を持つインスタンスにおいて最高の方法と競合することを示す。

Multi-objective optimisation problems involve finding solutions with varying trade-offs between multiple and often conflicting objectives. Ising machines are physical devices that aim to find the absolute or approximate ground states of an Ising model. To apply Ising machines to multi-objective problems, a weighted sum objective function is used to convert multi-objective into single-objective problems. However, deriving scalarisation weights that archives evenly distributed solutions across the Pareto front is not trivial. Previous work has shown that adaptive weights based on dichotomic search, and one based on averages of previously explored weights can explore the Pareto front quicker than uniformly generated weights. However, these adaptive methods have only been applied to bi-objective problems in the past. In this work, we extend the adaptive method based on averages in two ways: (i)~we extend the adaptive method of deriving scalarisation weights for problems with two or more objectives, and (ii)~we use an alternative measure of distance to improve performance. We compare the proposed method with existing ones and show that it leads to the best performance on multi-objective Unconstrained Binary Quadratic Programming (mUBQP) instances with 3 and 4 objectives and that it is competitive with the best one for instances with 2 objectives.
翻訳日:2023-05-22 14:27:36 公開日:2023-05-19
# M\"ossbauer Nucleiを用いた導波路QED

Waveguide QED with M\"ossbauer Nuclei ( http://arxiv.org/abs/2305.11647v1 )

ライセンス: Link先を確認
Petar Andreji\'c, Leon Merten Lohse, Adriana P\'alffy(参考訳) 埋め込みm\"ossbauer原子核を持つ薄膜ナノ構造は、格子入射時に硬x線結合を持つx線量子光学応用に成功している。 ここでは理論上,硬X線を前方入射(前結合)に結合する新しい幾何学を論じ,核X線共鳴による導波路QEDのステージを設定する。 1次元導波路における場-核相互作用のグリーン関数形式に基づく一般モデルを構築し、時空間応答において動的にビーティングとして見える核前方散乱と、誘導モードのスペクトルで見える放牧入射からの共鳴構造の両方の側面を組み合わせたものであることを示した。 多重モードの干渉は重要な役割を果たすことが示され、実際的なフォトリソグラフィーのスケールでは、数十ミクロンの波長のビートが発生する。 これにより、特別なサンプルジオメトリを設計し、共鳴応答やマイクロストリップ導波路を探索し、硬X線量子光学のための新しい幾何学的設計のツールボックスを開くことができる。

Thin-film nanostructures with embedded M\"ossbauer nuclei have been successfully used for x-ray quantum optical applications with hard x-rays coupling in grazing incidence. Here we address theoretically a new geometry, in which hard x-rays are coupled in forward incidence (front coupling), setting the stage for waveguide QED with nuclear x-ray resonances. We develop a general model based on the Green's function formalism of the field-nucleus interaction in one dimensional waveguides, and show that it combines aspects of both nuclear forward scattering, visible as dynamical beating in the spatio-temporal response, and the resonance structure from grazing incidence, visible in the spectrum of guided modes. The interference of multiple modes is shown to play an important role, resulting in beats with wavelengths on the order of tens of microns, on the scale of practical photolithography. This allows for the design of special sample geometries to explore the resonant response or micro-striped waveguides, opening a new toolbox of geometrical design for hard X-ray quantum optics.
翻訳日:2023-05-22 14:27:11 公開日:2023-05-19
# 前・後選択による量子チャネル分解

Quantum channel decomposition with pre- and post-selection ( http://arxiv.org/abs/2305.11642v1 )

ライセンス: Link先を確認
Ryo Nagai, Shu Kanno, Yuki Sato, Naoki Yamamoto(参考訳) いわゆる確率的エラーキャンセルとゲート/ワイヤ切断を含む量子チャネル分解技術は、比較的簡単な(あるいはノイズの多い)量子チャネルを同時に実行することにより、実装が難しい(あるいは理想的な)ユニタリ演算をシミュレートする強力なアプローチである。 しかし、このような仮想シミュレーションは指数関数的に多くの分解を必要とするため、実用性が著しく制限される。 本稿では,特定の量子状態,すなわち事前選択と後選択を伴うユニタリに対して,入力条件と出力条件を有するターゲットユニタリのチャネル分解法を提案する。 具体的には、選択不要なシナリオよりもかなり小さい分解チャネルの必要な数を明示的に決定する。 さらに, 生成した分解ユニタリの構造を解明する。 本手法を量子線形解法アルゴリズムに適用し,提案手法の有効性を明らかにする。

The quantum channel decomposition techniques, which contain the so-called probabilistic error cancellation and gate/wire cutting, are powerful approach for simulating a hard-to-implement (or an ideal) unitary operation by concurrently executing relatively easy-to-implement (or noisy) quantum channels. However, such virtual simulation necessitates an exponentially large number of decompositions, thereby significantly limiting their practical applicability. This paper proposes a channel decomposition method for target unitaries that have their input and output conditioned on specific quantum states, namely unitaries with pre- and post-selection. Specifically, we explicitly determine the requisite number of decomposing channels, which could be significantly smaller than the selection-free scenario. Furthermore, we elucidate the structure of the resulting decomposed unitary. We demonstrate an application of this approach to the quantum linear solver algorithm, highlighting the efficacy of the proposed method.
翻訳日:2023-05-22 14:26:51 公開日:2023-05-19
# 任意欠落パターンによる分布フリー行列予測

Distribution-Free Matrix Prediction Under Arbitrary Missing Pattern ( http://arxiv.org/abs/2305.11640v1 )

ライセンス: Link先を確認
Meijia Shao and Yuan Zhang(参考訳) 本稿では,行/列交換行列における共形入力予測の開放問題について検討する。 行列設定は新規でユニークな課題を提示するが、この興味深いトピックについてはほとんど研究されていない。 問題を慎重に定義し、密接に関連する問題と区別し、達成可能な目標と不可能な目標の境界を厳格に定義する。 次に2つの実用的なアルゴリズムを提案する。 第1の手法は完全共形予測の高速エミュレーションを提供し,第2の手法は加速度のアルゴリズム安定性を利用する。 どちらの手法も計算効率が良く、任意の欠落パターンが存在する場合のカバレッジの有効性を効果的に保護することができる。 さらに、欠落が予測精度に与える影響を定量化し、基礎的限界結果を確立する。 合成および実世界のデータセットによる実証的証拠は,提案手法の優れた性能を裏付けるものである。

This paper studies the open problem of conformalized entry prediction in a row/column-exchangeable matrix. The matrix setting presents novel and unique challenges, but there exists little work on this interesting topic. We meticulously define the problem, differentiate it from closely related problems, and rigorously delineate the boundary between achievable and impossible goals. We then propose two practical algorithms. The first method provides a fast emulation of the full conformal prediction, while the second method leverages the technique of algorithmic stability for acceleration. Both methods are computationally efficient and can effectively safeguard coverage validity in presence of arbitrary missing pattern. Further, we quantify the impact of missingness on prediction accuracy and establish fundamental limit results. Empirical evidence from synthetic and real-world data sets corroborates the superior performance of our proposed methods.
翻訳日:2023-05-22 14:26:35 公開日:2023-05-19
# ストリーム処理システムにおけるホロスティックプライバシへの道

A Path to Holistic Privacy in Stream Processing Systems ( http://arxiv.org/abs/2305.11638v1 )

ライセンス: Link先を確認
Mikhail Fomichev(参考訳) IoT(Internet of Things)データの巨大なストリームは、データの有用性を維持するために、タイムリーな分析を必要とする。 ストリーム処理システム(SPS)はこのタスクを可能にし、IoTデータからリアルタイムで知識を引き出す。 このようなリアルタイム分析は多くのアプリケーションにメリットがあるが、ユーザやその周辺で収集されたIoTデータは本質的にセンシティブであるため、ユーザのプライバシ違反にも使用できる。 本稿では,SPSとIoTの交差から生じるプライバシ問題について,SPSにおける総合的なプライバシ保護を実現するための重要な研究課題を特定し,その解決策を提案する。

The massive streams of Internet of Things (IoT) data require a timely analysis to retain data usefulness. Stream processing systems (SPSs) enable this task, deriving knowledge from the IoT data in real-time. Such real-time analytics benefits many applications but can also be used to violate user privacy, as the IoT data collected from users or their vicinity is inherently sensitive. In this paper, we present our systematic look into privacy issues arising from the intersection of SPSs and IoT, identifying key research challenges towards achieving holistic privacy protection in SPSs and proposing the solutions.
翻訳日:2023-05-22 14:26:23 公開日:2023-05-19
# リスク回避参加に対するフィードバックによる連合学習における目標指向コミュニケーション

Goal-Oriented Communications in Federated Learning via Feedback on Risk-Averse Participation ( http://arxiv.org/abs/2305.11633v1 )

ライセンス: Link先を確認
Shashi Raj Pandey, Van Phuc Bui, Petar Popovski(参考訳) 我々は、学習目標と参加者の局所的なインセンティブを用いて目標指向のコミュニケーション問題を定式化するフェデレートラーニング(FL)システムにおいて、クライアント選択の問題を扱う。 具体的には,パラメータサーバ(\texttt{ps})からのフィードバックを頼りに,参加者のリスク回避性を取り入れ,通信効率の高いオンデバイスパフォーマンスを得る。 クライアントは、FLに参加していない場合の送信計画を決定する必要がある。 これは本質的なインセンティブに基づいており、このクライアントが参加すると、トレーニングされたグローバルモデルの価値が分かる。 更新の貧弱さは、通信コストを増し、グローバルモデルの性能を低下させるだけでなく、他の参加デバイスの性能低下を助長する。 我々は、ローカルな送信戦略、すなわち ``not transmission' のタイミングを決定するための、ローカルな更新の関連性を \emph{semantic information} としてキャストした。 デバイスはPSの状態に関するフィードバックを使用し、各アグリゲーション期間における学習モデルのトレーニングへの貢献を評価し、最終的に占有された接続数を減少させる。 シミュレーションの結果,提案手法の有効性が検証され,ベースラインと比較して通信リンク利用率が最大1.4\times$上昇した。

We treat the problem of client selection in a Federated Learning (FL) setup, where the learning objective and the local incentives of the participants are used to formulate a goal-oriented communication problem. Specifically, we incorporate the risk-averse nature of participants and obtain a communication-efficient on-device performance, while relying on feedback from the Parameter Server (\texttt{PS}). A client has to decide its transmission plan on when not to participate in FL. This is based on its intrinsic incentive, which is the value of the trained global model upon participation by this client. Poor updates not only plunge the performance of the global model with added communication cost but also propagate the loss in performance on other participating devices. We cast the relevance of local updates as \emph{semantic information} for developing local transmission strategies, i.e., making a decision on when to ``not transmit". The devices use feedback about the state of the PS and evaluate their contributions in training the learning model in each aggregation period, which eventually lowers the number of occupied connections. Simulation results validate the efficacy of our proposed approach, with up to $1.4\times$ gain in communication links utilization as compared with the baselines.
翻訳日:2023-05-22 14:26:11 公開日:2023-05-19
# 注意マップ再使用とマスキング蒸留を用いた変圧器型音声sslモデルのユニバーサル圧縮戦略

Recycle-and-Distill: Universal Compression Strategy for Transformer-based Speech SSL Models with Attention Map Reusing and Masking Distillation ( http://arxiv.org/abs/2305.11685v1 )

ライセンス: Link先を確認
Kangwook Jang, Sungnyun Kim, Se-Young Yun, Hoirin Kim(参考訳) HuBERTのようなトランスフォーマーベースの音声自己教師学習(SSL)モデルは、様々な音声処理タスクにおいて驚くべきパフォーマンスを示す。 しかし、音声sslモデルの多くのパラメーターは、アカデミアや小企業で広く使われるために、よりコンパクトなモデルに圧縮する必要がある。 本研究では,トランスフォーマー層にまたがるアテンションマップを再利用し,レイヤ数を維持しながらキーおよびクエリパラメータを削除することを提案する。 さらに, 学生モデルの音声表現品質を向上させるための新しいマスキング蒸留戦略を提案する。 我々は,教師モデルの高品質表現を完全に活用するために,マスクフレームとアンマスクフレームの両方を利用する蒸留損失を拡張した。 私たちのユニバーサル圧縮戦略は,音素誤り率(per)7.72%,単語誤り率(wer)9.96%をsuperbベンチマークで達成した学生モデルを生成する。

Transformer-based speech self-supervised learning (SSL) models, such as HuBERT, show surprising performance in various speech processing tasks. However, huge number of parameters in speech SSL models necessitate the compression to a more compact model for wider usage in academia or small companies. In this study, we suggest to reuse attention maps across the Transformer layers, so as to remove key and query parameters while retaining the number of layers. Furthermore, we propose a novel masking distillation strategy to improve the student model's speech representation quality. We extend the distillation loss to utilize both masked and unmasked speech frames to fully leverage the teacher model's high-quality representation. Our universal compression strategy yields the student model that achieves phoneme error rate (PER) of 7.72% and word error rate (WER) of 9.96% on the SUPERB benchmark.
翻訳日:2023-05-22 14:21:05 公開日:2023-05-19
# 単語学習のための自己強化注意機構

Self-Reinforcement Attention Mechanism For Tabular Learning ( http://arxiv.org/abs/2305.11684v1 )

ライセンス: Link先を確認
Kodjo Mawuena Amekoe, Mohamed Djallel Dilmi, Hanene Azzag, Mustapha Lebbah, Zaineb Chelly Dagdia, Gregoire Jaffre(参考訳) 機械学習モデルの高精度さとは別に、現実の問題(詐欺検出や信用スコアなど)において多くの研究者が興味を持っているのは、データの隠れたパターンを見つけることだ。 解釈性は、使用する機械学習モデルに付随する必要がある重要な要件でもある。 この懸念において、しばしば本質的に解釈可能なモデルは、多くの場合ブラックボックスモデルである複雑なモデルよりも好まれる。 また、線形モデルは、たとえパフォーマンスを犠牲にしなければならないとしても、グラフデータを扱うために高リスクフィールドで使用される。 本稿では,重みベクトルとして特徴の関連性を提供する新しい注意機構である自己強化注意(SRA)を紹介する。 この重みは、要素ワイドベクトル乗算によって生入力のいくつかの成分を補強または還元するために使われる。 合成および実世界の不均衡データを用いた結果,提案したSRAブロックはベースラインモデルとエンドツーエンドの組み合わせに有効であることがわかった。

Apart from the high accuracy of machine learning models, what interests many researchers in real-life problems (e.g., fraud detection, credit scoring) is to find hidden patterns in data; particularly when dealing with their challenging imbalanced characteristics. Interpretability is also a key requirement that needs to accompany the used machine learning model. In this concern, often, intrinsically interpretable models are preferred to complex ones, which are in most cases black-box models. Also, linear models are used in some high-risk fields to handle tabular data, even if performance must be sacrificed. In this paper, we introduce Self-Reinforcement Attention (SRA), a novel attention mechanism that provides a relevance of features as a weight vector which is used to learn an intelligible representation. This weight is then used to reinforce or reduce some components of the raw input through element-wise vector multiplication. Our results on synthetic and real-world imbalanced data show that our proposed SRA block is effective in end-to-end combination with baseline models.
翻訳日:2023-05-22 14:20:48 公開日:2023-05-19
# 音声からのインスピレーションイベントのセンシング:深層学習と言語学的手法の比較

Sensing of inspiration events from speech: comparison of deep learning and linguistic methods ( http://arxiv.org/abs/2305.11683v1 )

ライセンス: Link先を確認
Aki H\"arm\"a, Ulf Grossekath\"ofer, Okke Ouweltjes, Venkata Srikanth Nallanthighal(参考訳) 呼吸ベルトセンサーは、呼吸率やその他の呼吸健康パラメータを測定するために用いられる。 VRB(Virtual Respiratory Belt)アルゴリズムは,音声からベルトセンサ波形を推定する。 本稿では, ニューラルVRBアルゴリズムを用いた呼吸帯センサデータからのインスピレーションイベント(IE)の検出と, 時間順の言語内容に基づく検出との比較を行う。 その結果,単語停止検出や文法的内容のセグメンテーションよりもVRB法の方が優れていることが示された。 本手法との比較により, 読解音声と自発音声の両方が, 非文法的呼吸, すなわち, 文法的に適切な場所と一致しない呼吸事象を有意に有することが示された。 本研究は,VRB法の発展に新たな知見を与え,音声呼吸行動の理解を深めるものである。 また, 連続呼吸波形の再構成のための新しいVRB法であるVRBOLAを実証した。

Respiratory chest belt sensor can be used to measure the respiratory rate and other respiratory health parameters. Virtual Respiratory Belt, VRB, algorithms estimate the belt sensor waveform from speech audio. In this paper we compare the detection of inspiration events (IE) from respiratory belt sensor data using a novel neural VRB algorithm and the detections based on time-aligned linguistic content. The results show the superiority of the VRB method over word pause detection or grammatical content segmentation. The comparison of the methods show that both read and spontaneous speech content has a significant amount of ungrammatical breathing, that is, breathing events that are not aligned with grammatically appropriate places in language. This study gives new insights into the development of VRB methods and adds to the general understanding of speech breathing behavior. Moreover, a new VRB method, VRBOLA, for the reconstruction of the continuous breathing waveform is demonstrated.
翻訳日:2023-05-22 14:20:29 公開日:2023-05-19
# 確率的語彙選択

Probabilistic Lexicase Selection ( http://arxiv.org/abs/2305.11681v1 )

ライセンス: Link先を確認
Li Ding, Edward Pantridge, Lee Spector(参考訳) 語彙選択は遺伝的プログラミングにおいて広く用いられる親選択アルゴリズムであり、プログラム合成、記号回帰、機械学習といった様々なタスク領域での成功で知られている。 非パラメトリックで再帰的な性質のため、レキシケース選択によって選択された個々の確率を計算することはNPハード問題であり、アルゴリズムの深い理論的理解と実践的な改善を妨げることが証明されている。 本研究では,レキシケース選択の確率分布を効率的に近似する新しい親選択アルゴリズムである確率的レキシケース選択(プレキシカーゼ選択)を提案する。 提案手法は,セマンティック・アウェア選択法として優れた問題解決能力を示すだけでなく,効率と柔軟性を向上させるための選択プロセスの確率的表現の利点も示す。 PSB や SRBench などの標準ベンチマークを用いて、プログラム合成と記号回帰の2つの一般的な領域で実験を行う。 その結果,プレキシカーゼの選択は,レキシケース選択に匹敵する最先端の問題解決性能を達成し,計算効率においてレキシケース選択を大幅に上回ることがわかった。

Lexicase selection is a widely used parent selection algorithm in genetic programming, known for its success in various task domains such as program synthesis, symbolic regression, and machine learning. Due to its non-parametric and recursive nature, calculating the probability of each individual being selected by lexicase selection has been proven to be an NP-hard problem, which discourages deeper theoretical understanding and practical improvements to the algorithm. In this work, we introduce probabilistic lexicase selection (plexicase selection), a novel parent selection algorithm that efficiently approximates the probability distribution of lexicase selection. Our method not only demonstrates superior problem-solving capabilities as a semantic-aware selection method, but also benefits from having a probabilistic representation of the selection process for enhanced efficiency and flexibility. Experiments are conducted in two prevalent domains in genetic programming: program synthesis and symbolic regression, using standard benchmarks including PSB and SRBench. The empirical results show that plexicase selection achieves state-of-the-art problem-solving performance that is competitive to the lexicase selection, and significantly outperforms lexicase selection in computation efficiency.
翻訳日:2023-05-22 14:20:14 公開日:2023-05-19
# 画像調和のためのグローバルアウェアカーネルの学習

Learning Global-aware Kernel for Image Harmonization ( http://arxiv.org/abs/2305.11676v1 )

ライセンス: Link先を確認
Xintian Shen, Jiangning Zhang, Jun Chen, Shipeng Bai, Yue Han, Yabiao Wang, Chengjie Wang, Yong Liu(参考訳) 画像調和は、背景を基準として前景画素を適応的に調整することにより、複合画像における視覚不整合問題を解決することを目的としている。 既存の手法では、前景と背景の間の局所的な色変換や領域マッチングが採用されている。 その結果、様々なフォアグラウンドオブジェクトやシーンでパフォーマンスが制限されたままである。 この問題に対処するために,長距離バックグラウンド参照を包括的に考慮した地域調和のための,GKNet(Global-Aware Kernel Network)を提案する。 具体的には、GKNetには2つの部分がある: \ie, harmony kernel prediction と harmony kernel modulation branch である。 前者はLRE(Long-Distance Reference Extractor)とKPB(Kernel Prediction Blocks)を含んでおり、グローバル情報を局所的な特徴と融合させてマルチレベル調和カーネルを予測する。 この目的を達成するために,局所調和のための適切な長距離背景参照を選択するための新しい選択的相関融合(scf)モジュールを提案する。 後者は予測されたカーネルを使用して、前景の地域を局所的およびグローバルな認識で調和させる。 豊富な実験により、最先端の手法である \eg 上で画像調和を行う方法の優位性が示され、最大値が +0.78db $\uparrow$; fmse/mse を 11.5\%$\downarrow$/6.7\%$\downarrow$ で比較した場合、39.53db psnr が得られる。 コードは \href{https://github.com/XintianShen/GKNet}{here} で入手できる。

Image harmonization aims to solve the visual inconsistency problem in composited images by adaptively adjusting the foreground pixels with the background as references. Existing methods employ local color transformation or region matching between foreground and background, which neglects powerful proximity prior and independently distinguishes fore-/back-ground as a whole part for harmonization. As a result, they still show a limited performance across varied foreground objects and scenes. To address this issue, we propose a novel Global-aware Kernel Network (GKNet) to harmonize local regions with comprehensive consideration of long-distance background references. Specifically, GKNet includes two parts, \ie, harmony kernel prediction and harmony kernel modulation branches. The former includes a Long-distance Reference Extractor (LRE) to obtain long-distance context and Kernel Prediction Blocks (KPB) to predict multi-level harmony kernels by fusing global information with local features. To achieve this goal, a novel Selective Correlation Fusion (SCF) module is proposed to better select relevant long-distance background references for local harmonization. The latter employs the predicted kernels to harmonize foreground regions with both local and global awareness. Abundant experiments demonstrate the superiority of our method for image harmonization over state-of-the-art methods, \eg, achieving 39.53dB PSNR that surpasses the best counterpart by +0.78dB $\uparrow$; decreasing fMSE/MSE by 11.5\%$\downarrow$/6.7\%$\downarrow$ compared with the SoTA method. Code will be available at \href{https://github.com/XintianShen/GKNet}{here}.
翻訳日:2023-05-22 14:19:51 公開日:2023-05-19
# シネマティック・マインドスケープ:脳活動による高品質のビデオ再構成

Cinematic Mindscapes: High-quality Video Reconstruction from Brain Activity ( http://arxiv.org/abs/2305.11675v1 )

ライセンス: Link先を確認
Zijiao Chen, Jiaxin Qing, Juan Helen Zhou(参考訳) 脳の活動から人間の視覚を再構築することは、認知プロセスを理解するのに役立つ魅力的なタスクです。 近年の研究では、非侵襲的な脳記録から静止画像の復元に成功しているものの、連続的な視覚体験をビデオ形式で復元する作業は限られている。 本研究では,マスキング脳モデリング,時空間的注意を伴うマルチモーダルコントラスト学習,ネットワーク時間的インフレーションを組み込んだ拡張型安定拡散モデルとの共同学習を通じて,脳皮質の連続的fmriデータから時空間情報の漸進的学習を行うマインドビデオを提案する。 任意のフレームレートの高品質な映像を,敵意のガイダンスを用いてマインドビデオで再構成できることを示す。 検索したビデオは、さまざまなセマンティックおよびピクセルレベルのメトリクスで評価された。 意味的分類タスクの平均精度は85%,構造的類似度指標(ssim)は0.19であり,従来の45%を上回った。 また, 確立した生理的過程を反映して, 本モデルが生物学的に有理かつ解釈可能であることを示す。

Reconstructing human vision from brain activities has been an appealing task that helps to understand our cognitive process. Even though recent research has seen great success in reconstructing static images from non-invasive brain recordings, work on recovering continuous visual experiences in the form of videos is limited. In this work, we propose Mind-Video that learns spatiotemporal information from continuous fMRI data of the cerebral cortex progressively through masked brain modeling, multimodal contrastive learning with spatiotemporal attention, and co-training with an augmented Stable Diffusion model that incorporates network temporal inflation. We show that high-quality videos of arbitrary frame rates can be reconstructed with Mind-Video using adversarial guidance. The recovered videos were evaluated with various semantic and pixel-level metrics. We achieved an average accuracy of 85% in semantic classification tasks and 0.19 in structural similarity index (SSIM), outperforming the previous state-of-the-art by 45%. We also show that our model is biologically plausible and interpretable, reflecting established physiological processes.
翻訳日:2023-05-22 14:19:20 公開日:2023-05-19
# 英語以外のバイアス:4つの言語におけるバイアス分析におけるバイアス対策

Bias Beyond English: Counterfactual Tests for Bias in Sentiment Analysis in Four Languages ( http://arxiv.org/abs/2305.11673v1 )

ライセンス: Link先を確認
Seraphina Goldfarb-Tarrant, Adam Lopez, Roi Blanco, Diego Marcheggiani(参考訳) 感性分析(SA)システムは、多くの製品や数百の言語で使われている。 性別と人種の偏見は英語のSAシステムではよく研究されているが、他の言語では研究されていない。 これを改善するために、4つの言語で男女・人種・移民の偏見に対する反実的評価コーパスを構築した。 事前トレーニングのないベースラインと比較して、事前トレーニングされたモデルからシステムがインポートされるバイアスは、どのようなものか? 我々の評価コーパスは、非現実的であることから、どのモデルにバイアスが少ないかを明らかにするだけでなく、モデルバイアスの振る舞いの変化を指摘します。 今後の研究を促進するため、コードと評価コーパスをリリースする。

Sentiment analysis (SA) systems are used in many products and hundreds of languages. Gender and racial biases are well-studied in English SA systems, but understudied in other languages, with few resources for such studies. To remedy this, we build a counterfactual evaluation corpus for gender and racial/migrant bias in four languages. We demonstrate its usefulness by answering a simple but important question that an engineer might need to answer when deploying a system: What biases do systems import from pre-trained models when compared to a baseline with no pre-training? Our evaluation corpus, by virtue of being counterfactual, not only reveals which models have less bias, but also pinpoints changes in model bias behaviour, which enables more targeted mitigation strategies. We release our code and evaluation corpora to facilitate future research.
翻訳日:2023-05-22 14:18:58 公開日:2023-05-19
# 分散環境におけるディープラーニングのためのジェネリックパフォーマンスモデル

A Generic Performance Model for Deep Learning in a Distributed Environment ( http://arxiv.org/abs/2305.11665v1 )

ライセンス: Link先を確認
Tulasi Kavarakuntla, Liangxiu Han, Huw Lloyd, Annabel Latham, Anthony Kleerekoper, Samson B. Akintoye(参考訳) ディープラーニングアプリケーションのパフォーマンスモデリングは、モデルフレームワークの効率を改善し、定量化する上で不可欠である。 しかし、既存のパフォーマンスモデルはほとんどケース固有であり、新しいディープラーニングフレームワーク/アプリケーションには制限がある。 本稿では,本質的要因/操作(アルゴリズム的パラメータ/内部操作など)と拡張的スケーリング要因(プロセッサ数,データチャンク数,バッチサイズなど)の両方の影響を考慮した,アプリケーション実行時間の汎用表現を備えた分散環境におけるアプリケーションの汎用的パフォーマンスモデルを提案する。 大域的最適化問題として定式化し、コスト関数と微分進化アルゴリズムの正則化を用いて解き、実験的に決定された計算時間に合致する汎用式における定数の最適値を求める。 提案したモデルを3つのディープラーニングフレームワーク(TensorFlow、MXnet、Pytorch)で評価した。 実験結果は,提案モデルが精度の高い性能予測と解釈性をもたらすことを示す。 さらに、コードを設定することなく、任意の分散ディープニューラルネットワークに適用することができ、パフォーマンスとスケーラビリティに影響を与える要因に関する洞察を提供する。

Performance modelling of a deep learning application is essential to improve and quantify the efficiency of the model framework. However, existing performance models are mostly case-specific, with limited capability for the new deep learning frameworks/applications. In this paper, we propose a generic performance model of an application in a distributed environment with a generic expression of the application execution time that considers the influence of both intrinsic factors/operations (e.g. algorithmic parameters/internal operations) and extrinsic scaling factors (e.g. the number of processors, data chunks and batch size). We formulate it as a global optimization problem and solve it using regularization on a cost function and differential evolution algorithm to find the best-fit values of the constants in the generic expression to match the experimentally determined computation time. We have evaluated the proposed model on three deep learning frameworks (i.e., TensorFlow, MXnet, and Pytorch). The experimental results show that the proposed model can provide accurate performance predictions and interpretability. In addition, the proposed work can be applied to any distributed deep neural network without instrumenting the code and provides insight into the factors affecting performance and scalability.
翻訳日:2023-05-22 14:18:35 公開日:2023-05-19
# ファウショット3次元形状生成

Few-shot 3D Shape Generation ( http://arxiv.org/abs/2305.11664v1 )

ライセンス: Link先を確認
Jingyuan Zhu, Huimin Ma, Jiansheng Chen, Jian Yuan(参考訳) リアルで多様な3d形状の生成は、仮想現実、ゲーム、アニメーションといった幅広い用途に有用である。 GANや拡散モデルといった現代の生成モデルは、大規模なデータセットから学び、同様のデータ分布に従って新しいサンプルを生成する。 しかし、トレーニングデータが限られている場合、ディープニューラルネットワークはトレーニングサンプルを複製する傾向がある。 先行研究は、少数のターゲットイメージを使用して高品質で多様な結果を生成するために、少ないショット画像生成に焦点を当てている。 残念なことに、豊富な3D形状のデータも入手が難しい。 本研究では,大領域で事前学習した生成モデルを限定データを用いて対象領域に適応させることにより,少数の3次元形状生成を実現する試みを行う。 過剰フィッティングを緩和し、かなりの多様性を維持するために、適応したサンプル間の対方向相対距離の確率分布を、ドメイン適応時に特徴量レベルと形状レベルで維持する。 対象形状分布を学習し,多様なトポロジーとテクスチャで生成した形状を実現するためのトレーニングデータとして,少数のターゲットサンプルのシルエットのみを用いる。 さらに, 数発3d形状生成の質と多様性を評価するための指標をいくつか紹介する。 本手法の有効性を,数発の3次元形状適応装置で定性的かつ定量的に示す。

Realistic and diverse 3D shape generation is helpful for a wide variety of applications such as virtual reality, gaming, and animation. Modern generative models, such as GANs and diffusion models, learn from large-scale datasets and generate new samples following similar data distributions. However, when training data is limited, deep neural generative networks overfit and tend to replicate training samples. Prior works focus on few-shot image generation to produce high-quality and diverse results using a few target images. Unfortunately, abundant 3D shape data is typically hard to obtain as well. In this work, we make the first attempt to realize few-shot 3D shape generation by adapting generative models pre-trained on large source domains to target domains using limited data. To relieve overfitting and keep considerable diversity, we propose to maintain the probability distributions of the pairwise relative distances between adapted samples at feature-level and shape-level during domain adaptation. Our approach only needs the silhouettes of few-shot target samples as training data to learn target geometry distributions and achieve generated shapes with diverse topology and textures. Moreover, we introduce several metrics to evaluate the quality and diversity of few-shot 3D shape generation. The effectiveness of our approach is demonstrated qualitatively and quantitatively under a series of few-shot 3D shape adaptation setups.
翻訳日:2023-05-22 14:17:59 公開日:2023-05-19
# 人文科学方法論としてのアルゴリズムの失敗--機械学習の誤予測が質的分析のリッチケースを特定する

Algorithmic failure as a humanities methodology: machine learning's mispredictions identify rich cases for qualitative analysis ( http://arxiv.org/abs/2305.11663v1 )

ライセンス: Link先を確認
Jill Walker Rettberg(参考訳) この解説では、機械学習で失敗した予測を定性解析のために曖昧でリッチなケースを特定する方法として、munkら (2022) が提案した手法を検証している。 私は500のアートワーク、映画、小説、ビデオゲームにおいて、架空のキャラクターがマシンビジョン技術と相互作用するアクションを記述するデータセットを用いて、単純な機械学習アルゴリズム(RではkNNアルゴリズムを使用して)を訓練し、架空のキャラクターに関する情報のみを用いて、アクションがアクティブか受動的かを予測する。 予測可能な行動は一般的に、マシンビジョン技術が単純なツールとして扱われる、非感情的で曖昧な活動であった。 予測不能なアクション、すなわちアルゴリズムが正しく予測できなかったアクションは、文字と技術の間により複雑な力関係を持ち、よりあいまいで感情的にロードされた。 この結果は、失敗予測は質的分析のリッチケースを特定するために生産的に使用できるというMunkらの理論を支持する。 このテストは、Munkなどの結果を単純に複製するだけでなく、このメソッドがより広い人文科学領域に適用可能であること、複雑なニューラルネットワークを必要としないこと、そしてより単純な機械学習アルゴリズムでも動作できることを証明している。 この手法がどのようなデータに有用で、どの機械学習が最も生成的かを理解するためには、さらなる研究が必要である。 これをサポートするために、結果を生成するために必要なRコードが含まれているので、テストは複製できる。 コードは再利用したり、他のデータセットでメソッドをテストするために適用することもできる。

This commentary tests a methodology proposed by Munk et al. (2022) for using failed predictions in machine learning as a method to identify ambiguous and rich cases for qualitative analysis. Using a dataset describing actions performed by fictional characters interacting with machine vision technologies in 500 artworks, movies, novels and videogames, I trained a simple machine learning algorithm (using the kNN algorithm in R) to predict whether or not an action was active or passive using only information about the fictional characters. Predictable actions were generally unemotional and unambiguous activities where machine vision technologies were treated as simple tools. Unpredictable actions, that is, actions that the algorithm could not correctly predict, were more ambivalent and emotionally loaded, with more complex power relationships between characters and technologies. The results thus support Munk et al.'s theory that failed predictions can be productively used to identify rich cases for qualitative analysis. This test goes beyond simply replicating Munk et al.'s results by demonstrating that the method can be applied to a broader humanities domain, and that it does not require complex neural networks but can also work with a simpler machine learning algorithm. Further research is needed to develop an understanding of what kinds of data the method is useful for and which kinds of machine learning are most generative. To support this, the R code required to produce the results is included so the test can be replicated. The code can also be reused or adapted to test the method on other datasets.
翻訳日:2023-05-22 14:17:32 公開日:2023-05-19
# 放射線治療におけるディープラーニングセグメンテーションモデルのリアルタイムモニタリングのための品質保証フレームワーク

A quality assurance framework for real-time monitoring of deep learning segmentation models in radiotherapy ( http://arxiv.org/abs/2305.11715v1 )

ライセンス: Link先を確認
Xiyao Jin, Yao Hao, Jessica Hilliard, Zhehao Zhang, Maria A. Thomas, Hua Li, Abhinav K. Jha, Geoffrey D. Hugo(参考訳) 臨床施設における深層学習モデルの安全な展開には,入力領域シフトとモデル性能の定期的・連続的な監視を行うための品質保証フレームワークが必要である。 本研究では,QAフレームワーク構築の例として,心部分構造セグメンテーションを用いた。 心電図(CT)画像と241人の患者の手動心電図によるベンチマークデータセットを収集し,1つの「共通」画像領域と5つの「共通」画像領域を抽出した。 セグメンテーションモデルは、モデルのキャパシティと制限の初期評価のためにベンチマークデータセットでテストされた。 denoising autoencoder (dae) と2つのハンドエンジニアリング機能を用いて画像領域シフト検出器を開発した。 もうひとつの変分オートエンコーダ (VAE) も, オートセグメンテーション結果の形状品質を推定するために訓練された。 画像分割ペアから抽出した特徴を入力として,Dice係数類似度(DSC)を用いて患者ごとのセグメンテーション精度を予測する回帰モデルを訓練した。 このフレームワークは、フレームワーク全体の一般化性を評価するために、19のセグメンテーションモデルでテストされた。 その結果,予測された回帰モデルのDSCは平均絶対誤差(MAE)を0.036から0.046の範囲で達成した。 ベンチマークデータセットでテストすると、すべてのセグメンテーションモデルのパフォーマンスは、fov、スライス厚、レコンストラクションカーネルといった走査パラメータにはあまり影響されなかった。 Poissonノイズの入力画像の場合、CNNベースのセグメンテーションモデルは0.07から0.41まで減少し、トランスフォーマーベースのモデルは大きな影響を受けなかった。

To safely deploy deep learning models in the clinic, a quality assurance framework is needed for routine or continuous monitoring of input-domain shift and the models' performance without ground truth contours. In this work, cardiac substructure segmentation was used as an example task to establish a QA framework. A benchmark dataset consisting of Computed Tomography (CT) images along with manual cardiac delineations of 241 patients were collected, including one 'common' image domain and five 'uncommon' domains. Segmentation models were tested on the benchmark dataset for an initial evaluation of model capacity and limitations. An image domain shift detector was developed by utilizing a trained Denoising autoencoder (DAE) and two hand-engineered features. Another Variational Autoencoder (VAE) was also trained to estimate the shape quality of the auto-segmentation results. Using the extracted features from the image/segmentation pair as inputs, a regression model was trained to predict the per-patient segmentation accuracy, measured by Dice coefficient similarity (DSC). The framework was tested across 19 segmentation models to evaluate the generalizability of the entire framework. As results, the predicted DSC of regression models achieved a mean absolute error (MAE) ranging from 0.036 to 0.046 with an averaged MAE of 0.041. When tested on the benchmark dataset, the performances of all segmentation models were not significantly affected by scanning parameters: FOV, slice thickness and reconstructions kernels. For input images with Poisson noise, CNN-based segmentation models demonstrated a decreased DSC ranging from 0.07 to 0.41, while the transformer-based model was not significantly affected.
翻訳日:2023-05-22 14:09:28 公開日:2023-05-19
# 時間の矢印と量子物理学

Arrow of time and quantum physics ( http://arxiv.org/abs/2305.11709v1 )

ライセンス: Link先を確認
Detlev Buchholz and Klaus Fredenhagen(参考訳) 可逆的でない)時間の矢印はどのシステムにも固有のものであるという仮説に基づいて、どんなに小さくても結果が議論される。 局所量子物理学の枠組みの中で、そのような時間の半群作用がミンコフスキー空間における時空変換の群に一貫して拡張できることが示される。 しかし、質量のない励起の存在下では、過去への時間翻訳の理論的拡張に曖昧さが生じる。 対応する状態に関する量子情報の時間的損失を判定する。 最後に、古典的な用語による操作の記述と時間の矢印による制約が量子理論の枠組みにどのように結びつくかを説明する。 これらの結果は、時間の矢印は自然界において基本であり、第二法則が基づく統計効果の結果ではないことを示唆している。

Based on the hypothesis that the (non-reversible) arrow of time is intrinsic in any system, no matter how small, the consequences are discussed. Within the framework of local quantum physics it is shown how such a semi-group action of time can consistently be extended to that of the group of spacetime translations in Minkowski space. In presence of massless excitations, however, there arise ambiguities in the theoretical extensions of the time translations to the past. The corresponding loss of quantum information on states upon time is determined. Finally, it is explained how the description of operations in classical terms combined with constraints imposed by the arrow of time leads to a quantum theoretical framework. These results suggest that the arrow of time is fundamental in nature and not merely a consequence of statistical effects on which the Second Law is based.
翻訳日:2023-05-22 14:08:59 公開日:2023-05-19
# 次は何だ? 人為的生産変動に対するニューラルテキスト生成装置の不確かさの評価

What Comes Next? Evaluating Uncertainty in Neural Text Generators Against Human Production Variability ( http://arxiv.org/abs/2305.11707v1 )

ライセンス: Link先を確認
Mario Giulianelli, Joris Baan, Wilker Aziz, Raquel Fern\'andez, Barbara Plank(参考訳) 自然言語生成(nlg)タスクでは、任意の入力に対して、複数のコミュニケーション目標が実現可能であり、任意の目標を複数の方法で単語や生成することができる。 我々は,人間の生産能力が4つのnlgタスクにまたがって語彙的,構文的,意味的に変動する程度を特徴とし,人間の生産変動をアレータリックやデータ不確かさに結びつける。 次に、生成システムの予測確率分布と復号アルゴリズムによって形成される出力文字列の空間を検査し、その不確かさを調べる。 テスト入力毎に, 発電機のキャリブレーションと人為的生産変動を計測する。 このインスタンスレベルのアプローチに従うと、NLGモデルとデコード戦略を分析し、生成元を複数のサンプルで探索し、可能であれば複数の参照がモデルの不確実性の表現を理解するために必要な詳細レベルを提供する。

In Natural Language Generation (NLG) tasks, for any input, multiple communicative goals are plausible, and any goal can be put into words, or produced, in multiple ways. We characterise the extent to which human production varies lexically, syntactically, and semantically across four NLG tasks, connecting human production variability to aleatoric or data uncertainty. We then inspect the space of output strings shaped by a generation system's predicted probability distribution and decoding algorithm to probe its uncertainty. For each test input, we measure the generator's calibration to human production variability. Following this instance-level approach, we analyse NLG models and decoding strategies, demonstrating that probing a generator with multiple samples and, when possible, multiple references, provides the level of detail necessary to gain understanding of a model's representation of uncertainty.
翻訳日:2023-05-22 14:08:49 公開日:2023-05-19
# 位置依存有効質量を持つ半畳み調和振動子モデルの動的対称性

Dynamical symmetry of a semiconfined harmonic oscillator model with a position-dependent effective mass ( http://arxiv.org/abs/2305.11702v1 )

ライセンス: Link先を確認
E.I. Jafarov and S.M. Nagiyev(参考訳) 位置依存有効質量を持つ半閉調和振動子モデルの動的対称性代数を構築する。 ハミルトニアンのよく知られた分解方法として出発点を選択すると、この代数の3つの基底要素が見つかる。 これらの基底元を通して定義される代数は、$\mathfrak{su}\left(1,1 \right)$ Heisenberg-Lie algebra である。 非相対論的量子調和振動子のハイゼンベルク・ワイル代数に対する基底元からの異なる特別な場合と極限関係についても論じる。

Dynamical symmetry algebra for a semiconfined harmonic oscillator model with a position-dependent effective mass is constructed. Selecting the starting point as a well-known factorization method of the Hamiltonian under consideration, we have found three basis elements of this algebra. The algebra defined through those basis elements is a $\mathfrak{su}\left(1,1 \right)$ Heisenberg-Lie algebra. Different special cases and the limit relations from the basis elements to the Heisenberg-Weyl algebra of the non-relativistic quantum harmonic oscillator are discussed, too.
翻訳日:2023-05-22 14:08:32 公開日:2023-05-19
# S-JEA:自己監督型視覚表現学習のためのスタック型共同埋め込みアーキテクチャ

S-JEA: Stacked Joint Embedding Architectures for Self-Supervised Visual Representation Learning ( http://arxiv.org/abs/2305.11701v1 )

ライセンス: Link先を確認
Al\v{z}b\v{e}ta Manov\'a, Aiden Durrant and Georgios Leontidis(参考訳) イメージ表現を学習するための基本パラダイムとして,近年の自己監視学習(SSL)の出現は,さまざまなタスクにおいて高い経験的成功を証明し続けている。 しかし、ほとんどのSSLアプローチは、分離可能で解釈可能な階層的なセマンティック概念をキャプチャする埋め込みを学ばない。 本研究では,ハイレベルなJEAが低レベルなJEAの表現によって入力されるJEA(Joint Embedding Architectures)を積み重ねることで,高度に分離可能な意味階層表現を学習することを目的とする。 これにより、高レベルのJEAにおける意味概念(例えば、車両のモデルと色)の異なるサブカテゴリを示す表現空間が得られる。 重ねられたJEAの表現は、比較パラメータ数を持つ従来のJEAと同様のレベルで動作し、表現空間を視覚化し、意味的階層性を検証することを実証的に示す。

The recent emergence of Self-Supervised Learning (SSL) as a fundamental paradigm for learning image representations has, and continues to, demonstrate high empirical success in a variety of tasks. However, most SSL approaches fail to learn embeddings that capture hierarchical semantic concepts that are separable and interpretable. In this work, we aim to learn highly separable semantic hierarchical representations by stacking Joint Embedding Architectures (JEA) where higher-level JEAs are input with representations of lower-level JEA. This results in a representation space that exhibits distinct sub-categories of semantic concepts (e.g., model and colour of vehicles) in higher-level JEAs. We empirically show that representations from stacked JEA perform on a similar level as traditional JEA with comparative parameter counts and visualise the representation spaces to validate the semantic hierarchies.
翻訳日:2023-05-22 14:08:25 公開日:2023-05-19
# RGCVAE:分子設計のための関係グラフ条件変分オートエンコーダ

RGCVAE: Relational Graph Conditioned Variational Autoencoder for Molecule Design ( http://arxiv.org/abs/2305.11699v1 )

ライセンス: Link先を確認
Davide Rigoni, Nicol\`o Navarin, Alessandro Sperduti(参考訳) 事前特定された性質を示す分子の同定は、解決が難しい問題である。 ここ数年、分子生成に深い生成モデルが使われてきた。 Deep Graph Variational Autoencodersは、この問題に対処可能な、最も強力な機械学習ツールのひとつだ。 しかし、既存の手法は真のデータ分布を捉えるのに苦労し、計算コストがかかる傾向にある。 本研究では,効率良く効率的なグラフ変動オートエンコーダであるrpcvaeを提案する。 (i)新しい強力なリレーショナルグラフ同型ネットワークを利用した符号化ネットワーク (ii)新しい確率的復号化成分。 RGCVAEは、2つの広く採用されているデータセット上での最先端のVAE法と比較して、最先端の分子生成性能を示しながら、トレーニングがかなり高速である。

Identifying molecules that exhibit some pre-specified properties is a difficult problem to solve. In the last few years, deep generative models have been used for molecule generation. Deep Graph Variational Autoencoders are among the most powerful machine learning tools with which it is possible to address this problem. However, existing methods struggle in capturing the true data distribution and tend to be computationally expensive. In this work, we propose RGCVAE, an efficient and effective Graph Variational Autoencoder based on: (i) an encoding network exploiting a new powerful Relational Graph Isomorphism Network; (ii) a novel probabilistic decoding component. Compared to several state-of-the-art VAE methods on two widely adopted datasets, RGCVAE shows state-of-the-art molecule generation performance while being significantly faster to train.
翻訳日:2023-05-22 14:08:09 公開日:2023-05-19
# 結合チャネルにおける不安定状態の生存確率 -threshold-cuspの非指数崩壊-

Survival Probability of Unstable States in Coupled-Channels -- nonexponential decay of "threshold-cusp" ( http://arxiv.org/abs/2305.11695v1 )

ライセンス: Link先を確認
Wren A. Yamada, Osamu Morimatsu, Toru Sato, Koichi Yazaki(参考訳) 本研究では,不安定状態の生存確率,初期状態の時間依存性を結合チャネルで検討する。 まず, 生存確率の定式化を単一チャネルから連結チャネル(2チャンネル)へ拡張する。 我々は,結合チャネルs行列を単値化する方法である一様化法と,mittag-leffler展開法,すなわち極展開法を用いて,二チャネル生存確率の正確な一般表現を導出する。 次に,2チャンネル生存確率の時間依存性を導出式を用いて算出する。 これは複素エネルギー平面における極と物理的領域の間の最小距離であり、極エネルギーの想像的な部分ではなく、グリーン関数のエネルギースペクトルだけでなく生存確率も決定する。 異常な複素エネルギーリーマンシート上の極によって引き起こされる「threshold-cusp」の生存確率は、極エネルギーの虚部が正であるにもかかわらず、時間とともに成長することはない。 また,「threshold-cusp」の崩壊は非指数的であることを示した。 したがって、"Threshold-cusp"は、結合チャネルでのみ見られる、新しいタイプの不安定モードであることが示されている。

We investigate the survival probability of unstable states, the time-dependence of an initial state, in coupled channels. First, we extend the formulation of the survival probability from single channel to coupled channels (two channels). We derive an exact general expression of the two-channel survival probability using uniformization, a method which makes the coupled-channel S matrix single-valued, and the Mittag-Leffler expansion, i.e. a pole expansion. Second, we calculate the time dependence of the two-channel survival probability by employing the derived expression. It is the minimal distance between the pole and the physical region in the complex energy plane, not the imaginary part of the pole energy, which determines not only the energy spectrum of the Green's function but also the survival probability. The survival probability of the "threshold-cusp" caused by a pole on the unusual complex-energy Riemann sheet is shown to decay, not grow in time though the imaginary part of the pole energy is positive. We also show that the decay of the "threshold-cusp" is non-exponential. Thus, the "threshold-cusp" is shown to be a new type of unstable mode, which is found only in coupled channels.
翻訳日:2023-05-22 14:07:58 公開日:2023-05-19
# quest: 暗黙のセット操作によるエンティティ参照クエリの検索データセット

QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations ( http://arxiv.org/abs/2305.11694v1 )

ライセンス: Link先を確認
Chaitanya Malaviya, Peter Shaw, Ming-Wei Chang, Kenton Lee, Kristina Toutanova(参考訳) 選択的な情報の定式化は、整合性、和合性、差分などの集合演算を暗黙的に指定するクエリの結果を必要とする。 例えば、"shorebirds that not sandpiper"や"science-fiction films shot in england"を探すことができる。 このような情報ニーズを満たす検索システムの能力を検討するために,wikipedia文書に対応するエンティティ群にマップする,暗黙のセット操作を伴う3357の自然言語クエリのデータセットquestを構築した。 データセットは、クエリで言及される複数の制約とドキュメント内の対応する証拠を一致させ、さまざまなセット操作を正しく実行するモデルに挑戦する。 データセットはWikipediaのカテゴリ名を使って半自動で構築される。 クエリは、個々のカテゴリから自動的に構成され、次にパラフレーズされ、クラウドワーカーによる自然さとフルエンシーについてさらに検証される。 クラウドワーカーはまた、ドキュメントに基づいてエンティティの関連性を評価し、ドキュメントテキストのスパンに対するクエリ制約の属性を強調する。 我々は,現代の検索システムを分析し,そのようなクエリに苦しむことが多いことを発見した。 否定と結合に関するクエリは特に困難であり、システムはこれらの操作の組み合わせでさらに挑戦される。

Formulating selective information needs results in queries that implicitly specify set operations, such as intersection, union, and difference. For instance, one might search for "shorebirds that are not sandpipers" or "science-fiction films shot in England". To study the ability of retrieval systems to meet such information needs, we construct QUEST, a dataset of 3357 natural language queries with implicit set operations, that map to a set of entities corresponding to Wikipedia documents. The dataset challenges models to match multiple constraints mentioned in queries with corresponding evidence in documents and correctly perform various set operations. The dataset is constructed semi-automatically using Wikipedia category names. Queries are automatically composed from individual categories, then paraphrased and further validated for naturalness and fluency by crowdworkers. Crowdworkers also assess the relevance of entities based on their documents and highlight attribution of query constraints to spans of document text. We analyze several modern retrieval systems, finding that they often struggle on such queries. Queries involving negation and conjunction are particularly challenging and systems are further challenged with combinations of these operations.
翻訳日:2023-05-22 14:07:39 公開日:2023-05-19
# 手術用VQLA:ロボット手術における視覚的質問応答のための視線埋め込み型トランスフォーマー

Surgical-VQLA: Transformer with Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery ( http://arxiv.org/abs/2305.11692v1 )

ライセンス: Link先を確認
Long Bai, Mobarakol Islam, Lalithkumar Seenivasan, Hongliang Ren(参考訳) コンピュータ支援シミュレーターが利用可能であり、外科手術のビデオが録画されているにもかかわらず、ジュニア住民はまだ専門家に頼って質問に答えている。 しかし、専門家の外科医は、しばしば臨床や学術的な作業が過負荷になり、答えの時間が制限される。 そこで,本研究では,ロボット支援による手術シーンと映像からの活動理解を容易にする手術質問応答システムを開発した。 既存のVQA手法の多くは、視覚的特徴を抽出し、答え生成のための質問の埋め込みテキストと融合するために、オブジェクト検出器と領域ベースの特徴抽出器を必要とする。 しかし,(1)データセットの縮小やバウンディングボックスアノテーションの欠如,(2)テキストや画像などの不均一なモダリティの現在の融合戦略はナイーブであり,(3)局所的な応答が欠如しており,複雑な手術シナリオにおいて極めて重要である。 本稿では,ロボット手術における視覚的質問応答(Visual Question Localized-Answering in Robotic Surgery (Surgical-VQLA))を提案する。 不均一なモダリティの融合に対処するため,我々は,Language Vision Transformer (LViT) の入力パッチを構築するためにゲート型視覚言語埋め込み (GVLE) を設計した。 ローカライゼーションを実現するために,LViTの予測ヘッドと並列に検出ヘッドを追加する。 また、GIoU損失を統合して、質問応答モデルの精度を保ち、ローカライズ性能を向上させる。 我々は,miccaiの手術ビデオを利用してvqlaの2つのデータセットをアノテートし,endovis-17と18に挑戦する。 以上の結果から,外科的VQLAは外科的シーンをよりよく理解し,質問応答に関連する特定の領域を局所化できる可能性が示唆された。 GVLEは、既存のベンチマークよりも優れた性能を示すことで、効率的な言語ビジョンの埋め込み技術を示す。

Despite the availability of computer-aided simulators and recorded videos of surgical procedures, junior residents still heavily rely on experts to answer their queries. However, expert surgeons are often overloaded with clinical and academic workloads and limit their time in answering. For this purpose, we develop a surgical question-answering system to facilitate robot-assisted surgical scene and activity understanding from recorded videos. Most of the existing VQA methods require an object detector and regions based feature extractor to extract visual features and fuse them with the embedded text of the question for answer generation. However, (1) surgical object detection model is scarce due to smaller datasets and lack of bounding box annotation; (2) current fusion strategy of heterogeneous modalities like text and image is naive; (3) the localized answering is missing, which is crucial in complex surgical scenarios. In this paper, we propose Visual Question Localized-Answering in Robotic Surgery (Surgical-VQLA) to localize the specific surgical area during the answer prediction. To deal with the fusion of the heterogeneous modalities, we design gated vision-language embedding (GVLE) to build input patches for the Language Vision Transformer (LViT) to predict the answer. To get localization, we add the detection head in parallel with the prediction head of the LViT. We also integrate GIoU loss to boost localization performance by preserving the accuracy of the question-answering model. We annotate two datasets of VQLA by utilizing publicly available surgical videos from MICCAI challenges EndoVis-17 and 18. Our validation results suggest that Surgical-VQLA can better understand the surgical scene and localize the specific area related to the question-answering. GVLE presents an efficient language-vision embedding technique by showing superior performance over the existing benchmarks.
翻訳日:2023-05-22 14:07:20 公開日:2023-05-19
# トランスoral tracheal intubationにおけるsim-to-real segmentation

Sim-to-Real Segmentation in Robot-assisted Transoral Tracheal Intubation ( http://arxiv.org/abs/2305.11686v1 )

ライセンス: Link先を確認
Guankun Wang, Tian-Ao Ren, Jiewen Lai, Long Bai, Hongliang Ren(参考訳) ロボットによる気管挿管では、経験豊富な医師のような解剖学的特徴をディープラーニング技術で区別する必要がある。 しかし,臓器の実際のデータセットはプライバシの問題により制限されており,正確な画像分割のためのディープラーニングモデルのトレーニングが困難である。 ここでは,仮想環境を通じて新たなデータモダリティを生成し,トレーニングプロセスを支援することを検討する。 具体的には、シミュレーションオープンフレームワークアーキテクチャ(SOFA)フレームワークによって生成された仮想データセットを導入し、実際の内視鏡画像の限られた可用性を克服する。 また,IoU-Ranking Blend (IRB) と呼ばれる画像ブレンディング戦略と,データセット間の不一致に対処するスタイル転送技術を用いて,咽頭臓器画像分割のためのドメイン適応型Sim-to-Real手法を提案する。 実験により,提案手法のドメイン適応モデルによる性能向上,セグメンテーション精度の向上,トレーニング安定性の向上が示された。 実用的応用において,訓練されたセグメンテーションモデルは,ロボット支援インキュベーション手術とインテリジェントな手術ナビゲーションに非常に有望である。

Robotic-assisted tracheal intubation requires the robot to distinguish anatomical features like an experienced physician using deep-learning techniques. However, real datasets of oropharyngeal organs are limited due to patient privacy issues, making it challenging to train deep-learning models for accurate image segmentation. We hereby consider generating a new data modality through a virtual environment to assist the training process. Specifically, this work introduces a virtual dataset generated by the Simulation Open Framework Architecture (SOFA) framework to overcome the limited availability of actual endoscopic images. We also propose a domain adaptive Sim-to-Real method for oropharyngeal organ image segmentation, which employs an image blending strategy called IoU-Ranking Blend (IRB) and style-transfer techniques to address discrepancies between datasets. Experimental results demonstrate the superior performance of the proposed approach with domain adaptive models, improving segmentation accuracy and training stability. In the practical application, the trained segmentation model holds great promise for robot-assisted intubation surgery and intelligent surgical navigation.
翻訳日:2023-05-22 14:06:43 公開日:2023-05-19
# CRITIC: ツール・インタラクティブ・クオリティクスによる大規模言語モデルの自動修正

CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing ( http://arxiv.org/abs/2305.11738v1 )

ライセンス: Link先を確認
Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Nan Duan, Weizhu Chen(参考訳) 大規模言語モデル(LLM)の最近の発展は印象的だ。 しかしながら、これらのモデルは、幻覚的な事実、欠陥コードの生成、攻撃的で有害なコンテンツの作成など、矛盾や問題のある振る舞いを示すこともある。 これらのモデルとは異なり、人間は通常、外部ツールを使用して、ファクトチェックの検索エンジンやデバッグのコードインタプリタなど、初期コンテンツをクロスチェックし、洗練する。 この観察にインスパイアされたCRITICと呼ばれるフレームワークは、基本的には「ブラックボックス」であり、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と段階的な修正を可能にする。 具体的には、初期出力から始めると、CRITICはテキストの特定の側面を評価するための適切なツールと対話し、この検証プロセスで得られたフィードバックに基づいて出力を更新する。 自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを示す。 一方,本研究は,LLMの自己改善を促進する上で,外部からのフィードバックの重要性を強調している。

Recent developments in large language models (LLMs) have been impressive. However, these models sometimes show inconsistencies and problematic behavior, such as hallucinating facts, generating flawed code, or creating offensive and toxic content. Unlike these models, humans typically utilize external tools to cross-check and refine their initial content, like using a search engine for fact-checking, or a code interpreter for debugging. Inspired by this observation, we introduce a framework called CRITIC that allows LLMs, which are essentially "black boxes" to validate and progressively amend their own outputs in a manner similar to human interaction with tools. More specifically, starting with an initial output, CRITIC interacts with appropriate tools to evaluate certain aspects of the text, and then revises the output based on the feedback obtained during this validation process. Comprehensive evaluations involving free-form question answering, mathematical program synthesis, and toxicity reduction demonstrate that CRITIC consistently enhances the performance of LLMs. Meanwhile, our research highlights the crucial importance of external feedback in promoting the ongoing self-improvement of LLMs.
翻訳日:2023-05-22 14:01:38 公開日:2023-05-19
# Gaussian Clouded Logit Adjustmentによる長期視覚認識

Long-tailed Visual Recognition via Gaussian Clouded Logit Adjustment ( http://arxiv.org/abs/2305.11733v1 )

ライセンス: Link先を確認
Mengke Li, Yiu-ming Cheung, Yang Lu(参考訳) 長い尾を持つデータは、バランスの取れたデータで大きな成功を収めたにもかかわらず、ディープニューラルネットワークにとって依然として大きな課題である。 その結果,長い尾を持つデータに対するバニラトレーニングでは,インスタンスに富んだ頭部クラスが尾クラスの空間分布を厳しく制限し,尾クラスの分類が困難になることがわかった。 さらに、元のクロスエントロピー損失は、ロジット差が増加するにつれてソフトマックスフォームの勾配が急速にゼロに近づくため、勾配を短命にしか伝播できない。 この現象はソフトマックス飽和と呼ばれる。 バランスのとれたデータのトレーニングには不向きであるが、ロングテールデータにおけるサンプルの有効性を調整できるため、ロングテール問題の歪んだ埋め込み空間を解決できる。 そこで本研究では,様々な振幅の異なるクラスロジットのガウス摂動によるガウス雲状ロジット調整を提案する。 我々は摂動の振幅をクラウドサイズと定義し、比較的大きなクラウドサイズをテールクラスに設定する。 雲の大きさが大きいとソフトマックスの飽和が減少し、テールクラスのサンプルがより活発になり、埋め込みスペースが拡大する。 そこで,分類器のバイアスを軽減するために,分類器の再学習を伴うクラスベース有効数サンプリング戦略を提案する。 ベンチマークデータセットに関する広範な実験は、提案手法の優れた性能を検証する。 ソースコードはhttps://github.com/Keke921/GCLLossで入手できる。

Long-tailed data is still a big challenge for deep neural networks, even though they have achieved great success on balanced data. We observe that vanilla training on long-tailed data with cross-entropy loss makes the instance-rich head classes severely squeeze the spatial distribution of the tail classes, which leads to difficulty in classifying tail class samples. Furthermore, the original cross-entropy loss can only propagate gradient short-lively because the gradient in softmax form rapidly approaches zero as the logit difference increases. This phenomenon is called softmax saturation. It is unfavorable for training on balanced data, but can be utilized to adjust the validity of the samples in long-tailed data, thereby solving the distorted embedding space of long-tailed problems. To this end, this paper proposes the Gaussian clouded logit adjustment by Gaussian perturbation of different class logits with varied amplitude. We define the amplitude of perturbation as cloud size and set relatively large cloud sizes to tail classes. The large cloud size can reduce the softmax saturation and thereby making tail class samples more active as well as enlarging the embedding space. To alleviate the bias in a classifier, we therefore propose the class-based effective number sampling strategy with classifier re-training. Extensive experiments on benchmark datasets validate the superior performance of the proposed method. Source code is available at https://github.com/Keke921/GCLLoss.
翻訳日:2023-05-22 14:01:20 公開日:2023-05-19
# 多対多深層ニューラルネットワークを用いたペルシャタイポグラフィー型誤り検出法

Persian Typographical Error Type Detection using Many-to-Many Deep Neural Networks on Algorithmically-Generated Misspellings ( http://arxiv.org/abs/2305.11731v1 )

ライセンス: Link先を確認
Mohammad Dehghani, Heshaam Faili(参考訳) デジタル技術は、様々な言語、スタイル、フォーマットで毎日作成されるテキストの流入につながっている。 スペルチェックシステムの人気は、デジタル化されたテキストの洗練に欠かせないため、この現象に起因していると考えられる。 本研究では,ペルシャ語におけるタイポグラフィーの誤り型検出について検討した。 本稿では,多種多様な話題や言語スタイルをタグづけした3.4百万の時系列順とパート・オブ・スパイクのタグ付き単語を含む,farstypoという公開データセットを提案する。 ペルシア語固有の誤りを適用するアルゴリズムを開発し、これらの単語のスケーラブルなサイズに適用し、正誤の並列データセットを形成する。 farstypo を用いて強固なベースラインを確立し,様々なアーキテクチャを用いて異なる方法論を比較する。 さらに, 単語と文字の埋め込みと双方向のLSTMレイヤを併用してトークン分類を行い, 51のクラスにまたがるタイポグラフィ的誤りを検出する新しいMulti-to-Many Deep Sequential Neural Networkを提案する。 本研究と異なり,多種多様な資源を用いて開発してきた高度産業システムとの比較を行った。 最終手法の結果は、97.62%の精度、98.83%の精度、98.61%のリコールを達成し、残りの性能をスピードで上回った。

Digital technologies have led to an influx of text created daily in a variety of languages, styles, and formats. A great deal of the popularity of spell-checking systems can be attributed to this phenomenon since they are crucial to polishing the digitally conceived text. In this study, we tackle Typographical Error Type Detection in Persian, which has been relatively understudied. In this paper, we present a public dataset named FarsTypo, containing 3.4 million chronologically ordered and part-of-speech tagged words of diverse topics and linguistic styles. An algorithm for applying Persian-specific errors is developed and applied to a scalable size of these words, forming a parallel dataset of correct and incorrect words. Using FarsTypo, we establish a firm baseline and compare different methodologies using various architectures. In addition, we present a novel Many-to-Many Deep Sequential Neural Network to perform token classification using both word and character embeddings in combination with bidirectional LSTM layers to detect typographical errors across 51 classes. We compare our approach with highly-advanced industrial systems that, unlike this study, have been developed utilizing a variety of resources. The results of our final method were competitive in that we achieved an accuracy of 97.62%, a precision of 98.83%, a recall of 98.61%, and outperformed the rest in terms of speed.
翻訳日:2023-05-22 14:00:57 公開日:2023-05-19
# ViDaSビデオ深度対応サリエンシネットワーク

ViDaS Video Depth-aware Saliency Network ( http://arxiv.org/abs/2305.11729v1 )

ライセンス: Link先を確認
Ioanna Diamanti, Antigoni Tsiami, Petros Koutras and Petros Maragos(参考訳) We introduce ViDaS, a two-stream, fully convolutional Video, Depth-Aware Saliency network to address the problem of attention modeling ``in-the-wild", via saliency prediction in videos. Contrary to existing visual saliency approaches using only RGB frames as input, our network employs also depth as an additional modality. The network consists of two visual streams, one for the RGB frames, and one for the depth frames. Both streams follow an encoder-decoder approach and are fused to obtain a final saliency map. The network is trained end-to-end and is evaluated in a variety of different databases with eye-tracking data, containing a wide range of video content. Although the publicly available datasets do not contain depth, we estimate it using three different state-of-the-art methods, to enable comparisons and a deeper insight. Our method outperforms in most cases state-of-the-art models and our RGB-only variant, which indicates that depth can be beneficial to accurately estimating saliency in videos displayed on a 2D screen. Depth has been widely used to assist salient object detection problems, where it has been proven to be very beneficial. Our problem though differs significantly from salient object detection, since it is not restricted to specific salient objects, but predicts human attention in a more general aspect. These two problems not only have different objectives, but also different ground truth data and evaluation metrics. To our best knowledge, this is the first competitive deep learning video saliency estimation approach that combines both RGB and Depth features to address the general problem of saliency estimation ``in-the-wild". コードは公開される予定だ。

We introduce ViDaS, a two-stream, fully convolutional Video, Depth-Aware Saliency network to address the problem of attention modeling ``in-the-wild", via saliency prediction in videos. Contrary to existing visual saliency approaches using only RGB frames as input, our network employs also depth as an additional modality. The network consists of two visual streams, one for the RGB frames, and one for the depth frames. Both streams follow an encoder-decoder approach and are fused to obtain a final saliency map. The network is trained end-to-end and is evaluated in a variety of different databases with eye-tracking data, containing a wide range of video content. Although the publicly available datasets do not contain depth, we estimate it using three different state-of-the-art methods, to enable comparisons and a deeper insight. Our method outperforms in most cases state-of-the-art models and our RGB-only variant, which indicates that depth can be beneficial to accurately estimating saliency in videos displayed on a 2D screen. Depth has been widely used to assist salient object detection problems, where it has been proven to be very beneficial. Our problem though differs significantly from salient object detection, since it is not restricted to specific salient objects, but predicts human attention in a more general aspect. These two problems not only have different objectives, but also different ground truth data and evaluation metrics. To our best knowledge, this is the first competitive deep learning video saliency estimation approach that combines both RGB and Depth features to address the general problem of saliency estimation ``in-the-wild". The code will be publicly released.
翻訳日:2023-05-22 14:00:34 公開日:2023-05-19
# 非教師的CAEアプローチによるより透明で正確な癌診断に向けて

Towards More Transparent and Accurate Cancer Diagnosis with an Unsupervised CAE Approach ( http://arxiv.org/abs/2305.11728v1 )

ライセンス: Link先を確認
Zahra Tabatabaei, Adrian Colomer, Javier Oliver Moll, Valery Naranjo(参考訳) デジタル病理学は、CBMIR(Content-Based Medical Image Retrieval)を用いて、病理組織学的全スライド画像(WSIs)を分析し、がん診断に革命をもたらした。 CBMIRは類似したコンテンツの検索を可能にし、診断の信頼性と精度を向上させる。 2020年、乳がんと前立腺がんはそれぞれ11.7%と14.1%を占め、Global Cancer Observatory (GCO)が報告した。 提案した Unsupervised CBMIR (UCBMIR) は従来のがん診断ワークフローを再現し、WSIベースの診断結論における病理医を支援するための信頼性の高い方法を提供する。 このアプローチは病理医の作業負荷を軽減し、診断効率を向上させる可能性がある。 cbmirにおけるラベル付き病理像の欠如に対処すべく,cae(unsupervised convolutional auto encoder)をカスタマイズし,検索エンジンコンポーネントの画像毎に200個の特徴を抽出した。 UCBMIR は CBMIR で広く使われている数値手法を用いて評価され,視覚的評価と分類器との比較を行った。 検証には3つの異なるデータセットが含まれ、その効果を外部で評価した。 UCBMIRは、最初の評価手法を用いて、BreaKHisとSICAPv2で上位5回のリコールを99%、80%達成した。 第2の評価手法を用いて, BreaKHis と SICAPv2 の精度を 91% と 70% とした。 さらにUCBMIRは、パッチ内のさまざまなパターンを識別する機能を示し、Arvanitiの外部イメージでテストすると、トップ5で81%の精度を達成した。

Digital pathology has revolutionized cancer diagnosis by leveraging Content-Based Medical Image Retrieval (CBMIR) for analyzing histopathological Whole Slide Images (WSIs). CBMIR enables searching for similar content, enhancing diagnostic reliability and accuracy. In 2020, breast and prostate cancer constituted 11.7% and 14.1% of cases, respectively, as reported by the Global Cancer Observatory (GCO). The proposed Unsupervised CBMIR (UCBMIR) replicates the traditional cancer diagnosis workflow, offering a dependable method to support pathologists in WSI-based diagnostic conclusions. This approach alleviates pathologists' workload, potentially enhancing diagnostic efficiency. To address the challenge of the lack of labeled histopathological images in CBMIR, a customized unsupervised Convolutional Auto Encoder (CAE) was developed, extracting 200 features per image for the search engine component. UCBMIR was evaluated using widely-used numerical techniques in CBMIR, alongside visual evaluation and comparison with a classifier. The validation involved three distinct datasets, with an external evaluation demonstrating its effectiveness. UCBMIR outperformed previous studies, achieving a top 5 recall of 99% and 80% on BreaKHis and SICAPv2, respectively, using the first evaluation technique. Precision rates of 91% and 70% were achieved for BreaKHis and SICAPv2, respectively, using the second evaluation technique. Furthermore, UCBMIR demonstrated the capability to identify various patterns in patches, achieving an 81% accuracy in the top 5 when tested on an external image from Arvaniti.
翻訳日:2023-05-22 14:00:12 公開日:2023-05-19
# 動的および適応的後悔を保証した非定常プロジェクションフリーオンライン学習

Non-stationary Projection-free Online Learning with Dynamic and Adaptive Regret Guarantees ( http://arxiv.org/abs/2305.11726v1 )

ライセンス: Link先を確認
Yibo Wang, Wenhao Yang, Wei Jiang, Shiyin Lu, Bing Wang, Haihong Tang, Yuanyu Wan, Lijun Zhang(参考訳) 投影のないオンライン学習は、複雑な制約を伴う高次元問題の解法における効率性から、関心が増している。 しかし、既存のプロジェクションフリーなオンラインメソッドの多くは、静的な後悔を最小限に抑えることに重点を置いている。 本稿では,非定常プロジェクションフリーオンライン学習について検討し,動的後悔と適応的後悔を選択して評価する。 具体的には、まず、既存のプロジェクションフリーなメソッドである$\text{BOGD}_\text{IP}$に対して新しい動的後悔解析を行い、$\mathcal{O}(T^{3/4)(1+P_T))$ dynamic regret boundを設定し、$P_T$はコンパレータシーケンスのパス長を表す。 次に、ステップサイズが異なる複数の$\text{bogd}_\text{ip}$アルゴリズムを並列に実行し、オンザフライで最高のアルゴリズムを追跡することで、上限を$\mathcal{o}(t^{3/4}(1+p_t)^{1/4})$に改善する。 我々の結果は、プロジェクションフリーオンライン学習における最初の一般的な動的後悔境界であり、$P_T = 0$を設定して既存の$\mathcal{O}(T^{3/4})$静的後悔を取り戻すことができる。 さらに,長さ$\tau$の任意の区間に拘束された$\tilde{\mathcal{o}}(\tau^{3/4})$適応的後悔を,その区間で静的な後悔とほぼ一致するような投影不要な方法を提案する。 基本的な考え方は、$\text{BOGD}_\text{IP}$アルゴリズムを動的に維持し、それらをメタアルゴリズムで組み合わせることである。 さらに、$\mathcal{O}(T^{3/4)(1+P_T)^{1/4})$ dynamic regret boundも備えていることを示す。 最後に、実証研究は理論的な結果を検証する。

Projection-free online learning has drawn increasing interest due to its efficiency in solving high-dimensional problems with complicated constraints. However, most existing projection-free online methods focus on minimizing the static regret, which unfortunately fails to capture the challenge of changing environments. In this paper, we investigate non-stationary projection-free online learning, and choose dynamic regret and adaptive regret to measure the performance. Specifically, we first provide a novel dynamic regret analysis for an existing projection-free method named $\text{BOGD}_\text{IP}$, and establish an $\mathcal{O}(T^{3/4}(1+P_T))$ dynamic regret bound, where $P_T$ denotes the path-length of the comparator sequence. Then, we improve the upper bound to $\mathcal{O}(T^{3/4}(1+P_T)^{1/4})$ by running multiple $\text{BOGD}_\text{IP}$ algorithms with different step sizes in parallel, and tracking the best one on the fly. Our results are the first general-case dynamic regret bounds for projection-free online learning, and can recover the existing $\mathcal{O}(T^{3/4})$ static regret by setting $P_T = 0$. Furthermore, we propose a projection-free method to attain an $\tilde{\mathcal{O}}(\tau^{3/4})$ adaptive regret bound for any interval with length $\tau$, which nearly matches the static regret over that interval. The essential idea is to maintain a set of $\text{BOGD}_\text{IP}$ algorithms dynamically, and combine them by a meta algorithm. Moreover, we demonstrate that it is also equipped with an $\mathcal{O}(T^{3/4}(1+P_T)^{1/4})$ dynamic regret bound. Finally, empirical studies verify our theoretical findings.
翻訳日:2023-05-22 13:59:41 公開日:2023-05-19
# s$^3$hqa:マルチホップテキストテーブルハイブリッド質問応答のための3段階アプローチ

S$^3$HQA: A Three-Stage Approach for Multi-hop Text-Table Hybrid Question Answering ( http://arxiv.org/abs/2305.11725v1 )

ライセンス: Link先を確認
Fangyu Lei, Xiang Li, Yifan Wei, Shizhu He, Yiming Huang, Jun Zhao, Kang Liu(参考訳) 与えられたテキストとテーブル(TextTableQA)から、ハイブリッドな事実知識に関するマルチホップ質問に答えるのは、難しい作業です。 既存のモデルは、トレーニングレトリバーのノイズラベリング、テキストやテーブル上の異種情報の利用不足、異なる推論操作の能力不足など、いくつかの欠点を持つレトリバーリーダーフレームワークを主に採用している。 本稿では,レトリバー,セレクタ,推論器からなる3段階のtexttableqaフレームワークs3hqaを提案する。 ノイズラベリング問題を解くために,精巧なトレーニングを施したレトリバーを用いる。 そして、ハイブリッドセレクタは、異種データ間のリンク関係を考慮し、最も関連性の高い事実知識を選択する。 最終段階では、従来の方法のように読み理解モジュールを適用する代わりに、世代ベースの推論を用いて回答を得る。 これには行ワイズジェネレータとLLMプロンプトジェネレータ—(このタスクで最初に使用される)の2つのアプローチが含まれる。 実験結果から,本手法は数発設定で競争的な結果が得られることを示した。 完全なデータセットでトレーニングすると、私たちのアプローチはすべてのベースラインメソッドよりも優れています。

Answering multi-hop questions over hybrid factual knowledge from the given text and table (TextTableQA) is a challenging task. Existing models mainly adopt a retriever-reader framework, which have several deficiencies, such as noisy labeling in training retriever, insufficient utilization of heterogeneous information over text and table, and deficient ability for different reasoning operations. In this paper, we propose a three-stage TextTableQA framework S3HQA, which comprises of retriever, selector, and reasoner. We use a retriever with refinement training to solve the noisy labeling problem. Then, a hybrid selector considers the linked relationships between heterogeneous data to select the most relevant factual knowledge. For the final stage, instead of adapting a reading comprehension module like in previous methods, we employ a generation-based reasoner to obtain answers. This includes two approaches: a row-wise generator and an LLM prompting generator~(first time used in this task). The experimental results demonstrate that our method achieves competitive results in the few-shot setting. When trained on the full dataset, our approach outperforms all baseline methods, ranking first on the HybridQA leaderboard.
翻訳日:2023-05-22 13:59:01 公開日:2023-05-19
# 爆発中の情報スクリーニング! 特徴Denoisingとマルチモーダルトピックモデリングによるマルチモーダル関係抽出

Information Screening whilst Exploiting! Multimodal Relation Extraction with Feature Denoising and Multimodal Topic Modeling ( http://arxiv.org/abs/2305.11719v1 )

ライセンス: Link先を確認
Shengqiong Wu, Hao Fei, Yixin Cao, Lidong Bing, Tat-Seng Chua(参考訳) 既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。 そこで本研究では,内部情報スクリーニングと外部情報活用を同時に実現する新しい枠組みを提案する。 まず、入力画像とテキストの微細な意味構造を視覚的およびテキスト的シーングラフで表現し、さらに統合されたクロスモーダルグラフ(CMG)に融合する。 cmgに基づき,グラフ情報ボトルネックの原理を導いて構造改善を行い,非表現的特徴を積極的に記述する。 次に、入力画像とテキスト上でトピックモデリングを行い、潜在マルチモーダルトピック機能を組み込んでコンテキストを豊かにする。 ベンチマークMREデータセットでは、我々のシステムは現在の最高のモデルよりも大幅に優れています。 さらに詳細な分析により,本手法のMREタスクに対する大きな可能性を明らかにする。 私たちのコードはhttps://github.com/ChocoWu/MRE-ISE.comで公開されています。

Existing research on multimodal relation extraction (MRE) faces two co-existing challenges, internal-information over-utilization and external-information under-exploitation. To combat that, we propose a novel framework that simultaneously implements the idea of internal-information screening and external-information exploiting. First, we represent the fine-grained semantic structures of the input image and text with the visual and textual scene graphs, which are further fused into a unified cross-modal graph (CMG). Based on CMG, we perform structure refinement with the guidance of the graph information bottleneck principle, actively denoising the less-informative features. Next, we perform topic modeling over the input image and text, incorporating latent multimodal topic features to enrich the contexts. On the benchmark MRE dataset, our system outperforms the current best model significantly. With further in-depth analyses, we reveal the great potential of our method for the MRE task. Our codes are open at https://github.com/ChocoWu/MRE-ISE.
翻訳日:2023-05-22 13:58:40 公開日:2023-05-19
# 高精度画像符号化に向けて:動的ベクトル量子化による自己回帰画像生成の改善

Towards Accurate Image Coding: Improved Autoregressive Image Generation with Dynamic Vector Quantization ( http://arxiv.org/abs/2305.11718v1 )

ライセンス: Link先を確認
Mengqi Huang, Zhendong Mao, Zhuowei Chen, Yongdong Zhang(参考訳) 既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従い、まずコードブックを学習し、画像を離散コードとしてエンコードし、学習したコードブックに基づいて生成を完了する。 しかし、固定サイズの画像領域を固定長符号にエンコードし、それらの自然に異なる情報密度を無視し、重要な領域の不足と重要でない領域の冗長性を生じさせ、最終的に生成品質と速度を低下させる。 さらに、固定長符号は不自然なラスタースキャン自己回帰生成につながる。 そこで本稿では,(1)画像領域を可変長符号にエンコードする動的量子化vae (dq-vae) を,その情報密度に基づいて高精度でコンパクトなコード表現のために提案する。 2) 粗粒度(符号数が少ないスムース領域)から粗粒度(符号数の多い領域)へ自己回帰的に画像を生成するdq変換器は,新しいスタック変換アーキテクチャと共有コンテント非共有位置入力層設計により,各粒度における符号の位置と内容を交互にモデル化する。 様々な生成タスクに関する総合的な実験は、有効性と効率の両方において、我々の優位性を検証する。 コードはhttps://github.com/CrossmodalGroup/DynamicVectorQuantizationでリリースされる。

Existing vector quantization (VQ) based autoregressive models follow a two-stage generation paradigm that first learns a codebook to encode images as discrete codes, and then completes generation based on the learned codebook. However, they encode fixed-size image regions into fixed-length codes and ignore their naturally different information densities, which results in insufficiency in important regions and redundancy in unimportant ones, and finally degrades the generation quality and speed. Moreover, the fixed-length coding leads to an unnatural raster-scan autoregressive generation. To address the problem, we propose a novel two-stage framework: (1) Dynamic-Quantization VAE (DQ-VAE) which encodes image regions into variable-length codes based on their information densities for an accurate and compact code representation. (2) DQ-Transformer which thereby generates images autoregressively from coarse-grained (smooth regions with fewer codes) to fine-grained (details regions with more codes) by modeling the position and content of codes in each granularity alternately, through a novel stacked-transformer architecture and shared-content, non-shared position input layers designs. Comprehensive experiments on various generation tasks validate our superiorities in both effectiveness and efficiency. Code will be released at https://github.com/CrossmodalGroup/DynamicVectorQuantization.
翻訳日:2023-05-22 13:58:23 公開日:2023-05-19
# 点クラウド登録のための残留射影に基づく効率的かつ決定論的探索戦略

Efficient and Deterministic Search Strategy Based on Residual Projections for Point Cloud Registration ( http://arxiv.org/abs/2305.11716v1 )

ライセンス: Link先を確認
Xinyi Li, Yinlong Liu, Hu Cao, Xueli Liu, Feihu Zhang, and Alois Knoll(参考訳) 2つのLiDARスキャン間の3次元対応による剛性変換を推定することは、典型的なポイントクラウド登録パラダイムである。 現在の3D特徴マッチング手法は、一般に多くの外乱対応をもたらし、外乱登録技術は不可欠である。 近年の多くの研究は、対応ベースのポイントクラウド登録問題を解決するためにブランチとバウンド(BnB)最適化フレームワークを採用している。 それでも、BnBベースの手法は解領域の次元に指数関数的な計算複雑性を持つため、6次元のパラメータ空間全体を探索するのに時間を要する。 アルゴリズムの効率を高めるために、既存の研究は6自由度(DOF)元の問題を2つの3自由度サブプロブレムに分離し、パラメータ空間の次元を小さくしようとする。 一方,提案手法では,残差射影に基づく新たなポーズ分離戦略を導入し,生問題を3つの2自由度回転探索部分問題に効果的に分解する。 その後,新たなbnbベースの探索法を用いて,効率的な決定論的登録を実現する。 さらに,本手法は同時ポーズ・対応登録(SPCR)の課題に対処するためにも適用可能である。 合成および実世界のデータセットを用いた広範囲な実験により,提案手法は高効率で最先端の手法より優れ,同時にロバスト性を確保した。

Estimating the rigid transformation between two LiDAR scans through putative 3D correspondences is a typical point cloud registration paradigm. Current 3D feature matching approaches commonly lead to numerous outlier correspondences, making outlier-robust registration techniques indispensable. Many recent studies have adopted the branch and bound (BnB) optimization framework to solve the correspondence-based point cloud registration problem globally and deterministically. Nonetheless, BnB-based methods are time-consuming to search the entire 6-dimensional parameter space, since their computational complexity is exponential to the dimension of the solution domain. In order to enhance algorithm efficiency, existing works attempt to decouple the 6 degrees of freedom (DOF) original problem into two 3-DOF sub-problems, thereby reducing the dimension of the parameter space. In contrast, our proposed approach introduces a novel pose decoupling strategy based on residual projections, effectively decomposing the raw problem into three 2-DOF rotation search sub-problems. Subsequently, we employ a novel BnB-based search method to solve these sub-problems, achieving efficient and deterministic registration. Furthermore, our method can be adapted to address the challenging problem of simultaneous pose and correspondence registration (SPCR). Through extensive experiments conducted on synthetic and real-world datasets, we demonstrate that our proposed method outperforms state-of-the-art methods in terms of efficiency, while simultaneously ensuring robustness.
翻訳日:2023-05-22 13:57:56 公開日:2023-05-19
# ReSetoX: 機械翻訳における毒性軽減のための再学習注意重み

ReSeTOX: Re-learning attention weights for toxicity mitigation in machine translation ( http://arxiv.org/abs/2305.11761v1 )

ライセンス: Link先を確認
Javier Garc\'ia Gilabert, Carlos Escolano and Marta R. Costa-Juss\`a(参考訳) 提案手法であるReSetoX (Redo SEarch if TOXic)は,入力に存在しない有毒な単語を含む翻訳出力を生成するニューラルネットワーク翻訳(NMT)の問題に対処する。 目的は、再訓練を必要とせず、有害な言語の導入を緩和することである。 ReSeTOXは、推論過程中に毒性が同定された場合、キー値の自己注意重みを動的に調整し、ビーム探索仮説を再評価する。 実験の結果、ReSeTOXは164言語で平均99.5%の翻訳品質を維持しながら、追加毒性の57%の顕著な減少を実現している。

Our proposed method, ReSeTOX (REdo SEarch if TOXic), addresses the issue of Neural Machine Translation (NMT) generating translation outputs that contain toxic words not present in the input. The objective is to mitigate the introduction of toxic language without the need for re-training. In the case of identified added toxicity during the inference process, ReSeTOX dynamically adjusts the key-value self-attention weights and re-evaluates the beam search hypotheses. Experimental results demonstrate that ReSeTOX achieves a remarkable 57% reduction in added toxicity while maintaining an average translation quality of 99.5% across 164 languages.
翻訳日:2023-05-22 13:49:58 公開日:2023-05-19
# Prompt-Tuningによる大規模言語モデルからの記憶データの抽出制御

Controlling the Extraction of Memorized Data from Large Language Models via Prompt-Tuning ( http://arxiv.org/abs/2305.11759v1 )

ライセンス: Link先を確認
Mustafa Safa Ozdayi and Charith Peris and Jack FitzGerald and Christophe Dupuy and Jimit Majmudar and Haidar Khan and Rahil Parikh and Rahul Gupta(参考訳) 大規模言語モデル(llm)は、トレーニングデータの大部分を記憶することが知られている。 この記憶されたコンテンツの一部は、単にモデルに問い合わせることで抽出可能であることが示されており、プライバシーのリスクが生じる。 LLMにおける暗記コンテンツの抽出速度を制御するために,プロンプトチューニングを用いた新しい手法を提案する。 本稿では,攻撃と防衛に対応する抽出率を向上・減少させる2つの迅速な訓練戦略を提案する。 GPT-Neo ファミリーのモデルを公開ベンチマークに用いて,本手法の有効性を示す。 1.3BパラメータGPT-Neoモデルでは,ベースラインと比較して9.3ポイントの抽出率向上率が得られる。 我々の防衛は、ユーザーが指定したハイパーパラメータによって異なるプライバシーとユーティリティのトレードオフを達成するように調整できる。 抽出率は, ベースラインに対して97.7%まで減少し, パープレキシティは16.9%増加した。

Large Language Models (LLMs) are known to memorize significant portions of their training data. Parts of this memorized content have been shown to be extractable by simply querying the model, which poses a privacy risk. We present a novel approach which uses prompt-tuning to control the extraction rates of memorized content in LLMs. We present two prompt training strategies to increase and decrease extraction rates, which correspond to an attack and a defense, respectively. We demonstrate the effectiveness of our techniques by using models from the GPT-Neo family on a public benchmark. For the 1.3B parameter GPT-Neo model, our attack yields a 9.3 percentage point increase in extraction rate compared to our baseline. Our defense can be tuned to achieve different privacy-utility trade-offs by a user-specified hyperparameter. We achieve an extraction rate reduction of up to 97.7% relative to our baseline, with a perplexity increase of 16.9%.
翻訳日:2023-05-22 13:49:45 公開日:2023-05-19
# 推薦説明可能性の可視化:調査と新たな展望

Visualization for Recommendation Explainability: A Survey and New Perspectives ( http://arxiv.org/abs/2305.11755v1 )

ライセンス: Link先を確認
Mohamed Amine Chatti and Mouadh Guesmi and Arham Muslim(参考訳) システム生成によるレコメンデーションの説明を提供することは、透明で信頼できるレコメンデーションシステムへの重要なステップである。 説明可能なレコメンデータシステムは、そのアウトプットに対する人間理解可能な根拠を提供する。 過去20年間、説明可能なレコメンデーションは、レコメンデーションシステム研究コミュニティで多くの注目を集めてきた。 本稿では,レコメンデーションシステムにおける視覚的説明研究の総合的なレビューを行う。 より具体的には,説明目標,説明スコープ,説明スタイル,説明形式という4次元に基づくレコメンダシステムにおける説明に関する文献を体系的に検討する。 可視化の重要性を認識し,説明の表示スタイルとして可視化を用いる説明的可視化の角度からレコメンダシステム文学にアプローチする。 その結果,レコメンダシステムにおける説明的ビジュアライゼーションの設計と,この分野における今後の作業の視点を特定するためのガイドラインの組を導出する。 本レビューの目的は,現在および将来のレコメンダシステムにおいて,視覚的に説明可能なレコメンデーション研究の可能性をより深く理解し,視覚的な説明の体系的設計を支援することである。

Providing system-generated explanations for recommendations represents an important step towards transparent and trustworthy recommender systems. Explainable recommender systems provide a human-understandable rationale for their outputs. Over the last two decades, explainable recommendation has attracted much attention in the recommender systems research community. This paper aims to provide a comprehensive review of research efforts on visual explanation in recommender systems. More concretely, we systematically review the literature on explanations in recommender systems based on four dimensions, namely explanation goal, explanation scope, explanation style, and explanation format. Recognizing the importance of visualization, we approach the recommender system literature from the angle of explanatory visualizations, that is using visualizations as a display style of explanation. As a result, we derive a set of guidelines that might be constructive for designing explanatory visualizations in recommender systems and identify perspectives for future work in this field. The aim of this review is to help recommendation researchers and practitioners better understand the potential of visually explainable recommendation research and to support them in the systematic design of visual explanations in current and future recommender systems.
翻訳日:2023-05-22 13:49:31 公開日:2023-05-19
# テラヘルツ系における単一光子源

Single-photon source over the terahertz regime ( http://arxiv.org/abs/2305.11754v1 )

ライセンス: Link先を確認
Caspar Groiseau, Antonio I. Fern\'andez Dom\'inguez, Diego Mart\'in Cano and Carlos S\'anchez Mu\~noz(参考訳) 本稿では,テラヘルツ(THz)体制下で動作する単一光子のチューニング可能なソースを提案する。 このスキームは入射可視光子を1つの極性量子エミッタを光レーザーで駆動することで量子thz放射に変換し、その永久双極子によって共振結合によってキャビティへの着衣thz遷移を可能にする。 この機構は、駆動の強度と周波数を変更することにより、放出の周波数やその量子統計(反ばね状態から絡み合った多光子状態まで)などの特性の光学的チューニング性を提供する。 提案手法の実装は,最新のフォトニクス技術で実現可能であることを示す。

We present a proposal for a tunable source of single photons operating in the terahertz (THz) regime. This scheme transforms incident visible photons into quantum THz radiation by driving a single polar quantum emitter with an optical laser, with its permanent dipole enabling dressed THz transitions enhanced by the resonant coupling to a cavity. This mechanism offers optical tunability of properties such as the frequency of the emission or its quantum statistics (ranging from antibunching to entangled multi-photon states) by modifying the intensity and frequency of the drive. We show that the implementation of this proposal is feasible with state-of-the-art photonics technology.
翻訳日:2023-05-22 13:49:12 公開日:2023-05-19
# 階層型HMMのためのMarginalized Beam Searchアルゴリズム

Marginalized Beam Search Algorithms for Hierarchical HMMs ( http://arxiv.org/abs/2305.11752v1 )

ライセンス: Link先を確認
Xuechun Xu, Joakim Jald\'en(参考訳) 一連の測定から状態シーケンスを推測することは、バイオインフォマティクスや自然言語処理において根本的な問題である。 ビタビとビームサーチ(BS)アルゴリズムは一般的な推論法であるが、関心が外状態列にある階層型隠れマルコフモデル(HHMM)に適用する場合に制限がある。 ビタビアルゴリズムは内部状態なしでは外的状態を推定できないが、bsアルゴリズムは制限的に大きい状態空間上の限界化を必要とする。 これらの限界を克服する2つの新しいアルゴリズムを提案する: グリーディ辺縁化bsアルゴリズムと局所焦点bsアルゴリズムである。 その結果,viterbiアルゴリズムよりも高い性能で最も可能性の高い外部状態列を近似し,シミュレーションとナノホールベース呼び出しデータを用いて,これらのアルゴリズムの性能を明示的な持続時間hmmで評価した。

Inferring a state sequence from a sequence of measurements is a fundamental problem in bioinformatics and natural language processing. The Viterbi and the Beam Search (BS) algorithms are popular inference methods, but they have limitations when applied to Hierarchical Hidden Markov Models (HHMMs), where the interest lies in the outer state sequence. The Viterbi algorithm can not infer outer states without inner states, while the BS algorithm requires marginalization over prohibitively large state spaces. We propose two new algorithms to overcome these limitations: the greedy marginalized BS algorithm and the local focus BS algorithm. We show that they approximate the most likely outer state sequence with higher performance than the Viterbi algorithm, and we evaluate the performance of these algorithms on an explicit duration HMM with simulation and nanopore base calling data.
翻訳日:2023-05-22 13:49:02 公開日:2023-05-19
# HELMA:大規模言語モデルのための大規模幻覚評価ベンチマーク

HELMA: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models ( http://arxiv.org/abs/2305.11747v1 )

ライセンス: Link先を確認
Junyi Li, Xiaoxue Cheng, Wayne Xin Zhao, Jian-Yun Nie and Ji-Rong Wen(参考訳) chatgptのような大規模言語モデル(llm)は、ソースと矛盾したり、事実的知識によって検証できない幻覚や \ie コンテンツを生成する傾向がある。 コンテンツの種類や,llmがどの程度幻覚に適しているかを理解するために,大言語モデル(helma)ベンチマークの幻覚評価(hallucination evaluation for large language models)を紹介する。 これらのサンプルを生成するために,chatgpt ベースの2ステップフレームワーク \ie sample-then-filtering を提案する。 具体的には,まず2つの異なるサンプリング法を適用し,指示に基づいて幻覚的なサンプルを生成し,サンプル強調フィルタリング法を用いて最適なサンプルを選択する。 また,ChatGPT応答の幻覚に注釈を付けるために,人間のラベルも採用している。 実験の結果,ChatGPTは幻覚を発生させる可能性が示唆され,既存のLLMはテキストで幻覚を認識する上で大きな課題に直面している。 さらに、外部の知識を提供するか、推論ステップを追加することでパフォーマンスを向上させることができる。 私たちのベンチマークはhttps://github.com/RUCAIBox/HELMAでアクセスできます。

Large language models (LLMs), such as ChatGPT, are prone to generate hallucinations, \ie content that conflicts with the source or cannot be verified by the factual knowledge. To understand what types of content and to which extent LLMs are apt to hallucinate, we introduce the Hallucination Evaluation for Large Language Models (HELMA) benchmark, a large collection of generated and human-annotated hallucinated samples for evaluating the performance of LLMs in recognizing and alleviating hallucination. To generate these samples, we propose a ChatGPT-based two-step framework, \ie sampling-then-filtering. Specifically, we first adopt two different sampling methods to generate hallucinated samples based on instructions, and then use an example-enhanced filtering method to select the best one. Furthermore, we also hire some human labelers to annotate the hallucinations in ChatGPT responses. The empirical results suggest that ChatGPT has some probabilities to generate hallucinations and existing LLMs face great challenges in recognizing the hallucinations in text. In addition, the performance can be improved by providing external knowledge or adding reasoning steps. Our benchmark can be accessed at https://github.com/RUCAIBox/HELMA.
翻訳日:2023-05-22 13:48:45 公開日:2023-05-19
# HalOmi: 機械翻訳における多言語幻覚と排便検出のためのマニュアル注釈ベンチマーク

HalOmi: A Manually Annotated Benchmark for Multilingual Hallucination and Omission Detection in Machine Translation ( http://arxiv.org/abs/2305.11746v1 )

ライセンス: Link先を確認
David Dale, Elena Voita, Janice Lam, Prangthip Hansanti, Christophe Ropers, Elahe Kalbassi, Cynthia Gao, Lo\"ic Barrault, Marta R. Costa-juss\`a(参考訳) 機械翻訳における幻覚は、入力とは無関係な情報を含む翻訳である。 省略は、入力情報の一部を含まない翻訳である。 どちらのケースも、ユーザの信頼を損なう破滅的なエラーの傾向があるが、こうしたタイプの病理に関する注釈付きデータは極めて少なく、いくつかの高リソース言語に限定されている。 本研究では,リソースレベルやスクリプトの異なる18の翻訳方向をカバーする幻覚現象と脱落現象の注釈付きデータセットをリリースする。 注記は,部分的および完全な幻覚のレベルと,文と単語レベルでの省略レベルの両方をカバーしている。 さらに,幻覚と排便検出の従来の手法を再検討し,単一言語対に基づく結論が大規模評価に大きく寄与しないことを示すとともに,新たなソリッドベースラインを確立する。

Hallucinations in machine translation are translations that contain information completely unrelated to the input. Omissions are translations that do not include some of the input information. While both cases tend to be catastrophic errors undermining user trust, annotated data with these types of pathologies is extremely scarce and is limited to a few high-resource languages. In this work, we release an annotated dataset for the hallucination and omission phenomena covering 18 translation directions with varying resource levels and scripts. Our annotation covers different levels of partial and full hallucinations as well as omissions both at the sentence and at the word level. Additionally, we revisit previous methods for hallucination and omission detection, show that conclusions made based on a single language pair largely do not hold for a large-scale evaluation, and establish new solid baselines.
翻訳日:2023-05-22 13:48:26 公開日:2023-05-19
# ニューラル情報検索のための推論時間リランカ関連フィードバック

Inference-time Re-ranker Relevance Feedback for Neural Information Retrieval ( http://arxiv.org/abs/2305.11744v1 )

ライセンス: Link先を確認
Revanth Gangi Reddy, Pradeep Dasigi, Md Arafat Sultan, Arman Cohan, Avirup Sil, Heng Ji, Hannaneh Hajishirzi(参考訳) バイエンコーダネットワークは、まずk候補(例えば、100)を検索し、その後より強力なクロスエンコーダモデルを使用してランク付けし、より良い候補を上位にランク付けする。 re-rankerは一般に、検索者より優れた候補スコアを生成するが、検索された上位k個の候補のみを表示できるため、recall@kで測定した検索性能は改善されない。 本研究では,検索者に対して推論時間関連フィードバックを提供することにより,検索精度の向上を図る。 具体的には、リランカの予測の軽量な推論時間蒸留を用いて、テストインスタンスに対する検索者のクエリ表現を更新する。 蒸留損失は、レトリバーの候補スコアをリランカーのスコアに近づけるように設計されている。 次に、更新されたクエリベクトルで第2の検索ステップを実行する。 実験により,パイプラインの任意の検索・削除が可能なアプローチが,複数のドメイン,言語,モダリティにおける検索リコールを大幅に改善できることを実証した。

Neural information retrieval often adopts a retrieve-and-rerank framework: a bi-encoder network first retrieves K (e.g., 100) candidates that are then re-ranked using a more powerful cross-encoder model to rank the better candidates higher. The re-ranker generally produces better candidate scores than the retriever, but is limited to seeing only the top K retrieved candidates, thus providing no improvements in retrieval performance as measured by Recall@K. In this work, we leverage the re-ranker to also improve retrieval by providing inference-time relevance feedback to the retriever. Concretely, we update the retriever's query representation for a test instance using a lightweight inference-time distillation of the re-ranker's prediction for that instance. The distillation loss is designed to bring the retriever's candidate scores closer to those of the re-ranker. A second retrieval step is then performed with the updated query vector. We empirically show that our approach, which can serve arbitrary retrieve-and-rerank pipelines, significantly improves retrieval recall in multiple domains, languages, and modalities.
翻訳日:2023-05-22 13:48:13 公開日:2023-05-19
# MedLens:医療標識の選択と回帰補間による死亡予測の改善

MedLens: Improve mortality prediction via medical signs selecting and regression interpolation ( http://arxiv.org/abs/2305.11742v1 )

ライセンス: Link先を確認
Xuesong Ye, Jun Wu, Chengjie Mou, and Weinan Dai(参考訳) 患者の健康状態のモニタリングと死亡率の予測は、タイムリーなケアと治療を提供する上で不可欠である。 電子健康記録(EHR)の大規模医療標識は、予測を行うための高度な機械学習モデルに組み込まれている。 しかし,本論文では,本来の臨床症状のデータ品質の問題については議論されていない。 様々な医学的徴候の欠失率と相関スコアの詳細な測定と多量の患者病院入院記録から,包括的欠失率は非常に高く,多くの無用な徴候が予測モデルの性能を損なう可能性があることを発見した。 そして、データ品質の改善だけが予測アルゴリズムの基準精度を向上させると結論付けた。 我々はMEDLENSを,統計による自動バイタルメディカルサイン選択法と,高損失率時系列に対するフレキシブル補間法を用いて設計した。 元の医療標識のデータ品質を向上した後、MEDLENSはアンサンブル分類器を適用して精度を高め、同時に計算オーバーヘッドを削減する。 精度は0.96%のAUC-ROCと0.81%のAUC-PRを達成している。

Monitoring the health status of patients and predicting mortality in advance is vital for providing patients with timely care and treatment. Massive medical signs in electronic health records (EHR) are fitted into advanced machine learning models to make predictions. However, the data-quality problem of original clinical signs is less discussed in the literature. Based on an in-depth measurement of the missing rate and correlation score across various medical signs and a large amount of patient hospital admission records, we discovered the comprehensive missing rate is extremely high, and a large number of useless signs could hurt the performance of prediction models. Then we concluded that only improving data-quality could improve the baseline accuracy of different prediction algorithms. We designed MEDLENS, with an automatic vital medical signs selection approach via statistics and a flexible interpolation approach for high missing rate time series. After augmenting the data-quality of original medical signs, MEDLENS applies ensemble classifiers to boost the accuracy and reduce the computation overhead at the same time. It achieves a very high accuracy performance of 0.96% AUC-ROC and 0.81% AUC-PR, which exceeds the previous benchmark.
翻訳日:2023-05-22 13:47:53 公開日:2023-05-19
# プランクトン画像の自動認識に関する調査 : 課題,既存の解決策,今後の展望

Survey of Automatic Plankton Image Recognition: Challenges, Existing Solutions and Future Perspectives ( http://arxiv.org/abs/2305.11739v1 )

ライセンス: Link先を確認
Tuomas Eerola, Daniel Batrakhanov, Nastaran Vatankhah Barazandeh, Kaisa Kraft, Lumi Haraguchi, Lasse Lensu, Sanna Suikkanen, Jukka Sepp\"al\"a, Timo Tamminen, Heikki K\"alvi\"ainen(参考訳) プランクトン生物は水生生態系の重要な構成要素であり、環境の変化に素早く反応するため、環境の変化を理解するためにはそのモニタリングが不可欠である。 しかし、適切なスケールでプランクトンを監視することは依然として課題であり、水生システムの機能と変化に対する反応に対する理解を制限している。 現代のプランクトンイメージング機器は、高周波数でのサンプリングに利用することができ、プランクトン個体群を研究する新しい可能性を可能にする。 しかしながら、データの手動分析はコストがかかり、時間もかかり、エキスパートベースであるため、大規模なアプリケーションや自動ソリューションの要求には適さない。 画像解析によるプランクトンデータセットの利用に関する重要な問題はプランクトン認識である。 大量の研究が行われたにもかかわらず、自動的な手法は運用に広く採用されていない。 本稿では,自動プランクトン認識のための既存ソリューションに関する包括的調査を行う。 まず、プランクトン認識システムの開発を困難にする最も顕著な課題を特定する。 次に、プランクトン認識文学におけるこれらの課題に対する解決策の詳細な説明を行う。 最後に、新しいデータセットの特定の課題とそれに対応するための推奨アプローチを特定するワークフローを提案する。 多くの課題に対して、適用可能なソリューションが存在する。 しかし、重要な課題は未解決のままである。 1)データセット間の領域シフトは、異なる撮像機器間で機能する一般的なプランクトン認識システムの開発を妨げる。 2)未発見のクラスの画像の識別・処理の難しさ,及び 3) 認識のための機械学習モデルのトレーニングに影響を与える専門家アノテーションの不確実性。 これらの課題は将来の研究で解決されるべきである。

Planktonic organisms are key components of aquatic ecosystems and respond quickly to changes in the environment, therefore their monitoring is vital to understand the changes in the environment. Yet, monitoring plankton at appropriate scales still remains a challenge, limiting our understanding of functioning of aquatic systems and their response to changes. Modern plankton imaging instruments can be utilized to sample at high frequencies, enabling novel possibilities to study plankton populations. However, manual analysis of the data is costly, time consuming and expert based, making such approach unsuitable for large-scale application and urging for automatic solutions. The key problem related to the utilization of plankton datasets through image analysis is plankton recognition. Despite the large amount of research done, automatic methods have not been widely adopted for operational use. In this paper, a comprehensive survey on existing solutions for automatic plankton recognition is presented. First, we identify the most notable challenges that that make the development of plankton recognition systems difficult. Then, we provide a detailed description of solutions for these challenges proposed in plankton recognition literature. Finally, we propose a workflow to identify the specific challenges in new datasets and the recommended approaches to address them. For many of the challenges, applicable solutions exist. However, important challenges remain unsolved: 1) the domain shift between the datasets hindering the development of a general plankton recognition system that would work across different imaging instruments, 2) the difficulty to identify and process the images of previously unseen classes, and 3) the uncertainty in expert annotations that affects the training of the machine learning models for recognition. These challenges should be addressed in the future research.
翻訳日:2023-05-22 13:47:33 公開日:2023-05-19
# 安定端におけるロジスティック回帰に対する勾配降下の暗黙的バイアス

Implicit Bias of Gradient Descent for Logistic Regression at the Edge of Stability ( http://arxiv.org/abs/2305.11788v1 )

ライセンス: Link先を確認
Jingfeng Wu, Vladimir Braverman, Jason D. Lee(参考訳) 近年の機械学習最適化では、勾配降下(GD)が安定性の端(EoS)[Cohen, et al., 2021]で動作し、ステップサイズが大きくなるとGDの反復による非単調な損失が発生することが観察されている。 本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数ステップGDの収束と暗黙バイアスについて検討する。 局所的な振動が存在するにもかかわらず、ロジスティック損失は長時間のスケールで一定のステップサイズでGDによって最小化できることを示す。 さらに、任意のステップサイズで、GD の反復は、最大マルジン方向(ハードマルジン SVM 方向)に投影されたときに無限大となる傾向を示し、最大マルジン方向の直交補体に投影されたとき、強い凸ポテンシャルを最小化する固定ベクトルに収束する。 対照的に、EoS体制においては、GD反復剤は指数的損失の下で破滅的に分散し、ロジスティック損失の優位性を示す。 これらの理論的な結果は数値シミュレーションと一致し、ステップサイズが十分に小さい場合にのみ適用できるGDの収束と暗黙のバイアスに関する既存の理論を補完する。

Recent research has observed that in machine learning optimization, gradient descent (GD) often operates at the edge of stability (EoS) [Cohen, et al., 2021], where the stepsizes are set to be large, resulting in non-monotonic losses induced by the GD iterates. This paper studies the convergence and implicit bias of constant-stepsize GD for logistic regression on linearly separable data in the EoS regime. Despite the presence of local oscillations, we prove that the logistic loss can be minimized by GD with any constant stepsize over a long time scale. Furthermore, we prove that with any constant stepsize, the GD iterates tend to infinity when projected to a max-margin direction (the hard-margin SVM direction) and converge to a fixed vector that minimizes a strongly convex potential when projected to the orthogonal complement of the max-margin direction. In contrast, we also show that in the EoS regime, GD iterates may diverge catastrophically under the exponential loss, highlighting the superiority of the logistic loss. These theoretical findings are in line with numerical simulations and complement existing theories on the convergence and implicit bias of GD, which are only applicable when the stepsizes are sufficiently small.
翻訳日:2023-05-22 13:41:55 公開日:2023-05-19
# dmdd:データセット検出のための大規模データセット

DMDD: A Large-Scale Dataset for Dataset Mentions Detection ( http://arxiv.org/abs/2305.11779v1 )

ライセンス: Link先を確認
Huitong Pan, Qi Zhang, Eduard Dragut, Cornelia Caragea, Longin Jan Latecki(参考訳) データセット名の認識は、研究者が研究の機会を理解し、識別することを可能にする科学文献における自動情報抽出の重要なタスクである。 しかし、データセットの参照検出のための既存のコーパスは、サイズと命名の多様性に制限がある。 本稿では,このタスクのための最大公用コーパスであるDataset Mentions Detection Dataset (DMDD)を紹介する。 DMDDはDMDDのメインコーパスで構成され、449,000以上のデータセットを持つ31,219の科学論文と、インテキストスパンの形式に弱い注釈を付けた評価セットと、評価目的のために手動で注釈付けされた450の科学論文からなる評価セットから構成されている。 DMDDを用いてデータセットの参照検出とリンクのベースライン性能を確立する。 DMDD上での各種モデルの性能を解析することにより,データセット参照検出におけるオープンな問題を特定することができる。 私たちはコミュニティに、新しいデータセット参照検出モデルを開発するための課題として、データセットを使用することを勧めています。

The recognition of dataset names is a critical task for automatic information extraction in scientific literature, enabling researchers to understand and identify research opportunities. However, existing corpora for dataset mention detection are limited in size and naming diversity. In this paper, we introduce the Dataset Mentions Detection Dataset (DMDD), the largest publicly available corpus for this task. DMDD consists of the DMDD main corpus, comprising 31,219 scientific articles with over 449,000 dataset mentions weakly annotated in the format of in-text spans, and an evaluation set, which comprises of 450 scientific articles manually annotated for evaluation purposes. We use DMDD to establish baseline performance for dataset mention detection and linking. By analyzing the performance of various models on DMDD, we are able to identify open problems in dataset mention detection. We invite the community to use our dataset as a challenge to develop novel dataset mention detection models.
翻訳日:2023-05-22 13:41:28 公開日:2023-05-19
# 言語横断スーパービジョンが大規模モデルの事前学習を改善

Cross-Lingual Supervision improves Large Language Models Pre-training ( http://arxiv.org/abs/2305.11778v1 )

ライセンス: Link先を確認
Andrea Schioppa and Xavier Garcia and Orhan Firat(参考訳) 大規模言語モデルの事前学習における最近の急速な進歩は、next token predictionやspan corruptionのような自己教師あり言語モデリングの目的に依拠している。 一方、機械翻訳システムは、主にソースとターゲット言語間の整合データを必要とする言語間監督を用いて訓練されている。 自己教師付き言語モデリング目標と教師付き機械翻訳目標を混合して,事前学習中の言語間並列データを含む大規模言語モデルが,文脈内学習能力に優れたモデルをもたらすことを実証する。 事前学習は非常に資源集約的なプロセスであり,両者の最適混合率のグリッド探索は極めて高価であるため,事前学習中に学習を行うための単純かつ効果的な戦略を提案する。

The recent rapid progress in pre-training Large Language Models has relied on using self-supervised language modeling objectives like next token prediction or span corruption. On the other hand, Machine Translation Systems are mostly trained using cross-lingual supervision that requires aligned data between source and target languages. We demonstrate that pre-training Large Language Models on a mixture of a self-supervised Language Modeling objective and the supervised Machine Translation objective, therefore including cross-lingual parallel data during pre-training, yields models with better in-context learning abilities. As pre-training is a very resource-intensive process and a grid search on the best mixing ratio between the two objectives is prohibitively expensive, we propose a simple yet effective strategy to learn it during pre-training.
翻訳日:2023-05-22 13:41:12 公開日:2023-05-19
# R2ユーティリティを用いた多目的最適化

Multi-Objective Optimization Using the R2 Utility ( http://arxiv.org/abs/2305.11774v1 )

ライセンス: Link先を確認
Ben Tu, Nikolas Kantas, Robert M. Lee, Behrang Shafei(参考訳) 多目的最適化の目標は、複数の目的間の最善のトレードオフを記述する点の集合を特定することである。 このベクトル値最適化問題を解決するために、実践者は、多目的問題を単一目的問題の集合に変換するために、スカラー化関数の使用にしばしば目を向ける。 このスカラー化問題を従来の単目的最適化手法で解くことができる。 本研究では、この慣例を一般的な数学的枠組みに定式化する。 この戦略は,元となる多目的最適化問題を,集合上で定義された単目的最適化問題に効果的に再キャストすることを示す。 この新しい問題の目的関数の適切なクラスは、スカラー化最適化問題に対する重み付き積分として定義されるr2ユーティリティ関数である。 このユーティリティ関数は単調かつ部分モジュラー集合関数であり, グリーディ最適化アルゴリズムを用いて効果的に最適化できることを示す。 我々は,これらの欲望アルゴリズムの性能を理論的,実証的に分析する。 我々の分析は主にブラックボックス最適化の確率的フレームワークであるベイズ最適化に焦点を当てている。

The goal of multi-objective optimization is to identify a collection of points which describe the best possible trade-offs between the multiple objectives. In order to solve this vector-valued optimization problem, practitioners often appeal to the use of scalarization functions in order to transform the multi-objective problem into a collection of single-objective problems. This set of scalarized problems can then be solved using traditional single-objective optimization techniques. In this work, we formalise this convention into a general mathematical framework. We show how this strategy effectively recasts the original multi-objective optimization problem into a single-objective optimization problem defined over sets. An appropriate class of objective functions for this new problem is the R2 utility function, which is defined as a weighted integral over the scalarized optimization problems. We show that this utility function is a monotone and submodular set function, which can be optimised effectively using greedy optimization algorithms. We analyse the performance of these greedy algorithms both theoretically and empirically. Our analysis largely focusses on Bayesian optimization, which is a popular probabilistic framework for black-box optimization.
翻訳日:2023-05-22 13:40:57 公開日:2023-05-19
# 精神シミュレーションの神経基盤--動的シーンにおける潜在表現の将来予測

Neural Foundations of Mental Simulation: Future Prediction of Latent Representations on Dynamic Scenes ( http://arxiv.org/abs/2305.11772v1 )

ライセンス: Link先を確認
Aran Nayebi, Rishi Rajalingham, Mehrdad Jazayeri, Guangyu Robert Yang(参考訳) 人間と動物は、物理的世界に対する豊かで柔軟な理解を持ち、それによって、オブジェクトやイベントの動的軌跡を推測し、その将来状態を説明し、行動の結果を計画し予測することができる。 しかし、これらの計算の根底にある神経機構は不明である。 我々は,目標駆動型モデリング手法と高次神経生理学的データを組み合わせることで,この問題を直接的に阻害する。 具体的には,ピクセル指向やオブジェクト中心の目的を持った自己教師付きエンドツーエンドモデルから,静的イメージベースや動的ビデオベースの基礎モデルの潜在空間で将来予測されるモデルまで,リッチで倫理的な関係のある環境の将来状態を予測するための,知覚認知ネットワークのいくつかのクラスを構築し,評価する。 これらのモデルクラスにまたがる強い差別化は、さまざまな環境内および環境間で、神経および行動データを予測できる能力にある。 特に, 神経反応は, 動的シーンに最適化された基礎モデルの潜在空間において, 環境の将来状態を予測するように訓練されたモデルによって現在最もよく予測されている。 特に、ビデオファウンデーションモデルの潜在領域で将来予測されるモデルは、さまざまなセンサーモジュレータタスクをサポートするように最適化され、テスト可能なすべての環境シナリオにおいて、人間の行動エラーパターンと神経動力学の両方に適しています。 これらの結果は、霊長類の精神シミュレーションの神経機構と行動が、より一般的にAIを具現化するのに役立つ、動的で再利用可能な視覚表現の将来の予測に最適化されることと最も一致していることを示唆している。

Humans and animals have a rich and flexible understanding of the physical world, which enables them to infer the underlying dynamical trajectories of objects and events, plausible future states, and use that to plan and anticipate the consequences of actions. However, the neural mechanisms underlying these computations are unclear. We combine a goal-driven modeling approach with dense neurophysiological data and high-throughput human behavioral readouts to directly impinge on this question. Specifically, we construct and evaluate several classes of sensory-cognitive networks to predict the future state of rich, ethologically-relevant environments, ranging from self-supervised end-to-end models with pixel-wise or object-centric objectives, to models that future predict in the latent space of purely static image-based or dynamic video-based pretrained foundation models. We find strong differentiation across these model classes in their ability to predict neural and behavioral data both within and across diverse environments. In particular, we find that neural responses are currently best predicted by models trained to predict the future state of their environment in the latent space of pretrained foundation models optimized for dynamic scenes in a self-supervised manner. Notably, models that future predict in the latent space of video foundation models that are optimized to support a diverse range of sensorimotor tasks, reasonably match both human behavioral error patterns and neural dynamics across all environmental scenarios that we were able to test. Overall, these findings suggest that the neural mechanisms and behaviors of primate mental simulation are thus far most consistent with being optimized to future predict on dynamic, reusable visual representations that are useful for embodied AI more generally.
翻訳日:2023-05-22 13:40:43 公開日:2023-05-19
# 強長距離相互作用を伴う普遍的欠陥統計

Universal defects statistics with strong long-range interactions ( http://arxiv.org/abs/2305.11771v1 )

ライセンス: Link先を確認
Stefano Gherardini, Lorenzo Buffoni, Nicol\`o Defenu(参考訳) 量子臨界点にまたがる多体量子系の準静的変換(遅いクエンチ)は位相的欠陥を生み出す。 キブル・ズレック機構は、古典的な組合せ過程を通じて局所量子系の欠陥の出現を調節する。 しかし、長距離相互作用は従来のキブル・ズレックのスケーリングを妨害し、変換の速度に依存しない欠陥の密度をもたらす。 本研究では,その量子臨界点を越えて強長射程系をゆっくりとアニールすることで生じる欠陥の完全な全計数統計を解析的に決定する。 長距離システムにおける欠陥生成のメカニズムは、古典的等価性を持たない純粋量子過程であることを示す。 さらに、普遍性は欠陥密度だけでなく、分布の全てのモーメントにおいても観察される。 この発見は、Rydbergガスや閉じ込められたイオンを含む様々な実験プラットフォームで検証することができる。

Quasi-static transformations, or slow quenches, of many-body quantum systems across quantum critical points create topological defects. The Kibble-Zurek mechanism regulates the appearance of defects in a local quantum system through a classical combinatorial process. However, long-range interactions disrupt the conventional Kibble-Zurek scaling and lead to a density of defects that is independent of the rate of the transformation. In this study, we analytically determine the complete full counting statistics of defects generated by slow annealing a strong long-range system across its quantum critical point. We demonstrate that the mechanism of defect generation in long-range systems is a purely quantum process with no classical equivalent. Furthermore, universality is not only observed in the defect density but also in all the moments of the distribution. Our findings can be tested on various experimental platforms, including Rydberg gases and trapped ions.
翻訳日:2023-05-22 13:40:14 公開日:2023-05-19
# 学習者と密集キャプションを用いた視覚言語事前学習の強化

Enhancing Vision-Language Pre-Training with Jointly Learned Questioner and Dense Captioner ( http://arxiv.org/abs/2305.11769v1 )

ライセンス: Link先を確認
Zikang Liu, Sihan Chen, Longteng Guo, Handong Li, Xingjian He, Jing Liu(参考訳) 大規模な事前学習型マルチモーダルモデルは、画像キャプション、画像テキスト検索、視覚的質問応答(VQA)など、下流タスクにおいて大きな成功を収めている。 しかし、これらの手法の多くは、Webから収集した画像とテキストのペアを事前学習データとして頼りにしており、残念ながら、視覚と言語モダリティの微妙な特徴調整の必要性を見落としている。 VQAと高密度キャプション(DC)を事前訓練に組み込むことはこの問題に対処できるが、画像検索と画像位置対応三脚の取得は困難であり、時間を要する。 加えて、VQAと高密度キャプションのための公開データセットは通常、手動のデータ収集とラベル付けの取り組みのために大規模に制限されている。 本稿では,事前学習されたマルチモーダルモデルと容易に拡張可能な画像テキストペアを用いて,大規模VQAと高密度キャプションデータセットの自動生成とフィルタリングを行うJADE(Joint QA and DC GEneration)を提案する。 本稿では,概念キャプション(CC3M)データセットに適用し,CC3M-QA-DCと呼ばれる新しいデータセットを生成する。 実験により,マルチタスク方式で事前学習を行う場合,CC3M-QA-DCは様々な下流タスクにおいて,様々なバックボーンを用いて性能を向上させることができることがわかった。 さらに、生成されたCC3M-QA-DCは、より大きな画像テキストデータセット(例えば、CC15M)と組み合わせて、より多くのデータを使用するモデルと比較して、競合的な結果を得ることができる。 コードとデータセットがリリースされる。

Large pre-trained multimodal models have demonstrated significant success in a range of downstream tasks, including image captioning, image-text retrieval, visual question answering (VQA), etc. However, many of these methods rely on image-text pairs collected from the web as pre-training data and unfortunately overlook the need for fine-grained feature alignment between vision and language modalities, which requires detailed understanding of images and language expressions. While integrating VQA and dense captioning (DC) into pre-training can address this issue, acquiring image-question-answer as well as image-location-caption triplets is challenging and time-consuming. Additionally, publicly available datasets for VQA and dense captioning are typically limited in scale due to manual data collection and labeling efforts. In this paper, we propose a novel method called Joint QA and DC GEneration (JADE), which utilizes a pre-trained multimodal model and easily-crawled image-text pairs to automatically generate and filter large-scale VQA and dense captioning datasets. We apply this method to the Conceptual Caption (CC3M) dataset to generate a new dataset called CC3M-QA-DC. Experiments show that when used for pre-training in a multi-task manner, CC3M-QA-DC can improve the performance with various backbones on various downstream tasks. Furthermore, our generated CC3M-QA-DC can be combined with larger image-text datasets (e.g., CC15M) and achieve competitive results compared with models using much more data. Code and dataset will be released.
翻訳日:2023-05-22 13:40:04 公開日:2023-05-19
# 全体的3次元シーン理解による視覚空間記述の生成

Generating Visual Spatial Description via Holistic 3D Scene Understanding ( http://arxiv.org/abs/2305.11768v1 )

ライセンス: Link先を確認
Yu Zhao, Hao Fei, Wei Ji, Jianguo Wei, Meishan Zhang, Min Zhang, Tat-Seng Chua(参考訳) 視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。 既存のVSDの作業は、単に2次元幾何学的視覚特徴をモデル化するだけで、ターゲット対象の空間的理解の問題に必然的に餌食となる。 本研究では,VSDのための3Dシーン機能の導入について検討する。 外部3dシーン抽出装置を用いて,対象オブジェクト中心の3d空間シーングラフ(go3d-s2g)を構築し,対象オブジェクトの空間意味を全体的3dシーン内でモデル化する。 また,go3d-s2gからトポロジカルな部分グラフをサンプリングし,様々な局所構造特徴をナビゲートし,空間的に変化するテキストを生成するシーン部分グラフ選択機構を提案する。 2つのvsdデータセットの実験的結果は、我々のフレームワークがベースラインを大きく上回り、特に複雑な視覚空間関係の場合に改善していることを示している。 一方,本手法は,より空間的に変化する世代を生成できる。 コードはhttps://github.com/zhaoyucs/vsdで入手できる。

Visual spatial description (VSD) aims to generate texts that describe the spatial relations of the given objects within images. Existing VSD work merely models the 2D geometrical vision features, thus inevitably falling prey to the problem of skewed spatial understanding of target objects. In this work, we investigate the incorporation of 3D scene features for VSD. With an external 3D scene extractor, we obtain the 3D objects and scene features for input images, based on which we construct a target object-centered 3D spatial scene graph (Go3D-S2G), such that we model the spatial semantics of target objects within the holistic 3D scenes. Besides, we propose a scene subgraph selecting mechanism, sampling topologically-diverse subgraphs from Go3D-S2G, where the diverse local structure features are navigated to yield spatially-diversified text generation. Experimental results on two VSD datasets demonstrate that our framework outperforms the baselines significantly, especially improving on the cases with complex visual spatial relations. Meanwhile, our method can produce more spatially-diversified generation. Code is available at https://github.com/zhaoyucs/VSD.
翻訳日:2023-05-22 13:39:34 公開日:2023-05-19
# グラフ上の転送演算子:スペクトルクラスタリングとbeyond

Transfer operators on graphs: Spectral clustering and beyond ( http://arxiv.org/abs/2305.11766v1 )

ライセンス: Link先を確認
Stefan Klus, Maia Trower(参考訳) グラフとネットワークは、輸送ネットワーク、集積回路、電力グリッド、引用グラフ、生物学的および人工的なニューラルネットワークなどの複雑な相互接続システムのモデリングと分析において重要な役割を果たす。 グラフクラスタリングアルゴリズムは、強く連結された頂点のグループを検出し、粗粒モデルを導出するために使うことができる。 グラフ上のkoopman演算子やperron-frobenius演算子のような転送演算子を定義し、それらのスペクトル特性を研究し、これらの演算子のガレルキン射影を導入し、データからどのように縮小表現を推定できるかを示す。 特に、無向グラフのスペクトルクラスタリングをクープマン作用素の固有関数を用いて解釈し、一般化された転送作用素に基づく有向グラフの新しいクラスタリングアルゴリズムを提案する。 本研究では,複数のベンチマーク問題に対するアルゴリズムの有効性を実証し,クラスタの異なる解釈を提供する。

Graphs and networks play an important role in modeling and analyzing complex interconnected systems such as transportation networks, integrated circuits, power grids, citation graphs, and biological and artificial neural networks. Graph clustering algorithms can be used to detect groups of strongly connected vertices and to derive coarse-grained models. We define transfer operators such as the Koopman operator and the Perron-Frobenius operator on graphs, study their spectral properties, introduce Galerkin projections of these operators, and illustrate how reduced representations can be estimated from data. In particular, we show that spectral clustering of undirected graphs can be interpreted in terms of eigenfunctions of the Koopman operator and propose novel clustering algorithms for directed graphs based on generalized transfer operators. We demonstrate the efficacy of the resulting algorithms on several benchmark problems and provide different interpretations of clusters.
翻訳日:2023-05-22 13:39:13 公開日:2023-05-19
# 半空間のためのテスタリーナー:ユニバーサルアルゴリズム

Tester-Learners for Halfspaces: Universal Algorithms ( http://arxiv.org/abs/2305.11765v1 )

ライセンス: Link先を確認
Aravind Gollakota, Adam R. Klivans, Konstantinos Stavropoulos, Arsen Vasilyan(参考訳) 半空間に対する最初のテスタ・リーナーは、広く構成された分布のクラスで普遍的に成功する。 学習者は、テスト者が受け入れるラベル付き分布でエラー $o(\mathrm{opt}) + \epsilon$ を達成し、さらに、限界がポアンカル・ユイの不等式を満たす任意の分布であるとき、テスト者は受け入れる。 テスト可能な学習に関する以前の研究とは対照的に、テスターは単一ターゲットの分布に合わせたものではなく、ターゲットの分布全体に対して成功する。 Poincar\'e 分布のクラスは、全ての強い対数分布を含み、Kannan--L\'{o}vasz--Simonovits (KLS) 予想を仮定すると、全ての対数対数分布を含む。 ラベルノイズがマスアートであることが知られている特別なケースでは、テスト担当者は、すべてのログコンケーブ分布を無条件に(klsを仮定せずに)受け入れながら、エラー $\mathrm{opt} + \epsilon$ を達成する。 本テストでは,SOS(sum-of-squares)プログラムを用いて未知分布の超収縮度をチェックすることに頼るとともに,Poincar\'e分布がSOSフレームワークにおいて極めて過収縮的であるという事実を重要視する。

We give the first tester-learner for halfspaces that succeeds universally over a wide class of structured distributions. Our universal tester-learner runs in fully polynomial time and has the following guarantee: the learner achieves error $O(\mathrm{opt}) + \epsilon$ on any labeled distribution that the tester accepts, and moreover, the tester accepts whenever the marginal is any distribution that satisfies a Poincar\'e inequality. In contrast to prior work on testable learning, our tester is not tailored to any single target distribution but rather succeeds for an entire target class of distributions. The class of Poincar\'e distributions includes all strongly log-concave distributions, and, assuming the Kannan--L\'{o}vasz--Simonovits (KLS) conjecture, includes all log-concave distributions. In the special case where the label noise is known to be Massart, our tester-learner achieves error $\mathrm{opt} + \epsilon$ while accepting all log-concave distributions unconditionally (without assuming KLS). Our tests rely on checking hypercontractivity of the unknown distribution using a sum-of-squares (SOS) program, and crucially make use of the fact that Poincar\'e distributions are certifiably hypercontractive in the SOS framework.
翻訳日:2023-05-22 13:38:56 公開日:2023-05-19
# インサイドストーリー: 機械翻訳のニューラル評価指標の理解を深める

The Inside Story: Towards Better Understanding of Machine Translation Neural Evaluation Metrics ( http://arxiv.org/abs/2305.11806v1 )

ライセンス: Link先を確認
Ricardo Rei, Nuno M. Guerreiro, Marcos Treviso, Luisa Coheur, Alon Lavie and Andr\'e F.T. Martins(参考訳) cometのような機械翻訳評価のためのニューラルメトリックスは、bleuのような語彙重複に基づく従来のメトリクスと比較して、人間の判断との相関が著しく改善されている。 しかし、ニューラルネットワークのメトリクスは、意思決定プロセスに関する透明性なしに、単一の文レベルのスコアを返す"ブラックボックス"である。 そこで本研究では,いくつかの神経説明可能性法を開発し比較し,その効果を実証する。 本研究は, トークンレベルのニューラルサリエンシマップとMultidimensional Quality Metrics(MQM)アノテーション, および合成的に生成した臨界翻訳エラーとの比較により, 翻訳誤りに直接起因するトークンレベルの情報を活用することを明らかにする。 今後の研究を容易にするために、コードはhttps://github.com/unbabel/comet/tree/explainable-metricsでリリースします。

Neural metrics for machine translation evaluation, such as COMET, exhibit significant improvements in their correlation with human judgments, as compared to traditional metrics based on lexical overlap, such as BLEU. Yet, neural metrics are, to a great extent, "black boxes" returning a single sentence-level score without transparency about the decision-making process. In this work, we develop and compare several neural explainability methods and demonstrate their effectiveness for interpreting state-of-the-art fine-tuned neural metrics. Our study reveals that these metrics leverage token-level information that can be directly attributed to translation errors, as assessed through comparison of token-level neural saliency maps with Multidimensional Quality Metrics (MQM) annotations and with synthetically-generated critical translation errors. To ease future research, we release our code at: https://github.com/Unbabel/COMET/tree/explainable-metrics.
翻訳日:2023-05-22 13:31:27 公開日:2023-05-19
# PANNA 2.0: 効率的なニューラルネットワーク間ポテンシャルと新しいアーキテクチャ

PANNA 2.0: Efficient neural network interatomic potentials and new architectures ( http://arxiv.org/abs/2305.11805v1 )

ライセンス: Link先を確認
Franco Pellegrini, Ruggero Lot, Yusuf Shaidu, Emine K\"u\c{c}\"ukbenli(参考訳) 本稿では,ローカル原子ディスクリプタと多層パーセプトロンに基づくニューラルネットワーク間ポテンシャル生成のためのコードであるPANNA 2.0(Properties from Artificial Neural Network Architectures)の最新リリースを紹介する。 新しいバックエンド上に構築されたPANNAの新リリースは、ネットワークトレーニングのカスタマイズと監視のためのツールの改善、高速なディスクリプタ電卓を含むGPUサポート、外部コード用のプラグイン、変動電荷平衡スキームによる長距離静電相互作用の導入のための新しいアーキテクチャを備えている。 本稿では、新しいコードの主な特徴の概要と、PANNAモデルの精度と技術の現状を比較したいくつかのベンチマークについて、一般的なベンチマークとよりリッチなデータセットで紹介する。

We present the latest release of PANNA 2.0 (Properties from Artificial Neural Network Architectures), a code for the generation of neural network interatomic potentials based on local atomic descriptors and multilayer perceptrons. Built on a new back end, this new release of PANNA features improved tools for customizing and monitoring network training, better GPU support including a fast descriptor calculator, new plugins for external codes and a new architecture for the inclusion of long-range electrostatic interactions through a variational charge equilibration scheme. We present an overview of the main features of the new code, and several benchmarks comparing the accuracy of PANNA models to the state of the art, on commonly used benchmarks as well as richer datasets.
翻訳日:2023-05-22 13:31:10 公開日:2023-05-19
# Floquetスカー状態による予熱以外の工学的サブハーモニック応答

Engineering subharmonic responses beyond prethermalization via Floquet scar states ( http://arxiv.org/abs/2305.11802v1 )

ライセンス: Link先を確認
Ke Huang, and Xiao Li(参考訳) 本研究は, 一般化されたPXPモデルにおいて, スカー状態によるサブハーモニック応答を設計するための新しい手法を提案する。 まず、一般化されたPXPモデルが、プリスタンPXPモデルのように、スカー状態のバンドを持つことを示す。 さらに、一般化された前方散乱近似 (FSA) がこれらの不足状態に対して依然として有効であることを明らかにする。 さらに、FSA部分空間が$SO(3)$対称性を示し、それによって傷跡状態に対する$SO(3)$-FSAアプローチが可能になると主張する。 このようなモデルを周期的駆動下に置くと、非自明なフロケスカー状態が準エネルギースペクトルに現れる。 このようなフロケスカー状態の魅力的な特徴の1つは、離散時間結晶相に類似したサブハーモニック応答を支持できることである。 特に、そのようなサブハーモニック応答は、大きな周波数または大きな駆動振幅が要求される従来の予熱系を超えて存在する。

In this work we propose a new scheme to engineer subharmonic responses via scar states in a generalized PXP model. We first show that the generalized PXP model also possesses a band of scar states like the pristine PXP model does. In addition, we reveal that a generalized forward scattering approximation (FSA) still works for these scar states. We further argue that the FSA subspace exhibits an $SO(3)$ symmetry, which enables an $SO(3)$-FSA approach for the scar states. When such a model is placed under periodic driving, nontrivial Floquet scar states emerge in the quasienergy spectrum. One appealing feature of such Floquet scar states is that they can support subharmonic responses akin to the discrete time crystalline phase. In particular, such subharmonic responses can exist beyond the conventional prethermalization regime, where either large frequencies or large driving amplitudes are required.
翻訳日:2023-05-22 13:30:56 公開日:2023-05-19
# 確率フローODEは確実に高速である

The probability flow ODE is provably fast ( http://arxiv.org/abs/2305.11798v1 )

ライセンス: Link先を確認
Sitan Chen, Sinho Chewi, Holden Lee, Yuanzhi Li, Jianfeng Lu, Adil Salim(参考訳) スコアベース生成モデルの確率フローODE実装(補正ステップを含む)に対する最初の多項式時間収束保証を提供する。 本研究は,最近のsdeに基づく実装(拡散確率モデリング,ddpm)の保証を得た結果から得られたものであるが,契約性のない決定論的ダイナミクスを研究するための新しい手法の開発が求められている。 非破壊的ランジュバン拡散に基づく特別に選択された補正ステップを用いることで、ddpm(o(\sqrt{d})$ vs. $o(d)$、データ分布の滑らかさを仮定して)の以前の作業よりも優れた次元依存性を得ることができ、odeフレームワークの潜在的な利点を浮き彫りにする。

We provide the first polynomial-time convergence guarantees for the probability flow ODE implementation (together with a corrector step) of score-based generative modeling. Our analysis is carried out in the wake of recent results obtaining such guarantees for the SDE-based implementation (i.e., denoising diffusion probabilistic modeling or DDPM), but requires the development of novel techniques for studying deterministic dynamics without contractivity. Through the use of a specially chosen corrector step based on the underdamped Langevin diffusion, we obtain better dimension dependence than prior works on DDPM ($O(\sqrt{d})$ vs. $O(d)$, assuming smoothness of the data distribution), highlighting potential advantages of the ODE framework.
翻訳日:2023-05-22 13:30:40 公開日:2023-05-19
# マルチフラクタルフラットネスによる魔法の測定

Measuring Magic via Multifractal Flatness ( http://arxiv.org/abs/2305.11797v1 )

ライセンス: Link先を確認
Xhek Turkeshi and Marco Schir\`o and Piotr Sierant(参考訳) 普遍量子コンピューティングは非安定化器(魔法)量子状態を必要とする。 非安定化性を定量化し、他の量子資源と関連付けることは、量子多体系の複雑性を特徴付けるのに不可欠である。 本研究では、量子状態が安定化器であることと、そのクリフォード軌道に属する全ての状態が計算ベースで平坦な確率分布を持つことを証明する。 これは特にマルチフラクタル状態がマジックであることを意味する。 本稿では,波動関数分布の平坦度を定量化する参加エントロピーに基づくマルチフラクタル平坦度を提案する。 この量は状態の安定度エントロピーと解析的に関係していることを示し、多フラクタリティと非安定度の関係を解明するいくつかの例を示す。 特に,マルチフラクタル平坦性は実験的で計算可能な非安定化器性証明を提供することを示す。 本研究は,量子状態の非安定化性と波動関数構造との直接関係を明らかにする。

Universal quantum computing requires non-stabilizer (magic) quantum states. Quantifying the nonstabilizerness and relating it to other quantum resources is vital for characterizing the complexity of quantum many-body systems. In this work, we prove that a quantum state is a stabilizer if and only if all states belonging to its Clifford orbit have a flat probability distribution on the computational basis. This implies, in particular, that multifractal states are magic. We introduce multifractal flatness, a measure based on the participation entropy that quantifies the wave function distribution flatness. We demonstrate that this quantity is analytically related to the stabilizer entropy of the state and present several examples elucidating the relationship between multifractality and nonstabilizerness. In particular, we show that the multifractal flatness provides an experimentally and computationally viable nonstabilizerness certification. Our work unravels a direct relation between the nonstabilizerness of a quantum state and its wave function structure.
翻訳日:2023-05-22 13:30:25 公開日:2023-05-19
# GAN操作多スペクトル衛星画像検出のための一級分類器

A One-Class Classifier for the Detection of GAN Manipulated Multi-Spectral Satellite Images ( http://arxiv.org/abs/2305.11795v1 )

ライセンス: Link先を確認
Lydia Abady, Giovanna Maria Dimitri and Mauro Barni(参考訳) 現在の画像生成モデルによって達成される高度に現実的な画像品質は多くの学術的、工業的応用がある。 しかし、このようなモデルの使用を良質な用途に限定するには、画像が合成的に生成されたかどうかを決定的に検出するツールの開発が必要である。 このため、コンピュータビジョンの応用において優れた性能を発揮する検出器がいくつか開発されているが、マルチスペクトル衛星画像では適用できないため、新しいモデルを訓練する必要がある。 一般に、2つのクラス分類器は非常に良い検出精度を達成できるが、トレーニングで使用するものと異なる画像領域や生成モデルアーキテクチャに一般化することはできない。 そこで本稿では,ベクトル量子化変分オートエンコーダ2(vq-vae2)に基づく1クラス分類器を提案する。 まず,複数のマルチスペクトルデータセット上でのEfficientNet-B4アーキテクチャのトレーニングとテストにより,バイナリ分類器が抱える一般化問題を強調する。 そして、vq-vae 2 ベースの分類器は、プリスティーヌ画像のみに基づいてトレーニングされるので、異なるドメインに属する画像を検出し、トレーニング中に使われていないアーキテクチャによって生成される。 最後に、2つの分類器を同じ生成されたデータセットで比較し、VQ-VAE 2ベースの検出器の優位な一般化能力を強調した。

The highly realistic image quality achieved by current image generative models has many academic and industrial applications. To limit the use of such models to benign applications, though, it is necessary that tools to conclusively detect whether an image has been generated synthetically or not are developed. For this reason, several detectors have been developed providing excellent performance in computer vision applications, however, they can not be applied as they are to multispectral satellite images, and hence new models must be trained. In general, two-class classifiers can achieve very good detection accuracies, however they are not able to generalise to image domains and generative models architectures different than those used during training. For this reason, in this paper, we propose a one-class classifier based on Vector Quantized Variational Autoencoder 2 (VQ-VAE 2) features to overcome the limitations of two-class classifiers. First, we emphasize the generalization problem that binary classifiers suffer from by training and testing an EfficientNet-B4 architecture on multiple multispectral datasets. Then we show that, since the VQ-VAE 2 based classifier is trained only on pristine images, it is able to detect images belonging to different domains and generated by architectures that have not been used during training. Last, we compare the two classifiers head-to-head on the same generated datasets, highlighting the superiori generalization capabilities of the VQ-VAE 2-based detector.
翻訳日:2023-05-22 13:30:10 公開日:2023-05-19
# LLMを用いた深い対話質問への応答のためのチェーン・オブ・シント・プロンプト

Chain-of-thought prompting for responding to in-depth dialogue questions with LLM ( http://arxiv.org/abs/2305.11792v1 )

ライセンス: Link先を確認
Hongru Wang, Rui Wang, Fei Mi, Zezhong Wang, Ruifeng Xu, Kam-Fai Wong(参考訳) ユーザが質問する方法や内容は、その人格、感情、心理学など、現在の状況に関する洞察を与えることができる。 大規模言語モデル(LLM)を直接的に促すのではなく、このシナリオにおいてチェーン・オブ・思想のプロンプトが、ユーザステータスに応じて推論と計画を実行し、ユーザクエリに対してよりパーソナライズされ、魅力的なエクスペリエンスを提供することを目指している。 この目的のために、まず英語と中国語の両方で6つの対話または質問応答データセットのベンチマークを構築し、ユーザステータスの3つの異なる側面をカバーする(\textit{including} \textit{personality}, \textit{emotion}, \textit{psychology})。 次に,LCMに中間推論処理としてユーザステータスに関する応答を生成するよう促す。 テストクエリの代わりに中間推論のセマンティックな類似性を用いた新しいデモ選択戦略を提案する。 提案手法の有効性とロバスト性を評価するため,ゼロショットおよびワンショット設定で7 llmを用いた広範囲実験を行った。 実験結果から,本手法は LLM によらず,すべてのデータセットにおいて,textit{helpfulness} と \textit{acceptness} の両方の観点から,標準的プロンプトを一貫して上回っていることがわかった。 コードとデータセットは \url{https://github.com/ruleGreen/Dialogue\_CoT.git} で見ることができる。

The way and content in which users ask questions can provide insight into their current status, including their personality, emotions, and psychology. Instead of directly prompting the large language models (LLMs), we explore how chain-of-thought prompting helps in this scenario to perform reasoning and planning according to user status, aiming to provide a more personalized and engaging experience for the user query. To this end, we first construct a benchmark of 6 dialogue or question-answering datasets in both English and Chinese, covering 3 different aspects of user status (\textit{including} \textit{personality}, \textit{emotion}, and \textit{psychology}). Then we prompt the LLMs to generate the response regarding the user status as intermediate reasoning processing. We propose a novel demonstration selection strategy using the semantic similarity of intermediate reasoning instead of test queries. To evaluate the effectiveness and robustness of our approach, we conduct extensive experiments with 7 LLMs under zero-shot and one-shot settings. The experimental results show that our approach consistently outperforms standard prompting in terms of both \textit{helpfulness} and \textit{acceptness} across all datasets, regardless of the LLMs used. The code and dataset can be found at \url{https://github.com/ruleGreen/Dialogue\_CoT.git}.
翻訳日:2023-05-22 13:29:46 公開日:2023-05-19
# Prompt Ordering に基づくデータ拡張によるFew-shot NERの強化

Enhancing Few-shot NER with Prompt Ordering based Data Augmentation ( http://arxiv.org/abs/2305.11791v1 )

ライセンス: Link先を確認
Huiming Wang, Liying Cheng, Wenxuan Zhang, De Wen Soh, Lidong Bing(参考訳) 近年,データ拡張 (da) 手法が低リソース環境における事前学習型言語モデル (plm) に有効であることが実証されている。 しかし、従来のNER DA法は主にシーケンシャルラベリングモデル、すなわちトークンレベルの分類を目的としており、ネストされたNERのような幅広いNERタスクを処理できる統一された自己回帰生成フレームワークと互換性があるものはほとんどない。 さらに、これらの生成フレームワークは、エンティティがソースシーケンスと同じ左から右への順序でターゲットシーケンスに現れるという強い仮定を持っている。 本稿では,この厳密な秩序を維持する必要はなく,新しいda法として,訓練段階においてより多様化した,合理的な対象エンティティシーケンスが提供できると主張する。 それでも、1つのソースシーケンスが異なるターゲットシーケンスとペアリングされるため、拡張データの単純な混合はモデルを混乱させる可能性がある。 そこで本研究では,数ショットのNERシナリオ下での統一自己回帰生成フレームワークのトレーニングを改善するため,シンプルだが効果的なPrompt Ordering based Data Augmentation(PODA)手法を提案する。 3つのパブリックNERデータセットの実験結果とさらなる分析により,本手法の有効性が示された。

Recently, data augmentation (DA) methods have been proven to be effective for pre-trained language models (PLMs) in low-resource settings, including few-shot named entity recognition (NER). However, conventional NER DA methods are mostly aimed at sequence labeling models, i.e., token-level classification, and few are compatible with unified autoregressive generation frameworks, which can handle a wider range of NER tasks, such as nested NER. Furthermore, these generation frameworks have a strong assumption that the entities will appear in the target sequence with the same left-to-right order as the source sequence. In this paper, we claim that there is no need to keep this strict order, and more diversified but reasonable target entity sequences can be provided during the training stage as a novel DA method. Nevertheless, a naive mixture of augmented data can confuse the model since one source sequence will then be paired with different target sequences. Therefore, we propose a simple but effective Prompt Ordering based Data Augmentation (PODA) method to improve the training of unified autoregressive generation frameworks under few-shot NER scenarios. Experimental results on three public NER datasets and further analyses demonstrate the effectiveness of our approach.
翻訳日:2023-05-22 13:29:18 公開日:2023-05-19
# 擬似コード命令によるプロンプト

Prompting with Pseudo-Code Instructions ( http://arxiv.org/abs/2305.11790v1 )

ライセンス: Link先を確認
Mayank Mishra, Prince Kumar, Riyaz Bhat, Rudra Murthy V, Danish Contractor, Srikanth Tamilselvam(参考訳) 自然言語インストラクションによるプロンプトは,近年,大規模言語モデルの能力を活用する一般的な方法として登場している。 自然言語に固有のあいまいさを考えると、疑似コードの使用のようなあいまいさの少ないプロンプトスタイルでプロンプトする可能性の利点を考えるのは直感的である。 本稿では,擬似コード命令によるプロンプトが事前学習言語モデルの性能向上に役立つかどうかを考察する。 超自然命令データセットから派生した分類、qaおよび生成言語タスクにまたがる132の異なるタスクのための擬似コードプロンプトのデータセットを手作業で作成する。 これらのプロンプトと自然言語の対応を利用して, BLOOM と CodeGen の2つの LLM ファミリ上での性能について検討する。 実験の結果, 擬似符号命令を用いることで, 分類作業におけるF1得点の7~16点の平均増加(絶対値)と, 全タスクにおけるROUGE得点の12~38%の改善(相対値)が得られた。 コードコメントやドキュストリング,擬似コードでエンコードされた構造的ヒントなどが,すべてパフォーマンス向上に寄与していることを示す詳細なアブレーション研究を含む。 我々の知る限りでは、我々の研究は、擬似コードプロンプトが事前訓練されたLMの性能向上にどのように役立つかを初めて示すものである。

Prompting with natural language instructions has recently emerged as a popular method of harnessing the capabilities of large language models. Given the inherent ambiguity present in natural language, it is intuitive to consider the possible advantages of prompting with less ambiguous prompt styles, such as the use of pseudo-code. In this paper we explore if prompting via pseudo-code instructions helps improve the performance of pre-trained language models. We manually create a dataset of pseudo-code prompts for 132 different tasks spanning classification, QA and generative language tasks, sourced from the Super-NaturalInstructions dataset. Using these prompts along with their counterparts in natural language, we study their performance on two LLM families - BLOOM and CodeGen. Our experiments show that using pseudo-code instructions leads to better results, with an average increase (absolute) of 7-16 points in F1 scores for classification tasks and an improvement (relative) of 12-38% in aggregate ROUGE scores across all tasks. We include detailed ablation studies which indicate that code comments, docstrings, and the structural clues encoded in pseudo-code all contribute towards the improvement in performance. To the best of our knowledge our work is the first to demonstrate how pseudo-code prompts can be helpful in improving the performance of pre-trained LMs.
翻訳日:2023-05-22 13:28:44 公開日:2023-05-19
# 人間システムコラボレーションによるNLP問題の解決--議論に基づくアプローチ

Solving NLP Problems through Human-System Collaboration: A Discussion-based Approach ( http://arxiv.org/abs/2305.11789v1 )

ライセンス: Link先を確認
Masahiro Kaneko, Graham Neubig, Naoaki Okazaki(参考訳) 人間は共通の問題を解決するために協力し、議論し、説明し、同意し、同意する。 同様に、タスクの解決時にシステムが人間と議論できる場合、システムの性能と信頼性を改善することができる。 従来の説明可能性に関する研究では, 相互に意見交換を行うのではなく, システムが予測を行い, 人間が質問することしか不可能であった。 本研究では,対話による予測を議論・洗練するシステムのためのデータセットと計算フレームワークの構築を目的としている。 実験により,提案するシステムは,自然言語推論タスクにおいて,最大25ポイントの精度向上を図ることができることを示す。

Humans work together to solve common problems by having discussions, explaining, and agreeing or disagreeing with each other. Similarly, if a system can have discussions with humans when solving tasks, it can improve the system's performance and reliability. In previous research on explainability, it has only been possible for the system to make predictions and for humans to ask questions about them rather than having a mutual exchange of opinions. This research aims to create a dataset and computational framework for systems that discuss and refine their predictions through dialogue. Through experiments, we show that the proposed system can have beneficial discussions with humans improving the accuracy by up to 25 points in the natural language inference task.
翻訳日:2023-05-22 13:27:56 公開日:2023-05-19
# 自動温度調整によるソフトアクター臨界アルゴリズムの正則化

Regularization of Soft Actor-Critic Algorithms with Automatic Temperature Adjustment ( http://arxiv.org/abs/2305.11831v1 )

ライセンス: Link先を確認
Ben You(参考訳) 本研究は,ソフトアクタ・クリティカル(SAC)アルゴリズムを自動温度調整で正規化するための包括的解析を行う。 政策評価、政策改善、温度調整を改定し、特定の修正に対処し、より明示的な方法で原理論の明確性を高める。

This work presents a comprehensive analysis to regularize the Soft Actor-Critic (SAC) algorithm with automatic temperature adjustment. The the policy evaluation, the policy improvement and the temperature adjustment are reformulated, addressing certain modification and enhancing the clarity of the original theory in a more explicit manner.
翻訳日:2023-05-22 13:22:09 公開日:2023-05-19
# 医療システムレビューにおけるLCMの有用性とハーム

Appraising the Potential Uses and Harms of LLMs for Medical Systematic Reviews ( http://arxiv.org/abs/2305.11828v1 )

ライセンス: Link先を確認
Hye Sun Yun, Iain J. Marshall, Thomas Trikalinos, Byron C. Wallace(参考訳) 医療体系的レビューは、臨床意思決定と医療政策を伝えるために不可欠である。 しかし、このようなレビューを作成するのは面倒で時間がかかる。 したがって、高品質なエビデンス・シンプは、多くの質問に対して利用できず、利用可能であっても時代遅れになる可能性がある。 大規模言語モデル(llm)は現在、長文テキストを生成することができ、必要に応じて文学レビューを自動的に生成する可能性を示唆している。 しかし、LLMは重要な情報を幻覚したり省略したりすることで、不正確な(そして潜在的に誤解を招く)テキストを生成することがある。 医療の分野では、LSMはベストに使用できなくなり、最悪の場合危険になる可能性がある。 LLMの利点とリスクに関するほとんどの議論は、特定の応用から切り離されている。 本研究は,医学的エビデンスレビューの作成を支援するLLMの有用性とリスクを質的に評価することを目的とする。 組織的レビューにおける国際専門家との16の半構造化インタビューを実施し,エビデンスレビュー作成の文脈で議論を基礎づけた。 ドメインの専門家は、LCMはレビューを書くのに役立ち、プレーン言語要約の起草や作成、テンプレートや提案の作成、情報の蒸留、クロスチェック、テキスト入力の合成、解釈のツールとして役立つことを示した。 しかし、彼らはモデル出力の問題も特定し、自信を持って構成されたが不正確なLCM出力の潜在的な下流の害について懸念を表明した。 その他の予想されるダウンストリーム障害には、説明責任の低減と、品質の低い自動レビューの拡散があった。 この質的分析により, 生物医学的llmの厳密な評価基準を, ドメインエキスパートの見解と一致させた。

Medical systematic reviews are crucial for informing clinical decision making and healthcare policy. But producing such reviews is onerous and time-consuming. Thus, high-quality evidence synopses are not available for many questions and may be outdated even when they are available. Large language models (LLMs) are now capable of generating long-form texts, suggesting the tantalizing possibility of automatically generating literature reviews on demand. However, LLMs sometimes generate inaccurate (and potentially misleading) texts by hallucinating or omitting important information. In the healthcare context, this may render LLMs unusable at best and dangerous at worst. Most discussion surrounding the benefits and risks of LLMs have been divorced from specific applications. In this work, we seek to qualitatively characterize the potential utility and risks of LLMs for assisting in production of medical evidence reviews. We conducted 16 semi-structured interviews with international experts in systematic reviews, grounding discussion in the context of generating evidence reviews. Domain experts indicated that LLMs could aid writing reviews, as a tool for drafting or creating plain language summaries, generating templates or suggestions, distilling information, crosschecking, and synthesizing or interpreting text inputs. But they also identified issues with model outputs and expressed concerns about potential downstream harms of confidently composed but inaccurate LLM outputs which might mislead. Other anticipated potential downstream harms included lessened accountability and proliferation of automatically generated reviews that might be of low quality. Informed by this qualitative analysis, we identify criteria for rigorous evaluation of biomedical LLMs aligned with domain expert views.
翻訳日:2023-05-22 13:22:04 公開日:2023-05-19
# STOAT: 構造化データから分析テキストへの制御

STOAT: Structured Data to Analytical Text With Controls ( http://arxiv.org/abs/2305.11826v1 )

ライセンス: Link先を確認
Deepanway Ghosal and Preksha Nema and Aravindan Raghuveer(参考訳) 最近の言語モデルは構造化データからテキスト生成タスクに多大な進歩を遂げている。 しかしながら、これらのモデルは、記述を生成するために論理的推論を必要とする場合、サブ最適性能を提供する。 本研究では,テーブルなどの構造化データから分析テキストを生成することに焦点を当てる。 gupta et al., 2020で提案された分類法に基づいて,数値推論,コモンセンス推論,時間推論,表知識,エンティティ知識といった,テキスト生成のための制御可能なテーブルに注目した。 本稿では,与えられた推論カテゴリを出力に注入するために,ベクトル量子化を用いて表と推論を意識したstatモデルを提案する。 分析文タスクでは, itotto と infotabs の親メトリクスに対して10.19%, 1.13% の改善が得られている。 また,本モデルでは,人体評価におけるベースラインモデルと比較して,忠実で分析的な記述が15.3%増加した。 totto (parikh et al., 2020) とinfotabs dataset (gupta et al.,2020) に基づく2つの推論カテゴリをアノテートしたテーブル間テキスト生成データセットをキュレートし,公開する。

Recent language models have made tremendous progress in the structured data to text generation task. However, these models still give sub-optimal performance where logical inference is required to generate the descriptions. In this work, we specifically focus on analytical text generation from structured data such as tables. Building on the taxonomy proposed in (Gupta et al., 2020) we focus on controllable table to text generation for the following reasoning categories: numerical reasoning, commonsense reasoning, temporal reasoning, table knowledge, and entity knowledge. We propose STOAT model, which is table and reasoning aware, with vector-quantization to infuse the given reasoning categories in the output. We observe that our model provides 10.19%, 1.13% improvement on the PARENT metric in iToTTo and Infotabs for the analytical sentence task. We also found that our model generates 15.3% more faithful and analytical descriptions as compared to the baseline models in human evaluation. We curate and release two reasoning category annotated table-to-interesting text generation datasets based on the ToTTo (Parikh et al., 2020) and InfoTabs datasets (Gupta et al.,2020).
翻訳日:2023-05-22 13:21:37 公開日:2023-05-19
# 個別攻撃に対する差動位相シフトQKDの安全性

Security of differential phase shifted QKD against explicit individual attacks ( http://arxiv.org/abs/2305.11822v1 )

ライセンス: Link先を確認
Valliamai Ramanathan, Anil Prabhakar, and Prabha Mandayam(参考訳) 量子鍵分布(QKD)は原則として無条件で安全であることが知られているが、実用の観点からQKDプロトコルのセキュリティを定量化することは依然として重要な課題である。 本稿では、位相ベースのQKDプロトコルに着目し、個別攻撃に対する3とnのパルス差動位相シフト量子鍵分布(DPS QKD)プロトコルのセキュリティを特徴付ける。 特に,最小誤り判定(MED)とクローン攻撃に着目し,これらの攻撃の有無で対応するビット誤り率と衝突確率を求める。 得られたセキュリティキーレートを、一般的な個人攻撃を考慮した既知の理論的下限と比較する。 明示的な攻撃戦略を持たない理論的な下限から離れて、我々の研究は、既知の実装による攻撃に基づいて、これらのフェーズベースのプロトコルのセキュリティを実践的に評価する。

Quantum key distribution (QKD) is known to be unconditionally secure in principle, but quantifying the security of QKD protocols from a practical standpoint continues to remain an important challenge. Here, we focus on phase-based QKD protocols and characterize the security of the 3 and n-pulse Differential-Phase-Shifted Quantum Key Distribution (DPS QKD) protocols against individual attacks. In particular, we focus on the minimum error discrimination (MED) and cloning attacks and obtain the corresponding bit error rates and the collision probability in the presence of these attacks. We compare the secure key rates thus obtained with the known theoretical lower bounds derived considering a general individual attack. In a departure from the theoretical lower bounds which has no explicit attack strategies, our work provides a practical assessment of the security of these phase-based protocols based on attacks with known implementations.
翻訳日:2023-05-22 13:21:13 公開日:2023-05-19
# MaGIC:マルチモダリティガイド画像コンプリート

MaGIC: Multi-modality Guided Image Completion ( http://arxiv.org/abs/2305.11818v1 )

ライセンス: Link先を確認
Yongsheng Yu, Hao Wang, Tiejian Luo, Heng Fan, Libo Zhang(参考訳) バニラ画像補完アプローチは、可算生成のための限られた参照情報のため、大きな欠落した領域に敏感である。 これを軽減するため、既存の手法では、追加のヒントを画像補完のガイダンスとして取り入れている。 改善されているにもかかわらず、これらのアプローチは単一のモダリティ(例えば、セグメンテーションやスケッチマップ)を使うことに制限されることが多い。 本稿では,マルチモーダル画像補完のための新しい,かつ効果的な手法であるマジック(magic)を提案する。この手法は,ガイド(テキスト,カンニーエッジ,スケッチ,セグメンテーション,参照画像,深さ,ポーズなど)として幅広い単一モダリティをサポートするだけでなく,これらのモダリティ(任意のマルチモダリティ)の任意にカスタマイズされた組み合わせにも適応する。 MaGICを構築するために、まず、単一のモーダル誘導画像補完のために単一モーダル信号をU-Netデノイザに注入するモーダル固有条件付きU-Net(MCU-Net)を導入する。 そこで我々は,複数の学習したMCU-Netに符号化されたモダリティ信号を活用するための一貫したモダリティブレンディング(CMB)法を提案する。 我々のCMBはトレーニングフリーなので、MGICの秘密である様々なモダリティの再トレーニングを回避し、新しいモダリティの調整に優れた柔軟性を実現しています。 実験では、最先端技術よりもMaGICの方が優れており、イン/アウトペイントや局所編集など、様々な完了タスクに一般化されている。 コードとモデルを使ったプロジェクトはyeates.github.io/MaGIC-Page/で利用可能です。

The vanilla image completion approaches are sensitive to the large missing regions due to limited available reference information for plausible generation. To mitigate this, existing methods incorporate the extra cue as a guidance for image completion. Despite improvements, these approaches are often restricted to employing a single modality (e.g., segmentation or sketch maps), which lacks scalability in leveraging multi-modality for more plausible completion. In this paper, we propose a novel, simple yet effective method for Multi-modal Guided Image Completion, dubbed MaGIC, which not only supports a wide range of single modality as the guidance (e.g., text, canny edge, sketch, segmentation, reference image, depth, and pose), but also adapts to arbitrarily customized combination of these modalities (i.e., arbitrary multi-modality) for image completion. For building MaGIC, we first introduce a modality-specific conditional U-Net (MCU-Net) that injects single-modal signal into a U-Net denoiser for single-modal guided image completion. Then, we devise a consistent modality blending (CMB) method to leverage modality signals encoded in multiple learned MCU-Nets through gradient guidance in latent space. Our CMB is training-free, and hence avoids the cumbersome joint re-training of different modalities, which is the secret of MaGIC to achieve exceptional flexibility in accommodating new modalities for completion. Experiments show the superiority of MaGIC over state-of-arts and its generalization to various completion tasks including in/out-painting and local editing. Our project with code and models is available at yeates.github.io/MaGIC-Page/.
翻訳日:2023-05-22 13:20:57 公開日:2023-05-19
# 戦略カードゲームAIコンペティションの要約

Summarizing Strategy Card Game AI Competition ( http://arxiv.org/abs/2305.11814v1 )

ライセンス: Link先を確認
Jakub Kowalski, Rados{\l}aw Miernik(参考訳) 本稿では5年間のAIコンペティションを,研究とアルゴリズム開発を支援するために考案された,小さな集合カードゲーム(CCG)であるLOCM(Legends of Code and Magic)に基づいて締めくくる。 このゲームは、codingameプラットフォームでのコミュニティコンテストや、ieee congress on evolutionary computationやieee conference on gamesなど、いくつかのイベントで使用された。 LOCMはゲームツリー探索アルゴリズム、ニューラルネットワーク、評価関数、CGデッキ構築などの分野に関する多くの出版物で使用されている。 本稿では,ゲームルール,組織的コンペの歴史,参加者とそのアプローチの一覧,研究コミュニティのためのAIコンペティションの組織化に関する一般的なアドバイスを紹介する。 COG 2022エディションは最後のバージョンと発表されたが、ゲームは引き続き利用可能であり、オンラインのリーダーボードアリーナでプレイすることができる。

This paper concludes five years of AI competitions based on Legends of Code and Magic (LOCM), a small Collectible Card Game (CCG), designed with the goal of supporting research and algorithm development. The game was used in a number of events, including Community Contests on the CodinGame platform, and Strategy Card Game AI Competition at the IEEE Congress on Evolutionary Computation and IEEE Conference on Games. LOCM has been used in a number of publications related to areas such as game tree search algorithms, neural networks, evaluation functions, and CCG deckbuilding. We present the rules of the game, the history of organized competitions, and a listing of the participant and their approaches, as well as some general advice on organizing AI competitions for the research community. Although the COG 2022 edition was announced to be the last one, the game remains available and can be played using an online leaderboard arena.
翻訳日:2023-05-22 13:20:25 公開日:2023-05-19
# dec-pomdpsにおけるモンテカルロ平衡探索

Monte-Carlo Search for an Equilibrium in Dec-POMDPs ( http://arxiv.org/abs/2305.11811v1 )

ライセンス: Link先を確認
Yang You, Vincent Thomas, Francis Colas, Olivier Buffet(参考訳) 分散化された部分観測可能マルコフ決定プロセス(Dec-POMDPs)は、確率力学と部分観測可能性の下で協調エージェントのグループの個々のコントローラを設計する問題を定式化する。 グローバルな最適性を求めることは難しい(NEXP 完全)が、ナッシュ均衡(英語版)を求めると、それぞれのエージェントポリシーが他のエージェントに最適な反応となる)はよりアクセスしやすく、有限状態コントローラの形での解による無限水平問題に対処することができる。 本稿では,dec-pomdpの生成モデル(シミュレータ)のみが利用可能である場合に適用可能であることを示す。 これは、エージェントのFSCノードをノード単位で構築するために、シミュレーションベースのPOMDPソルバに頼る必要がある。 関連するプロセスは、ヒューリスティックに初期fscを導出するために使用される。 ベンチマークによる実験によると、MC-JESPは、明示的なモデルを用いた多くのオフラインメソッドよりも、Dec-POMDPソルバの排除と競合している。

Decentralized partially observable Markov decision processes (Dec-POMDPs) formalize the problem of designing individual controllers for a group of collaborative agents under stochastic dynamics and partial observability. Seeking a global optimum is difficult (NEXP complete), but seeking a Nash equilibrium -- each agent policy being a best response to the other agents -- is more accessible, and allowed addressing infinite-horizon problems with solutions in the form of finite state controllers. In this paper, we show that this approach can be adapted to cases where only a generative model (a simulator) of the Dec-POMDP is available. This requires relying on a simulation-based POMDP solver to construct an agent's FSC node by node. A related process is used to heuristically derive initial FSCs. Experiment with benchmarks shows that MC-JESP is competitive with exisiting Dec-POMDP solvers, even better than many offline methods using explicit models.
翻訳日:2023-05-22 13:20:08 公開日:2023-05-19
# 浮遊光学結合ナノ粒子の冷減衰

Cold damping of levitated optically coupled nanoparticles ( http://arxiv.org/abs/2305.11809v1 )

ライセンス: Link先を確認
Vojtech Liska, Tereza Zemankova, Vojtech Svak, Petr Jakl, Jan Jezek, Martin Branecky, Stephen H. Simpson, Pavel Zemanek and Oto Brzobohaty(参考訳) 真空中で光学的に浮遊する単一粒子の運動を制御する方法が近年急速に進歩している。 コールドダンピングの技術は、フィードバック制御された静電力を利用して、さらなる熱揺らぎを導入することなく散逸を増加させる。 このプロセスは、個々の帯電したナノ粒子の基底状態冷却に役立っている。 ここでは、光結合力によって結合された一対のナノ粒子に同じ方法を適用することができることを示す。 これらの光学結合力は、典型的なクーロン粒子間力よりも約3桁強く、二つのナノ粒子の結合運動を2対の通常のモードで特徴づける。 5x10^{-3} mbarの圧力下でのケルビン下温度に対して、独立または同時に、これらの正常モードの冷減衰を実証する。 実験的な観測はパラメータ空間をより広く調査し、測定ノイズや時間遅延による限界を定量化するために用いられる理論モデルによって捉えられる。 我々の研究は、メソスケール粒子間の量子相互作用の研究と、浮遊光学系における多粒子エンタングルメントの探索の道を開いた。

Methods for controlling the motion of single particles, optically levitated in vacuum, have developed rapidly in recent years. The technique of cold damping makes use of feedback-controlled, electrostatic forces to increase dissipation without introducing additional thermal fluctuations. This process has been instrumental in the ground-state cooling of individual electrically charged nanoparticles. Here we show that the same method can be applied to a pair of nanoparticles, coupled by optical binding forces. These optical binding forces are about three orders of magnitude stronger than typical Coulombic inter-particle force and result in a coupled motion of both nanoparticles characterized by a pair of normal modes. We demonstrate cold damping of these normal modes, either independently or simultaneously, to sub-Kelvin temperatures at pressures of 5x10^{-3} mbar. Experimental observations are captured by a theoretical model which we use to survey the parameter space more widely and to quantify the limits imposed by measurement noise and time delays. Our work paves the way for the study of quantum interactions between meso-scale particles and the exploration of multiparticle entanglement in levitated optomechanical systems.
翻訳日:2023-05-22 13:19:51 公開日:2023-05-19
# ニューラルマシン翻訳における擬似ラベル訓練とモデル慣性

Pseudo-Label Training and Model Inertia in Neural Machine Translation ( http://arxiv.org/abs/2305.11808v1 )

ライセンス: Link先を確認
Benjamin Hsu, Anna Currey, Xing Niu, Maria N\u{a}dejde and Georgiana Dinu(参考訳) 他の多くの機械学習アプリケーションと同様に、ニューラルネットワーク翻訳(nmt)は、過剰パラメータのディープニューラルモデルから恩恵を受ける。 NMTモデル予測は小さな入力変化に敏感であり、再学習や漸進的なモデル更新の間に大きな変化を示す可能性がある。 本研究は,NMTにおいて多用される擬似ラベル訓練(PLT, pseudo-label training)の手法について検討し,この手法は,前方翻訳(あるいは自己学習)とシーケンスレベルの知識蒸留(Sequence-level knowledge distillation)の関連技術に共通している。 pltはモデル更新と入力摂動(model inertia)と呼ばれるプロパティの集合であるモデル更新と入力摂動に対して、モデルの安定性を高めます。 異なるトレーニング環境下での慣性効果について検討し,観察結果の背後にあるメカニズムとして分布単純化を同定した。

Like many other machine learning applications, neural machine translation (NMT) benefits from over-parameterized deep neural models. However, these models have been observed to be brittle: NMT model predictions are sensitive to small input changes and can show significant variation across re-training or incremental model updates. This work studies a frequently used method in NMT, pseudo-label training (PLT), which is common to the related techniques of forward-translation (or self-training) and sequence-level knowledge distillation. While the effect of PLT on quality is well-documented, we highlight a lesser-known effect: PLT can enhance a model's stability to model updates and input perturbations, a set of properties we call model inertia. We study inertia effects under different training settings and we identify distribution simplification as a mechanism behind the observed results.
翻訳日:2023-05-22 13:19:33 公開日:2023-05-19
# プライベートアンサンブルモデルの公平性への影響について

On the Fairness Impacts of Private Ensembles Models ( http://arxiv.org/abs/2305.11807v1 )

ライセンス: Link先を確認
Cuong Tran, Ferdinando Fioretto(参考訳) Private Aggregation of Teacher Ensembles (PATE)は、複数の「教師」モデルと「学生」モデルを組み合わせることで、プライベートモデルの作成を可能にする機械学習フレームワークである。 学生モデルは、教師の投票に基づいて出力を予測することを学習し、その結果、差分プライバシーを満たす。 PATEは、半教師付き設定やデータラベルの保護が優先される場合には、プライベートモデルの作成に有効であることが示されている。 本稿は、PATEの使用が不公平な結果をもたらすかどうかを考察し、個人間での精度格差につながることを示す。 また、これらの不均等な影響に寄与するアルゴリズム的およびデータ的特性、なぜこれらの側面が異なるグループに不均等に影響を与えているのかを分析し、これらの効果を緩和するための勧告を提供する。

The Private Aggregation of Teacher Ensembles (PATE) is a machine learning framework that enables the creation of private models through the combination of multiple "teacher" models and a "student" model. The student model learns to predict an output based on the voting of the teachers, and the resulting model satisfies differential privacy. PATE has been shown to be effective in creating private models in semi-supervised settings or when protecting data labels is a priority. This paper explores whether the use of PATE can result in unfairness, and demonstrates that it can lead to accuracy disparities among groups of individuals. The paper also analyzes the algorithmic and data properties that contribute to these disproportionate impacts, why these aspects are affecting different groups disproportionately, and offers recommendations for mitigating these effects
翻訳日:2023-05-22 13:19:17 公開日:2023-05-19
# テキストからSQLへのLLMのプロンプト方法:ゼロショット、シングルドメイン、クロスドメイン設定の検討

How to Prompt LLMs for Text-to-SQL: A Study in Zero-shot, Single-domain, and Cross-domain Settings ( http://arxiv.org/abs/2305.11853v1 )

ライセンス: Link先を確認
Shuaichen Chang, Eric Fosler-Lussier(参考訳) 文脈内学習を伴う大規模言語モデル(LLM)は、テキストからSQLへのタスクにおいて顕著な能力を示している。 従来の研究は、LLMの性能を高めるために、様々な実証検索戦略と中間的推論ステップを持つLCMを誘導している。 しかしながら、これらの作業は、データベースや実演例など、テキストからSQLへの入力のためのプロンプトテキストを構築する際に、様々な戦略を用いることが多い。 これにより、迅速な構成と主要な貢献の両方において互換性が欠如することになる。 さらに, 効率的なプロンプト構築の選択が今後の研究の永続的な課題として浮上している。 この制限に対処するため、我々は様々な設定におけるプロンプト構築の影響を包括的に調査し、今後の作業への洞察を提供する。

Large language models (LLMs) with in-context learning have demonstrated remarkable capability in the text-to-SQL task. Previous research has prompted LLMs with various demonstration-retrieval strategies and intermediate reasoning steps to enhance the performance of LLMs. However, those works often employ varied strategies when constructing the prompt text for text-to-SQL inputs, such as databases and demonstration examples. This leads to a lack of comparability in both the prompt constructions and their primary contributions. Furthermore, selecting an effective prompt construction has emerged as a persistent problem for future research. To address this limitation, we comprehensively investigate the impact of prompt constructions across various settings and provide insights for future work.
翻訳日:2023-05-22 13:11:47 公開日:2023-05-19
# 密度演算子の最適期待値測定のためのパウリ弦の通勤家族への高速分割

Fast Partitioning of Pauli Strings into Commuting Families for Optimal Expectation Value Measurements of Dense Operators ( http://arxiv.org/abs/2305.11847v1 )

ライセンス: Link先を確認
Ben Reggio, Nouman Butt, Andrew Lytle, and Patrick Draper(参考訳) 作用素の分解に現れるパウリ弦は、交換族にグループ化することができ、演算子の期待値を測定するのに必要な量子回路の数を減らすことができる。 我々は、任意の数のキュービットに作用するpauli文字列の完全な集合を最小数の通勤ファミリに完全に分割するアルゴリズムを詳述し、分割を実行するためにpythonコードを提供する。 分割法は、パウリ文字列の集合のサイズと線形にスケールし、自然に可換族を量子ゲートで対角化する方法を提供する。 パーティショニングをqiskitに統合したパッケージを提供し、これをibmのハードウェア上で、行列量子力学モデルに見られるような、密度の高いハミルトニアンによるアルゴリズムのベンチマークに使用します。 2/3)^m$の理論的極限に近い計算スピードアップを、$m=2,\dotsc,6$ qubitsに対して、qubit-wise commuting groupingsに対して示す。

The Pauli strings appearing in the decomposition of an operator can be can be grouped into commuting families, reducing the number of quantum circuits needed to measure the expectation value of the operator. We detail an algorithm to completely partition the full set of Pauli strings acting on any number of qubits into the minimal number of sets of commuting families, and we provide python code to perform the partitioning. The partitioning method scales linearly with the size of the set of Pauli strings and it naturally provides a fast method of diagonalizing the commuting families with quantum gates. We provide a package that integrates the partitioning into Qiskit, and use this to benchmark the algorithm with dense Hamiltonians, such as those that arise in matrix quantum mechanics models, on IBM hardware. We demonstrate computational speedups close to the theoretical limit of $(2/3)^m$ relative to qubit-wise commuting groupings, for $m=2,\dotsc,6$ qubits.
翻訳日:2023-05-22 13:11:35 公開日:2023-05-19
# コンポーザブル拡散によるany-to-any生成

Any-to-Any Generation via Composable Diffusion ( http://arxiv.org/abs/2305.11846v1 )

ライセンス: Link先を確認
Zineng Tang, Ziyi Yang, Chenguang Zhu, Michael Zeng, Mohit Bansal(参考訳) 本稿では,入力モダリティの任意の組合せから,言語,画像,映像,音声といった出力モダリティの任意の組み合わせを生成可能な,新しい生成モデルであるcomposable diffusion (codi)を提案する。 既存の生成AIシステムとは異なり、CoDiは複数のモダリティを並列に生成することができ、入力はテキストや画像のようなモダリティのサブセットに制限されない。 モダリティの多くの組み合わせに対するトレーニングデータセットがないにもかかわらず、入力空間と出力空間の両方でモダリティを調整することを提案する。 これにより、CoDiは任意の入力組合せを自由に条件付けし、トレーニングデータに存在しない場合でも、任意のモダリティのグループを生成することができる。 CoDiは、拡散過程におけるアライメントをブリッジすることで共有マルチモーダル空間を構築することを伴う、新しい構成可能な生成戦略を採用し、時間的にアライメントされたビデオやオーディオのような、相互に結合したモダリティの同期生成を可能にする。 高度にカスタマイズ可能で柔軟なcodiは、強いジョイントモダリティ生成品質を達成し、単一モダリティ合成のユニモダリティ状態と同等か同等である。 デモとコードのプロジェクトページはhttps://codi-gen.github.ioにある。

We present Composable Diffusion (CoDi), a novel generative model capable of generating any combination of output modalities, such as language, image, video, or audio, from any combination of input modalities. Unlike existing generative AI systems, CoDi can generate multiple modalities in parallel and its input is not limited to a subset of modalities like text or image. Despite the absence of training datasets for many combinations of modalities, we propose to align modalities in both the input and output space. This allows CoDi to freely condition on any input combination and generate any group of modalities, even if they are not present in the training data. CoDi employs a novel composable generation strategy which involves building a shared multimodal space by bridging alignment in the diffusion process, enabling the synchronized generation of intertwined modalities, such as temporally aligned video and audio. Highly customizable and flexible, CoDi achieves strong joint-modality generation quality, and outperforms or is on par with the unimodal state-of-the-art for single-modality synthesis. The project page with demonstrations and code is at https://codi-gen.github.io
翻訳日:2023-05-22 13:11:17 公開日:2023-05-19
# RxnScribe:反応図解析のためのシーケンス生成モデル

RxnScribe: A Sequence Generation Model for Reaction Diagram Parsing ( http://arxiv.org/abs/2305.11845v1 )

ライセンス: Link先を確認
Yujie Qian, Jiang Guo, Zhengkai Tu, Connor W. Coley, Regina Barzilay(参考訳) 反応ダイアグラム解析は化学文献のダイアグラムから反応スキームを抽出する作業である。 反応ダイアグラムは任意に複雑であるため、構造化データにロバストに解析することは難しい課題である。 本稿では,様々な形式の反応図を解析するための機械学習モデルであるrxnscribeを提案する。 この構造的予測タスクをシーケンス生成アプローチで定式化し、従来のパイプラインをエンドツーエンドモデルに凝縮する。 我々は、1,378図のデータセットでRxnScribeをトレーニングし、それをクロスバリデーションで評価し、80.0%のソフトマッチF1スコアを達成した。 私たちのコードとデータはhttps://github.com/thomas0809/rxnscribeで公開されている。

Reaction diagram parsing is the task of extracting reaction schemes from a diagram in the chemistry literature. The reaction diagrams can be arbitrarily complex, thus robustly parsing them into structured data is an open challenge. In this paper, we present RxnScribe, a machine learning model for parsing reaction diagrams of varying styles. We formulate this structured prediction task with a sequence generation approach, which condenses the traditional pipeline into an end-to-end model. We train RxnScribe on a dataset of 1,378 diagrams and evaluate it with cross validation, achieving an 80.0% soft match F1 score, with significant improvements over previous models. Our code and data are publicly available at https://github.com/thomas0809/RxnScribe.
翻訳日:2023-05-22 13:10:53 公開日:2023-05-19
# AIの表現規則:南アジアにおけるコミュニティ中心のテキスト・画像モデルの研究

AI's Regimes of Representation: A Community-centered Study of Text-to-Image Models in South Asia ( http://arxiv.org/abs/2305.11844v1 )

ライセンス: Link先を確認
Rida Qadri, Renee Shelby, Cynthia L. Bennett, Emily Denton(参考訳) 本稿では,南アジアにおけるテキスト・ツー・イメージ(t2i)モデルの文化的制限に関するコミュニティ中心の研究について述べる。 我々は、これらの失敗を、支配的なメディア体制の表現に奨学金を用いて理論化し、既存の社会的疎外化に関する参加者の報告の中に配置する。 本研究では,世界的・地域的パワーの不平等によって形成された南アジア文化を観察するために,外界の人々の視線を再現するaiを提示する。 専門家としてコミュニティを集中させ、t2iの制限に関する彼らの見解を暗示することで、この研究は既存の評価フレームワークに豊富なニュアンスを加え、非西洋およびグローバル南の環境でaiテクノロジーが失敗する文化特有の方法に対する理解を深めます。 我々はt2iモデルの責任ある開発のための教訓を蒸留し、構造的不等式を認識できる具体的な経路を推奨する。

This paper presents a community-centered study of cultural limitations of text-to-image (T2I) models in the South Asian context. We theorize these failures using scholarship on dominant media regimes of representations and locate them within participants' reporting of their existing social marginalizations. We thus show how generative AI can reproduce an outsiders gaze for viewing South Asian cultures, shaped by global and regional power inequities. By centering communities as experts and soliciting their perspectives on T2I limitations, our study adds rich nuance into existing evaluative frameworks and deepens our understanding of the culturally-specific ways AI technologies can fail in non-Western and Global South settings. We distill lessons for responsible development of T2I models, recommending concrete pathways forward that can allow for recognition of structural inequalities.
翻訳日:2023-05-22 13:10:39 公開日:2023-05-19
# ジェネレーティブ検索はいかにして数百万のパスにスケールするか?

How Does Generative Retrieval Scale to Millions of Passages? ( http://arxiv.org/abs/2305.11841v1 )

ライセンス: Link先を確認
Ronak Pradeep, Kai Hui, Jai Gupta, Adam D. Lelkes, Honglei Zhuang, Jimmy Lin, Donald Metzler, Vinh Q. Tran(参考訳) 微分検索インデックス(英語版)によって一般化され、生成検索の新たなパラダイムは、古典的な情報検索問題をシーケンスからシーケンスへのモデリングタスクに再編成し、外部インデックスをフォージし、文書コーパス全体を単一のトランスフォーマーにエンコードする。 生成的検索の有効性を改善するために多くの異なる手法が提案されているが、文書コーパスでは100kの精度で評価されている。 様々なコーパススケールにわたる生成的検索手法の最初の実証研究を行い、最終的に8.8mパスのコーパスでmsマルコパスランキングタスク全体までスケールアップし、モデルサイズを最大1bパラメータまで評価した。 特に、インデックス作成中に文書表現として合成クエリを使うことの重要性、計算コストを考慮に入れた場合の既存のアーキテクチャ変更の非効率性、検索性能に関するモデルパラメータのNaivelyスケーリングの限界について、いくつかの発見を行った。 生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは重要な課題であり、未解決の課題である。 これらの発見は、コミュニティにとって、生成的検索の現状を明確にし、ユニークな課題を強調し、新しい研究の方向性を刺激する上で価値があると信じている。

Popularized by the Differentiable Search Index, the emerging paradigm of generative retrieval re-frames the classic information retrieval problem into a sequence-to-sequence modeling task, forgoing external indices and encoding an entire document corpus within a single Transformer. Although many different approaches have been proposed to improve the effectiveness of generative retrieval, they have only been evaluated on document corpora on the order of 100k in size. We conduct the first empirical study of generative retrieval techniques across various corpus scales, ultimately scaling up to the entire MS MARCO passage ranking task with a corpus of 8.8M passages and evaluating model sizes up to 11B parameters. We uncover several findings about scaling generative retrieval to millions of passages; notably, the central importance of using synthetic queries as document representations during indexing, the ineffectiveness of existing proposed architecture modifications when accounting for compute cost, and the limits of naively scaling model parameters with respect to retrieval performance. While we find that generative retrieval is competitive with state-of-the-art dual encoders on small corpora, scaling to millions of passages remains an important and unsolved challenge. We believe these findings will be valuable for the community to clarify the current state of generative retrieval, highlight the unique challenges, and inspire new research directions.
翻訳日:2023-05-22 13:10:23 公開日:2023-05-19
# SeeGULL: 生成モデルを活用した広域地形被覆を用いたステレオタイプベンチマーク

SeeGULL: A Stereotype Benchmark with Broad Geo-Cultural Coverage Leveraging Generative Models ( http://arxiv.org/abs/2305.11840v1 )

ライセンス: Link先を確認
Akshita Jha, Aida Davani, Chandan K. Reddy, Shachi Dave, Vinodkumar Prabhakaran, Sunipa Dev(参考訳) ステレオタイプベンチマークデータセットは、nlpモデルにおける人々の集団に関する社会的ステレオタイプの検出と緩和に不可欠である。 しかし、既存のデータセットはサイズや範囲が限られており、西洋社会で広く見られるステレオタイプに限られている。 言語技術が世界中で定着するにつれ、これは特に問題となる。 このギャップに対処するため、SeeGULLは、PaLMやGPT-3といった大規模言語モデルの生成能力を活用し、グローバルな多様なレーダプールを活用して、社会におけるそれらのステレオタイプの有効性を検証する。 SeeGULLは英語で書かれており、アメリカとインドにおける国家レベルのアイデンティティだけでなく、6大陸の8つの異なる地政学的地域にわたる178か国にわたるアイデンティティグループに関するステレオタイプを含んでいる。 また、異なるステレオタイプに対するきめ細かい攻撃性スコアも含み、そのグローバルな格差を示す。 さらに,同地域在住のアノテータと北米在住のアノテータによる同一グループに関する比較注釈を含むとともに,北米で普及しているアノテータとの地域内ステレオタイプの違いを実証する。 コンテンツ警告: 本論文は攻撃的かもしれないステレオタイプの例を含む。

Stereotype benchmark datasets are crucial to detect and mitigate social stereotypes about groups of people in NLP models. However, existing datasets are limited in size and coverage, and are largely restricted to stereotypes prevalent in the Western society. This is especially problematic as language technologies gain hold across the globe. To address this gap, we present SeeGULL, a broad-coverage stereotype dataset, built by utilizing generative capabilities of large language models such as PaLM, and GPT-3, and leveraging a globally diverse rater pool to validate the prevalence of those stereotypes in society. SeeGULL is in English, and contains stereotypes about identity groups spanning 178 countries across 8 different geo-political regions across 6 continents, as well as state-level identities within the US and India. We also include fine-grained offensiveness scores for different stereotypes and demonstrate their global disparities. Furthermore, we include comparative annotations about the same groups by annotators living in the region vs. those that are based in North America, and demonstrate that within-region stereotypes about groups differ from those prevalent in North America. CONTENT WARNING: This paper contains stereotype examples that may be offensive.
翻訳日:2023-05-22 13:09:57 公開日:2023-05-19
# ソフトウェア開発者とChatGPTを比較する - 実証調査

Comparing Software Developers with ChatGPT: An Empirical Investigation ( http://arxiv.org/abs/2305.11837v1 )

ライセンス: Link先を確認
Nathalia Nascimento and Paulo Alencar and Donald Cowan(参考訳) 特にソフトウェアエンジニアリング(SE)タスクにおける自動化の出現は、理論から現実へと移行した。 多くの学術論文が、プロジェクト管理、モデリング、テスト、開発といった分野における問題に対処するために人工知能が成功したことを文書化している。 最近のイノベーションは、プログラミングコードの生成と、開発者とテスタのためのソフトウェアテスト戦略の策定に熟練したリソースとして、mlを組み込んだチャットボットであるchatgptの導入である。 AIベースの計算によって生産性が向上し、ソフトウェア開発でソフトウェアエンジニアの代わりになるのではないかという憶測もあるが、この検証には実証的な証拠が不足している。 さらに、AIシステムの精度向上に重点を置いているにもかかわらず、エネルギー効率、脆弱性、公平性(すなわち人間の偏見)、安全性といった非機能要件は、しばしば不十分な注意を払っている。 本稿では、さまざまな評価基準を考慮して、ソフトウェア技術者とAIベースのソリューションの包括的な比較が、人間と機械のコラボレーションの促進、AIベースの手法の信頼性の向上、人間やAIのタスク適合性理解において重要であることを示唆する。 さらに、協調作業構造と人為的プロセスの効果的な実装を容易にする。 本稿では,ChatGPTのようなソフトウェア技術者やAIシステムのパフォーマンスを,さまざまな評価指標で比較した実証的研究を行う。 実証研究には、開発者が生成しLeetcodeにアップロードしたコードに対してChatGPT生成コードを評価するケースが含まれている。

The advent of automation in particular Software Engineering (SE) tasks has transitioned from theory to reality. Numerous scholarly articles have documented the successful application of Artificial Intelligence to address issues in areas such as project management, modeling, testing, and development. A recent innovation is the introduction of ChatGPT, an ML-infused chatbot, touted as a resource proficient in generating programming codes and formulating software testing strategies for developers and testers respectively. Although there is speculation that AI-based computation can increase productivity and even substitute software engineers in software development, there is currently a lack of empirical evidence to verify this. Moreover, despite the primary focus on enhancing the accuracy of AI systems, non-functional requirements including energy efficiency, vulnerability, fairness (i.e., human bias), and safety frequently receive insufficient attention. This paper posits that a comprehensive comparison of software engineers and AI-based solutions, considering various evaluation criteria, is pivotal in fostering human-machine collaboration, enhancing the reliability of AI-based methods, and understanding task suitability for humans or AI. Furthermore, it facilitates the effective implementation of cooperative work structures and human-in-the-loop processes. This paper conducts an empirical investigation, contrasting the performance of software engineers and AI systems, like ChatGPT, across different evaluation metrics. The empirical study includes a case of assessing ChatGPT-generated code versus code produced by developers and uploaded in Leetcode.
翻訳日:2023-05-22 13:09:34 公開日:2023-05-19
# ニューラルネットワークトレーニングとETRの複雑さ:効果的な継続的機能拡張

Complexity of Neural Network Training and ETR: Extensions with Effectively Continuous Functions ( http://arxiv.org/abs/2305.11833v1 )

ライセンス: Link先を確認
Teemu Hankala, Miika Hannula, Juha Kontinen, Jonni Virtema(参考訳) 様々な活性化関数によって定義されるニューラルネットワークの学習の複雑さについて検討する。 トレーニング問題は線形アクティベーション関数とReLUアクティベーション関数に関して、存在R完全であることが知られている。 我々は,シグモイド活性化関数と他の効果的な連続関数に関して,問題の複雑さを考える。 これらのトレーニング問題は、対応するアクティベーション関数で拡張された実数の存在理論に適応する多項式時間多値双還元可能であることを示す。 特に,シグモイド活性化関数は指数関数を持つ実数の存在論的理論に繋がることを示す。 したがって、これはオープンであり、指数関数を持つ実数の存在論的理論の決定可能性と同値であり、sgmoidアクティベーション関数を用いたニューラルネットワークの訓練がアルゴリズム的に解くことができる。 対照的に,正弦波活性化関数を考慮すれば,トレーニング問題は決定不能となる。 最後に,算術階層の低レベル化という形で,学習問題の複雑性に対する一般的な上限を求める。

We study the complexity of the problem of training neural networks defined via various activation functions. The training problem is known to be existsR-complete with respect to linear activation functions and the ReLU activation function. We consider the complexity of the problem with respect to the sigmoid activation function and other effectively continuous functions. We show that these training problems are polynomial-time many-one bireducible to the existential theory of the reals extended with the corresponding activation functions. In particular, we establish that the sigmoid activation function leads to the existential theory of the reals with the exponential function. It is thus open, and equivalent with the decidability of the existential theory of the reals with the exponential function, whether training neural networks using the sigmoid activation function is algorithmically solvable. In contrast, we obtain that the training problem is undecidable if sinusoidal activation functions are considered. Finally, we obtain general upper bounds for the complexity of the training problem in the form of low levels of the arithmetical hierarchy.
翻訳日:2023-05-22 13:09:08 公開日:2023-05-19
# 正規化流れと相関解析によるマルチモーダル関節変動オートエンコーダの改善

Improving Multimodal Joint Variational Autoencoders through Normalizing Flows and Correlation Analysis ( http://arxiv.org/abs/2305.11832v1 )

ライセンス: Link先を確認
Agathe Senellart, Cl\'ement Chadebec, St\'ephanie Allassonni\`ere(参考訳) 本稿では, ジョイント分布から, 任意の複素モダリティに対して条件付きで生成できるマルチモーダル変分オートエンコーダを提案する。 ユニモーダル後方は、よりコヒーレントなクロスモーダル世代につながるモダリティ間の共有情報を保存するディープカノニカル相関解析埋め込み(deep canonical correlation analysis embeddeds)に基づいている。 さらに,一様背部を豊かにするために正規化フローを用い,より多様なデータ生成を実現する。 最後に,複数のモダリティから1つのモダリティを推論するために専門家の製品を使用することを提案する。 提案手法は,複数のデータセットの条件付き世代における推定値,世代間の多様性,特にコヒーレンス指標を改善する。

We propose a new multimodal variational autoencoder that enables to generate from the joint distribution and conditionally to any number of complex modalities. The unimodal posteriors are conditioned on the Deep Canonical Correlation Analysis embeddings which preserve the shared information across modalities leading to more coherent cross-modal generations. Furthermore, we use Normalizing Flows to enrich the unimodal posteriors and achieve more diverse data generation. Finally, we propose to use a Product of Experts for inferring one modality from several others which makes the model scalable to any number of modalities. We demonstrate that our method improves likelihood estimates, diversity of the generations and in particular coherence metrics in the conditional generations on several datasets.
翻訳日:2023-05-22 13:08:53 公開日:2023-05-19
# Chupa: 2次元拡散確率モデルを用いた3Dクローンヒトの皮膚形状推定

Chupa: Carving 3D Clothed Humans from Skinned Shape Priors using 2D Diffusion Probabilistic Models ( http://arxiv.org/abs/2305.11870v1 )

ライセンス: Link先を確認
Byungjun Kim, Patrick Kwon, Kwangho Lee, Myunggi Lee, Sookwan Han, Daesik Kim, Hanbyul Joo(参考訳) 拡散モデルを用いてリアルな人間のデジタルアバターを生成する3D生成パイプラインを提案する。 人間の身元、ポーズ、そして確率的詳細が多種多様であるため、3dのメッシュの生成は難しい問題となっている。 そこで本研究では,この問題を2次元正規地図生成と正規地図に基づく3次元再構成に分解する。 具体的には、まず、ポーズ条件拡散モデルを用いて、服を着た人間の正面と後方の現実的な正規写像を同時に生成する。 3D再構成では,従来のSMPL-Xメッシュを,メッシュ最適化による通常のマップに従って詳細な3Dメッシュに変換する。 高周波の詳細をさらに高めるため,身体領域と顔面領域の拡散サンプリング方式を提案し,現実的なデジタルアバターの創出を奨励する。 また,最近のテキストから画像への拡散モデルをシームレスに組み込んで,テキストベースの個人識別制御をサポートする。 われわれの方法であるChupaは、知覚品質とアイデンティティの多様性を向上したリアルな3D衣服を作成できる。

We propose a 3D generation pipeline that uses diffusion models to generate realistic human digital avatars. Due to the wide variety of human identities, poses, and stochastic details, the generation of 3D human meshes has been a challenging problem. To address this, we decompose the problem into 2D normal map generation and normal map-based 3D reconstruction. Specifically, we first simultaneously generate realistic normal maps for the front and backside of a clothed human, dubbed dual normal maps, using a pose-conditional diffusion model. For 3D reconstruction, we ``carve'' the prior SMPL-X mesh to a detailed 3D mesh according to the normal maps through mesh optimization. To further enhance the high-frequency details, we present a diffusion resampling scheme on both body and facial regions, thus encouraging the generation of realistic digital avatars. We also seamlessly incorporate a recent text-to-image diffusion model to support text-based human identity control. Our method, namely, Chupa, is capable of generating realistic 3D clothed humans with better perceptual quality and identity variety.
翻訳日:2023-05-22 13:03:12 公開日:2023-05-19
# Photo-zSNthesis: Ia型超新星光曲線を深層学習による赤方偏移推定に変換する

Photo-zSNthesis: Converting Type Ia Supernova Lightcurves to Redshift Estimates via Deep Learning ( http://arxiv.org/abs/2305.11869v1 )

ライセンス: Link先を確認
Helen Qu, Masao Sako(参考訳) 今後の光度調査で、数万種類のia型超新星(sne ia)が発見され、我々の分光資源の容量を大きく上回る。 分光情報がない場合、これらの観測の科学的なリターンを最大化するために、sn赤方偏移などのキーパラメータをフォトメトリック情報のみで正確に抽出する必要がある。 我々は,マルチバンド超新星光曲線から完全な赤方偏移確率分布を予測する畳み込みニューラルネットワークに基づくPhoto-zSNthesisを,Sloan Digital Sky Survey (SDSS)とVera C. Rubin Legacy Survey of Space and Time (LSST)のデータおよび観測されたSDSS SNeで検証した。 シミュレーションと実測の両方において既存の手法による予測よりも大きな改善を示し,また,選択効果(例えばマルムキストバイアス)による課題である最小の赤方偏差依存バイアスも示した。 この方法で生成されたPDFは、よく拘束され、光度SNeIaサンプルの宇宙的制約力を最大化する。

Upcoming photometric surveys will discover tens of thousands of Type Ia supernovae (SNe Ia), vastly outpacing the capacity of our spectroscopic resources. In order to maximize the science return of these observations in the absence of spectroscopic information, we must accurately extract key parameters, such as SN redshifts, with photometric information alone. We present Photo-zSNthesis, a convolutional neural network-based method for predicting full redshift probability distributions from multi-band supernova lightcurves, tested on both simulated Sloan Digital Sky Survey (SDSS) and Vera C. Rubin Legacy Survey of Space and Time (LSST) data as well as observed SDSS SNe. We show major improvements over predictions from existing methods on both simulations and real observations as well as minimal redshift-dependent bias, which is a challenge due to selection effects, e.g. Malmquist bias. The PDFs produced by this method are well-constrained and will maximize the cosmological constraining power of photometric SNe Ia samples.
翻訳日:2023-05-22 13:02:54 公開日:2023-05-19
# 自己教師付き音声モデルを用いた北s\'{a}mi方言識別

North S\'{a}mi Dialect Identification with Self-supervised Speech Models ( http://arxiv.org/abs/2305.11864v1 )

ライセンス: Link先を確認
Sofoklis Kakouros and Katri Hiovain-Asikainen(参考訳) 北S'{a}mi(NS)言語は、関連するが音韻学、形態学、語彙にも違いがある4つの主要な方言の変種をカプセル化している。 NS話者の独特な地政学的位置は、多くの場合、ノルウェー語、スウェーデン語、フィンランド語といった支配的な国家言語と同様に、S\'{a}miでもバイリンガルであることを意味する。 これにより、音声状態言語とその音響特性の両方について、nsの変種を研究できる。 本稿では,MFCC や韻律的特徴,最先端の自己教師型表現,すなわち XLS-R, WavLM, HuBERT などの音響的特徴を用いて,4種類のNS 変種の自動検出を行う。 さらに,主要な国語が方言にどのように反映されているかを検討する。 その結果、NS方言は状態言語の影響を受けており、4方言は分離可能であり、特にXLS-Rモデルでは高い分類精度が得られた。

The North S\'{a}mi (NS) language encapsulates four primary dialectal variants that are related but that also have differences in their phonology, morphology, and vocabulary. The unique geopolitical location of NS speakers means that in many cases they are bilingual in S\'{a}mi as well as in the dominant state language: Norwegian, Swedish, or Finnish. This enables us to study the NS variants both with respect to the spoken state language and their acoustic characteristics. In this paper, we investigate an extensive set of acoustic features, including MFCCs and prosodic features, as well as state-of-the-art self-supervised representations, namely, XLS-R, WavLM, and HuBERT, for the automatic detection of the four NS variants. In addition, we examine how the majority state language is reflected in the dialects. Our results show that NS dialects are influenced by the state language and that the four dialects are separable, reaching high classification accuracy, especially with the XLS-R model.
翻訳日:2023-05-22 13:02:27 公開日:2023-05-19
# fMRIにおける言語符号化モデルのスケーリング法則

Scaling laws for language encoding models in fMRI ( http://arxiv.org/abs/2305.11863v1 )

ライセンス: Link先を確認
Richard Antonello, Aditya Vaidya, and Alexander G. Huth(参考訳) トランスフォーマーに基づく一方向言語モデルからの表現は、自然言語に対する脳の反応を予測するのに有効であることが知られている。 しかし、言語モデルと脳を比較するほとんどの研究は、GPT-2または同様の大きさの言語モデルを用いている。 ここでは、OPTやLLaMAファミリーのような大規模なオープンソースモデルが、fMRIを用いて記録された脳反応を予測するのに優れているかどうかを検証した。 他の文脈からのスケーリング結果のミラーリングにより,脳の予測性能が125Mから30Bのパラメータモデルと対数的にスケールし,約15%のエンコーディング性能が3つの被験者で設定されたホールトアウトテストと相関して測定された。 fMRIトレーニングセットのサイズを拡大する際にも同様の対数線形挙動が観察された。 また,hubert,wavlm,whisperを用いた音響符号化モデルのスケーリングを特徴とし,モデルサイズと同等の性能改善を見出した。 これらの大規模で高性能な符号化モデルのノイズ天井解析により、前神経や高次聴覚野などの脳領域の理論的最大値に近い性能を示した。 これらの結果は、モデルとデータの両方におけるスケールの増加が、脳における言語処理の信じられないほど効果的なモデルをもたらすことを示唆している。

Representations from transformer-based unidirectional language models are known to be effective at predicting brain responses to natural language. However, most studies comparing language models to brains have used GPT-2 or similarly sized language models. Here we tested whether larger open-source models such as those from the OPT and LLaMA families are better at predicting brain responses recorded using fMRI. Mirroring scaling results from other contexts, we found that brain prediction performance scales log-linearly with model size from 125M to 30B parameter models, with ~15% increased encoding performance as measured by correlation with a held-out test set across 3 subjects. Similar log-linear behavior was observed when scaling the size of the fMRI training set. We also characterized scaling for acoustic encoding models that use HuBERT, WavLM, and Whisper, and we found comparable improvements with model size. A noise ceiling analysis of these large, high-performance encoding models showed that performance is nearing the theoretical maximum for brain areas such as the precuneus and higher auditory cortex. These results suggest that increasing scale in both models and data will yield incredibly effective models of language processing in the brain, enabling better scientific understanding as well as applications such as decoding.
翻訳日:2023-05-22 13:02:09 公開日:2023-05-19
# 大規模言語モデルによる編集操作予測によるシーケンス長の削減

Reducing Sequence Length by Predicting Edit Operations with Large Language Models ( http://arxiv.org/abs/2305.11862v1 )

ライセンス: Link先を確認
Masahiro Kaneko, Naoaki Okazaki(参考訳) 大規模言語モデル(LLM)は様々なタスクにおいて顕著な性能を示しており、大きな注目を集めている。 LLMは、文法的誤り訂正(GEC)や形式的スタイルの転送など、ほとんどのソーステキストのトークンが変更されないような局所的なシーケンス変換タスクにも使用される。 しかし、ターゲットトークンの予測誤差が後のトークンの予測に大惨事を引き起こす可能性があり、計算コストが目標シーケンス長と2乗的に増加するため、すべてのターゲットトークンを生成するのは非効率である。 本稿では,局所シーケンス変換タスクのためのソーステキストの編集操作のセットを予測することを提案する。 ソーステキストと変更トークンのスパンで編集操作を表現することで、ターゲットシーケンスの長さを削減し、推論の計算コストを削減できる。 編集作業の監督データにLLMの命令チューニングを適用する。 提案手法は,対象テキストの長さを21\%小さくしつつも,パラフレージング,形式スタイル転送,gec,テキスト簡易化という4つのタスクにおいて,ベースラインと同等の性能を実現することを示す。 さらに,提案手法による命令チューニングが4つのタスクの最先端性能を達成したことを報告する。

Large Language Models (LLMs) have demonstrated remarkable performance in various tasks and gained significant attention. LLMs are also used for local sequence transduction tasks, including grammatical error correction (GEC) and formality style transfer, where most tokens in a source text are kept unchanged. However, it is inefficient to generate all target tokens because a prediction error of a target token may cause a catastrophe in predicting subsequent tokens and because the computational cost grows quadratically with the target sequence length. This paper proposes to predict a set of edit operations for the source text for local sequence transduction tasks. Representing an edit operation with a span of the source text and changed tokens, we can reduce the length of the target sequence and thus the computational cost for inference. We apply instruction tuning for LLMs on the supervision data of edit operations. Experiments show that the proposed method achieves comparable performance to the baseline in four tasks, paraphrasing, formality style transfer, GEC, and text simplification, despite reducing the length of the target text by as small as 21\%. Furthermore, we report that the instruction tuning with the proposed method achieved the state-of-the-art performance in the four tasks.
翻訳日:2023-05-22 13:01:48 公開日:2023-05-19
# ステップ・バイ・ステップ:LLMによる効率的な推論のための適応整合性

Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning with LLMs ( http://arxiv.org/abs/2305.11860v1 )

ライセンス: Link先を確認
Pranjal Aggarwal, Aman Madaan, Yiming Yang, Mausam(参考訳) 大規模言語モデル(llm)からの出力の正確性を改善するための一般的なアプローチは、自己一貫性(self-consistency)である。 既存の自己一貫性技術は常に質問毎に一定の数のサンプルを描画するので、これまでのサンプルの合意量に基づいて、利用可能な予算を均一に分配する方がよいでしょう。 そこで,我々は,軽量な停止基準を用いて,質問毎のサンプル数を動的に調整するコスト効率の高いモデル非依存手法であるadaptive-consistencyを導入する。 13のデータセットと2つのllmを用いた実験により,適応-一貫性は平均精度0.1%未満で,最大6.0倍のサンプル予算削減を実現している。

A popular approach for improving the correctness of output from large language models (LLMs) is Self-Consistency - poll the LLM multiple times and output the most frequent solution. Existing Self-Consistency techniques always draw a constant number of samples per question, where a better approach will be to non-uniformly distribute the available budget based on the amount of agreement in the samples drawn so far. In response, we introduce Adaptive-Consistency, a cost-efficient, model-agnostic technique that dynamically adjusts the number of samples per question using a lightweight stopping criterion. Our experiments over 13 datasets and two LLMs demonstrate that Adaptive-Consistency reduces sample budget by up to 6.0 times with an average accuracy drop of less than 0.1%.
翻訳日:2023-05-22 13:01:27 公開日:2023-05-19
# 野生で回収された証拠による複雑なクレーム検証

Complex Claim Verification with Evidence Retrieved in the Wild ( http://arxiv.org/abs/2305.11859v1 )

ライセンス: Link先を確認
Jifan Chen, Grace Kim, Aniruddh Sriram, Greg Durrett, and Eunsol Choi(参考訳) 証拠検索は自動ファクトチェックの中核部分である。 先行研究は、実世界のユースケースから逸脱した検索の仮定を単純化する: 証拠にアクセスできないか、人間の事実確認者が収集した証拠にアクセスするか、クレームがなされてからずっと後に利用可能な証拠にアクセスするかである。 そこで本研究では,webから生のエビデンスを検索して実世界のクレームを確認する,最初の完全自動化パイプラインを提案する。 我々は、クレーム作成前に利用可能なドキュメントのみを検索し、新たなクレームをチェックする必要がある現実的なシナリオをモデル化する。 パイプラインには,クレーム分解,生文書検索,きめ細かい証拠検索,クレーム中心の要約,正確性判定の5つのコンポーネントが含まれている。 ClaimDecompデータセットにおける複雑な政治的主張の実験を行い、パイプラインが生成した集合的証拠が妥当性判定を改善することを示す。 ヒューマン・アセスメントは、システムが生成する証拠要約が信頼できること(情報を暗示しない)、クレームに関する重要な質問に答えることに関連することを発見し、完全な証拠集合を表面化できない場合でもファクトチェッカーを支援することを示唆する。

Evidence retrieval is a core part of automatic fact-checking. Prior work makes simplifying assumptions in retrieval that depart from real-world use cases: either no access to evidence, access to evidence curated by a human fact-checker, or access to evidence available long after the claim has been made. In this work, we present the first fully automated pipeline to check real-world claims by retrieving raw evidence from the web. We restrict our retriever to only search documents available prior to the claim's making, modeling the realistic scenario where an emerging claim needs to be checked. Our pipeline includes five components: claim decomposition, raw document retrieval, fine-grained evidence retrieval, claim-focused summarization, and veracity judgment. We conduct experiments on complex political claims in the ClaimDecomp dataset and show that the aggregated evidence produced by our pipeline improves veracity judgments. Human evaluation finds the evidence summary produced by our system is reliable (it does not hallucinate information) and relevant to answering key questions about a claim, suggesting that it can assist fact-checkers even when it cannot surface a complete evidence set.
翻訳日:2023-05-22 13:01:12 公開日:2023-05-19
# Q-malizing flowと無限小密度比推定

Q-malizing flow and infinitesimal density ratio estimation ( http://arxiv.org/abs/2305.11857v1 )

ライセンス: Link先を確認
Chen Xu, Xiuyuan Cheng, Yao Xie(参考訳) 連続正規化フローは生成的タスクで広く使われており、フローネットワークはデータ分散 $p$ から正規分布へ転送される。 P$と$Q$の両方が有限サンプルを通してアクセス可能な任意の$Q$へ輸送できるフローモデルは、特に、$P$と$Q$の間を橋渡しする中間密度の構築を要求する最近開発されたテレスコープ密度比推定(DRE)において、様々な応用上の関心事である。 本研究では, ニューラルネットワークモデルを用いて, 実験試料から$P$から$Q$(およびその逆)への非逆輸送を訓練し, 輸送コストを最小化して正規化する「<Q-malizing flow'」を提案する。 訓練されたフローモデルは、分類損失を用いて追加の連続時間フローネットワークを訓練することで、時間パラメータ化された$\log$-densityに沿って無限小のdreを実行できる。 タイムスコアネットワークを時間とともに統合することで、ワンステップのDREよりも安定な$P$と$Q$の間のテレスコープDREを提供する。 提案モデルの有効性は,高次元データとエネルギーに基づく画像データの生成モデルから相互情報推定において実証的に実証される。

Continuous normalizing flows are widely used in generative tasks, where a flow network transports from a data distribution $P$ to a normal distribution. A flow model that can transport from $P$ to an arbitrary $Q$, where both $P$ and $Q$ are accessible via finite samples, would be of various application interests, particularly in the recently developed telescoping density ratio estimation (DRE) which calls for the construction of intermediate densities to bridge between $P$ and $Q$. In this work, we propose such a ``Q-malizing flow'' by a neural-ODE model which is trained to transport invertibly from $P$ to $Q$ (and vice versa) from empirical samples and is regularized by minimizing the transport cost. The trained flow model allows us to perform infinitesimal DRE along the time-parametrized $\log$-density by training an additional continuous-time flow network using classification loss, which estimates the time-partial derivative of the $\log$-density. Integrating the time-score network along time provides a telescopic DRE between $P$ and $Q$ that is more stable than a one-step DRE. The effectiveness of the proposed model is empirically demonstrated on mutual information estimation from high-dimensional data and energy-based generative models of image data.
翻訳日:2023-05-22 13:00:49 公開日:2023-05-19
# ビデオがhd-mapを殺し、ドローン画像から直接運転行動を予測する

Video Killed the HD-Map: Predicting Driving Behavior Directly From Drone Images ( http://arxiv.org/abs/2305.11856v1 )

ライセンス: Link先を確認
Yunpeng Liu, Vasileios Lioutas, Jonathan Wilder Lavington, Matthew Niedoba, Justice Sefas, Setareh Dabiri, Dylan Green, Xiaoxuan Liang, Berend Zwartsenberg, Adam \'Scibior, Frank Wood(参考訳) 人間のデモを使って行動駆動モデルを学ぶアルゴリズムの開発は、より現実的なシミュレーションへとつながった。 一般に、このようなモデルは、手動で注釈付き高精細地図(HD)から得られる乾燥車線などの道路状況情報を利用して、制御対象の軌跡を共同で予測することを学ぶ。 近年の研究では、これらのモデルがトレーニングに利用できる人間のデータ量を増やすことで大きな恩恵を受けることが示されている。 しかし、新しい場所ごとに必要となるHDマップのマニュアルアノテーションは、人間のトラフィックデータセットを効率的にスケールアップする上でボトルネックとなる。 本稿では,最小限のアノテーションを必要とするドローンバードビュー画像ベースマップ(DBM)表現を提案する。 我々は,DBMを用いたマルチエージェント軌道予測を,画像テクスチャベースの微分可能なレンダリングモジュールとして,識別可能な駆動シミュレータに組み込むことで評価した。 本研究は,DBM表現を用いた場合,ラスタ化HDマップを用いたモデルと比較して,競合するマルチエージェント軌道予測性能を示す。

The development of algorithms that learn behavioral driving models using human demonstrations has led to increasingly realistic simulations. In general, such models learn to jointly predict trajectories for all controlled agents by exploiting road context information such as drivable lanes obtained from manually annotated high-definition (HD) maps. Recent studies show that these models can greatly benefit from increasing the amount of human data available for training. However, the manual annotation of HD maps which is necessary for every new location puts a bottleneck on efficiently scaling up human traffic datasets. We propose a drone birdview image-based map (DBM) representation that requires minimal annotation and provides rich road context information. We evaluate multi-agent trajectory prediction using the DBM by incorporating it into a differentiable driving simulator as an image-texture-based differentiable rendering module. Our results demonstrate competitive multi-agent trajectory prediction performance when using our DBM representation as compared to models trained with rasterized HD maps.
翻訳日:2023-05-22 13:00:24 公開日:2023-05-19
# ファウンデーションモデルを用いたマルチモーダルWebナビゲーション

Multimodal Web Navigation with Instruction-Finetuned Foundation Models ( http://arxiv.org/abs/2305.11854v1 )

ライセンス: Link先を確認
Hiroki Furuta, Ofir Nachum, Kuang-Huei Lee, Yutaka Matsuo, Shixiang Shane Gu, Izzeddin Gur(参考訳) 自律型webナビゲーションの進歩は、オンライン強化学習による数十億の探索的インタラクションへの依存と、リッチなドメイン外データからの一般化の活用を困難にするドメイン固有のモデル設計によって妨げられている。 本研究では,視覚言語基礎モデルを用いたWebエージェントのオフライントレーニングについて検討する。 本稿では,WebページのスクリーンショットとHTMLページの両方を観察し,クリックやタイプなどのWebナビゲーションアクションを出力するマルチモーダルエージェントWebGUMを提案する。 WebGUMは、大規模なデモコーパス上で、命令精細言語モデルとビジョントランスフォーマーを共同で微調整することで訓練される。 我々は,このレシピが,接地視覚知覚,html理解,多段階推論などのエージェントの能力を向上させることを実証的に示す。 MiniWoBベンチマークでは、以前の最高のオフラインメソッドを31.9%以上改善し、オンラインに最適化されたSoTAに近づいた。 WebShopベンチマークでは,既存のSoTAである PaLM-540B よりも3ビリオンパラメータモデルの方が優れた性能を発揮する。 トレーニングされたモデルを使って,347Kの高品質なデモも収集しています。

The progress of autonomous web navigation has been hindered by the dependence on billions of exploratory interactions via online reinforcement learning, and domain-specific model designs that make it difficult to leverage generalization from rich out-of-domain data. In this work, we study data-driven offline training for web agents with vision-language foundation models. We propose an instruction-following multimodal agent, WebGUM, that observes both webpage screenshots and HTML pages and outputs web navigation actions, such as click and type. WebGUM is trained by jointly finetuning an instruction-finetuned language model and a vision transformer on a large corpus of demonstrations. We empirically demonstrate this recipe improves the agent's ability of grounded visual perception, HTML comprehension and multi-step reasoning, outperforming prior works by a significant margin. On the MiniWoB benchmark, we improve over the previous best offline methods by more than 31.9%, being close to reaching online-finetuned SoTA. On the WebShop benchmark, our 3-billion-parameter model achieves superior performance to the existing SoTA, PaLM-540B. We also collect 347K high-quality demonstrations using our trained models, 38 times larger than prior work, and make them available to promote future research in this direction.
翻訳日:2023-05-22 13:00:07 公開日:2023-05-19
# 医用画像のセグメントモデルについて

Segment Anything Model for Medical Images? ( http://arxiv.org/abs/2304.14660v4 )

ライセンス: Link先を確認
Yuhao Huang, Xin Yang, Lian Liu, Han Zhou, Ao Chang, Xinrui Zhou, Rusi Chen, Junxuan Yu, Jiongquan Chen, Chaoyu Chen, Haozhe Chi, Xindi Hu, Deng-Ping Fan, Fajin Dong, Dong Ni(参考訳) Segment Anything Model (SAM) は一般画像分割のための最初の基礎モデルである。 新たなプロモータブルセグメンテーションタスクを設計し、オートマチックオールと手動プロンプトを含む2つのメインモードを通じて、事前訓練されたモデルを使用してゼロショットイメージセグメンテーションを保証した。 SAMは様々な自然な画像分割タスクにおいて印象的な結果を得た。 しかし、複雑なモダリティ、微細な解剖学的構造、不確実で複雑な物体の境界、広範囲の物体スケールにより、医療画像セグメンテーション(MIS)はより困難である。 一方、ゼロショットかつ効率的なMISは、アノテーション時間を大幅に短縮し、医用画像解析の開発を促進することができる。 したがってSAMは潜在的なツールであり、大規模な医療データセットのパフォーマンスをさらに検証する必要がある。 52のオープンソースデータセットを収集、ソートし、16のモダリティ、68のオブジェクト、553Kスライスを備えた大規模な医療セグメントデータセットを構築しました。 いわゆるCOSMOS 553Kデータセット上で,異なるSAMテスト戦略の包括的な分析を行った。 広範な実験により、SAMは医療画像の物体知覚のためのポイントやボックスなどの手動のヒントで、あらゆるモードと比較して、即時モードでのパフォーマンスが向上することが検証された。 加えて、SAMは特定のオブジェクトやモダリティにおいて顕著なパフォーマンスを示すが、不完全あるいは他の状況では完全に失敗する。 最後に,異なる因子(例えば,セグメンテーション対象のフーリエに基づく境界複雑性とサイズ)がSAMのセグメンテーション性能に与える影響を分析する。 広範な実験によりSAMのゼロショットセグメンテーション能力はMISに直接適用するには不十分であることが確認された。

The Segment Anything Model (SAM) is the first foundation model for general image segmentation. It designed a novel promotable segmentation task, ensuring zero-shot image segmentation using the pre-trained model via two main modes including automatic everything and manual prompt. SAM has achieved impressive results on various natural image segmentation tasks. However, medical image segmentation (MIS) is more challenging due to the complex modalities, fine anatomical structures, uncertain and complex object boundaries, and wide-range object scales. Meanwhile, zero-shot and efficient MIS can well reduce the annotation time and boost the development of medical image analysis. Hence, SAM seems to be a potential tool and its performance on large medical datasets should be further validated. We collected and sorted 52 open-source datasets, and built a large medical segmentation dataset with 16 modalities, 68 objects, and 553K slices. We conducted a comprehensive analysis of different SAM testing strategies on the so-called COSMOS 553K dataset. Extensive experiments validate that SAM performs better with manual hints like points and boxes for object perception in medical images, leading to better performance in prompt mode compared to everything mode. Additionally, SAM shows remarkable performance in some specific objects and modalities, but is imperfect or even totally fails in other situations. Finally, we analyze the influence of different factors (e.g., the Fourier-based boundary complexity and size of the segmented objects) on SAM's segmentation performance. Extensive experiments validate that SAM's zero-shot segmentation capability is not sufficient to ensure its direct application to the MIS.
翻訳日:2023-05-22 10:50:10 公開日:2023-05-19
# 部分モジュラ最大化におけるバランシングユーティリティと公正性(技術報告)

Balancing Utility and Fairness in Submodular Maximization (Technical Report) ( http://arxiv.org/abs/2211.00980v3 )

ライセンス: Link先を確認
Yanhao Wang and Yuchen Li and Francesco Bonchi and Ying Wang(参考訳) サブモジュラー関数最大化(submodular function maximization)は、データ要約、影響最大化、レコメンデーションなど、多くのアプリケーションにおいて基本的な組合せ最適化問題である。 これらの問題の多くにおいて、目的は、各ユーティリティが単調な部分モジュラ関数によって定義されるすべてのユーザに対して平均的なユーティリティを最大化するソリューションを見つけることである。 しかし、ユーザ人口が複数の人口集団で構成されている場合、別の重要な問題は、ユーティリティが複数のグループに分散しているかどうかである。 emph{utility} と \emph{fairness} の目標はどちらも望ましいが、両者は矛盾する可能性がある。 本稿では,実用性と公正性のバランスをとるために,<emph{Bicriteria Submodular Maximization} (BSM) と呼ばれる新しい問題を提案する。 具体的には、しきい値以下でないフェアネス関数の値に従えば、ユーティリティ関数を最大化するために固定サイズの解を見つける必要がある。 BSMは一般に任意の定数係数で近似できないので、インスタンス依存近似スキームの設計に注意を向ける。 提案アルゴリズムは,BSMインスタンスを他のサブモジュール最適化問題インスタンスに変換することによって得られる近似係数の異なる2つの手法からなる。 本手法は,実世界および合成データセットを用いて,最大カバレッジ,影響最大化,施設配置という3つのサブモジュラー最大化問題の応用例を示す。

Submodular function maximization is a fundamental combinatorial optimization problem with plenty of applications -- including data summarization, influence maximization, and recommendation. In many of these problems, the goal is to find a solution that maximizes the average utility over all users, for each of whom the utility is defined by a monotone submodular function. However, when the population of users is composed of several demographic groups, another critical problem is whether the utility is fairly distributed across different groups. Although the \emph{utility} and \emph{fairness} objectives are both desirable, they might contradict each other, and, to the best of our knowledge, little attention has been paid to optimizing them jointly. In this paper, we propose a new problem called \emph{Bicriteria Submodular Maximization} (BSM) to strike a balance between utility and fairness. Specifically, it requires finding a fixed-size solution to maximize the utility function, subject to the value of the fairness function not being below a threshold. Since BSM is inapproximable within any constant factor in general, we turn our attention to designing instance-dependent approximation schemes. Our algorithmic proposal comprises two methods, with different approximation factors, obtained by converting a BSM instance into other submodular optimization problem instances. Using real-world and synthetic datasets, we showcase applications of our methods in three submodular maximization problems: maximum coverage, influence maximization, and facility location.
翻訳日:2023-05-22 10:49:41 公開日:2023-05-19
# 大規模言語モデルは読み書きに適したのか?

Are Large Language Models Fit For Guided Reading? ( http://arxiv.org/abs/2305.10645v2 )

ライセンス: Link先を確認
Peter Ochieng(参考訳) 本稿では,大規模言語モデルが教育指導読解に参加する能力について考察する。 具体的には、入力テキストから有意義な質問を生成する能力を評価し、内容のカバレッジと質問の難易度の両方から多様な質問を生成し、質問に対する学生の回答に基づいて学生が再読みすべきテキストの一部を推薦する能力を評価する。 chatgpt と bard の評価に基づいて,1) 大きな言語モデルでは,入力テキストと高い相関関係を持つ高品質な有意義な質問を生成できる,と報告した。 2) この能力は入力テキストの増加に伴って著しく低下するが,入力テキストのほとんどのトピックをカバーする多様な質問を生成する。3)大きな言語モデルは,低認知的質問に対して著しく偏りがあるにもかかわらず,低認知的質問と高認知的質問の両方を生成することができる。4) 応答を効果的に要約し,読み直すべきテキストの一部を抽出することができる。

This paper looks at the ability of large language models to participate in educational guided reading. We specifically, evaluate their ability to generate meaningful questions from the input text, generate diverse questions both in terms of content coverage and difficulty of the questions and evaluate their ability to recommend part of the text that a student should re-read based on the student's responses to the questions. Based on our evaluation of ChatGPT and Bard, we report that, 1) Large language models are able to generate high quality meaningful questions that have high correlation with the input text, 2) They generate diverse question that cover most topics in the input text even though this ability is significantly degraded as the input text increases, 3)The large language models are able to generate both low and high cognitive questions even though they are significantly biased toward low cognitive question, 4) They are able to effectively summarize responses and extract a portion of text that should be re-read.
翻訳日:2023-05-22 10:40:22 公開日:2023-05-19
# マルチスケール特徴ピラミッドネットワークと2重注意機構を用いた腹部mri画像分割アルゴリズム

A Subabdominal MRI Image Segmentation Algorithm Based on Multi-Scale Feature Pyramid Network and Dual Attention Mechanism ( http://arxiv.org/abs/2305.10631v2 )

ライセンス: Link先を確認
Yu Xiao, Xin Yang, Sijuan Huang, Yongkai Liu, Shuqin Chen, Lihua Guo(参考訳) 本研究の目的は, 直腸癌治療における腹部下MRI像の分割において, U-Netの複数の畳み込み操作とプール操作により, 符号化と復号のセマンティックギャップと不一致を解消することであった。 マルチスケール特徴ピラミッドネットワークとデュアルアテンション機構に基づき,mri画像分割を提案する。 私たちの革新は2つのモジュールの設計です 1)エンコーディングには拡張畳み込みとマルチスケール特徴ピラミッドネットワークを用い,セマンティックギャップを回避する。 2) u-netの空間情報を維持し,誤用を減らすために,二重注意機構が設計されている。 腹腔下MRI画像データセットを用いた実験では,提案手法は他の方法よりも優れた性能を示す。 結論として,マルチスケール機能ピラミッドネットワークは意味的ギャップを低減し,デュアルアテンション機構はエンコーディングとデコードの間の特徴をアライメントすることができる。

This study aimed to solve the semantic gap and misalignment issue between encoding and decoding because of multiple convolutional and pooling operations in U-Net when segmenting subabdominal MRI images during rectal cancer treatment. A MRI Image Segmentation is proposed based on a multi-scale feature pyramid network and dual attention mechanism. Our innovation is the design of two modules: 1) a dilated convolution and multi-scale feature pyramid network are used in the encoding to avoid the semantic gap. 2) a dual attention mechanism is designed to maintain spatial information of U-Net and reduce misalignment. Experiments on a subabdominal MRI image dataset show the proposed method achieves better performance than others methods. In conclusion, a multi-scale feature pyramid network can reduce the semantic gap, and the dual attention mechanism can make an alignment of features between encoding and decoding.
翻訳日:2023-05-22 10:40:04 公開日:2023-05-19
# ディープニューラルネットワークにおける局所不安定の測定と緩和

Measuring and Mitigating Local Instability in Deep Neural Networks ( http://arxiv.org/abs/2305.10625v2 )

ライセンス: Link先を確認
Arghya Datta, Subhrangshu Nandi, Jingcheng Xu, Greg Ver Steeg, He Xie, Anoop Kumar, Aram Galstyan(参考訳) Deep Neural Networks(DNN)は、数百万のユーザが依存する現実世界のサービスの不可欠なコンポーネントになりつつある。 残念なことに、これらのシステムのアーキテクトは、ランダム初期化のような無関係な詳細が予期せぬほどトレーニングされたシステムのアウトプットを変え、潜在的に悲惨な結果をもたらす可能性があるため、信頼性の高いパフォーマンスを保証することが困難である。 トレーニング過程における確率性の結果,モデルが同一データ上で再トレーニングされた場合でも,モデルの予測がどのように変化するかを調べることで,モデル安定性の問題を定式化する。 自然言語理解(NLU)タスクでは,クエリのかなりの部分の予測が不安定であることがわかった。 この現象を定量化するために、トレーニング実行中やトレーニング実行中の各サンプル毎の ‘label entropy'' のような原則付きメトリクスを定式化します。 興味深いことに、不安定な予測はランダムに現れず、むしろデータ固有の方法でクラスタ化されているように見える。 安定性を向上させるためにデータ非依存正規化法を研究し,局所安定性推定を活用できる新しいデータ中心法を提案する。 我々の局所化されたデータ固有の緩和戦略は、データ非依存の手法を劇的に上回っており、計算コストのごく一部で、センシングによって達成されたゴールド標準の90%以下である。

Deep Neural Networks (DNNs) are becoming integral components of real world services relied upon by millions of users. Unfortunately, architects of these systems can find it difficult to ensure reliable performance as irrelevant details like random initialization can unexpectedly change the outputs of a trained system with potentially disastrous consequences. We formulate the model stability problem by studying how the predictions of a model change, even when it is retrained on the same data, as a consequence of stochasticity in the training process. For Natural Language Understanding (NLU) tasks, we find instability in predictions for a significant fraction of queries. We formulate principled metrics, like per-sample ``label entropy'' across training runs or within a single training run, to quantify this phenomenon. Intriguingly, we find that unstable predictions do not appear at random, but rather appear to be clustered in data-specific ways. We study data-agnostic regularization methods to improve stability and propose new data-centric methods that exploit our local stability estimates. We find that our localized data-specific mitigation strategy dramatically outperforms data-agnostic methods, and comes within 90% of the gold standard, achieved by ensembling, at a fraction of the computational cost
翻訳日:2023-05-22 10:39:48 公開日:2023-05-19
# PMC-VQA: 医用視覚質問応答のための視覚指導チューニング

PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering ( http://arxiv.org/abs/2305.10415v3 )

ライセンス: Link先を確認
Xiaoman Zhang, Chaoyi Wu, Ziheng Zhao, Weixiong Lin, Ya Zhang, Yanfeng Wang, Weidi Xie(参考訳) 本稿では, 医用視覚質問応答(medvqa)の問題に焦点をあて, 臨床関連情報を含む医用画像の効率的な解釈に不可欠である。 まず、人間と機械の相互作用を自然に追従する生成タスクとしてMedVQAの問題を再構成し、トレーニング済み視覚エンコーダからの視覚情報を大きな言語モデルに整合させることにより、医用視覚理解のための生成モデルを提案する。 第2に,さまざまな形態や疾患をカバーする227kのvqa対の149k画像を含む,pmc-vqaという,大規模医療用視覚的質問応答データセットを構築するためのスケーラブルなパイプラインを構築した。 第3に、提案したモデルを PMC-VQA 上で事前トレーニングし、VQA-RAD や SLAKE といった複数の公開ベンチマークで微調整し、既存の作業よりも大きなマージンで性能を向上させる。 さらに,手作業による検証を行うテストセットを提案する。

In this paper, we focus on the problem of Medical Visual Question Answering (MedVQA), which is crucial in efficiently interpreting medical images with vital clinic-relevant information. Firstly, we reframe the problem of MedVQA as a generation task that naturally follows the human-machine interaction, we propose a generative-based model for medical visual understanding by aligning visual information from a pre-trained vision encoder with a large language model. Secondly, we establish a scalable pipeline to construct a large-scale medical visual question-answering dataset, named PMC-VQA, which contains 227k VQA pairs of 149k images that cover various modalities or diseases. Thirdly, we pre-train our proposed model on PMC-VQA and then fine-tune it on multiple public benchmarks, e.g., VQA-RAD and SLAKE, outperforming existing work by a large margin. Additionally, we propose a test set that has undergone manual verification, which is significantly more challenging, even the best models struggle to solve.
翻訳日:2023-05-22 10:39:25 公開日:2023-05-19
# 身体制約を伴う記号的回帰のアクティブラーニング

Active Learning in Symbolic Regression with Physical Constraints ( http://arxiv.org/abs/2305.10379v2 )

ライセンス: Link先を確認
Jorge Medina, Andrew D. White(参考訳) 進化的記号回帰(SR)は記号方程式をデータに適合させ、簡潔な解釈可能なモデルを与える。 物理制約のあるアクティブラーニング環境で収集するデータを提案する手法としてsrを用いた。 アクティブラーニングを持つsrは、次に行うべき実験を提案する。 アクティブラーニングは委員会によるクエリで行われ、パレート方程式のフロンティアは委員会である。 物理的制約は、非常に低いデータ設定で提案された方程式を改善する。 これらのアプローチにより、SRに必要なデータが少なくなり、既知の方程式を再発見するために必要なデータが得られる。

Evolutionary symbolic regression (SR) fits a symbolic equation to data, which gives a concise interpretable model. We explore using SR as a method to propose which data to gather in an active learning setting with physical constraints. SR with active learning proposes which experiments to do next. Active learning is done with query by committee, where the Pareto frontier of equations is the committee. The physical constraints improve proposed equations in very low data settings. These approaches reduce the data required for SR and achieves state of the art results in data required to rediscover known equations.
翻訳日:2023-05-22 10:39:03 公開日:2023-05-19
# UniEX: Span-Exptractive Perspectiveによる統合情報抽出のための効率的かつ効率的なフレームワーク

UniEX: An Effective and Efficient Framework for Unified Information Extraction via a Span-extractive Perspective ( http://arxiv.org/abs/2305.10306v2 )

ライセンス: Link先を確認
Ping Yang, Junyu Lu, Ruyi Gan, Junjie Wang, Yuxiang Zhang, Jiaxing Zhang, Pingjian Zhang(参考訳) 本稿では,任意のスキーマ形式に準拠し,名前付きエンティティ認識,関係抽出,イベント抽出,感情分析などのieタスクの一覧に適用可能な汎用情報抽出(ie)の新しいパラダイムを提案する。 提案手法は,すべての抽出対象を統一的に統合スパン検出,分類,関連付け問題,すなわちuniexに分解するトークンペア問題として,テキストベースのieタスクを変換する。 UniEXはスキーマベースのプロンプトとテキスト情報を同期的にエンコードし、オートエンコーダ言語モデルを使用して事前定義された情報から一般化された知識を協調的に学習することができる。 我々は,タスク,ラベル,内部トークンを含む異種因子を統合するトラフィン注意機構を開発し,スコアリング行列を用いて抽出対象を抽出する。 実験の結果、uniexは14ドルのベンチマークieデータセットのパフォーマンスと推論速度の点で、ジェネレーティブなユニバーサルieモデルよりも優れていることがわかった。 低リソースシナリオにおける最先端性能は、Unixの転送可能性と有効性も検証する。

We propose a new paradigm for universal information extraction (IE) that is compatible with any schema format and applicable to a list of IE tasks, such as named entity recognition, relation extraction, event extraction and sentiment analysis. Our approach converts the text-based IE tasks as the token-pair problem, which uniformly disassembles all extraction targets into joint span detection, classification and association problems with a unified extractive framework, namely UniEX. UniEX can synchronously encode schema-based prompt and textual information, and collaboratively learn the generalized knowledge from pre-defined information using the auto-encoder language models. We develop a traffine attention mechanism to integrate heterogeneous factors including tasks, labels and inside tokens, and obtain the extraction target via a scoring matrix. Experiment results show that UniEX can outperform generative universal IE models in terms of performance and inference-speed on $14$ benchmarks IE datasets with the supervised setting. The state-of-the-art performance in low-resource scenarios also verifies the transferability and effectiveness of UniEX.
翻訳日:2023-05-22 10:38:57 公開日:2023-05-19
# アテンションスコーディングデコーディングによる生成逆数ネットワークのスパイキング

Spiking Generative Adversarial Network with Attention Scoring Decoding ( http://arxiv.org/abs/2305.10246v3 )

ライセンス: Link先を確認
Linghao Feng, Dongcheng Zhao, Yi Zeng(参考訳) ニューラルネットワークに基づく生成モデルは、ディープラーニングにおいて大きな課題となる。 現状では、そのようなモデルは主に人工ニューラルネットワークの領域に限られている。 第3世代のニューラルネットワークであるスパイクニューラルネットワークは、豊かな時空間ダイナミクスのため、脳のような処理により近い近似を提供する。 しかし、スパイクニューラルネットワークに基づく生成モデルは十分に研究されていない。 本研究では,複雑な画像を扱うことができるスパイク生成対向ネットワークの構築を開拓した。 最初の課題は、生成的敵ネットワークに固有の領域外不整合と時間的不整合の問題を識別することであった。 我々は,これらの問題に対して,土間距離と注意重み付き復号法を組み込んで対処し,複数のデータセットにまたがるアルゴリズムの性能を著しく向上させた。 実験の結果,本手法はMNIST,FashionMNIST,CIFAR10,CelebAデータセットの既存手法よりも優れていることがわかった。 さらに,識別器が人工アナログニューラルネットワークであるハイブリッドスパイキング生成対向ネットワークと比較して,本手法はマウスにおける情報処理パターンと密に一致していることを示す。

Generative models based on neural networks present a substantial challenge within deep learning. As it stands, such models are primarily limited to the domain of artificial neural networks. Spiking neural networks, as the third generation of neural networks, offer a closer approximation to brain-like processing due to their rich spatiotemporal dynamics. However, generative models based on spiking neural networks are not well studied. In this work, we pioneer constructing a spiking generative adversarial network capable of handling complex images. Our first task was to identify the problems of out-of-domain inconsistency and temporal inconsistency inherent in spiking generative adversarial networks. We addressed these issues by incorporating the Earth-Mover distance and an attention-based weighted decoding method, significantly enhancing the performance of our algorithm across several datasets. Experimental results reveal that our approach outperforms existing methods on the MNIST, FashionMNIST, CIFAR10, and CelebA datasets. Moreover, compared with hybrid spiking generative adversarial networks, where the discriminator is an artificial analog neural network, our methodology demonstrates closer alignment with the information processing patterns observed in the mouse.
翻訳日:2023-05-22 10:38:40 公開日:2023-05-19
# free-text sequence-to-sequence modeling による層プルーニングによるパラメータ効率の良い微調整

Parameter-Efficient Fine-Tuning with Layer Pruning on Free-Text Sequence-to-Sequence Modeling ( http://arxiv.org/abs/2305.08285v3 )

ライセンス: Link先を確認
Yunqi Zhu and Xuebing Yang and Yuanyuan Wu and Wensheng Zhang(参考訳) 言語モデルのサイズの増大は、事前訓練されたモデルを凍結するLoRAのようなパラメータ効率のよい微調整において大きな研究関心を高め、複数の下流タスク(要約、質問応答、翻訳など)に対して小さなトレーニング可能なパラメータを注入する。 ファインチューニングの効率をさらに高めるために,LoRAと構造化層プルーニングを統合したフレームワークを提案する。 統合されたフレームワークはMIMIC-IV-Noteと2つの公開医療対話データセットに基づく2つの独立した医療レポート要約データセットで検証される。 元のモデルの0.6%のパラメータをチューニングし、30%以上のトランスフォーマー層をprunすることで、フレームワークはgpuメモリ使用量の50%を削減し、トレーニングフェーズの100%を高速化することができる。

The increasing size of language models raises great research interests in parameter-efficient fine-tuning such as LoRA that freezes the pre-trained model, and injects small-scale trainable parameters for multiple downstream tasks (e.g., summarization, question answering and translation). To further enhance the efficiency of fine-tuning, we propose a framework that integrates LoRA and structured layer pruning. The integrated framework is validated on two created deidentified medical report summarization datasets based on MIMIC-IV-Note and two public medical dialogue datasets. By tuning 0.6% parameters of the original model and pruning over 30% Transformer-layers, our framework can reduce 50% of GPU memory usage and speed up 100% of the training phase, while preserving over 92% generation qualities on free-text sequence-to-sequence tasks.
翻訳日:2023-05-22 10:37:44 公開日:2023-05-19
# LMEye:大規模言語モデルのための対話型知覚ネットワーク

LMEye: An Interactive Perception Network for Large Language Models ( http://arxiv.org/abs/2305.03701v3 )

ライセンス: Link先を確認
Yunxin Li, Baotian Hu, Xinyu Chen, Lin Ma, and Min Zhang(参考訳) GPT-4のようなスクラッチからLVLM(Large Visual Language Model)をトレーニングすることはリソース集約である。 本稿では,画像理解機能をllmに組み込むことでlvlmを実現することを目的とした,大規模言語モデル(llm)のためのプレイアンドプラグモジュール,すなわち対話型知覚ネットワーク(ipn)を提案する。 従来の手法では視覚情報をシンプルな視覚マッピングネットワークでLLMに組み込んでおり、画像特徴を線形層を介してLLMの埋め込み空間に投影する。 このようなマッピングネットワークでは、画像機能はまだ画像と人間の入力クエリの相互作用を考慮していない。 したがって、人間の意図とは無関係に得られる視覚情報は、LLMが意図追従応答を行うのに不十分である可能性がある。 IPNは、LLMが所望の視覚情報を様々な人間の指示に従って要求することを許可することでこの問題に対処する。 具体的には、IPNは単純な視覚マッピングネットワークからなり、LCMのイメージの基本的な認識を提供する。 また、LCMからの要求を取得し、リクエストベースの視覚情報インタラクションを実行し、その結果の視覚情報をそれぞれLLMに送信するモジュールも追加されている。 このようにして、LLMは人間の問い合わせを理解し、リクエストベースの視覚情報対話モジュールに対応する要求を配信し、インターリーブされたマルチモーダル情報に基づいて応答を生成する。 我々は,マルチモーダル質問応答や推論などの広範な実験を通じてIPNを評価し,従来の手法と比較して,様々なマルチモーダルタスクにおけるLVLMのゼロショット性能を著しく向上させることを示した。

Training a Large Visual Language Model (LVLM) from scratch, like GPT-4, is resource-intensive. Our paper presents a play-and-plug module for Large Language Models (LLMs), namely Interactive Perception Network (IPN), aiming to achieve a LVLM by incorporating the image understanding capability into LLMs. Previous methods incorporate visual information into LLMs with a simple visual mapping network, where the image feature is projected into the embedding space of LLMs via a linear layer. Such mapping network projects the image feature once yet does not consider the interaction between the image and the human input query. Hence, the obtained visual information with no connections with human intention may be inadequate for LLMs to make intention-following responses, which we term as static visual information. IPN addresses this issue by allowing the LLM to request the desired visual information aligned with various human instructions, which we term as the dynamic interaction between the LLM and visual information. Specifically, IPN consists of a simple visual mapping network to provide the basic perception of an image for LLMs. It also contains additional modules responsible for acquiring requests from LLMs, performing request-based visual information interaction, and transmitting the resulting interacted visual information to LLMs, respectively. In this way, LLMs act to understand the human query, deliver the corresponding request to the request-based visual information interaction module, and generate the response based on the interleaved multimodal information. We evaluate IPN through extensive experiments on multimodal question answering, reasoning, and so on, demonstrating that it significantly improves the zero-shot performance of LVLMs on various multimodal tasks compared to previous methods.
翻訳日:2023-05-22 10:37:25 公開日:2023-05-19
# 線形逆問題の解法のための複合ガウスネットワーク

A Compound Gaussian Network for Solving Linear Inverse Problems ( http://arxiv.org/abs/2305.11120v2 )

ライセンス: Link先を確認
Carter Lyons, Raghu G. Raj, and Margaret Cheney(参考訳) 本稿では, 線形逆問題, 特にトモグラフィー画像や圧縮センシングに現れるタイプの問題を解くために, 2つの新しいアプローチを考案する。 第一のアプローチは、正規化が複合ガウス事前分布に基づく正則化最小二乗対象関数を最小化する反復アルゴリズムである。 ガウス型化合物は、スパーシティに基づくアプローチを含む画像再構成においてよく使われる多くの先行事項を事前に仮定する。 このアルゴリズムは、反復アルゴリズムの「アンロール」または「アンフォールディング」に対応するディープニューラルネットワークである。 アンロールされたディープニューラルネットワークは解釈可能な層を持ち、標準的なディープラーニング手法より優れている。 本稿では,両アルゴリズムの構成と性能に関する洞察を与える計算理論について述べる。 結論は、どちらのアルゴリズムも、トモグラフィ画像形成や圧縮センシング、特に低訓練の難しい状況において、最先端のアプローチよりも優れているということである。

For solving linear inverse problems, particularly of the type that appear in tomographic imaging and compressive sensing, this paper develops two new approaches. The first approach is an iterative algorithm that minimizers a regularized least squares objective function where the regularization is based on a compound Gaussian prior distribution. The Compound Gaussian prior subsumes many of the commonly used priors in image reconstruction, including those of sparsity-based approaches. The developed iterative algorithm gives rise to the paper's second new approach, which is a deep neural network that corresponds to an "unrolling" or "unfolding" of the iterative algorithm. Unrolled deep neural networks have interpretable layers and outperform standard deep learning methods. This paper includes a detailed computational theory that provides insight into the construction and performance of both algorithms. The conclusion is that both algorithms outperform other state-of-the-art approaches to tomographic image formation and compressive sensing, especially in the difficult regime of low training.
翻訳日:2023-05-22 10:31:17 公開日:2023-05-19
# mdctGAN: 修正DCTスペクトルを用いた音声超解像のためのタミングトランスフォーマーベースGAN

mdctGAN: Taming transformer-based GAN for speech super-resolution with Modified DCT spectra ( http://arxiv.org/abs/2305.11104v2 )

ライセンス: Link先を確認
Chenhao Shuai, Chaohua Shi, Lu Gan and Hongqing Liu(参考訳) SSRは高分解能(HR)音声を対応する低分解能(LR)音声から復元することを目的としている。 近年のSSR法は, 位相再構成の重要性を無視し, 回復品質を抑えるため, 等級スペクトルの再構成に重点を置いている。 本稿では,修正離散コサイン変換(modified discrete cosine transform:mdct)に基づく新しいssrフレームワークであるmdctganを提案する。 MDCT領域での逆学習により,Vocoderや追加のポストプロセッシングを使わずに,段階的にHR音声を再構成する。 さらに,mdctganは,自己着信機構で周波数整合特徴を学習することにより,高品質な音声再構成を実現する。 vctkコーパスデータセットでは,本モデルがmosおよびpesqスコアの高い自然な聴覚品質を生成することを示す。 また、様々な入力レートから48kHzの目標解像度で、最先端の対数スペクトル距離(LSD)性能を実現する。 コードはhttps://github.com/neoncloud/mdctganから入手できる。

Speech super-resolution (SSR) aims to recover a high resolution (HR) speech from its corresponding low resolution (LR) counterpart. Recent SSR methods focus more on the reconstruction of the magnitude spectrogram, ignoring the importance of phase reconstruction, thereby limiting the recovery quality. To address this issue, we propose mdctGAN, a novel SSR framework based on modified discrete cosine transform (MDCT). By adversarial learning in the MDCT domain, our method reconstructs HR speeches in a phase-aware manner without vocoders or additional post-processing. Furthermore, by learning frequency consistent features with self-attentive mechanism, mdctGAN guarantees a high quality speech reconstruction. For VCTK corpus dataset, the experiment results show that our model produces natural auditory quality with high MOS and PESQ scores. It also achieves the state-of-the-art log-spectral-distance (LSD) performance on 48 kHz target resolution from various input rates. Code is available from https://github.com/neoncloud/mdctGAN
翻訳日:2023-05-22 10:31:00 公開日:2023-05-19
# アノテーションフリーな視聴覚セグメンテーション

Annotation-free Audio-Visual Segmentation ( http://arxiv.org/abs/2305.11019v2 )

ライセンス: Link先を確認
Jinxiang Liu, Yu Wang, Chen Ju, Chaofan Ma, Ya Zhang, Weidi Xie(参考訳) オーディオ・ビジュアルセグメンテーション(avs)の目的は、ピクセル毎のセグメンテーションマスクを正確に予測することで、視覚シーン内の聴覚物体を探索することである。 本稿では,以下の貢献について述べる。 i) AVSタスクのための人工データを生成するためのスケーラブルでアノテーションのないパイプラインを提案する。 既存のイメージセグメンテーションとオーディオデータセットを活用して、カテゴリラベル、イメージマスクペア、オーディオサンプル間のリンクを描画することで、AVSモデルをトレーニングするための(画像、オーディオ、マスク)トリプルを簡単に作成することができます。 (ii)我々は,オーディオアウェアなクエリベースのトランスフォーマデコーダを備えた,新しいオーディオアウェアトランスフォーマ(autr)アーキテクチャを導入する。 このアーキテクチャにより、モデルは音声信号の誘導により音声オブジェクトを探索し、より正確なセグメンテーションを行うことができる。 (iii) 提案するパイプラインで生成された合成データを用いたavsモデルの訓練の有効性を示す,合成データと実データの両方について広範な実験を行った。 さらに,提案したAuTRアーキテクチャは,公開ベンチマークにおいて優れた性能と強力な一般化能力を示す。 プロジェクトページはhttps://jinxiang-liu.github.io/anno-free-AVS/。

The objective of Audio-Visual Segmentation (AVS) is to locate sounding objects within visual scenes by accurately predicting pixelwise segmentation masks. In this paper, we present the following contributions: (i), we propose a scalable and annotation-free pipeline for generating artificial data for the AVS task. We leverage existing image segmentation and audio datasets to draw links between category labels, image-mask pairs, and audio samples, which allows us to easily compose (image, audio, mask) triplets for training AVS models; (ii), we introduce a novel Audio-Aware Transformer (AuTR) architecture that features an audio-aware query-based transformer decoder. This architecture enables the model to search for sounding objects with the guidance of audio signals, resulting in more accurate segmentation; (iii), we present extensive experiments conducted on both synthetic and real datasets, which demonstrate the effectiveness of training AVS models with synthetic data generated by our proposed pipeline. Additionally, our proposed AuTR architecture exhibits superior performance and strong generalization ability on public benchmarks. The project page is https://jinxiang-liu.github.io/anno-free-AVS/.
翻訳日:2023-05-22 10:30:40 公開日:2023-05-19
# 確率スコアを用いたボックス埋め込みによる分類補完

Taxonomy Completion with Probabilistic Scorer via Box Embedding ( http://arxiv.org/abs/2305.11004v2 )

ライセンス: Link先を確認
Wei Xue, Yongliang Shen, Wenqi Ren, Jietian Guo, Shiliang Pu, Weiming Lu(参考訳) 既存の分類を新しい概念で自動的に強化するタスクである分類完成は、近年、大きな関心を集めている。 以前は複雑なモジュール、外部情報、擬似リーブを導入し、表現を充実させ、アタッチメントと挿入のマッチングプロセスを統一した。 成績は良好だが、これらの導入はトレーニングやスコアリングにノイズや不公平をもたらした可能性がある。 本稿では,分類概念をボックス埋め込みにマッピングし,擬似リーブの必要性を回避するために2つの確率的スコアラを用いた分類完成のための新しいフレームワークであるTaxBoxを提案する。 Specifically, TaxBox consists of three components: (1) a graph aggregation module to leverage the structural information of the taxonomy and two lightweight decoders that map features to box embedding and capture complex relationships between concepts; (2) two probabilistic scorers that correspond to attachment and insertion operations and ensure the avoidance of pseudo-leaves; and (3) three learning objectives that assist the model in mapping concepts more granularly onto the box embedding space. 4つの実世界のデータセットでの実験的結果は、taxboxがベースラインメソッドをかなり上回っており、以前の最先端メソッドをある程度上回っていることを示唆している。

Taxonomy completion, a task aimed at automatically enriching an existing taxonomy with new concepts, has gained significant interest in recent years. Previous works have introduced complex modules, external information, and pseudo-leaves to enrich the representation and unify the matching process of attachment and insertion. While they have achieved good performance, these introductions may have brought noise and unfairness during training and scoring. In this paper, we present TaxBox, a novel framework for taxonomy completion that maps taxonomy concepts to box embeddings and employs two probabilistic scorers for concept attachment and insertion, avoiding the need for pseudo-leaves. Specifically, TaxBox consists of three components: (1) a graph aggregation module to leverage the structural information of the taxonomy and two lightweight decoders that map features to box embedding and capture complex relationships between concepts; (2) two probabilistic scorers that correspond to attachment and insertion operations and ensure the avoidance of pseudo-leaves; and (3) three learning objectives that assist the model in mapping concepts more granularly onto the box embedding space. Experimental results on four real-world datasets suggest that TaxBox outperforms baseline methods by a considerable margin and surpasses previous state-of-art methods to a certain extent.
翻訳日:2023-05-22 10:30:20 公開日:2023-05-19
# SpeechGPT:本質的な対話能力を持つ大規模言語モデル

SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities ( http://arxiv.org/abs/2305.11000v2 )

ライセンス: Link先を確認
Dong Zhang, Shimin Li, Xin Zhang, Jun Zhan, Pengyu Wang, Yaqian Zhou, Xipeng Qiu(参考訳) マルチモーダルな大言語モデルは、人工知能(AGI)の重要なステップと見なされ、ChatGPTの出現に大きく関心を寄せている。 しかし、現在の音声言語モデルは典型的にはカスケードパラダイムを採用し、モーダル間知識伝達を防ぐ。 本稿では,マルチモデルコンテンツを認識・生成可能な,本質的なクロスモーダルな対話能力を持つ大規模言語モデルであるSpeechGPTを提案する。 まず、離散音声表現を用いて、大規模モーダル音声命令データセットであるSpeechInstructを構築する。 さらに,モダリティ適応事前学習,クロスモーダル命令微調整,チェーン・オブ・モダリティ命令微調整を含む3段階の訓練戦略を採用した。 実験の結果,speechgptはマルチモーダルヒューマンインストラクションを追従し,複数のモーダリティを1つのモデルで扱う可能性を強調できることがわかった。 デモはhttps://0nutation.github.io/speechgpt.github.io/で表示される。

Multi-modal large language models are regarded as a crucial step towards Artificial General Intelligence (AGI) and have garnered significant interest with the emergence of ChatGPT. However, current speech-language models typically adopt the cascade paradigm, preventing inter-modal knowledge transfer. In this paper, we propose SpeechGPT, a large language model with intrinsic cross-modal conversational abilities, capable of perceiving and generating multi-model content. With discrete speech representations, we first construct SpeechInstruct, a large-scale cross-modal speech instruction dataset. Additionally, we employ a three-stage training strategy that includes modality-adaptation pre-training, cross-modal instruction fine-tuning, and chain-of-modality instruction fine-tuning. The experimental results demonstrate that SpeechGPT has an impressive capacity to follow multi-modal human instructions and highlight the potential of handling multiple modalities with one model. Demos are shown in https://0nutation.github.io/SpeechGPT.github.io/.
翻訳日:2023-05-22 10:30:01 公開日:2023-05-19
# 少ないデータを増やす:データ拡張を用いた低リソース自動音声認識の改善

Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation ( http://arxiv.org/abs/2305.10951v2 )

ライセンス: Link先を確認
Martijn Bartelds and Nay San and Bradley McDonnell and Dan Jurafsky and Martijn Wieling(参考訳) 音声認識システム(ASR)の性能は近年大きく進歩しており、特に大量の転写音声が利用できる言語では顕著である。 残念なことに、少数言語、地域言語、方言などの低リソース言語では、ASRのパフォーマンスは概してはるかに低いままである。 本研究では, タイポロジーに富んだ4つのマイノリティ言語や言語変種(西ゲルマン語: Gronings, West-Frisian, Malayo-Polynesian: Besemah, Nasal)に着目し, 低リソースASRの性能向上に寄与するかどうかを検討する。 これら4言語すべてに対して、利用可能な人書きデータを用いてトレーニングされたASRシステムが転写を生成する自己学習システムを用いて、元のデータと組み合わせて新しいASRシステムを訓練する方法について検討する。 また,既存のテキスト音声(TTS)システムであるGroningsに対しては,テキストのみのソースからASRトレーニングデータを生成するために,TSを用いて検討した。 自己学習アプローチを用いることで、パフォーマンスが向上する(手書き音声の24分でトレーニングされたASRシステムと比較して、相対的なWER削減率は20.5%)。 グローニングにおけるttsの強化による性能向上は、24分間の手動転写音声に基づくシステムと比較して、最大25.5%のwhr低下を示した。 その結果,asr性能を改善するために,データ可用性の限界を克服するための効率的なソリューションとして,自己学習や(可能であれば)tts生成データを使用することの利点が示された。

The performance of automatic speech recognition (ASR) systems has advanced substantially in recent years, particularly for languages for which a large amount of transcribed speech is available. Unfortunately, for low-resource languages, such as minority languages, regional languages or dialects, ASR performance generally remains much lower. In this study, we investigate whether data augmentation techniques could help improve low-resource ASR performance, focusing on four typologically diverse minority languages or language variants (West Germanic: Gronings, West-Frisian; Malayo-Polynesian: Besemah, Nasal). For all four languages, we examine the use of self-training, where an ASR system trained with the available human-transcribed data is used to generate transcriptions, which are then combined with the original data to train a new ASR system. For Gronings, for which there was a pre-existing text-to-speech (TTS) system available, we also examined the use of TTS to generate ASR training data from text-only sources. We find that using a self-training approach consistently yields improved performance (a relative WER reduction up to 20.5% compared to using an ASR system trained on 24 minutes of manually transcribed speech). The performance gain from TTS augmentation for Gronings was even stronger (up to 25.5% relative reduction in WER compared to a system based on 24 minutes of manually transcribed speech). In sum, our results show the benefit of using self-training or (if possible) TTS-generated data as an efficient solution to overcome the limitations of data availability for resource-scarce languages in order to improve ASR performance.
翻訳日:2023-05-22 10:29:45 公開日:2023-05-19
# 因果文書による対話の事前学習

Causal Document-Grounded Dialogue Pre-training ( http://arxiv.org/abs/2305.10927v2 )

ライセンス: Link先を確認
Yingxiu Zhao, Bowen Yu, Haiyang Yu, Bowen Li, Jinyang Li, Chao Wang, Fei Huang, Yongbin Li, Nevin L. Zhang(参考訳) 文書地上対話(DocGD)の目標は,その対話コンテキストに応じて,その証拠を支援文書に接地することで応答を生成することである。 このプロセスには因果関係を持つ4つの変数が含まれる。 近年,タスク固有の事前学習によって下流タスクのパフォーマンスが大幅に向上している。 しかし、既存のDocGD手法は、因果関係を明示的にキャプチャする特定の調整済み事前学習アプローチを使わずに、一般的な事前学習言語モデルに依存し続けている。 この問題に対処するために、100万レベルのDocGD事前学習コーパスを構築するための因果完全データセット構築戦略を最初に提示する。 因果関係をよりよく把握するために,変数に対する因果摂動を導入し,全体の因果効果を最適化する因果摂動前学習戦略を提案する。 3つのベンチマークデータセットの実験により、我々の因果前トレーニングは、完全な教師付き、低リソース、少数ショット、ゼロショット設定の下で、かなり、一貫した改善を達成している。

The goal of document-grounded dialogue (DocGD) is to generate a response by grounding the evidence in a supporting document in accordance with the dialogue context. This process involves four variables that are causally connected. Recently, task-specific pre-training has greatly boosted performances on many downstream tasks. Existing DocGD methods, however, continue to rely on general pre-trained language models without a specifically tailored pre-training approach that explicitly captures the causal relationships. To tackle this issue, we are the first to present a causally-complete dataset construction strategy for building million-level DocGD pre-training corpora. To better capture causality, we further propose a causally-perturbed pre-training strategy, which introduces causal perturbations on the variables and optimizes the overall causal effect. Experiments on three benchmark datasets demonstrate that our causal pre-training achieves considerable and consistent improvements under fully-supervised, low-resource, few-shot, and zero-shot settings.
翻訳日:2023-05-22 10:29:14 公開日:2023-05-19
# プライバシを保護した分散グラフ学習のための無料ランチ

Free Lunch for Privacy Preserving Distributed Graph Learning ( http://arxiv.org/abs/2305.10869v2 )

ライセンス: Link先を確認
Nimesh Agrawal, Nikita Malik, Sandeep Kumar(参考訳) グラフでの学習は、ソーシャルネットワーク、ロボティクス、コミュニケーション、医療など、幅広いアプリケーションで広く普及しています。 これらのデータセットは、しばしば重要なプライベート情報を含む。 グラフ学習アプリケーションにおけるデータの利用は、データ共有に関するユーザのプライバシー上の懸念が高まり、妨げられている。 既存のプライバシ保存手法は、データを前処理してユーザ側の特徴を抽出する。 残念ながら、これらのメソッドはプライベート属性を推論する敵の攻撃に対して脆弱である。 分散グラフ学習とグラフベース機械学習のための新しいプライバシー監視フレームワークを提案する。 本フレームワークは,サーバ側でグラフ学習やその他の下流タスクを行うために,生データの本来の構造特性を保ちながら,実際の特徴を必要とせずに,特徴や距離を学習することを目的としている。 提案されたフレームワークは非常に汎用的で適応性が高い。 ユークリッド空間の有用性を実証するが、既存の距離近似法や関連する空間のグラフ学習に適用できる。 合成データと実データの両方について広範な実験を行い、ベンチマークとしてデータ共有で得られたものとデータ共有せずに得られた結果を比較して、フレームワークの有効性を実証する。 これは私たちの知る限り、最初のプライバシ保護分散グラフ学習フレームワークです。

Learning on graphs is becoming prevalent in a wide range of applications including social networks, robotics, communication, medicine, etc. These datasets belonging to entities often contain critical private information. The utilization of data for graph learning applications is hampered by the growing privacy concerns from users on data sharing. Existing privacy-preserving methods pre-process the data to extract user-side features, and only these features are used for subsequent learning. Unfortunately, these methods are vulnerable to adversarial attacks to infer private attributes. We present a novel privacy-respecting framework for distributed graph learning and graph-based machine learning. In order to perform graph learning and other downstream tasks on the server side, this framework aims to learn features as well as distances without requiring actual features while preserving the original structural properties of the raw data. The proposed framework is quite generic and highly adaptable. We demonstrate the utility of the Euclidean space, but it can be applied with any existing method of distance approximation and graph learning for the relevant spaces. Through extensive experimentation on both synthetic and real datasets, we demonstrate the efficacy of the framework in terms of comparing the results obtained without data sharing to those obtained with data sharing as a benchmark. This is, to our knowledge, the first privacy-preserving distributed graph learning framework.
翻訳日:2023-05-22 10:28:57 公開日:2023-05-19
# 大規模言語モデルによるAI生成テキスト検出の回避

Large Language Models can be Guided to Evade AI-Generated Text Detection ( http://arxiv.org/abs/2305.10847v2 )

ライセンス: Link先を確認
Ning Lu, Shengcai Liu, Rui He, Qi Wang, Ke Tang(参考訳) 大規模言語モデル(llm)は,エッセイ執筆や質問応答など,さまざまなタスクにおいて例外的なパフォーマンスを示している。 しかし、これらのモデルの潜在的な誤用に対処することが重要であるため、盗作やスパムなどの有害な結果につながる可能性がある。 近年、微調整分類器や様々な統計手法を含むいくつかの検出器が提案されている。 本研究では,注意深いプロンプトの支援により,これらの検出システムを効果的に回避できることを示す。 このようなプロンプトを自動的に生成する新しい置換型in-context example optimization method(sico)を提案する。 LLMを誤用できる3つの現実世界のタスクにおいて、SICOはChatGPTを6つの既存の検出器から回避することができ、平均して0.54AUCの低下を引き起こした。 驚くべきことに、ほとんどの場合、これらの検出器はランダムな分類器よりもさらに悪い性能を発揮する。 これらの結果は、既存の検出器の脆弱性を明確に示している。 最後に、SICOの強い性能は、この分野の新しい検出器に対する信頼性の高い評価プロトコルであることを示唆している。

Large Language Models (LLMs) have demonstrated exceptional performance in a variety of tasks, including essay writing and question answering. However, it is crucial to address the potential misuse of these models, which can lead to detrimental outcomes such as plagiarism and spamming. Recently, several detectors have been proposed, including fine-tuned classifiers and various statistical methods. In this study, we reveal that with the aid of carefully crafted prompts, LLMs can effectively evade these detection systems. We propose a novel Substitution-based In-Context example Optimization method (SICO) to automatically generate such prompts. On three real-world tasks where LLMs can be misused, SICO successfully enables ChatGPT to evade six existing detectors, causing a significant 0.54 AUC drop on average. Surprisingly, in most cases these detectors perform even worse than random classifiers. These results firmly reveal the vulnerability of existing detectors. Finally, the strong performance of SICO suggests itself as a reliable evaluation protocol for any new detector in this field.
翻訳日:2023-05-22 10:28:37 公開日:2023-05-19
# DiffUTE: ユニバーサルテキスト編集拡散モデル

DiffUTE: Universal Text Editing Diffusion Model ( http://arxiv.org/abs/2305.10825v2 )

ライセンス: Link先を確認
Haoxing Chen and Zhuoer Xu and Zhangxuan Gu and Jun Lan and Xing Zheng and Yaohui Li and Changhua Meng and Huijia Zhu and Weiqiang Wang(参考訳) 拡散モデルに基づく言語誘導画像編集は近年大きな成功を収めている。 しかし、既存の最先端拡散モデルは、生成中に正しいテキストとテキストスタイルをレンダリングするのに苦労している。 この問題に対処するために,テキスト編集拡散モデル(DiffUTE)を提案する。 具体的には,拡散モデルに基づいてモデルを構築し,ネットワーク構造を慎重に修正し,グリフと位置情報を用いて多言語文字の描画を可能にする。 さらに,多量の web データを活用し,モデルの表現能力を向上させるために,自己教師付き学習フレームワークを設計した。 実験結果から,本手法は優れた性能を実現し,高忠実度画像の編集を制御可能であることがわかった。 我々のコードは \url{https://github.com/chenhaoxing/DiffUTE} で無効にされます。

Diffusion model based language-guided image editing has achieved great success recently. However, existing state-of-the-art diffusion models struggle with rendering correct text and text style during generation. To tackle this problem, we propose a universal self-supervised text editing diffusion model (DiffUTE), which aims to replace or modify words in the source image with another one while maintaining its realistic appearance. Specifically, we build our model on a diffusion model and carefully modify the network structure to enable the model for drawing multilingual characters with the help of glyph and position information. Moreover, we design a self-supervised learning framework to leverage large amounts of web data to improve the representation ability of the model. Experimental results show that our method achieves an impressive performance and enables controllable editing on in-the-wild images with high fidelity. Our code will be avaliable in \url{https://github.com/chenhaoxing/DiffUTE}.
翻訳日:2023-05-22 10:28:20 公開日:2023-05-19