このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231020となっている論文です。

PDF登録状況(公開日: 20231020)

TitleAuthorsAbstract論文公表日・翻訳日
# 侵入データ収集のための適応的実験設計

Adaptive Experimental Design for Intrusion Data Collection ( http://arxiv.org/abs/2310.13224v1 )

ライセンス: Link先を確認
Kate Highnam, Zach Hanif, Ellie Van Vogt, Sonali Parbhoo, Sergio Maffeis, Nicholas R. Jennings, (参考訳) 侵入調査は、現在使われている攻撃技術とその潜在的な症状に関するデータを頻繁に収集する。 これには、ハニーポットのデプロイ、既存のデバイスからのイベントのロギング、サンプル攻撃キャンペーンのレッドチームの採用、システムアクティビティのシミュレーションが含まれる。 しかし、これらの観察研究は、環境の設計と記録されたデータとの間の因果関係を明確には示していない。 このような関係の無視は、測定や分類における特徴と誤りの急激な相関など、未解決の要因によるバイアスのある結論を描く可能性を高める。 本稿では,そのような因果関係を効率的に発見することを目的とした手法に関する理論と実証データについて述べる。 我々の適応的デザイン(AD)は、ランダム化コントロールトライアル(RCT)の変種である臨床試験コミュニティに触発され、特定の「治療」が集団に与える影響を測定する。 本手法を観測研究やRCTと対比するため,初回制御および適応型ハニーポット展開研究を行い,ssh脆弱性とサーバ利用率の因果関係を同定した。 当社のAD手法は,環境変化の影響を確信しながら,少なくとも33%の時間で展開に必要な時間を短縮できることを実証している。 対照群と類似したハニーポット研究と比較すると, 対照群と類似したハニーポット研究よりも17%少ないハニーポットをリクエストし, 19%の攻撃記録を収集した。

Intrusion research frequently collects data on attack techniques currently employed and their potential symptoms. This includes deploying honeypots, logging events from existing devices, employing a red team for a sample attack campaign, or simulating system activity. However, these observational studies do not clearly discern the cause-and-effect relationships between the design of the environment and the data recorded. Neglecting such relationships increases the chance of drawing biased conclusions due to unconsidered factors, such as spurious correlations between features and errors in measurement or classification. In this paper, we present the theory and empirical data on methods that aim to discover such causal relationships efficiently. Our adaptive design (AD) is inspired by the clinical trial community: a variant of a randomized control trial (RCT) to measure how a particular ``treatment'' affects a population. To contrast our method with observational studies and RCT, we run the first controlled and adaptive honeypot deployment study, identifying the causal relationship between an ssh vulnerability and the rate of server exploitation. We demonstrate that our AD method decreases the total time needed to run the deployment by at least 33%, while still confidently stating the impact of our change in the environment. Compared to an analogous honeypot study with a control group, our AD requests 17% fewer honeypots while collecting 19% more attack recordings than an analogous honeypot study with a control group.
翻訳日:2024-03-19 01:54:08 公開日:2023-10-20
# LLMが自力で攻撃できる: プロンプトベースの敵攻撃

An LLM can Fool Itself: A Prompt-Based Adversarial Attack ( http://arxiv.org/abs/2310.13345v1 )

ライセンス: Link先を確認
Xilie Xu, Keyi Kong, Ning Liu, Lizhen Cui, Di Wang, Jingfeng Zhang, Mohan Kankanhalli, (参考訳) 大規模言語モデル(LLM)の幅広い応用、特に安全クリティカルな領域では、LLMの対角的堅牢性の適切な評価が必要である。 本稿では,PLMの対向ロバスト性を,プロンプトベースの対向アタック(PromptAttack)を用いて評価する効率的なツールを提案する。 PromptAttackは、敵のテキスト攻撃を攻撃プロンプトに変換することで、被害者のLSMが敵のサンプルを不正に出力する可能性がある。 本発明の攻撃プロンプトは、原サンプルを含む原文入力(OI)と原文ラベルを含む原文入力(OI)と、意味的意味を変えることなく自分自身を騙すことのできる新しいサンプルを生成するタスク記述を具現化した攻撃目標(AO)と、原文サンプルを文字、単語、文レベルで摂動させることで、そのタスクを完了させるための摂動指示を含む攻撃ガイダンス(AG)とからなる。 さらに、PmptAttackが対数例の本来の意味を確実に維持するために、忠実度フィルタを使用します。 さらに、異なる摂動レベルにおける敵例をアンサンブルすることで、PromptAttackの攻撃力を高める。 Llama2とGPT-3.5を使った総合的な実験結果から、PromptAttackはAdvGLUEやAdvGLUE++に比べて攻撃成功率がずっと高いことが証明されている。 興味深い発見は、単純な絵文字が簡単にGPT-3.5を誤解させ、誤った予測をすることができることである。

The wide-ranging applications of large language models (LLMs), especially in safety-critical domains, necessitate the proper evaluation of the LLM's adversarial robustness. This paper proposes an efficient tool to audit the LLM's adversarial robustness via a prompt-based adversarial attack (PromptAttack). PromptAttack converts adversarial textual attacks into an attack prompt that can cause the victim LLM to output the adversarial sample to fool itself. The attack prompt is composed of three important components: (1) original input (OI) including the original sample and its ground-truth label, (2) attack objective (AO) illustrating a task description of generating a new sample that can fool itself without changing the semantic meaning, and (3) attack guidance (AG) containing the perturbation instructions to guide the LLM on how to complete the task by perturbing the original sample at character, word, and sentence levels, respectively. Besides, we use a fidelity filter to ensure that PromptAttack maintains the original semantic meanings of the adversarial examples. Further, we enhance the attack power of PromptAttack by ensembling adversarial examples at different perturbation levels. Comprehensive empirical results using Llama2 and GPT-3.5 validate that PromptAttack consistently yields a much higher attack success rate compared to AdvGLUE and AdvGLUE++. Interesting findings include that a simple emoji can easily mislead GPT-3.5 to make wrong predictions.
翻訳日:2024-03-19 01:54:08 公開日:2023-10-20
# クロック周波数が電圧および電磁欠陥注入に及ぼす影響について

On the Effect of Clock Frequency on Voltage and Electromagnetic Fault Injection ( http://arxiv.org/abs/2310.13389v1 )

ライセンス: Link先を確認
Stefanos Koffas, Praveen Kumar Vadnala, (参考訳) クロック周波数が障害注入攻撃の成功率に及ぼす影響について検討する。 特に、様々なクロック周波数に対する電圧および電磁障害攻撃の成功率について検討する。 System-on-Chipの異なるコンポーネントをカバーする3つの異なるテストを使用して、CPUが異なるクロック周波数で動作する間、障害注入を行う。 以上の結果より, 電圧およびEM故障発生時のクロック周波数の増加に伴い, 攻撃成功率が上昇することが示唆された。 この技術がクロック周波数をさらに推し進めるにつれて、これらの結果は、障害注入攻撃の影響をより正確に評価し、それに対応するための適切な対策を開発するのに役立つ。

We investigate the influence of clock frequency on the success rate of a fault injection attack. In particular, we examine the success rate of voltage and electromagnetic fault attacks for varying clock frequencies. Using three different tests that cover different components of a System-on-Chip, we perform fault injection while its CPU operates at different clock frequencies. Our results show that the attack's success rate increases with an increase in clock frequency for both voltage and EM fault injection attacks. As the technology advances push the clock frequency further, these results can help assess the impact of fault injection attacks more accurately and develop appropriate countermeasures to address them.
翻訳日:2024-03-19 01:54:08 公開日:2023-10-20
# 近くで見る! テレグラムのサービスに近づいた人々のプライバシー分析

Watch Nearby! Privacy Analysis of the People Nearby Service of Telegram ( http://arxiv.org/abs/2310.13528v1 )

ライセンス: Link先を確認
Maurantonio Caprolu, Savio Sciancalepore, Aleksandar Grigorov, Velyan Kolev, Gabriele Oligeri, (参考訳) People NearbyはTelegramが提供するサービスで、ユーザーは地理的に近づいただけで他のTelegramユーザーを見つけることができる。 本稿では,Telegramが位置情報のプライバシーを主張できるようにするため,Telegramが提供した位置情報のプライバシーをPerson Nearbyサービス利用者に体系的に解析する。 利用者の位置情報を世界中にスプープすることで実施される広範囲な計測キャンペーンを通じて、利用者間の距離を計算するために、人に近い人が採用するアルゴリズムをリバースエンジニアリングする。 このサービスは正確なユーザのローカライゼーションから保護されるが、Telegramが500mと宣言したものよりも、位置のプライバシーが常に低いことを実証する。 具体的には,位置情報のプライバシーがユーザの地理的位置の関数であることを明らかにする。 実際、位置プライバシー領域(ローカライゼーションエラー)の半径は400メートル(赤道に近い)から128メートル(極に近かった)までで、Telegramが宣言しているものと比べて最大75%(最悪の場合)の違いがある。 情報開示の責任を負った後、Telegramはサービスに関連するFAQを更新した。 最後に、位置情報のプライバシーを改善するためにTelegramが実装できるいくつかのソリューションと対策を提供する。 一般的に報告された調査結果は、人に近いサービスを使用する際のプライバシー上の重大なリスクを浮き彫りにしている。

People Nearby is a service offered by Telegram that allows a user to discover other Telegram users, based only on geographical proximity. Nearby users are reported with a rough estimate of their distance from the position of the reference user, allowing Telegram to claim location privacy In this paper, we systematically analyze the location privacy provided by Telegram to users of the People Nearby service. Through an extensive measurement campaign run by spoofing the user's location all over the world, we reverse-engineer the algorithm adopted by People Nearby to compute distances between users. Although the service protects against precise user localization, we demonstrate that location privacy is always lower than the one declared by Telegram of 500 meters. Specifically, we discover that location privacy is a function of the geographical position of the user. Indeed, the radius of the location privacy area (localization error) spans between 400 meters (close to the equator) and 128 meters (close to the poles), with a difference of up to 75% (worst case) compared to what Telegram declares. After our responsible disclosure, Telegram updated the FAQ associated with the service. Finally, we provide some solutions and countermeasures that Telegram can implement to improve location privacy. In general, the reported findings highlight the significant privacy risks associated with using People Nearby service.
翻訳日:2024-03-19 01:44:24 公開日:2023-10-20
# スマートコントラクトにおける問合せ結果検証のためのゼロ知識証明

Zero-Knowledge Proofs for Questionnaire Result Verification in Smart Contracts ( http://arxiv.org/abs/2310.13618v1 )

ライセンス: Link先を確認
Carlos Efrain Quintero-Narvaez, Raul Monroy-Borja, (参考訳) 本稿では、Groth16 Zero-Knowledge Proofスキーマを利用して、スマートコントラクトにおけるアンケート結果の有効性を検証するWeb3プラットフォームの実装を提案する。 提案手法は,質問票の解答鍵が検証過程を通じて未公表でありながら,評価が公平に行われていることを保証している。 これを実現するため、ユーザは一連の質問に回答し、その回答はエンコードされ、隠れたバックエンドに安全に送信される。 バックエンドは、ユーザの回答を評価し、アンケートの全体結果を生成する。 さらに、ゼロ知識証明(Zero-Knowledge Proof)を生成し、その答えが妥当な制約セットに対して適切に評価されたことを示す。 次に、ユーザは、その証明とともに結果をスマートコントラクトに送信し、その妥当性を検証するとともに、ユーザのテスト結果の証明として、NFT(Non-fungible token)を発行する。 本研究では,Circom 2を用いたZero-Knowledge機能を実装し,Solidityを用いたスマートコントラクトをデプロイした。

We present an implementation of a Web3 platform that leverages the Groth16 Zero-Knowledge Proof schema to verify the validity of questionnaire results within Smart Contracts. Our approach ensures that the answer key of the questionnaire remains undisclosed throughout the verification process, while ensuring that the evaluation is done fairly. To accomplish this, users respond to a series of questions, and their answers are encoded and securely transmitted to a hidden backend. The backend then performs an evaluation of the user's answers, generating the overall result of the questionnaire. Additionally, it generates a Zero-Knowledge Proof, attesting that the answers were appropriately evaluated against a valid set of constraints. Next, the user submits their result along with the proof to a Smart Contract, which verifies their validity and issues a non-fungible token (NFT) as an attestation of the user's test result. In this research, we implemented the Zero-Knowledge functionality using Circom 2 and deployed the Smart Contract using Solidity, thereby showcasing a practical and secure solution for questionnaire validity verification in the context of Smart Contracts.
翻訳日:2024-03-19 01:44:24 公開日:2023-10-20
# 有限体上のいくつかのAPNおよび他の写像の2階ゼロ微分スペクトル

The second-order zero differential spectra of some APN and other maps over finite fields ( http://arxiv.org/abs/2310.13775v1 )

ライセンス: Link先を確認
Kirpa Garg, Sartaj Ul Hasan, Constanza Riera, Pantelimon Stanica, (参考訳) Feistel Boomerang Connectivity Tableと関連する$F$-Boomerang uniformity(二階微分等式とも呼ばれる)の概念は、Boukerrou et al ~\cite{Bouk}によって最近導入された。 これらのツールは、Feistelネットワークベースの暗号のセキュリティの分析において大きな役割を果たす。 同じ論文では、二階ゼロ微分均一性の観点から、偶数標数体上のほぼ完全非線形関数 (APN) のキャラクタリゼーションも与えた。 ここでは、奇標数体上の奇数あるいは偶数函数がAPN関数であるような条件を二階微分等式の観点から求める。 さらに、いくつかのAPNや他の低微分均一関数の2階ゼロ微分スペクトルを計算し、我々の検討した関数が低二階ゼロ微分均一性を持つことを示す。

The Feistel Boomerang Connectivity Table and the related notion of $F$-Boomerang uniformity (also known as the second-order zero differential uniformity) has been recently introduced by Boukerrou et al.~\cite{Bouk}. These tools shall provide a major impetus in the analysis of the security of the Feistel network-based ciphers. In the same paper, a characterization of almost perfect nonlinear functions (APN) over fields of even characteristic in terms of second-order zero differential uniformity was also given. Here, we find a sufficient condition for an odd or even function over fields of odd characteristic to be an APN function, in terms of second-order zero differential uniformity. Moreover, we compute the second-order zero differential spectra of several APN or other low differential uniform functions, and show that our considered functions also have low second-order zero differential uniformity, though it may vary widely, unlike the case for even characteristic when it is always zero.
翻訳日:2024-03-19 01:44:24 公開日:2023-10-20
# 単一光子検出器とミリ波レーダの融合時間データに基づく1画素3次元イメージング

Single-pixel 3D imaging based on fusion temporal data of single photon detector and millimeter-wave radar ( http://arxiv.org/abs/2312.12439v1 )

ライセンス: Link先を確認
Tingqin Lai, Xiaolin Liang, Yi Zhu, Xinyi Wu, Lianye Liao, Xuelin Yuan, Ping Su and Shihai Sun(参考訳) 近年,単画素単一光子検出(時間データとも呼ばれる)による3次元画像化への注目が高まっている。 しかし、再構成画像の対称性のぼかしをなくすには、固定背景が必要である。 本稿では,1画素の単一光子検出器とミリ波レーダを用いて,複数の視点からシーンの時間ヒストグラムを撮影する融合データに基づく3Dイメージング手法を提案する。 その後、ニューラルネットワーク(ANN)を用いて1次元融合時間データから3D情報を再構成することができる。 シミュレーションおよび実験の結果,本手法は対称性のぼやきを効果的に除去し,再構成画像の品質を向上させる。

Recently, there has been increased attention towards 3D imaging using single-pixel single-photon detection (also known as temporal data) due to its potential advantages in terms of cost and power efficiency. However, to eliminate the symmetry blur in the reconstructed images, a fixed background is required. This paper proposes a fusion-data-based 3D imaging method that utilizes a single-pixel single-photon detector and a millimeter-wave radar to capture temporal histograms of a scene from multiple perspectives. Subsequently, the 3D information can be reconstructed from the one-dimensional fusion temporal data by using Artificial Neural Network (ANN). Both the simulation and experimental results demonstrate that our fusion method effectively eliminates symmetry blur and improves the quality of the reconstructed images.
翻訳日:2024-01-15 13:29:51 公開日:2023-10-20
# マルチスペクトル光源を用いたマシンビジョン性能の向上

Enhancing the machine vision performance with multi-spectral light sources ( http://arxiv.org/abs/2311.06276v1 )

ライセンス: Link先を確認
Feng Zhang, Rui Bao, Congqi Dai, Wanlu Zhang, Shu Liu, and Ruiqian Guo(参考訳) 本研究は主に、異なる物体色における異なるマルチスペクトル光源の性能に着目し、マルチスペクトル光源によるマシンビジョンの向上を試みている。 異なるカラー鉛筆をサンプルとして、収集した画像をAlexNetとVGG19の2つの古典的ニューラルネットワークで認識することにより、35種類のマルチスペクトル光源で性能を調べた。 その結果、両モデルには常に純白光よりも精度が高い純白光が存在することが示され、マシンビジョンの有効性をさらに高めるためのマルチスペクトル光源の可能性が示唆された。 両モデルの比較も行われており、VGG19の全体的な性能がAlexNetよりも低いことに驚き、マルチスペクトル光源とモデルの選択の重要性が示されている。

This study mainly focuses on the performance of different multi-spectral light sources on different object colors in machine vision and tries to enhance machine vision with multi-spectral light sources. Using different color pencils as samples, by recognizing the collected images with two classical neural networks, AlexNet and VGG19, the performance was investigated under 35 different multi-spectral light sources. The results show that for both models there are always some non-pure white light sources, whose accuracy is better than pure white light, which suggests the potential of multi-spectral light sources to further enhance the effectiveness of machine vision. The comparison of both models is also performed, and surprised to find that the overall performance of VGG19 is lower than that of AlexNet, which shows that the importance of the choice of multi-spectral light sources and models.
翻訳日:2023-11-19 14:30:24 公開日:2023-10-20
# ChatGPTにおけるパフォーマンス期待, 作業負荷, リスク, 満足度が信頼に及ぼす影響:横断的調査による分析

The Impact of Performance Expectancy, Workload, Risk, and Satisfaction on Trust in ChatGPT: Cross-sectional Survey Analysis ( http://arxiv.org/abs/2311.05632v1 )

ライセンス: Link先を確認
Hamid Shamszare and Avishek Choudhury(参考訳) 本研究は,Chat Generative Pre-Trained Transformer(ChatGPT)における作業負荷,満足度,パフォーマンス期待感,リスクベネフィット感がユーザの信頼にどのように影響するかを検討した。 我々は、ユーザエンゲージメントのニュアンスを理解し、同様の技術の将来の設計と採用戦略を改善するための洞察を提供することを目指していた。 月に少なくとも1回はChatGPTを積極的に使用している米国の成人を対象に、半構造化ウェブベースの調査を行った。 調査は2023年2月22日から3月24日まで行われた。 構造方程式モデルを用いて, 作業負荷, 満足度, パフォーマンス期待度, リスク・ベネフィット, 信頼の構造間の関係を理解する。 607回答の分析では, 作業負荷とユーザ満足度との間に有意な負の相関がみられ, 作業負荷と信頼との間には負の相関がみられた。 また、信頼性はパフォーマンスの期待によって向上した。 対照的に,chatgptの利得対リスク比と信頼の関係は重要ではなかった。 この調査結果は、AIベースのアプリケーションにおけるユーザフレンドリな設計と機能を保証することの重要性を強調し、ワークロードを削減し、ユーザの満足度を高め、ユーザ信頼を高める。 今後の研究は、AIチャットボットのコンテキストにおける利益とリスクの比率と信頼の関係をさらに探求する。

This study investigated how perceived workload, satisfaction, performance expectancy, and risk-benefit perception influenced users' trust in Chat Generative Pre-Trained Transformer (ChatGPT). We aimed to understand the nuances of user engagement and provide insights to improve future design and adoption strategies for similar technologies. A semi-structured, web-based survey was conducted among adults in the United States who actively use ChatGPT at least once a month. The survey was conducted from 22nd February 2023 through 24th March 2023. We used structural equation modeling to understand the relationships among the constructs of perceived workload, satisfaction, performance expectancy, risk-benefit, and trust. The analysis of 607 survey responses revealed a significant negative relationship between perceived workload and user satisfaction, a negative but insignificant relationship between perceived workload and trust, and a positive relationship between user satisfaction and trust. Trust was also found to increase with performance expectancy. In contrast, the relationship between the benefit-to-risk ratio of using ChatGPT and trust was insignificant. The findings underscore the importance of ensuring user-friendly design and functionality in AI-based applications to reduce workload and enhance user satisfaction, thereby increasing user trust. Future research should further explore the relationship between the benefit-to-risk ratio and trust in the context of AI chatbots.
翻訳日:2023-11-19 14:28:19 公開日:2023-10-20
# 企業データガバナンスの基盤としての組織知識のセマンティックモデリング 4.0 --統一臨床データモデルへの応用

Semantic Modelling of Organizational Knowledge as a Basis for Enterprise Data Governance 4.0 -- Application to a Unified Clinical Data Model ( http://arxiv.org/abs/2311.02082v1 )

ライセンス: Link先を確認
Miguel AP Oliveira, Stephane Manara, Bruno Mol\'e, Thomas Muller, Aur\'elien Guillouche, Lysann Hesske, Bruce Jordan, Gilles Hubert, Chinmay Kulkarni, Pralipta Jagdev and Cedric R. Berger(参考訳) 個人や組織は常に成長するデータ量に対処し、内容やフォーマットは異質である。 このデータから価値を得て、複数の利用に関連する固有のリスクを最小化する前提条件は、データの品質とライフサイクルの制御をもたらす適切なデータ管理プロセスである。 人とポリシーに依存する一般的なデータガバナンスフレームワークは、圧倒的なデータ複雑性に欠けています。 しかし、高品質な標準を達成するためには、この複雑さを活用する必要がある。 後者は、このデータで訓練された生成的人工知能を含む、ダウンストリームのデータ使用の結果を条件とする。 本稿では,メタデータ駆動,アジャイル,(準)自動データガバナンス(すなわちデータガバナンス 4.0)を実現する,シンプルでコスト効率のよいフレームワークを構築した具体的経験を報告する。 我々は,25年間の臨床研究データを企業規模で,完全に生産的な環境で統合するために,このフレームワークの実装と利用について説明する。 このフレームワークはセマンティックウェブの原則を利用する方法論と技術の両方を含んでいる。 ガバナンスの原則を含むビジネスコンテキストにおけるデータ資産アバターを記述するナレッジグラフを構築しました。 エンタープライズ上のオントロジーによって記述された複数のオントロジーは、FAIRification、ライフサイクル管理、役割と責任の定義、トランスフォーメーション間の血統、ソースコードからの証明といった重要なガバナンスのアクションを可能にします。 このメタデータモデルは、データガバナンスを自動化し、各ユースケースに適合させ、ビジネスの変化に動的に適用するための前提条件です。

Individuals and organizations cope with an always-growing data amount, heterogeneous in contents and formats. Prerequisites to get value out this data and minimise inherent risks related to multiple usages are adequate data management processes yielding data quality and control over its lifecycle. Common data governance frameworks relying on people and policies falls short of the overwhelming data complexity. Yet, harnessing this complexity is necessary to achieve high quality standards. The later will condition the outcome of any downstream data usage, including generative artificial intelligence trained on this data. In this paper, we report our concrete experience establishing a simple, cost-efficient framework, that enables metadata-driven, agile and (semi-)automated data governance (i.e. Data Governance 4.0). We explain how we implement and use this framework to integrate 25 years of clinical study data at enterprise scale, in a fully productive environment. The framework encompasses both methodologies and technologies leveraging semantic web principles. We built an knowledge graph describing data assets avatars in their business context including governance principles. Multiple ontologies articulated by an enterprise upper ontology enable key governance actions such as FAIRification, lifecycle management, definition of roles and responsibilities, lineage across transformations and provenance from source systems. This metadata model is a prerequisite to automatize data governance, make it fit-for-purpose to each use case and dynamically adapting it to business changes.
翻訳日:2023-11-12 19:57:04 公開日:2023-10-20
# 連合学習における類似度測定を信頼できるか?

Can We Trust the Similarity Measurement in Federated Learning? ( http://arxiv.org/abs/2311.03369v1 )

ライセンス: Link先を確認
Zhilin Wang, Qin Hu, Xukai Zou(参考訳) フェデレーション学習(fl)における類似性による局所モデルの信頼性の測定は安全か? 本稿では,l_2ノルム,ユークリッド距離,コサイン類似度などの類似度指標をflの保護に応用する,未検討のセキュリティ脅威について述べる。 まず,良性モデルと有毒モデルを含む高次元局所モデルにおける類似度指標の欠陥を明らかにするとともに,パラメータ値が著しく異なる場合について検討した。 次に,この知見を生かして,有毒な局所モデルの類似性とパラメータ値の差を最大化することにより,攻撃を起動する新たな非標的モデル中毒攻撃であるフェイカーを考案する。 7つのデータセットと8つのディフェンスに基づく実験結果から、Fakerは1.1-9.0Xの最先端のベンチマーク攻撃で精度が低下し、1.2-8.0Xの節約が達成された。 さらに、Fakerは1回だけ攻撃することで、グローバルモデルのパフォーマンスを低下させることができる。 また、バックドア攻撃やsybil攻撃など、他の攻撃へのフェイカーの拡張についても事前に検討しています。 最後に,fakerに対する防御のために,部分パラメータ類似性(spp)と呼ばれるモデル評価戦略を提案する。 FLにおける多くのメカニズムが類似度指標を用いて局所モデルを評価することを考えると、これらの指標を使用する可能性について警戒すべきである。

Is it secure to measure the reliability of local models by similarity in federated learning (FL)? This paper delves into an unexplored security threat concerning applying similarity metrics, such as the L_2 norm, Euclidean distance, and cosine similarity, in protecting FL. We first uncover the deficiencies of similarity metrics that high-dimensional local models, including benign and poisoned models, may be evaluated to have the same similarity while being significantly different in the parameter values. We then leverage this finding to devise a novel untargeted model poisoning attack, Faker, which launches the attack by simultaneously maximizing the evaluated similarity of the poisoned local model and the difference in the parameter values. Experimental results based on seven datasets and eight defenses show that Faker outperforms the state-of-the-art benchmark attacks by 1.1-9.0X in reducing accuracy and 1.2-8.0X in saving time cost, which even holds for the case of a single malicious client with limited knowledge about the FL system. Moreover, Faker can degrade the performance of the global model by attacking only once. We also preliminarily explore extending Faker to other attacks, such as backdoor attacks and Sybil attacks. Lastly, we provide a model evaluation strategy, called the similarity of partial parameters (SPP), to defend against Faker. Given that numerous mechanisms in FL utilize similarity metrics to assess local models, this work suggests that we should be vigilant regarding the potential risks of using these metrics.
翻訳日:2023-11-12 19:48:23 公開日:2023-10-20
# ハードウェアはソフトウェアです

The hardware is the software ( http://arxiv.org/abs/2310.18335v1 )

ライセンス: Link先を確認
Jeremie Laydevant, Logan G. Wright, Tianyu Wang, Peter L. McMahon(参考訳) 人間の脳と体はソフトウェアを実行するハードウェアではなく、ハードウェアはソフトウェアである。 人工知能ハードウェアと人間の生物学的「ハードウェア」の微視的物理は別物であるため、ニューロモルフィックエンジニアは、生物学的知性からインスピレーションを得る方法に慎重(かつ創造的)である必要がある。 私たちは、それを抽象化するのではなく、主に、非生物学的インテリジェントシステムの基盤となるハードウェア物理学を尊重し、受け入れる原則と設計のアイデアに焦点を当てるべきです。 ニューロモルフィックコンピューティングにおける神経科学の重要な役割は、生物学的知能の物理学に依存しない原理を識別することである。

Human brains and bodies are not hardware running software: the hardware is the software. We reason that because the microscopic physics of artificial-intelligence hardware and of human biological "hardware" is distinct, neuromorphic engineers need to be cautious (and yet also creative) in how we take inspiration from biological intelligence. We should focus primarily on principles and design ideas that respect -- and embrace -- the underlying hardware physics of non-biological intelligent systems, rather than abstracting it away. We see a major role for neuroscience in neuromorphic computing as identifying the physics-agnostic principles of biological intelligence -- that is the principles of biological intelligence that can be gainfully adapted and applied to any physical hardware.
翻訳日:2023-11-05 14:08:20 公開日:2023-10-20
# 応答性情報アクセスのための設計包括型言語モデル

Design-Inclusive Language Models for Responsible Information Access ( http://arxiv.org/abs/2310.18333v1 )

ライセンス: Link先を確認
Veronica Chatrath, Oluwanifemi Bamgbose, Shaina Raza(参考訳) 日常業務における大規模言語モデル(llm)の使用が増加するにつれ、偏りなく安全なアウトプットを確保するために適切な安全対策が必要となる。 最近の出来事は、従来の訓練されたLLMに関する倫理的な懸念を強調しており、全体的な安全でないユーザー体験につながっている。 これは、公平にトレーニングされ、公開され、デプロイ後に定期的に監視される責任あるLCMの必要性を動機付けている。 本稿では,全てのユーザに対して公平で安全で堅牢なLLMの開発を促進するために,ReDev(Responsible Development of Language Models)フレームワークを紹介する。 また、上記の要素のllmを評価するためのユニークなプロンプトタイプのテストスイートも提示し、生成されたすべてのレスポンスが非調和でバイアスのないコンテンツであることを保証する。 データキュレーション、トレーニング、ポストデプロイを含む機械学習パイプラインの各段階において、公正性、安全性、堅牢性を考慮することの重要性を強調し、最先端の4つのLLM、OPT、GPT-3.5、GPT-4、LLaMA-2のアウトプットをテストスイートで評価した。

As the use of large language models (LLMs) increases for everyday tasks, appropriate safeguards must be in place to ensure unbiased and safe output. Recent events highlight ethical concerns around conventionally trained LLMs, leading to overall unsafe user experiences. This motivates the need for responsible LLMs that are trained fairly, transparent to the public, and regularly monitored after deployment. In this work, we introduce the "Responsible Development of Language Models (ReDev)" framework to foster the development of fair, safe, and robust LLMs for all users. We also present a test suite of unique prompt types to assess LLMs on the aforementioned elements, ensuring all generated responses are non-harmful and free from biased content. Outputs from four state-of-the-art LLMs, OPT, GPT-3.5, GPT-4, and LLaMA-2, are evaluated by our test suite, highlighting the importance of considering fairness, safety, and robustness at every stage of the machine learning pipeline, including data curation, training, and post-deployment.
翻訳日:2023-11-05 14:08:06 公開日:2023-10-20
# WordArt Designer:大規模言語モデルを用いたユーザ駆動型アートタイポグラフィ合成

WordArt Designer: User-Driven Artistic Typography Synthesis using Large Language Models ( http://arxiv.org/abs/2310.18332v1 )

ライセンス: Link先を確認
Jun-Yan He, Zhi-Qi Cheng, Chenyang Li, Jingdong Sun, Wangmeng Xiang, Xianhui Lin, Xiaoyang Kang, Zengke Jin, Yusen Hu, Bin Luo, Yifeng Geng, Xuansong Xie and Jingren Zhou(参考訳) 本稿では,Large Language Models (LLM) を利用したアートタイポグラフィ合成のためのユーザ主導のフレームワークであるWordArt Designerを紹介する。 このシステムには、"LLM Engine"、"SemTypo"、"StyTypo"、"TexTypo"の4つの主要なモジュールが含まれている。 1)llmエンジン(例えばgpt-3.5-turbo)は、ユーザ入力を解釈し、他のモジュールのアクション可能なプロンプトを生成し、抽象概念を具体的設計に変換する。 2)「セムティポモジュール」は意味概念を用いてフォントデザインを最適化し,芸術的変換と可読性のバランスを崩す。 3)「SemTypoモジュール」が提供するセマンティックレイアウトに基づいて、「StyTypoモジュール」は滑らかで洗練された画像を生成する。 4)"TexTypoモジュール"はテクスチャレンダリングによってデザインの美学をさらに強化し,創発的なテクスチャフォントの生成を可能にする。 特に"WordArt Designer"は、生成AIとアートタイポグラフィーの融合を強調している。 ModelScopeの機能を体験する: https://www.modelscope.cn/studios/WordArt/WordArt。

This paper introduces "WordArt Designer", a user-driven framework for artistic typography synthesis, relying on Large Language Models (LLM). The system incorporates four key modules: the "LLM Engine", "SemTypo", "StyTypo", and "TexTypo" modules. 1) The "LLM Engine", empowered by LLM (e.g., GPT-3.5-turbo), interprets user inputs and generates actionable prompts for the other modules, thereby transforming abstract concepts into tangible designs. 2) The "SemTypo module" optimizes font designs using semantic concepts, striking a balance between artistic transformation and readability. 3) Building on the semantic layout provided by the "SemTypo module", the "StyTypo module" creates smooth, refined images. 4) The "TexTypo module" further enhances the design's aesthetics through texture rendering, enabling the generation of inventive textured fonts. Notably, "WordArt Designer" highlights the fusion of generative AI with artistic typography. Experience its capabilities on ModelScope: https://www.modelscope.cn/studios/WordArt/WordArt.
翻訳日:2023-11-05 14:07:46 公開日:2023-10-20
# ゲーム内チャットにおけるコンテクストリアルタイム毒性検出の試み

Towards Detecting Contextual Real-Time Toxicity for In-Game Chat ( http://arxiv.org/abs/2310.18330v1 )

ライセンス: Link先を確認
Zachary Yang, Nicolas Grenan-Godbout, Reihaneh Rabbany(参考訳) オンライン環境におけるリアルタイム毒性検出は,ソーシャルメディアやゲームプラットフォームの普及に伴い,大きな課題となっている。 toxbusterは,チャット履歴やメタデータを含めることで,リアルタイムに有害なコンテンツを検出可能な,シンプルでスケーラブルなモデルである。 ToxBusterは、Rainbow Six Siege、For Honor、DOTA 2などの人気マルチプレイヤーゲームにおいて、従来の毒性モデルよりも一貫して優れています。 我々は,各モデルコンポーネントの重要性を評価し,データセット間の toxbuster の転送可能性を検討するため,アブレーション研究を行う。 さらに,ゲーム後モデレーションにおけるtoxbusterの有効性を示し,精度90.0%で82.1%のプレーヤにフラグを付けることに成功した。 さらに,未報告の有毒選手の6%が積極的にモデレートできることを示す。

Real-time toxicity detection in online environments poses a significant challenge, due to the increasing prevalence of social media and gaming platforms. We introduce ToxBuster, a simple and scalable model that reliably detects toxic content in real-time for a line of chat by including chat history and metadata. ToxBuster consistently outperforms conventional toxicity models across popular multiplayer games, including Rainbow Six Siege, For Honor, and DOTA 2. We conduct an ablation study to assess the importance of each model component and explore ToxBuster's transferability across the datasets. Furthermore, we showcase ToxBuster's efficacy in post-game moderation, successfully flagging 82.1% of chat-reported players at a precision level of 90.0%. Additionally, we show how an additional 6% of unreported toxic players can be proactively moderated.
翻訳日:2023-11-05 14:07:25 公開日:2023-10-20
# piHyFlowオペレーショナルセマンティックス

piHyFlow Operational Semantics ( http://arxiv.org/abs/2310.19818v1 )

ライセンス: Link先を確認
Fernando J. Barros(参考訳) シミュレーションモデルは異なる視点や世界観を用いて記述されている。 プロセスインタラクションの世界ビュー(PI)では、すべてのエンティティはライフサイクルを記述する一連のアクションによってモデル化され、各エンティティを含むイベントをグループ化する包括的なモデルを提供する。 本稿では,一連の通信プロセスを用いてハイブリッドモデルを表現する形式であるpiHyFlowについて述べる。 このセットは動的で、実行時にプロセスの生成と破棄を可能にする。 プロセスはpiHyFlowベースモデルにカプセル化され、共有メモリを介して通信する。 しかし、piHyFlowは、モデルが入出力インターフェースでのみ通信できることを強制することによって、モジュラリティを保証することができる。 piHyFlowは、より伝統的なイベントベースの通信に加えて、サンプリングと高密度(連続的な)出力のHyFlow概念をサポートすることで、現在のPIアプローチを拡張している。 本稿では,シミュレータとコンポーネントの概念を用いた piHyFlow の操作意味論を提案する。

Simulation models have been described using different perspectives, or worldviews. In the process interaction world view (PI), every entity is modeled by a sequence of actions describing its life cycle, offering a comprehensive model that groups the events involving each entity. In this paper we describe piHyFlow, a formalism for representing hybrid models using a set of communicating processes. This set is dynamic, enabling processes to be created and destroyed at runtime. Processes are encapsulated into piHyFlow base models and communicate through shared memory. piHyFlow, however, can guarantee modularity by enforcing that models can only communicate by input and output interfaces. piHyFlow extends current PI approaches by providing support for HyFlow concepts of sampling and dense (continuous) outputs, in addition to the more traditional event-based communication. In this paper we present piHyFlow operational semantics using the concepts of simulator and component.
翻訳日:2023-11-05 13:27:44 公開日:2023-10-20
# 非定常・空間相関障害診断のための疎ベイズ学習とマルチステーションアセンブリシステムへの応用

A Sparse Bayesian Learning for Diagnosis of Nonstationary and Spatially Correlated Faults with Application to Multistation Assembly Systems ( http://arxiv.org/abs/2310.16058v1 )

ライセンス: Link先を確認
Jihoon Chung and Zhenyu Kong(参考訳) センサ技術の発展は、製造システムにおける効果的な故障診断の基礎となる。 しかし、物理的な制約や不十分なコストによるセンサの限られた数によって、実際のプロセスの正確な診断が妨げられる。 また,非定常プロセス故障の発生条件とプロセスの相関情報には,製造システムにおける正確な故障診断を検討する必要がある。 本稿では,空間的に相関したスパースベイズ学習(CSSBL)をクラスタリングし,上記の課題に対して脆弱なマルチステーションアセンブリシステムに適用可能であることを示す。 具体的には、このメソッドはいくつかのプロセス障害(sparse)を持つ可能性が高いという実用的な仮定に基づいている。 さらに、CSSBLの階層構造は、上記の課題に対処するために、いくつかのパラメータ化された事前分布を持つ。 プロセス欠陥の後方分布は閉形式を持たないので, 変分ベイズ推定により近似的な後方分布を導出する。 提案手法の有効性は,実車体組立システムを用いた数値的および実世界のケーススタディにより得られた。 提案手法の汎用性は,コミュニケーションや医療システムなど,他の領域における障害診断に適用可能である。

Sensor technology developments provide a basis for effective fault diagnosis in manufacturing systems. However, the limited number of sensors due to physical constraints or undue costs hinders the accurate diagnosis in the actual process. In addition, time-varying operational conditions that generate nonstationary process faults and the correlation information in the process require to consider for accurate fault diagnosis in the manufacturing systems. This article proposes a novel fault diagnosis method: clustering spatially correlated sparse Bayesian learning (CSSBL), and explicitly demonstrates its applicability in a multistation assembly system that is vulnerable to the above challenges. Specifically, the method is based on a practical assumption that it will likely have a few process faults (sparse). In addition, the hierarchical structure of CSSBL has several parameterized prior distributions to address the above challenges. As posterior distributions of process faults do not have closed form, this paper derives approximate posterior distributions through Variational Bayes inference. The proposed method's efficacy is provided through numerical and real-world case studies utilizing an actual autobody assembly system. The generalizability of the proposed method allows the technique to be applied in fault diagnosis in other domains, including communication and healthcare systems.
翻訳日:2023-10-29 16:00:03 公開日:2023-10-20
# ナップサック制約を受ける部分モジュラー最大化:ほぼ最適適応複雑性を持つ組合せアルゴリズム

Submodular Maximization subject to a Knapsack Constraint: Combinatorial Algorithms with Near-optimal Adaptive Complexity ( http://arxiv.org/abs/2102.08327v2 )

ライセンス: Link先を確認
Georgios Amanatidis, Federico Fusco, Philip Lazos, Stefano Leonardi, Alberto Marchetti Spaccamela, Rebecca Reiffenh\"auser(参考訳) サブモジュラー最大化(submodular maximization)は、データマイニングや機械学習のさまざまな応用において、古典的なアルゴリズムの問題である。 後者にとって重要な尺度は適応的複雑性(adaptive complexity)であり、アルゴリズムが終了するのに必要な並列計算の逐次ラウンド数をキャプチャする。 この研究において、準最適$O(\log n)$適応複雑性を持つクナプサック制約を受ける非単調な極大化に対する最初の定数係数近似アルゴリズムを得る。 考慮すべき重要な機能は、機能評価(あるいは値クエリ)の総数によって表される。 我々のアルゴリズムは$\tilde{O}(n^2)$の値クエリを問うが、代わりに$\tilde{O}(n)$だけを実行するように修正できる。 上記の適応性の改善に加えて、これは問題に対して部分線形適応的複雑性を持つ最初の組合せアプローチであり、濃度制約や単調目的の特別な場合であっても最先端のアルゴリズムに匹敵する。

Submodular maximization is a classic algorithmic problem with multiple applications in data mining and machine learning; there, the growing need to deal with massive instances motivates the design of algorithms balancing the quality of the solution with applicability. For the latter, an important measure is the adaptive complexity, which captures the number of sequential rounds of parallel computation needed by an algorithm to terminate. In this work we obtain the first constant factor approximation algorithm for non-monotone submodular maximization subject to a knapsack constraint with near-optimal $O(\log n)$ adaptive complexity. Low adaptivity by itself, however, is not enough: a crucial feature to account for is represented by the total number of function evaluations (or value queries). Our algorithm asks $\tilde{O}(n^2)$ value queries, but can be modified to run with only $\tilde{O}(n)$ instead, while retaining a low adaptive complexity of $O(\log^2n)$. Besides the above improvement in adaptivity, this is also the first combinatorial approach with sublinear adaptive complexity for the problem and yields algorithms comparable to the state-of-the-art even for the special cases of cardinality constraints or monotone objectives.
翻訳日:2023-10-26 04:09:20 公開日:2023-10-20
# デジタルサービス法におけるコンテンツモデレーション「正確性」の運用

Operationalizing content moderation "accuracy'' in the Digital Services Act ( http://arxiv.org/abs/2305.09601v2 )

ライセンス: Link先を確認
Johnny Tian-Zheng Wei, Frederike Zufall, Robin Jia(参考訳) EUが最近採択したデジタルサービス法(Digital Services Act)では、ソーシャルメディアプラットフォームが自動コンテンツモデレーションシステムの「正確性」を報告する必要がある。 口語という用語は曖昧で、オープンテクスチャで、正解精度(合計で割り切れた正確な予測数)は大きなクラス不均衡の問題には不適であり、精度を測る根拠となる真実とデータセットは特定されていない。 さらなる規定がなければ、規制要件は報告の不足を許容する。 この学際的な研究において,我々は,法的概念を精査し,それらを技術実装に関連付けることで,「正確」な報告を運用する。 我々は,「正確性」の解釈を精度とリコールとして法的に正当化する法律の立法目的を解明することから始める。 これらの指標は、eu憲章の基本的権利の比例バランスを反映しながら、クラス不均衡の設定において有益である。 提案手法は,極めて高いアノテーションコストを発生させることができ,かつ,プラットフォームがビジネスを行う権利を不当に阻害することができるため,リコールの推定に重点を置いている。 シミュレーション研究を通じて,訓練された分類器を用いた階層化サンプリングを用いて,効率的にリコールを推定できることを示し,その応用に具体的な勧告を提供する。 最後に、この法律の下でredditのサブセットについてリコール報告を行うケーススタディを示す。 この法律の言語に基づいて、不特定性のためにリコールを報告できるいくつかの方法を特定した。 我々は,改良された推定器を用いた可能性の1つを報告し,法的明確化の必要性と意義について論じる。

The Digital Services Act, recently adopted by the EU, requires social media platforms to report the "accuracy" of their automated content moderation systems. The colloquial term is vague, or open-textured -- the literal accuracy (number of correct predictions divided by the total) is not suitable for problems with large class imbalance, and the ground truth and dataset to measure accuracy against is unspecified. Without further specification, the regulatory requirement allows for deficient reporting. In this interdisciplinary work, we operationalize "accuracy" reporting by refining legal concepts and relating them to technical implementation. We start by elucidating the legislative purpose of the Act to legally justify an interpretation of "accuracy" as precision and recall. These metrics remain informative in class imbalanced settings while also reflecting the proportional balancing of Fundamental Rights of the EU Charter. We then focus on the estimation of recall, as its naive estimation can incur extremely high annotation costs and disproportionately interfere with the platform's right to conduct business. Through a simulation study, we show that recall can be efficiently estimated using stratified sampling with trained classifiers, and provide concrete recommendations for its application. Finally, we present a case study of recall reporting for a subset of Reddit under the Act. Based on the language in the Act, we identify a number of ways recall could be reported due to underspecification. We report on one possibility using our improved estimator, and discuss the implications and need for legal clarification.
翻訳日:2023-10-26 01:06:15 公開日:2023-10-20
# インスタントフォトリアリスティックなスタイル転送:軽量で適応的なアプローチ

Instant Photorealistic Style Transfer: A Lightweight and Adaptive Approach ( http://arxiv.org/abs/2309.10011v2 )

ライセンス: Link先を確認
Rong Liu, Enyu Zhao, Zhiyuan Liu, Andrew Feng, Scott John Easley(参考訳) 本稿では,ペアワイズデータセットの事前トレーニングや余分な制約を課すことなく,超解像入力によるインスタントフォトリアリスティックスタイル転送を実現するために設計された,インスタントフォトリアリスティックスタイル転送(ipst)手法を提案する。 本手法は,スタイルイメージからコンテンツイメージへのスタイル転送を実現するために,ライトウェイトなStyleNetを利用する。 スタイル転送のプロセスをさらに強化するため,出力のフォトリアリズムを優先し,スタイルネットワークの収束を加速するインスタンス適応最適化を導入し,数秒で高速なトレーニング完了を実現する。 さらに、IPSTは、ビデオやNeural Radiance Field (NeRF)のようなマルチフレーム入力の時間的および多視点一貫性を維持するため、マルチフレームスタイルの転送タスクに適している。 実験の結果、IPSTはGPUメモリ使用量が少なくなり、高速なマルチフレーム転送速度を提供し、フォトリアリスティックな出力を生成することが示され、様々なフォトリアリスティックな転送アプリケーションにとって有望なソリューションとなっている。

In this paper, we propose an Instant Photorealistic Style Transfer (IPST) approach, designed to achieve instant photorealistic style transfer on super-resolution inputs without the need for pre-training on pair-wise datasets or imposing extra constraints. Our method utilizes a lightweight StyleNet to enable style transfer from a style image to a content image while preserving non-color information. To further enhance the style transfer process, we introduce an instance-adaptive optimization to prioritize the photorealism of outputs and accelerate the convergence of the style network, leading to a rapid training completion within seconds. Moreover, IPST is well-suited for multi-frame style transfer tasks, as it retains temporal and multi-view consistency of the multi-frame inputs such as video and Neural Radiance Field (NeRF). Experimental results demonstrate that IPST requires less GPU memory usage, offers faster multi-frame transfer speed, and generates photorealistic outputs, making it a promising solution for various photorealistic transfer applications.
翻訳日:2023-10-25 23:31:30 公開日:2023-10-20
# 主観的感情認識に向けて

Towards Subject Agnostic Affective Emotion Recognition ( http://arxiv.org/abs/2310.15189v1 )

ライセンス: Link先を確認
Amit Kumar Jaiswal, Haiming Liu, and Prayag Tiwari(参考訳) 本稿では,脳波信号に基づく主観認識パラダイムの実現を目的とした感情認識に焦点を当てた。 しかし、脳波信号は脳-コンピュータインタフェース(aBCI)において不安定性を示し、分布シフトの問題を引き起こした。 さらに、この問題はドメイン一般化やドメイン適応といったアプローチによって緩和される。 典型的には、ドメイン適応法に基づく手法は、ドメイン一般化法よりも優れた結果を与えるが、新しい対象に対してより多くの計算資源を要求する。 そこで本研究では,新しい枠組みであるメタラーニングに基づく拡張ドメイン適応法を提案する。 我々のドメイン適応アプローチは、繰り返しニューラルネットワーク、分類器、および和分解可能な関数に基づく分布シフト制御器からなるメタラーニングによって拡張される。 また,sum-decomposable関数を探索するニューラルネットワークは,異なる領域間の発散を効果的に推定できることを示す。 拡張ドメイン適応のためのネットワーク設定はメタラーニングおよび逆学習に従っており、コントローラはテストフェーズのいくつかの自己適応ステップを介してターゲットデータを使用する新しいドメインに迅速に適応する。 提案手法は,公開abicsデータセットにおける実験において有効であることが示され,計算資源の追加を回避しつつ,最先端のドメイン適応法と同様の性能を実現する。

This paper focuses on affective emotion recognition, aiming to perform in the subject-agnostic paradigm based on EEG signals. However, EEG signals manifest subject instability in subject-agnostic affective Brain-computer interfaces (aBCIs), which led to the problem of distributional shift. Furthermore, this problem is alleviated by approaches such as domain generalisation and domain adaptation. Typically, methods based on domain adaptation confer comparatively better results than the domain generalisation methods but demand more computational resources given new subjects. We propose a novel framework, meta-learning based augmented domain adaptation for subject-agnostic aBCIs. Our domain adaptation approach is augmented through meta-learning, which consists of a recurrent neural network, a classifier, and a distributional shift controller based on a sum-decomposable function. Also, we present that a neural network explicating a sum-decomposable function can effectively estimate the divergence between varied domains. The network setting for augmented domain adaptation follows meta-learning and adversarial learning, where the controller promptly adapts to new domains employing the target data via a few self-adaptation steps in the test phase. Our proposed approach is shown to be effective in experiments on a public aBICs dataset and achieves similar performance to state-of-the-art domain adaptation methods while avoiding the use of additional computational resources.
翻訳日:2023-10-25 22:44:07 公開日:2023-10-20
# 粘弾性繊維複合材料の動的力学解析のための深層学習手法

Deep Learning Approaches for Dynamic Mechanical Analysis of Viscoelastic Fiber Composites ( http://arxiv.org/abs/2310.15188v1 )

ライセンス: Link先を確認
Victor Hoffmann (1), Ilias Nahmed (1), Parisa Rastin (1 and 2), Gu\'ena\"el Cabanes (3), Julien Boisse (4) ((1) ENSMN, (2) LORIA UMR 7503, (3) LIPN UMR 7030, (4) LEMTA UMR 7563)(参考訳) エコデザイン標準によって駆動される強化ポリマー(RP)複合材料の採用が増加し、光度、剛性、効果的な振動制御の微妙なバランスが求められた。 これらの材料は快適さ、安全性、エネルギー効率を高めるのに不可欠である。 動的力学解析(dma)は粘弾性挙動を特徴付けるが、組織の設計と理解を迅速化する機械学習(ml)の利用への関心は高まっている。 本稿では, 深層ニューラルネットワークを用いて微細構造を機械的特性にマッピングし, プロセスの高速化と, 所望の特性から微細構造の生成を可能にすることを目的とする。

The increased adoption of reinforced polymer (RP) composite materials, driven by eco-design standards, calls for a fine balance between lightness, stiffness, and effective vibration control. These materials are integral to enhancing comfort, safety, and energy efficiency. Dynamic Mechanical Analysis (DMA) characterizes viscoelastic behavior, yet there's a growing interest in using Machine Learning (ML) to expedite the design and understanding of microstructures. In this paper we aim to map microstructures to their mechanical properties using deep neural networks, speeding up the process and allowing for the generation of microstructures from desired properties.
翻訳日:2023-10-25 22:43:43 公開日:2023-10-20
# パーセル効果とキャビティによる散逸の再発

Thermal Purcell effect and cavity-induced renormalization of dissipations ( http://arxiv.org/abs/2310.15184v1 )

ライセンス: Link先を確認
Giuliano Chiriac\`o(参考訳) 近年、組み込み量子材料の性質と位相を操作するためのツールとして、光学キャビティに大きな関心が寄せられている。 パーセル効果のため、キャビティは光子相空間を変化させ、そのため材料内の電磁遷移速度を変化させ、光子環境との熱放射の交換速度を変化させる。 ここでは, 物質が吸収する放射熱の簡易表現を導出し, キャビティの存在変化について検討し, 適切なキャビティジオメトリーのために劇的に拡張されたことを示す。 この効果を典型的なエネルギー散逸過程と比較し, キャビティに結合した材料の温度への影響を確かめ, 1T-TaS$_2$に適用するための基準を与える。

In recent years there has been great interest towards optical cavities as a tool to manipulate the properties and phases of embedded quantum materials. Due to the Purcell effect, a cavity changes the photon phase space and thus the rate of electromagnetic transitions within the material, modifying the exchange rate of heat radiation with the photon environment. Here, I derive a simple expression for the radiative heat power absorbed by the material, investigate how it changes in the presence of a cavity and show that it is enhanced dramatically for appropriate cavity geometries. I compare this effect with typical energy dissipation processes, provide a criterion to establish its impact on the temperature of a material coupled to the cavity and apply it to 1T-TaS$_2$.
翻訳日:2023-10-25 22:43:32 公開日:2023-10-20
# 表示、書き込み、検索:エンティティ・アウェアな記事の生成と検索

Show, Write, and Retrieve: Entity-aware Article Generation and Retrieval ( http://arxiv.org/abs/2112.05917v3 )

ライセンス: Link先を確認
Zhongping Zhang, Yiwen Gu, Bryan A. Plummer(参考訳) 記事理解は自然言語処理において重要な課題であり、記事生成や画像からアーティクルの検索など多くの応用がある。 以前の作業は通常、事前訓練された言語モデルを使用して、記事中のすべてのトークンを均一にエンコードする。 しかし、ニュース記事の理解などの多くのアプリケーションでは、これらの記事は現実世界の出来事に基づいており、言語モデルによって正確に認識し予測することが困難である多くの名前付きエンティティを参照することができる。 この課題に対処するために、名前付きエンティティを言語モデルに明示的に組み込むために、ENtity対応の記事GeneratIoNとrEtrieval(ENGINE)フレームワークを提案する。 ENGINEには、メタデータと記事に関連する埋め込みイメージの両方から名前付きエンティティを抽出する名前付きエンティティ抽出モジュールと、エンティティ名を認識および予測するモデルの能力を高めるエンティティ対応メカニズムの2つのコンポーネントがある。 goodnews、visualnews、wikitextの3つの公開データセットについて実験を行い、本モデルが記事生成と記事検索のパフォーマンスを向上し、記事生成における4~5のパープレキシティ向上と、記事検索におけるrecall@1の3~4%向上を実証した。 私たちは実装をhttps://github.com/zhongping-zhang/engineでリリースします。

Article comprehension is an important challenge in natural language processing with many applications such as article generation or image-to-article retrieval. Prior work typically encodes all tokens in articles uniformly using pretrained language models. However, in many applications, such as understanding news stories, these articles are based on real-world events and may reference many named entities that are difficult to accurately recognize and predict by language models. To address this challenge, we propose an ENtity-aware article GeneratIoN and rEtrieval (ENGINE) framework, to explicitly incorporate named entities into language models. ENGINE has two main components: a named-entity extraction module to extract named entities from both metadata and embedded images associated with articles, and an entity-aware mechanism that enhances the model's ability to recognize and predict entity names. We conducted experiments on three public datasets: GoodNews, VisualNews, and WikiText, where our results demonstrate that our model can boost both article generation and article retrieval performance, with a 4-5 perplexity improvement in article generation and a 3-4% boost in recall@1 in article retrieval. We release our implementation at https://github.com/Zhongping-Zhang/ENGINE .
翻訳日:2023-10-25 15:28:14 公開日:2023-10-20
# 一般化類似度尺度を用いた空間熱リスク評価の枠組み

A framework for spatial heat risk assessment using a generalized similarity measure ( http://arxiv.org/abs/2202.10963v2 )

ライセンス: Link先を確認
Akshay Bansal and Ayda Kianmehr(参考訳) 本研究では,メリーランド州の様々な地域(ジップコード)にまたがるヒートハザードによる健康リスクを,露出と脆弱性という2つの一般的な指標の助けを借りて評価する新しい枠組みを開発する。 上記の2つの指標をそれぞれ対応する特徴ベクトルを開発して定量化し,そのデータポイントを経験的リスクスペクトルの尾端にクラスタリングすることにより,リスクの高い環境を示す指標固有参照ベクトルを計算する。 提案手法は,自然に主観的なエントロピーの視点が異なる情報理論エントロピーに基づくアグリゲーション手法を回避し,また,未知の基準点とコサイン類似性を用いたリスク評価の概念を一般化する。

In this study, we develop a novel framework to assess health risks due to heat hazards across various localities (zip codes) across the state of Maryland with the help of two commonly used indicators i.e. exposure and vulnerability. Our approach quantifies each of the two aforementioned indicators by developing their corresponding feature vectors and subsequently computes indicator-specific reference vectors that signify a high risk environment by clustering the data points at the tail-end of an empirical risk spectrum. The proposed framework circumvents the information-theoretic entropy based aggregation methods whose usage varies with different views of entropy that are subjective in nature and more importantly generalizes the notion of risk-valuation using cosine similarity with unknown reference points.
翻訳日:2023-10-25 15:16:33 公開日:2023-10-20
# 絡み合いと他の量子資源の触媒作用

Catalysis of entanglement and other quantum resources ( http://arxiv.org/abs/2207.05694v2 )

ライセンス: Link先を確認
Chandan Datta, Tulja Varun Kondra, Marek Miller, Alexander Streltsov(参考訳) 化学において、触媒 (catalyst) は化学反応を可能にしたり、その速度を増加させたりできる物質である。 化学反応の代わりに、量子触媒は物理的制約下で量子状態を互いに変換する能力を高める。 制約の性質は研究中の問題に依存し、例えばエネルギー保存から生じる。 本稿では、量子触媒の最近の展開を概観し、この研究の方向性を歴史的に概観する。 我々は,量子エンタングルメントとコヒーレンスの触媒作用に注目し,量子熱力学や一般量子資源理論においてもこの現象について論じる。 我々は、量子触媒の応用を概観するとともに、触媒の量子状態が変換される状態に依存しないユニバーサル触媒に関する最近の取り組みについても論じる。 触媒のエンベジングも検討されており、触媒の状態が遷移に変化した場合に起こる現象である。

In chemistry, a catalyst is a substance which enables a chemical reaction or increases its rate, while remaining unchanged in the process. Instead of chemical reactions, quantum catalysis enhances our ability to convert quantum states into each other under physical constraints. The nature of the constraints depends on the problem under study and can arise, e.g., from energy preservation. This article reviews the most recent developments in quantum catalysis and gives a historical overview of this research direction. We focus on the catalysis of quantum entanglement and coherence, and also discuss this phenomenon in quantum thermodynamics and general quantum resource theories. We review applications of quantum catalysis and also discuss the recent efforts on universal catalysis, where the quantum state of the catalyst does not depend on the states to be transformed. Catalytic embezzling is also considered, a phenomenon that occurs if the catalyst's state can change in the transition.
翻訳日:2023-10-25 15:08:23 公開日:2023-10-20
# Federated Unlearning: FLでクライアントを効率的に根絶する方法

Federated Unlearning: How to Efficiently Erase a Client in FL? ( http://arxiv.org/abs/2207.05521v3 )

ライセンス: Link先を確認
Anisa Halimi, Swanand Kadhe, Ambrish Rawat and Nathalie Baracaldo(参考訳) ユーザーに対して忘れられる権利を付与するプライバシー法により、トレーニングデータのいくつかを忘れるためのモデルの実現が不可欠になっている。 しかし、学習プロトコルの違いや複数のアクターの存在のため、機械学習コンテキストにおける既存の未学習方法は、フェデレーション学習のような分散設定の文脈では直接適用できない。 本稿では,地域データ全体の影響をトレーニングされたグローバルモデルから取り除き,クライアントを消去する場合のフェデレーション・アンラーニングの問題に取り組む。 クライアントを消去するために、まず、クライアントでローカルアンラーニングを行い、その後、ローカルアンラーニングされたモデルを初期化として使用し、サーバと残りのクライアントの間で非常に少数の連携学習を実行し、未学習のグローバルモデルを得る。 我々は,3つのデータセットに対して複数のパフォーマンス指標を用いて,学習方法の実証評価を行い,学習方法が,スクラッチからフェデレートされた再学習のゴールドスタンダードと同等の性能を達成できることを示した。 以前の作業とは異なり、我々のアンラーニングメソッドは、トレーニングに使用されるデータへのグローバルアクセスも、サーバまたはクライアントによって格納されるパラメータ更新履歴も必要としません。

With privacy legislation empowering the users with the right to be forgotten, it has become essential to make a model amenable for forgetting some of its training data. However, existing unlearning methods in the machine learning context can not be directly applied in the context of distributed settings like federated learning due to the differences in learning protocol and the presence of multiple actors. In this paper, we tackle the problem of federated unlearning for the case of erasing a client by removing the influence of their entire local data from the trained global model. To erase a client, we propose to first perform local unlearning at the client to be erased, and then use the locally unlearned model as the initialization to run very few rounds of federated learning between the server and the remaining clients to obtain the unlearned global model. We empirically evaluate our unlearning method by employing multiple performance measures on three datasets, and demonstrate that our unlearning method achieves comparable performance as the gold standard unlearning method of federated retraining from scratch, while being significantly efficient. Unlike prior works, our unlearning method neither requires global access to the data used for training nor the history of the parameter updates to be stored by the server or any of the clients.
翻訳日:2023-10-25 15:08:08 公開日:2023-10-20
# 低データ環境で非構造化言語から戦略的意図を翻訳する計算インタフェース

A Computational Interface to Translate Strategic Intent from Unstructured Language in a Low-Data Setting ( http://arxiv.org/abs/2208.08374v2 )

ライセンス: Link先を確認
Pradyumna Tambwekar, Lakshita Dodeja, Nathan Vaska, Wei Xu, Matthew Gombolay(参考訳) 多くの現実世界のタスクは、人間とaiシステムが協調してタスクを実行する、混合イニシアティブなセットアップを伴う。 言語を通して、エージェントがどのようにタスクを完了させるか(すなわち低レベル仕様)を正確に指定するための重要な作業がなされてきたが、以前の作業では、人間の指揮官の高レベルな戦略意図の解釈に欠けていた。 言語から戦略的意図を抽出することで、自律システムは、頻繁な指導や指導なしに、ユーザの計画に従って独立して運用することができる。 本稿では,非構造化言語戦略を目標や制約の形で動作可能な意図に翻訳できる計算インタフェースを構築する。 ゲーム環境を活用することで、1000以上のサンプルのデータセットを収集し、対応する目標と制約に言語戦略をマッピングし、このデータセットに基づいてトレーニングされたモデルが、戦略的意図(すなわち、目標と制約)を言語から推測する上で、人間のインタプリタを著しく上回っていることを示す(p < 0.05)。 さらに,本モデル(125Mパラメータ)は,低データ環境でのChatGPT(p < 0.05)よりも有意に優れていた。

Many real-world tasks involve a mixed-initiative setup, wherein humans and AI systems collaboratively perform a task. While significant work has been conducted towards enabling humans to specify, through language, exactly how an agent should complete a task (i.e., low-level specification), prior work lacks on interpreting the high-level strategic intent of the human commanders. Parsing strategic intent from language will allow autonomous systems to independently operate according to the user's plan without frequent guidance or instruction. In this paper, we build a computational interface capable of translating unstructured language strategies into actionable intent in the form of goals and constraints. Leveraging a game environment, we collect a dataset of over 1000 examples, mapping language strategies to the corresponding goals and constraints, and show that our model, trained on this dataset, significantly outperforms human interpreters in inferring strategic intent (i.e., goals and constraints) from language (p < 0.05). Furthermore, we show that our model (125M parameters) significantly outperforms ChatGPT for this task (p < 0.05) in a low-data setting.
翻訳日:2023-10-25 14:56:14 公開日:2023-10-20
# 需要分布が不明な2ケロンサプライチェーンにおける非回帰学習

No-Regret Learning in Two-Echelon Supply Chain with Unknown Demand Distribution ( http://arxiv.org/abs/2210.12663v2 )

ライセンス: Link先を確認
Mengxiao Zhang, Shi Chen, Haipeng Luo, Yingfei Wang(参考訳) サプライチェーン管理(SCM)は、下流の小売業者1社と上流のサプライヤ1社を含む2エキロン確率的在庫モデルが、開発企業のSCM戦略に不可欠な役割を担っている多くの産業に適用するための重要な分野として認識されている。 本研究では,従来のオンライン最適化問題と比較して,要求分布が不明なオンライン学習アルゴリズムを設計することを目的としている。 具体的には、[Cachon and Zipkin, 1999]で導入された2つのエケロン・サプライチェーンモデルについて、プランナーが両方のエージェントの戦略を同時に決定する集中型設定と、2人のエージェントが独立して自己中心的に戦略を決定する分散型設定の2つの異なる設定で考察する。 我々は,後悔と収束を両設定の最適在庫決定に有利に保証し,さらに個別の後悔を分散的に設定するアルゴリズムを設計した。 私たちのアルゴリズムは、オンライングラディエントDescentとOnline Newton Stepをベースとしています。 また,アルゴリズムを実装し,経験的効果を示す。

Supply chain management (SCM) has been recognized as an important discipline with applications to many industries, where the two-echelon stochastic inventory model, involving one downstream retailer and one upstream supplier, plays a fundamental role for developing firms' SCM strategies. In this work, we aim at designing online learning algorithms for this problem with an unknown demand distribution, which brings distinct features as compared to classic online optimization problems. Specifically, we consider the two-echelon supply chain model introduced in [Cachon and Zipkin, 1999] under two different settings: the centralized setting, where a planner decides both agents' strategy simultaneously, and the decentralized setting, where two agents decide their strategy independently and selfishly. We design algorithms that achieve favorable guarantees for both regret and convergence to the optimal inventory decision in both settings, and additionally for individual regret in the decentralized setting. Our algorithms are based on Online Gradient Descent and Online Newton Step, together with several new ingredients specifically designed for our problem. We also implement our algorithms and show their empirical effectiveness.
翻訳日:2023-10-25 14:35:59 公開日:2023-10-20
# 教師なし依存構文としての構文置換性

Syntactic Substitutability as Unsupervised Dependency Syntax ( http://arxiv.org/abs/2211.16031v3 )

ライセンス: Link先を確認
Jasper Jian and Siva Reddy(参考訳) 構文は、人間の言語のロバストで構成的な性質を基礎とする潜在階層構造である。 本研究では,構文依存を言語モデル注意分布に表現できるという仮説を考察し,これらの構造を理論的に推論する新しい手法を提案する。 アノテーションスキーマによって定義された構文関係をモデル化するのではなく、依存関係の定義において暗黙的により一般的な性質をモデル化する。 この性質は、依存関係の両端にある単語が同じカテゴリの単語に置き換えられるという事実を捉えている。 置換は構文的に不変な文の集合を生成し、その表現は解析に使用される。 置換数の増加は自然データの解析精度を向上させることを示す。 提案手法は, 従来手法の8.9%に比べて79.5%のリコールを実現する。 提案手法は,異なるパース設定に転送した場合の改善も提供し,その一般化を実証する。

Syntax is a latent hierarchical structure which underpins the robust and compositional nature of human language. In this work, we explore the hypothesis that syntactic dependencies can be represented in language model attention distributions and propose a new method to induce these structures theory-agnostically. Instead of modeling syntactic relations as defined by annotation schemata, we model a more general property implicit in the definition of dependency relations, syntactic substitutability. This property captures the fact that words at either end of a dependency can be substituted with words from the same category. Substitutions can be used to generate a set of syntactically invariant sentences whose representations are then used for parsing. We show that increasing the number of substitutions used improves parsing accuracy on natural data. On long-distance subject-verb agreement constructions, our method achieves 79.5% recall compared to 8.9% using a previous method. Our method also provides improvements when transferred to a different parsing setup, demonstrating that it generalizes.
翻訳日:2023-10-25 14:14:46 公開日:2023-10-20
# 複雑・超複雑・ファジィニューラルネットワークの選択的側面

Selected aspects of complex, hypercomplex and fuzzy neural networks ( http://arxiv.org/abs/2301.00007v2 )

ライセンス: Link先を確認
Agnieszka Niemczynowicz, Rados{\l}aw A. Kycia, Maciej Jaworski, Artur Siemaszko, Jose M. Calabuig, Lluis M. Garc\'ia-Raffi, Baruch Schneider, Diana Berseghyan, Irina Perfiljeva, Vilem Novak, Piotr Artiemjew(参考訳) 本稿では,ANN(Artificial Neural Networks)の理論的および実践的側面に関する研究および方法論の現状について概説する。 複雑な超複雑でファジィなニューラルネットワークを構築するために必要な最先端の知識を集める準備が整った。 この報告書は著者の個人的関心を反映しており、現在ではann分野の包括的なレビューとして扱うことはできない。 この分野の急速な発展を考えると、現在、かなりの数のページを詳細にレビューすることは不可能である。 この報告書は、2022年9月にポーランドのオルシュティンにあるワルミア大学とマズリー校で行われた複雑な、超複雑、ファジィニューラルネットワークの数学的側面に関するプロジェクト「戦略研究パートナーシップ」の成果である。

This short report reviews the current state of the research and methodology on theoretical and practical aspects of Artificial Neural Networks (ANN). It was prepared to gather state-of-the-art knowledge needed to construct complex, hypercomplex and fuzzy neural networks. The report reflects the individual interests of the authors and, by now means, cannot be treated as a comprehensive review of the ANN discipline. Considering the fast development of this field, it is currently impossible to do a detailed review of a considerable number of pages. The report is an outcome of the Project 'The Strategic Research Partnership for the mathematical aspects of complex, hypercomplex and fuzzy neural networks' meeting at the University of Warmia and Mazury in Olsztyn, Poland, organized in September 2022.
翻訳日:2023-10-25 14:06:24 公開日:2023-10-20
# 文書レベル情報抽出のためのイベント識別について

On Event Individuation for Document-Level Information Extraction ( http://arxiv.org/abs/2212.09702v3 )

ライセンス: Link先を確認
William Gantt, Reno Kriz, Yunmo Chen, Siddharth Vashishtha, Aaron Steven White(参考訳) 情報抽出(IE)システムがドキュメント全体の処理に長けているため、テンプレートフィリングの古典的なタスクは文書レベルのIEのベンチマークとして再び注目されている。 本稿では,この目的のためにテンプレート充填の妥当性に疑問を呈する。 我々は、このタスクが、個々の出来事を区別する問題である、出来事の特定に関する微妙な疑問に対する決定的な答えを要求すると論じている。 アノテーション研究とエラー分析を通じて、テンプレート充填メトリクスの有用性、タスクのためのデータセットの品質、モデルが学習する能力に懸念があることが示されている。 最後に、可能な解決策を検討する。

As information extraction (IE) systems have grown more adept at processing whole documents, the classic task of template filling has seen renewed interest as benchmark for document-level IE. In this position paper, we call into question the suitability of template filling for this purpose. We argue that the task demands definitive answers to thorny questions of event individuation -- the problem of distinguishing distinct events -- about which even human experts disagree. Through an annotation study and error analysis, we show that this raises concerns about the usefulness of template filling metrics, the quality of datasets for the task, and the ability of models to learn it. Finally, we consider possible solutions.
翻訳日:2023-10-25 14:04:55 公開日:2023-10-20
# AtMan: メモリ効率の良いアテンション操作によるトランスフォーマー予測の理解

AtMan: Understanding Transformer Predictions Through Memory Efficient Attention Manipulation ( http://arxiv.org/abs/2301.08110v3 )

ライセンス: Link先を確認
Bj\"orn Deiseroth, Mayukh Deb, Samuel Weinbach, Manuel Brack, Patrick Schramowski, Kristian Kersting(参考訳) 生成トランスモデルは、多数のパラメータと複数の入力モダリティを処理する能力によって、ますます複雑になっている。 現在の予測手法はリソース集約型である。 最も重要なのは、フォワードパスの約2倍のGPUメモリを割り当てるバックプロパゲーションに依存するため、極めて大量の余分なメモリを必要とすることだ。 そのため、プロダクションで使用するのは不可能ではないにせよ、難しい。 AtManは、生成トランスモデルの説明を、ほとんど余分なコストで提供します。 特に、AtManは、変換器の注意機構を制御し、出力予測に対する入力の関連マップを生成するモーダル非依存摂動法である。 バックプロパゲーションを使う代わりに、atmanは埋め込み空間内のコサイン類似性近傍に基づく並列化可能なトークンベースの検索手法を適用する。 テキストと画像テキストのベンチマークを徹底的に実験した結果、atmanは計算効率を保ちつつ、いくつかのメトリクスで現在の最先端のグラデーションベース手法よりも優れています。 そのため、AtManは大規模なモデル推論デプロイメントでの使用に適している。

Generative transformer models have become increasingly complex, with large numbers of parameters and the ability to process multiple input modalities. Current methods for explaining their predictions are resource-intensive. Most crucially, they require prohibitively large amounts of extra memory, since they rely on backpropagation which allocates almost twice as much GPU memory as the forward pass. This makes it difficult, if not impossible, to use them in production. We present AtMan that provides explanations of generative transformer models at almost no extra cost. Specifically, AtMan is a modality-agnostic perturbation method that manipulates the attention mechanisms of transformers to produce relevance maps for the input with respect to the output prediction. Instead of using backpropagation, AtMan applies a parallelizable token-based search method based on cosine similarity neighborhood in the embedding space. Our exhaustive experiments on text and image-text benchmarks demonstrate that AtMan outperforms current state-of-the-art gradient-based methods on several metrics while being computationally efficient. As such, AtMan is suitable for use in large model inference deployments.
翻訳日:2023-10-25 13:54:21 公開日:2023-10-20
# 条件付き生成逆ネットワークを用いたCNN予測の解釈

Interpreting CNN Predictions using Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2301.08067v2 )

ライセンス: Link先を確認
Akash Guna R T, Raul Benitez, Sikha O K(参考訳) 本稿では,コンボリューショナルニューラルネットワーク(CNN)の視覚的解釈を生成するために,条件付きGAN(Generative Adversarial Network)を訓練する手法を提案する。 CNNを理解するために、GANは予測を行う際に、CNNがどのように画像を処理しているかに関する情報を訓練する。 情報の提供には、この情報をGANに供給可能な形でどのように表現するか、GANに効果的に表現する方法の2つの主な課題がある。 これらの問題に対処するために,中間解釈マップの累積平均化によるCNNアーキテクチャの適切な表現を開発した。 また、GANに表現を供給し、効果的なトレーニング戦略を選択するための2つの方法を提案する。 我々のアプローチはCNNの一般的な側面を学び、データセットやCNNアーキテクチャに非依存でした。 この研究は質的および定量的評価の両方を含み、提案したGANと最先端のアプローチを比較している。 CNNの初期層と最終層は,提案したGANの解釈において,CNNの解釈に等しく重要であることがわかった。 我々は,CNN を解釈するための GAN の訓練が,速いペースの深層学習の進歩を活用することで,解釈を改善するための扉を開くと信じている。 実験に使われるコードはhttps://github.com/Akash-guna/Explain-CNN-With-GANSで公開されている。

We propose a novel method that trains a conditional Generative Adversarial Network (GAN) to generate visual interpretations of a Convolutional Neural Network (CNN). To comprehend a CNN, the GAN is trained with information on how the CNN processes an image when making predictions. Supplying that information has two main challenges: how to represent this information in a form that is feedable to the GANs and how to effectively feed the representation to the GAN. To address these issues, we developed a suitable representation of CNN architectures by cumulatively averaging intermediate interpretation maps. We also propose two alternative approaches to feed the representations to the GAN and to choose an effective training strategy. Our approach learned the general aspects of CNNs and was agnostic to datasets and CNN architectures. The study includes both qualitative and quantitative evaluations and compares the proposed GANs with state-of-the-art approaches. We found that the initial layers of CNNs and final layers are equally crucial for interpreting CNNs upon interpreting the proposed GAN. We believe training a GAN to interpret CNNs would open doors for improved interpretations by leveraging fast-paced deep learning advancements. The code used for experimentation is publicly available at https://github.com/Akash-guna/Explain-CNN-With-GANS
翻訳日:2023-10-25 13:54:05 公開日:2023-10-20
# SPARling: 極めてスパースなアクティベーションによる潜在表現の学習

SPARLING: Learning Latent Representations with Extremely Sparse Activations ( http://arxiv.org/abs/2302.01976v2 )

ライセンス: Link先を確認
Kavi Gupta, Osbert Bastani, Armando Solar-Lezama(参考訳) 実世界のプロセスは、しばしば極端にスパースなテンソルとしてモデル化できる中間状態を含む。 Sparlingは、中間層でこの状態にマッチするモデルを、エンド・ツー・エンドのラベル付き例(すなわち、中間状態の監督なし)から学習できる技術を紹介します。 sparlingは、他のテクニックでは達成できないアクティベーションスパーシティレベルを強制する、新しいタイプの情報ボトルネックを使用する。 優れた中間状態モデリングを実現するには極端に疎結合が必要である。 合成DigitCircleドメインとLaTeX-OCRおよびAudio-MNIST-Sequenceドメインでは、エンド・ツー・エンドのみを訓練しても、中間状態が90%の精度で変化するように正確にローカライズできます。

Real-world processes often contain intermediate state that can be modeled as an extremely sparse tensor. We introduce Sparling, a technique that allows you to learn models with intermediate layers that match this state from only end-to-end labeled examples (i.e., no supervision on the intermediate state). Sparling uses a new kind of informational bottleneck that enforces levels of activation sparsity unachievable using other techniques. We find that extreme sparsity is necessary to achieve good intermediate state modeling. On our synthetic DigitCircle domain as well as the LaTeX-OCR and Audio-MNIST-Sequence domains, we are able to precisely localize the intermediate states up to feature permutation with > 90% accuracy, even though we only train end-to-end.
翻訳日:2023-10-25 13:45:55 公開日:2023-10-20
# resmem: できることを学び、残りを記憶する

ResMem: Learn what you can and memorize the rest ( http://arxiv.org/abs/2302.01576v2 )

ライセンス: Link先を確認
Zitong Yang, Michal Lukasik, Vaishnavh Nagarajan, Zonglin Li, Ankit Singh Rawat, Manzil Zaheer, Aditya Krishna Menon, Sanjiv Kumar(参考訳) 現代のニューラルネットワークの印象的な一般化性能は、複雑なトレーニングパターンを暗黙的に記憶する能力に起因する。 これに触発されて、明示的な記憶によるモデル一般化を改善するための新しいメカニズムを探求する。 具体的には,モデル残差を$k$-nearestnext based regressorに適合させることにより,既存の予測モデル(ニューラルネットワークなど)を補強する新しい手法である残差記憶(resmem)アルゴリズムを提案する。 最終的な予測は、元のモデルと適合した残留回帰器の合計である。 構成により、resmemはトレーニングラベルを明示的に記憶することができる。 実験により、ResMemは様々な標準ビジョンと自然言語処理ベンチマークを用いて、元の予測モデルのテストセットの一般化を一貫して改善することを示した。 理論的には、スタイリングされた線形回帰問題を定式化し、ResMemがベース予測器よりも良好なテストリスクをもたらすことを示す。

The impressive generalization performance of modern neural networks is attributed in part to their ability to implicitly memorize complex training patterns. Inspired by this, we explore a novel mechanism to improve model generalization via explicit memorization. Specifically, we propose the residual-memorization (ResMem) algorithm, a new method that augments an existing prediction model (e.g. a neural network) by fitting the model's residuals with a $k$-nearest neighbor based regressor. The final prediction is then the sum of the original model and the fitted residual regressor. By construction, ResMem can explicitly memorize the training labels. Empirically, we show that ResMem consistently improves the test set generalization of the original prediction model across various standard vision and natural language processing benchmarks. Theoretically, we formulate a stylized linear regression problem and rigorously show that ResMem results in a more favorable test risk over the base predictor.
翻訳日:2023-10-25 13:45:39 公開日:2023-10-20
# AIチャットアシスタントは、さまざまなトピックに関する会話を改善する

AI Chat Assistants can Improve Conversations about Divisive Topics ( http://arxiv.org/abs/2302.07268v5 )

ライセンス: Link先を確認
Lisa P. Argyle, Ethan Busby, Joshua Gubler, Chris Bail, Thomas Howe, Christopher Rytting, and David Wingate(参考訳) 人的会話の急増はオンラインで起きている。 しかし、ディバイシブネスとコンフリクトは、ソーシャルメディアプラットフォーム、メッセージングアプリ、および他のデジタルフォーラム上のテキストベースのインタラクションで悪化する可能性がある。 このような毒性は分極性を高め、重要なことは、すべての人に影響を及ぼす複雑な社会問題に対する効率的な解決策を開発するための多様な社会の能力に相関する。 学者や市民社会団体は、オフライン環境での対人会話の分断や生産性を低下させる介入を促進するが、これらの取り組みをオンラインで発生する会話の量に拡大することは極めて困難である。 本稿では,人工知能ツールを用いて,個別の話題に関するオンライン会話がどのように改善されるかを実証する大規模実験の結果を示す。 具体的には,会話で理解される感情の知覚を改善するために,リアルタイムのエビデンスに基づくレコメンデーションを作成するために,大きな言語モデルを用いる。 これらの介入は、会話の内容の体系的変更や人々の政策姿勢の移動を伴わずに、報告された会話の質を改善し、政治的分裂を減らし、トーンを改善する。 これらの発見は、将来のソーシャルメディア研究、政治審議、計算社会科学における人工知能の位置づけに関心を持つ研究者のコミュニティに重要な意味を持つ。

A rapidly increasing amount of human conversation occurs online. But divisiveness and conflict can fester in text-based interactions on social media platforms, in messaging apps, and on other digital forums. Such toxicity increases polarization and, importantly, corrodes the capacity of diverse societies to develop efficient solutions to complex social problems that impact everyone. Scholars and civil society groups promote interventions that can make interpersonal conversations less divisive or more productive in offline settings, but scaling these efforts to the amount of discourse that occurs online is extremely challenging. We present results of a large-scale experiment that demonstrates how online conversations about divisive topics can be improved with artificial intelligence tools. Specifically, we employ a large language model to make real-time, evidence-based recommendations intended to improve participants' perception of feeling understood in conversations. We find that these interventions improve the reported quality of the conversation, reduce political divisiveness, and improve the tone, without systematically changing the content of the conversation or moving people's policy attitudes. These findings have important implications for future research on social media, political deliberation, and the growing community of scholars interested in the place of artificial intelligence within computational social science.
翻訳日:2023-10-25 13:34:18 公開日:2023-10-20
# 野生の3dインタラクションハンドリカバリのための共有ドメインへの入力

Bringing Inputs to Shared Domains for 3D Interacting Hands Recovery in the Wild ( http://arxiv.org/abs/2303.13652v2 )

ライセンス: Link先を確認
Gyeongsik Moon(参考訳) 近年の成果にもかかわらず、既存の3Dインタラクションハンドリカバリ手法は、主にモーションキャプチャ(MoCap)環境、すなわちインザミルド(ITW)環境での結果を示している。 これは、2dデータであっても、3dインタラクションによるハンドデータの収集が極めて難しいためです。 本稿では,itw 2d/3dインタラクションハンドデータの限られた量で,ロバストな3dインタラクションハンドリカバリのための共有ドメインにmocapとitwサンプルをもたらすinterwildを提案する。 3次元インタラクションハンドリカバリは2つのサブプロブレムから構成される。 1) 各手の3次元回復 2) 両手間の3次元相対的翻訳回復。 最初のサブプロブレムでは、MoCapとITWサンプルを共有2Dスケールスペースに持ち込みます。 ITWデータセットは、限られた量の2D/3Dインタラクションハンドを提供するが、大規模な2Dシングルハンドデータを含んでいる。 これにより,手動の操作の有無に関わらず,手動画像を第1サブプロブレムの入力として使用する。 したがって、MoCapデータセットのインタラクションハンドは、ITWデータセットの単一ハンドの2Dスケールスペースに持ち込まれる。 第2のサブプロブレムでは、MoCapとITWサンプルを共有外見不変空間に持ち込みます。 第1サブプロブレムとは異なり、ITWデータセットの2Dラベルは、3D翻訳の曖昧さのために第2サブプロブレムでは役に立たない。 したがって、ITWサンプルに頼る代わりに、第2サブプロブレムの入力として画像のない幾何学的特徴のみを取り込むことで、MoCapサンプルの一般化性を増幅する。 幾何学的特徴は外観に不変であるため、MoCapとITWサンプルは2つのデータセット間の大きな外観ギャップに悩まされない。 コードはhttps://github.com/facebookresearch/interwildで公開されている。

Despite recent achievements, existing 3D interacting hands recovery methods have shown results mainly on motion capture (MoCap) environments, not on in-the-wild (ITW) ones. This is because collecting 3D interacting hands data in the wild is extremely challenging, even for the 2D data. We present InterWild, which brings MoCap and ITW samples to shared domains for robust 3D interacting hands recovery in the wild with a limited amount of ITW 2D/3D interacting hands data. 3D interacting hands recovery consists of two sub-problems: 1) 3D recovery of each hand and 2) 3D relative translation recovery between two hands. For the first sub-problem, we bring MoCap and ITW samples to a shared 2D scale space. Although ITW datasets provide a limited amount of 2D/3D interacting hands, they contain large-scale 2D single hand data. Motivated by this, we use a single hand image as an input for the first sub-problem regardless of whether two hands are interacting. Hence, interacting hands of MoCap datasets are brought to the 2D scale space of single hands of ITW datasets. For the second sub-problem, we bring MoCap and ITW samples to a shared appearance-invariant space. Unlike the first sub-problem, 2D labels of ITW datasets are not helpful for the second sub-problem due to the 3D translation's ambiguity. Hence, instead of relying on ITW samples, we amplify the generalizability of MoCap samples by taking only a geometric feature without an image as an input for the second sub-problem. As the geometric feature is invariant to appearances, MoCap and ITW samples do not suffer from a huge appearance gap between the two datasets. The code is publicly available at https://github.com/facebookresearch/InterWild.
翻訳日:2023-10-25 13:13:54 公開日:2023-10-20
# ProGAP: 差分プライバシー保証を備えたプログレッシブグラフニューラルネットワーク

ProGAP: Progressive Graph Neural Networks with Differential Privacy Guarantees ( http://arxiv.org/abs/2304.08928v2 )

ライセンス: Link先を確認
Sina Sajadmanesh and Daniel Gatica-Perez(参考訳) グラフニューラルネットワーク(gnns)は、グラフ上で学習するための一般的なツールとなっているが、グラフデータが個人や機密情報を含む可能性があるため、その広範な利用はプライバシの懸念を招いている。 グラフ構造化データセットを効果的に学習しながら、プライバシを保護するために、異なるプライベートなGNNモデルが最近提案されている。 しかし、グラフの固有の構造接続のため、GNNにおける精度とプライバシの理想的なバランスを達成することは依然として困難である。 本稿では、プロガPと呼ばれる新しい差分プライベートGNNを提案し、プログレッシブトレーニングスキームを用いて、そのような精度とプライバシのトレードオフを改善する。 差分プライバシーを確保するために集約摂動技術と組み合わせて、ProGAPはGNNを一連の重なり合うサブモデルに分割し、徐々に訓練し、最初のサブモデルから完全なモデルへと拡張する。 具体的には、各サブモデルは、以前のサブモデルで学習およびキャッシュされたプライベートに集約されたノード埋め込み上でトレーニングされ、関連するプライバシコストを制限しながら、以前のアプローチよりも表現力が高くなります。 ProGAPは、トレーニング段階と推論段階の両方において、エッジレベルとノードレベルのプライバシ保証を保証することを正式に証明し、ベンチマークグラフデータセットのパフォーマンスを評価する。 実験により, ProGAPは既存の最先端の差分GNNよりも最大5-10%高い精度を達成できることが示された。 私たちのコードはhttps://github.com/sisaman/progapで入手できる。

Graph Neural Networks (GNNs) have become a popular tool for learning on graphs, but their widespread use raises privacy concerns as graph data can contain personal or sensitive information. Differentially private GNN models have been recently proposed to preserve privacy while still allowing for effective learning over graph-structured datasets. However, achieving an ideal balance between accuracy and privacy in GNNs remains challenging due to the intrinsic structural connectivity of graphs. In this paper, we propose a new differentially private GNN called ProGAP that uses a progressive training scheme to improve such accuracy-privacy trade-offs. Combined with the aggregation perturbation technique to ensure differential privacy, ProGAP splits a GNN into a sequence of overlapping submodels that are trained progressively, expanding from the first submodel to the complete model. Specifically, each submodel is trained over the privately aggregated node embeddings learned and cached by the previous submodels, leading to an increased expressive power compared to previous approaches while limiting the incurred privacy costs. We formally prove that ProGAP ensures edge-level and node-level privacy guarantees for both training and inference stages, and evaluate its performance on benchmark graph datasets. Experimental results demonstrate that ProGAP can achieve up to 5-10% higher accuracy than existing state-of-the-art differentially private GNNs. Our code is available at https://github.com/sisaman/ProGAP.
翻訳日:2023-10-25 13:06:41 公開日:2023-10-20
# バックドア攻撃のトリガーとしてのプロンプト:言語モデルの脆弱性を調べる

Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models ( http://arxiv.org/abs/2305.01219v5 )

ライセンス: Link先を確認
Shuai Zhao, Jinming Wen, Luu Anh Tuan, Junbo Zhao, Jie Fu(参考訳) 事前学習と微調整のギャップを埋めるプロンプトベースの学習パラダイムは、いくつかのNLPタスク、特に数ショット設定における最先端のパフォーマンスを実現する。 広く適用されているにもかかわらず、プロンプトベースの学習はバックドア攻撃に対して脆弱である。 テキストバックドア攻撃は、インジェクションインジェクションとラベル修正を通じてトレーニングサンプルのサブセットを汚染することにより、ターゲットとする脆弱性をモデルに導入するように設計されている。 しかし、毒サンプルのトリガーや不正なラベル付けによる異常な自然言語表現などの欠陥に悩まされている。 本研究では,プロンプト自体をトリガとして使用するプロンプトに基づいて,クリーンラベルバックドア攻撃を行う新規かつ効率的な手法であるproattackを提案する。 本手法は外部からのトリガーを必要とせず、被毒サンプルの正しいラベル付けを保証し、バックドア攻撃のステルス性を改善する。 リッチリソースおよび少数ショットテキスト分類タスクに関する広範な実験により、テキストバックドア攻撃におけるProAttackの競合性能を実証的に検証した。 特に、リッチリソース環境では、ProAttackは外部トリガなしでクリーンラベルバックドア攻撃ベンチマークで最先端の攻撃成功率を達成する。

The prompt-based learning paradigm, which bridges the gap between pre-training and fine-tuning, achieves state-of-the-art performance on several NLP tasks, particularly in few-shot settings. Despite being widely applied, prompt-based learning is vulnerable to backdoor attacks. Textual backdoor attacks are designed to introduce targeted vulnerabilities into models by poisoning a subset of training samples through trigger injection and label modification. However, they suffer from flaws such as abnormal natural language expressions resulting from the trigger and incorrect labeling of poisoned samples. In this study, we propose ProAttack, a novel and efficient method for performing clean-label backdoor attacks based on the prompt, which uses the prompt itself as a trigger. Our method does not require external triggers and ensures correct labeling of poisoned samples, improving the stealthy nature of the backdoor attack. With extensive experiments on rich-resource and few-shot text classification tasks, we empirically validate ProAttack's competitive performance in textual backdoor attacks. Notably, in the rich-resource setting, ProAttack achieves state-of-the-art attack success rates in the clean-label backdoor attack benchmark without external triggers.
翻訳日:2023-10-25 12:53:27 公開日:2023-10-20
# Speak, Memory: An Archaeology of Books known to ChatGPT/GPT-4

Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4 ( http://arxiv.org/abs/2305.00118v2 )

ライセンス: Link先を確認
Kent K. Chang, Mackenzie Cramer, Sandeep Soni and David Bamman(参考訳) 本研究では,ChatGPT や GPT-4 で知られている書籍を,名前クローゼメンバシップ推論クエリを用いて推測するためのデータ考古学を行う。 OpenAIモデルでは,著作権資料のコレクションが広く記憶されており,その記憶度は,それらの書籍がWeb上に出現する頻度に関係していることがわかった。 これらのモデルが未知の書籍集合を記憶する能力は、テストデータを汚染することにより、文化的分析のための測定妥当性の評価を複雑化する。 これは、トレーニングデータが知られているオープンモデルの場合をサポートすると論じている。

In this work, we carry out a data archaeology to infer books that are known to ChatGPT and GPT-4 using a name cloze membership inference query. We find that OpenAI models have memorized a wide collection of copyrighted materials, and that the degree of memorization is tied to the frequency with which passages of those books appear on the web. The ability of these models to memorize an unknown set of books complicates assessments of measurement validity for cultural analytics by contaminating test data; we show that models perform much better on memorized books than on non-memorized books for downstream tasks. We argue that this supports a case for open models whose training data is known.
翻訳日:2023-10-25 12:52:44 公開日:2023-10-20
# CAMEL: デバイス上での効率的な学習のためのAIモデルと組み込みDRAMの共同設計

CAMEL: Co-Designing AI Models and Embedded DRAMs for Efficient On-Device Learning ( http://arxiv.org/abs/2305.03148v2 )

ライセンス: Link先を確認
Sai Qian Zhang, Thierry Tambe, Nestor Cuevas, Gu-Yeon Wei, David Brooks(参考訳) オンデバイス学習は、aiモデルがユーザデータに適応できるようにし、エッジプラットフォームにおけるサービス品質を向上させる。 しかし、リソース制限されたデバイスでのAIのトレーニングは、コンピューティングワークロードの要求と、ディープニューラルネットワーク(DNN)が必要とするメモリ消費とデータアクセスが大きな課題となっている。 そこで本研究では,過渡訓練データの主要記憶媒体として組込み動的ランダムアクセスメモリ(edram)の利用を提案する。 静的ランダムアクセスメモリ(SRAM)と比較して、eDRAMはより高いストレージ密度と低いリーク電力を提供し、アクセスコストと電力リークを低減させる。 それでも、保存されたデータの整合性を維持するために、周期的なパワーハングリーリフレッシュ操作はシステム性能を低下させる可能性がある。 高価なeDRAMリフレッシュ操作の発生を最小限に抑えるため、トレーニングプロセス中に保存されたデータの寿命を短縮することが有用である。 これを実現するために、我々はアルゴリズムとハードウェアの共同設計の原則を採用し、トレーニングを通してデータ寿命とストレージコストを効果的に削減する可逆的なDNNアーキテクチャのファミリーを導入した。 さらに,eDRAMをプライマリオンチップメモリとして活用した,高効率なオンデバイストレーニングエンジン「textit{CAMEL}」を提案する。 このエンジンは、トレーニング精度を向上しつつ、メモリ使用量とチップ外DRAMトラフィックを大幅に削減したデバイス上での効率的なトレーニングを可能にする。 我々は、異なるデータセットを持つ複数のDNN上でCAMELシステムを評価し、トレーニングプロセスの2.5\times$スピードアップと2.8\times$トレーニングエネルギセーブを他のベースラインハードウェアプラットフォームよりも実証した。

On-device learning allows AI models to adapt to user data, thereby enhancing service quality on edge platforms. However, training AI on resource-limited devices poses significant challenges due to the demanding computing workload and the substantial memory consumption and data access required by deep neural networks (DNNs). To address these issues, we propose utilizing embedded dynamic random-access memory (eDRAM) as the primary storage medium for transient training data. In comparison to static random-access memory (SRAM), eDRAM provides higher storage density and lower leakage power, resulting in reduced access cost and power leakage. Nevertheless, to maintain the integrity of the stored data, periodic power-hungry refresh operations could potentially degrade system performance. To minimize the occurrence of expensive eDRAM refresh operations, it is beneficial to shorten the lifetime of stored data during the training process. To achieve this, we adopt the principles of algorithm and hardware co-design, introducing a family of reversible DNN architectures that effectively decrease data lifetime and storage costs throughout training. Additionally, we present a highly efficient on-device training engine named \textit{CAMEL}, which leverages eDRAM as the primary on-chip memory. This engine enables efficient on-device training with significantly reduced memory usage and off-chip DRAM traffic while maintaining superior training accuracy. We evaluate our CAMEL system on multiple DNNs with different datasets, demonstrating a $2.5\times$ speedup of the training process and $2.8\times$ training energy savings than the other baseline hardware platforms.
翻訳日:2023-10-25 12:45:15 公開日:2023-10-20
# メタ学習による言語モデルのオンライン適応

Meta-Learning Online Adaptation of Language Models ( http://arxiv.org/abs/2305.15076v2 )

ライセンス: Link先を確認
Nathan Hu, Eric Mitchell, Christopher D. Manning, Chelsea Finn(参考訳) 大規模言語モデルは、そのパラメータに驚くほど広い世界知識をエンコードする。 しかし、静的言語モデルの知識は時代遅れであり、モデルの効果的な「棚の生命」を制限する。 オンラインの微調整は、この劣化を減らすことができるが、ドキュメントストリームの微調整は、低レベルの情報取り込みにつながる。 オンラインの微調整は重要な情報に十分対応していないと仮定する。 すなわち、実情報を表す重要なトークンからの勾配信号は、本質的にノイズの多いトークンからの勾配によって溺れ去られ、動的で文脈を意識した学習率が有益であることが示唆される。 そこで我々は,アップウェイトに対するトークンの学習を提案する。 私たちは、オンラインの微調整中に各トークンの言語モデリング損失を再強調するために、小さな自己回帰モデル(autoregressive model)をメタトレーニングします。 このアプローチをコンテキスト対応メタ学習ロススケーリング(CaMeLS)と呼ぶ。 実験の結果,CaMeLSはトークンの損失を軽減するための標準的な微調整法やベースラインヒューリスティック法と比較して,数千のドキュメントストリームに対する情報取り込みを大幅に改善することがわかった。

Large language models encode impressively broad world knowledge in their parameters. However, the knowledge in static language models falls out of date, limiting the model's effective "shelf life." While online fine-tuning can reduce this degradation, we find that naively fine-tuning on a stream of documents leads to a low level of information uptake. We hypothesize that online fine-tuning does not sufficiently attend to important information. That is, the gradient signal from important tokens representing factual information is drowned out by the gradient from inherently noisy tokens, suggesting that a dynamic, context-aware learning rate may be beneficial. We therefore propose learning which tokens to upweight. We meta-train a small, autoregressive model to reweight the language modeling loss for each token during online fine-tuning, with the objective of maximizing the out-of-date base question-answering model's ability to answer questions about a document after a single weighted gradient step. We call this approach Context-aware Meta-learned Loss Scaling (CaMeLS). Across three different distributions of documents, our experiments find that CaMeLS provides substantially improved information uptake on streams of thousands of documents compared with standard fine-tuning and baseline heuristics for reweighting token losses.
翻訳日:2023-10-25 09:11:18 公開日:2023-10-20
# AutoPlan: 大規模言語モデルを用いた対話型意思決定タスクの自動計画

AutoPlan: Automatic Planning of Interactive Decision-Making Tasks With Large Language Models ( http://arxiv.org/abs/2305.15064v2 )

ライセンス: Link先を確認
Siqi Ouyang and Lei Li(参考訳) 最近の大規模言語モデル(LLM)は、基盤環境における意思決定を約束している。 しかし、LLMにおける事前学習された知識と環境における実際のルールとの相違により、複雑な意思決定タスクでは頻繁に失敗する。 既存の手法では、コストのかかる勾配計算か、コンテキスト内の長い実演が必要である。 本稿では,対話型意思決定タスクを実現するための LLM エージェントを誘導する AutoPlan を提案する。 AutoPlanは、LCMプロンプトをタスク解決プランで強化し、反復的なエクスペリエンスコレクションとリフレクションを通じて最適化する。 実験の結果,AutoPlanは文脈内デモは使用していないものの,ALFWorldでの人手によるデモと同等の成功率を示し,HotpotQAでは8%上回った。 コードはhttps://github.com/owaski/autoplanで入手できる。

Recent large language models (LLMs) are promising for making decisions in grounded environments. However, LLMs frequently fail in complex decision-making tasks due to the misalignment between the pre-trained knowledge in LLMs and the actual rules in the environment. Existing methods require either costly gradient computation or lengthy in-context demonstrations. In this paper, we propose AutoPlan, an approach to guide LLM-based agents to accomplish interactive decision-making tasks. AutoPlan augments the LLM prompt with a task-solving plan and optimizes it through iterative experience collection and reflection. Our experiments show that AutoPlan, though using no in-context demonstrations, achieves success rates on par with the baselines using human-written demonstrations on ALFWorld and even outperforms them by 8% on HotpotQA. The code is available at https://github.com/owaski/AutoPlan.
翻訳日:2023-10-25 09:10:39 公開日:2023-10-20
# ImageNetVC: 1000のImageNetカテゴリのゼロとFew-Shotビジュアルコモンセンス評価

ImageNetVC: Zero- and Few-Shot Visual Commonsense Evaluation on 1000 ImageNet Categories ( http://arxiv.org/abs/2305.15028v2 )

ライセンス: Link先を確認
Heming Xia, Qingxiu Dong, Lei Li, Jingjing Xu, Tianyu Liu, Ziwei Qin, Zhifang Sui(参考訳) 近年,Large Language Models (LLM) は汎用インタフェースとして機能し,包括的視覚的知識の需要が高まっている。 しかし、現在のLLMと、その視覚的に拡張されたVaLMが、ビジュアルコモンセンス知識をどの程度習得できるかは定かではない。 そこで本研究では,1000のイメージネットカテゴリを対象に,ゼロおよび少数ショットの視覚的コモンセンス評価用に設計された人称アノテートデータセットであるImageNetVCを提案する。 ImageNetVCを利用することで、単調なLLMとVaLMの両方の基本的な視覚的常識知識をベンチマークする。 さらに,大規模モデルの視覚コモンセンス知識に影響を与える要因を分析し,視覚コモンセンス知識に富んだ言語モデルの開発への洞察を提供する。 私たちのコードとデータセットはhttps://github.com/hemingkx/imagenetvc.com/で利用可能です。

Recently, Large Language Models (LLMs) have been serving as general-purpose interfaces, posing a significant demand for comprehensive visual knowledge. However, it remains unclear how well current LLMs and their visually augmented counterparts (VaLMs) can master visual commonsense knowledge. To investigate this, we propose ImageNetVC, a human-annotated dataset specifically designed for zero- and few-shot visual commonsense evaluation across 1,000 ImageNet categories. Utilizing ImageNetVC, we benchmark the fundamental visual commonsense knowledge of both unimodal LLMs and VaLMs. Furthermore, we analyze the factors affecting the visual commonsense knowledge of large-scale models, providing insights into the development of language models enriched with visual commonsense knowledge. Our code and dataset are available at https://github.com/hemingkx/ImageNetVC.
翻訳日:2023-10-25 09:09:43 公開日:2023-10-20
# 巨額の開示:ChatGPTは投資家が財務情報を処理できるか?

Bloated Disclosures: Can ChatGPT Help Investors Process Financial Information? ( http://arxiv.org/abs/2306.10224v2 )

ライセンス: Link先を確認
Alex Kim, Maximilian Muhn, Valeri Nikolaev(参考訳) ChatGPTのような生成AIツールは、投資家が情報を処理する方法を根本的に変えることができる。 株式市場を実験室として、複雑な企業開示を要約する上で、これらのツールの経済的有用性を検討する。 制約のない要約はオリジナルに比べて著しく短いが、情報内容は増幅されている。 ある文書が正(負)の感情を持つとき、その要約はより正(負)になる。 重要なことに、これらの要約は公開情報に対する株式市場の反応を説明するのにより効果的である。 これらの知見に動機づけられ,我々は情報の尺度であるbloatを提案する。 「肥大化した開示は、価格効率の低下や情報非対称性の上昇など、資本市場の悪影響と関連している。」 最後に、このモデルは、企業の(非)金融パフォーマンスを識別するターゲットサマリーの構築に有効であることを示す。 この結果から,情報処理に制約のある投資家に対して,生成的AIが多大な価値をもたらすことが示唆された。

Generative AI tools such as ChatGPT can fundamentally change the way investors process information. We probe the economic usefulness of these tools in summarizing complex corporate disclosures using the stock market as a laboratory. The unconstrained summaries are remarkably shorter compared to the originals, whereas their information content is amplified. When a document has a positive (negative) sentiment, its summary becomes more positive (negative). Importantly, the summaries are more effective at explaining stock market reactions to the disclosed information. Motivated by these findings, we propose a measure of information ``bloat." We show that bloated disclosure is associated with adverse capital market consequences, such as lower price efficiency and higher information asymmetry. Finally, we show that the model is effective at constructing targeted summaries that identify firms' (non-)financial performance. Collectively, our results indicate that generative AI adds considerable value for investors with information processing constraints.
翻訳日:2023-10-25 08:42:42 公開日:2023-10-20
# デコヒーレンスに関するコヒーレント拡散型1次元系の普遍安定性

Universal stability of coherently diffusive 1D systems with respect to decoherence ( http://arxiv.org/abs/2307.05656v2 )

ライセンス: Link先を確認
F. S. Lozano-Negro and E. Alvarez Navarro and N. C. Ch\'avez and F. Mattiotti and F. Borgonovi and H. M. Pastawski and G. L. Celardo(参考訳) 3d結晶の静的障害は、局所的なレジームを生成するまで理想的な弾道力学を分解する。 この金属絶縁体転移はコヒーレント拡散に先行することが多い。 3つの異なるパラダイム1dモデル、harper-hofstadter-aubry-andr\'e と fibonacci tight-binding chain と power-banded random matrix model を研究した結果、コヒーレント拡散が存在すると、非コヒーレントノイズに対して輸送は例外的に安定であることが示された。 これは、拡散係数が環境デコヒーレンスに強く依存する弾道的および局所的な力学で起こることと全く正反対である。 拡散係数は、コヒーレンス時間が平均弾性散乱時間に匹敵するまでほぼデコヒーレンス非依存のままであり、デコヒーレンス強度に対する拡散係数の普遍的な依存性は解析的に導出される。 したがって、量子拡散レジームを持つ系は安定な量子ワイヤーの設計に利用することができ、弾道的レジームと局所的なレジームの境界でしばしば作用する多くの生物学的システムの機能を説明することができる。

Static disorder in a 3D crystal degrades the ideal ballistic dynamics until it produces a localized regime. This Metal-Insulator Transition is often preceded by coherent diffusion. By studying three different paradigmatic 1D models, the Harper-Hofstadter-Aubry-Andr\'e and the Fibonacci tight-binding chains, and the power-banded random matrix model, we show that whenever coherent diffusion is present, transport is exceptionally stable against decoherent noise. This is completely at odds with what happens for ballistic and localized dynamics, where the diffusion coefficient strongly depends on the environmental decoherence. A universal dependence of the diffusion coefficient on the decoherence strength is analytically derived: the diffusion coefficient remains almost decoherence-independent until the coherence time becomes comparable with the mean elastic scattering time. Thus, systems with a quantum diffusive regime could be used to design stable quantum wires and may explain the functionality of many biological systems, which often operate at the border between the ballistic and localized regimes.
翻訳日:2023-10-25 08:22:45 公開日:2023-10-20
# Amortized Variational Inference: When and Why?

Amortized Variational Inference: When and Why? ( http://arxiv.org/abs/2307.11018v2 )

ライセンス: Link先を確認
Charles C. Margossian and David M. Blei(参考訳) 変分推論は確率モデルの後方分布を近似する手法のクラスである。 古典的因子化(または平均場)変分推論(F-VI)は、各潜時変数に対して別のパラメトリック分布に適合する。 より現代的な償却変分推論(a-vi)は、代わりに共通の \textit{inference function} を学習する。 通常、A-VIは変分オートエンコーダの訓練においてコグとして使用されるが、A-VIがF-VIの一般的な代替品としても使用できる理由である。 本稿では,ベイズ近似にA-VIをいつ,なぜ利用できるのかを考察する。 A-VI は F-VI よりも優れた解が得られないことを確立し、推論関数がどれだけ表現的であったとしても、いわゆる \textit{amortization gap} につながる。 A-VIはいつF-VIの最適解が得られるのか? 我々は、不定化ギャップを閉じることができる、必要で十分で検証可能なモデル上の条件を導出する。 機械学習やベイズ統計学で多くのモデルを包含する単純な階層モデルが,これらの条件を検証していることを示す。 より広範なモデルのクラスにおいて、AVIの推論関数の領域を拡張して解を改善する方法を示し、例えば隠れマルコフモデルでは、償却ギャップを閉じることができない例を示す。 最後に、A-VI が F-VI の解に一致する場合、データサイズによって推論関数の要求される複雑さが増大せず、A-VI が高速に収束することが実証的に判明する。

Variational inference is a class of methods to approximate the posterior distribution of a probabilistic model. The classic factorized (or mean-field) variational inference (F-VI) fits a separate parametric distribution for each latent variable. The more modern amortized variational inference (A-VI) instead learns a common \textit{inference function}, which maps each observation to its corresponding latent variable's approximate posterior. Typically, A-VI is used as a cog in the training of variational autoencoders, however it stands to reason that A-VI could also be used as a general alternative to F-VI. In this paper we study when and why A-VI can be used for approximate Bayesian inference. We establish that A-VI cannot achieve a better solution than F-VI, leading to the so-called \textit{amortization gap}, no matter how expressive the inference function is. We then address a central theoretical question: When can A-VI attain F-VI's optimal solution? We derive conditions on the model which are necessary, sufficient, and verifiable under which the amortization gap can be closed. We show that simple hierarchical models, which encompass many models in machine learning and Bayesian statistics, verify these conditions. We demonstrate, on a broader class of models, how to expand the domain of AVI's inference function to improve its solution, and we provide examples, e.g. hidden Markov models, where the amortization gap cannot be closed. Finally, when A-VI can match F-VI's solution, we empirically find that the required complexity of the inference function does not grow with the data size and that A-VI often converges faster.
翻訳日:2023-10-25 08:10:38 公開日:2023-10-20
# ニューラルネットワークを用いた腫瘍ダイナミックモデリングと総合生存予測のための説明可能なディープラーニング

Explainable Deep Learning for Tumor Dynamic Modeling and Overall Survival Prediction using Neural-ODE ( http://arxiv.org/abs/2308.01362v3 )

ライセンス: Link先を確認
Mark Laurie and James Lu(参考訳) 腫瘍ダイナミックモデリングは腫瘍学薬の開発に広く応用されているが、予測性を高め、パーソナライズされた治療を可能にし、意思決定を改善する必要がある。 本稿では,TDNODEを薬理学的インフォームドニューラルネットワークとして利用し,縦断的腫瘍サイズデータからモデル発見を可能にすることを提案する。 我々は,TDNODEが既存のモデルの重要な限界を克服し,乱れたデータから偏りのない予測を行うことを示す。 エンコーダ・デコーダアーキテクチャは、時間に関して一般化された均一性の基本的な性質を持つ基礎となる動的法則を表現するように設計されている。 したがって、モデリング形式はエンコーダ出力を運動速度指標として解釈し、逆時間を物理単位として解釈することができる。 得られた指標を用いて,患者の全身生存率(OS)を高精度に予測できることを示す。 提案したモデリング形式は,腫瘍疾患モデルにマルチモーダルな動的データセットを統合するための原則的手法を提供する。

While tumor dynamic modeling has been widely applied to support the development of oncology drugs, there remains a need to increase predictivity, enable personalized therapy, and improve decision-making. We propose the use of Tumor Dynamic Neural-ODE (TDNODE) as a pharmacology-informed neural network to enable model discovery from longitudinal tumor size data. We show that TDNODE overcomes a key limitation of existing models in its ability to make unbiased predictions from truncated data. The encoder-decoder architecture is designed to express an underlying dynamical law which possesses the fundamental property of generalized homogeneity with respect to time. Thus, the modeling formalism enables the encoder output to be interpreted as kinetic rate metrics, with inverse time as the physical unit. We show that the generated metrics can be used to predict patients' overall survival (OS) with high accuracy. The proposed modeling formalism provides a principled way to integrate multimodal dynamical datasets in oncology disease modeling.
翻訳日:2023-10-25 08:00:50 公開日:2023-10-20
# GNNモデルにおけるグラフ注意に基づく説明の意味解釈と検証

Semantic Interpretation and Validation of Graph Attention-based Explanations for GNN Models ( http://arxiv.org/abs/2308.04220v2 )

ライセンス: Link先を確認
Efimia Panagiotaki, Daniele De Martini, Lars Kunze(参考訳) 本稿では,グラフニューラルネットワーク(GNN)に基づくモデルの説明可能性を高めるために,意味的注意力を用いた手法を提案する。 Graph Deep Learning(GDL)は、複雑な特徴や関係を簡潔に記述するために柔軟なグラフ構造を活用する、シーン解釈のようなタスクのための有望な分野として登場した。 eXplainable AI(XAI)で使用される従来の説明可能性手法は、そのような構造に直接適用できないため、グラフ固有のアプローチが導入された。 従来,GDLにおける入力特徴の重要性を推定するために用いられてきたが,正確で一貫した説明を生成する上での本手法の有効性は疑問視されている。 注意重みを特徴重要度指標として用いる妥当性を評価するために,意味的インフォームドな摂動を導入し,予測注意重みとモデルの精度を相関させる。 本研究は,特徴集合のセマンティックなソートとGNNモデルの振る舞いに関する注意分布のばらつきを分析し,特徴重要度を効率的に推定することで,既存の注意グラフ説明可能性手法を拡張した。 提案手法をlidar pointcloud推定モデルに適用し,性能向上に寄与する重要セマンティクスクラスを同定し,信頼性の高いポストホックセマンティクス記述を効果的に生成する。

In this work, we propose a methodology for investigating the use of semantic attention to enhance the explainability of Graph Neural Network (GNN)-based models. Graph Deep Learning (GDL) has emerged as a promising field for tasks like scene interpretation, leveraging flexible graph structures to concisely describe complex features and relationships. As traditional explainability methods used in eXplainable AI (XAI) cannot be directly applied to such structures, graph-specific approaches are introduced. Attention has been previously employed to estimate the importance of input features in GDL, however, the fidelity of this method in generating accurate and consistent explanations has been questioned. To evaluate the validity of using attention weights as feature importance indicators, we introduce semantically-informed perturbations and correlate predicted attention weights with the accuracy of the model. Our work extends existing attention-based graph explainability methods by analysing the divergence in the attention distributions in relation to semantically sorted feature sets and the behaviour of a GNN model, efficiently estimating feature importance. We apply our methodology on a lidar pointcloud estimation model successfully identifying key semantic classes that contribute to enhanced performance, effectively generating reliable post-hoc semantic explanations.
翻訳日:2023-10-25 07:48:18 公開日:2023-10-20
# しきい値の交差:検索強化と損失重み付けによる慣用機械翻訳

Crossing the Threshold: Idiomatic Machine Translation through Retrieval Augmentation and Loss Weighting ( http://arxiv.org/abs/2310.07081v2 )

ライセンス: Link先を確認
Emmy Liu, Aditi Chaudhary, Graham Neubig(参考訳) イディオムは日常の言語では一般的であるが、その意味は部分の意味に従わないため、翻訳者にとってしばしば挑戦となる。 大幅な進歩にもかかわらず、機械翻訳システムはまだ慣用的な表現の翻訳に苦戦している。 我々は、慣用翻訳とその関連問題を簡易に解析する。 これにより、トランスフォーマーベースの機械翻訳モデルが、慣用的な翻訳をデフォルトとするティッピングポイントを明らかにする合成実験を行うことができる。 多言語リソースを拡張するために,フランス語,フィンランド語,日本語の慣用表現を含む4kの自然文のデータセットをコンパイルする。 自然慣用句の翻訳を改善するために,潜在的慣用文に対する訓練損失の戦略的増大と,検索強化モデルを用いた2つの手法を導入する。 これは、慣用文に対する強い事前訓練されたMTモデルの精度を、絶対精度で最大13%向上させるだけでなく、非慣用文に対する潜在的な利益をもたらす。

Idioms are common in everyday language, but often pose a challenge to translators because their meanings do not follow from the meanings of their parts. Despite significant advances, machine translation systems still struggle to translate idiomatic expressions. We provide a simple characterization of idiomatic translation and related issues. This allows us to conduct a synthetic experiment revealing a tipping point at which transformer-based machine translation models correctly default to idiomatic translations. To expand multilingual resources, we compile a dataset of ~4k natural sentences containing idiomatic expressions in French, Finnish, and Japanese. To improve translation of natural idioms, we introduce two straightforward yet effective techniques: the strategic upweighting of training loss on potentially idiomatic sentences, and using retrieval-augmented models. This not only improves the accuracy of a strong pretrained MT model on idiomatic sentences by up to 13% in absolute accuracy, but also holds potential benefits for non-idiomatic sentences.
翻訳日:2023-10-25 06:39:19 公開日:2023-10-20
# フォカルインフォメーションを用いた文埋め込みのコントラスト学習の改善

Improving Contrastive Learning of Sentence Embeddings with Focal-InfoNCE ( http://arxiv.org/abs/2310.06918v2 )

ライセンス: Link先を確認
Pengyue Hou, Xingyu Li(参考訳) 最近のSimCSEの成功により、最先端の文表現が大幅に進歩した。 しかし、SimCSEの当初の定式化は、対照的な学習におけるハードネガティブサンプルの可能性を完全に活用していない。 本研究は,文埋め込みの品質向上を目的とした,simcseとハードネガティブマイニングを組み合わせた教師なしコントラスト学習フレームワークを提案する。 提案するfocal-infonce関数は、対照的な目的に自己ペース変調項を導入し、簡単な負の損失を軽減し、ハード負に焦点をあてたモデルを奨励する。 様々なSTSベンチマーク実験により,スピアマンの相関関係と表現のアライメント,一様性の観点から文埋め込みの改善が示された。

The recent success of SimCSE has greatly advanced state-of-the-art sentence representations. However, the original formulation of SimCSE does not fully exploit the potential of hard negative samples in contrastive learning. This study introduces an unsupervised contrastive learning framework that combines SimCSE with hard negative mining, aiming to enhance the quality of sentence embeddings. The proposed focal-InfoNCE function introduces self-paced modulation terms in the contrastive objective, downweighting the loss associated with easy negatives and encouraging the model focusing on hard negatives. Experimentation on various STS benchmarks shows that our method improves sentence embeddings in terms of Spearman's correlation and representation alignment and uniformity.
翻訳日:2023-10-25 06:39:01 公開日:2023-10-20
# 弦圧縮における絡み合いエントロピー

Entanglement Entropy in String Compactifications ( http://arxiv.org/abs/2310.13735v1 )

ライセンス: Link先を確認
Atish Dabholkar, Upamanyu Moitra(参考訳) エントロピーの計算を目的として、いくつかのカラビ・ヤウ多様体上の4次元および6次元のタイプ-iiコンパクト化の $\mathbb{z}_n$ オービフォールドを考える。 このスペクトルは、非コンパクトな10次元理論のオービフォールドに存在しない分割関数の新たな赤外線ダイバージェンスをもたらす2重縮合セクタにタキオンを含むことができる。 これらのモデルにおけるすべてのタキオン寄与は、10次元と同様の物理的領域$0 < N \leq 1$において有限エントロピーをもたらす再仮定と解析的連続性を持つことを示す。

We consider $\mathbb{Z}_N$ orbifolds of Type-II compactifications to four and six dimensions on several Calabi-Yau manifolds in the orbifold limit with the aim to compute the entanglement entropy. The spectrum can contain tachyons in the doubly-twisted sectors which can lead to new infrared divergences for the partition function that are not present in the orbifolds of the uncompactified ten-dimensional theory. We show that all tachyonic contributions in these models admit a resummation and analytic continuation that yields finite entropy in the physical region $0 < N \leq 1$ just as in ten dimensions.
翻訳日:2023-10-25 05:50:00 公開日:2023-10-20
# 創発時空とエルゴード階層

Emergent spacetime and the ergodic hierarchy ( http://arxiv.org/abs/2310.13733v1 )

ライセンス: Link先を確認
Elliott Gesteau(参考訳) ホログラフィック理論のバルク記述における矢印の出現の様々な診断は、いくつかの実時間相関関数の崩壊や、半辺モジュラー包含体を持つiii$_1$ von neumann代数の出現など、提案されている。 この注記は、これらの診断と力学系のエルゴード階層の量子定式化とをほぼ平行に扱っている。 創発的な時空を持つ理論はこの階層の最上部に位置するように見える。

Various diagnostics of the emergence of an arrow of time in the bulk description of a holographic theory have been proposed, including the decay of some real time correlation functions and the appearance of type III$_1$ von Neumann algebras carrying half-sided modular inclusions. This note puts forward a close parallel between these diagnostics and a quantum formulation of the ergodic hierarchy of dynamical systems. Theories with an emergent spacetime appear to sit near the top of this hierarchy.
翻訳日:2023-10-25 05:49:48 公開日:2023-10-20
# テキスト・画像生成モデルにおける知識のローカライズと編集

Localizing and Editing Knowledge in Text-to-Image Generative Models ( http://arxiv.org/abs/2310.13730v1 )

ライセンス: Link先を確認
Samyadeep Basu, Nanxuan Zhao, Vlad Morariu, Soheil Feizi, Varun Manjunatha(参考訳) 安定拡散やイメージnのようなテキストと画像の拡散モデルは、MS-COCOや他の世代ベンチマークで最先端のFIDスコアを用いて、前例のないフォトリアリズムの質を達成している。 キャプションが与えられた場合、画像生成はオブジェクトの構造、スタイル、視点などの属性に関する詳細な知識を必要とする。 この情報は、テキストから画像への生成モデルにどこにあるのか? 本稿では,この問題に取り組み,視覚的特徴に応じた知識が大規模テキスト・画像拡散モデルにどのように格納されているかを理解する。 我々は,テキスト・画像間モデルにおける因果的調停分析と異なる視覚属性に関するトレース知識を,様々な(causal)コンポーネントに適用する。 (i)UNetおよび (ii)拡散モデルのテキストエンコーダ。 特に、生成型大言語モデルとは異なり、異なる属性に関する知識は分離されたコンポーネントにローカライズされるのではなく、条件付きunetのコンポーネント群に分散されている。 これらのコンポーネントセットは、しばしば異なる視覚的属性で区別される。 注目すべきことに、stable-diffusionのような公開テキスト-画像モデルにおけるクリップテキストエンコーダは、異なる視覚的属性にまたがる1つの因果状態しか含んでおらず、キャプション中の属性の最後の主題トークンに対応する最初のセルフアテンション層である。 これは、MLPの中間層である他の言語モデルにおける因果状態とは対照的である。 テキストエンコーダ内の1つの因果状態のみを観察することにより,テキスト対画像モデルの概念を効果的に編集できる高速でデータフリーなモデル編集手法diff-quickfixを提案する。 DiffQuickFixはクローズドフォームの更新でコンセプトを1秒未満で編集し、1000倍のスピードアップと既存の微調整ベースの編集方法に匹敵する編集性能を提供する。

Text-to-Image Diffusion Models such as Stable-Diffusion and Imagen have achieved unprecedented quality of photorealism with state-of-the-art FID scores on MS-COCO and other generation benchmarks. Given a caption, image generation requires fine-grained knowledge about attributes such as object structure, style, and viewpoint amongst others. Where does this information reside in text-to-image generative models? In our paper, we tackle this question and understand how knowledge corresponding to distinct visual attributes is stored in large-scale text-to-image diffusion models. We adapt Causal Mediation Analysis for text-to-image models and trace knowledge about distinct visual attributes to various (causal) components in the (i) UNet and (ii) text-encoder of the diffusion model. In particular, we show that unlike generative large-language models, knowledge about different attributes is not localized in isolated components, but is instead distributed amongst a set of components in the conditional UNet. These sets of components are often distinct for different visual attributes. Remarkably, we find that the CLIP text-encoder in public text-to-image models such as Stable-Diffusion contains only one causal state across different visual attributes, and this is the first self-attention layer corresponding to the last subject token of the attribute in the caption. This is in stark contrast to the causal states in other language models which are often the mid-MLP layers. Based on this observation of only one causal state in the text-encoder, we introduce a fast, data-free model editing method Diff-QuickFix which can effectively edit concepts in text-to-image models. DiffQuickFix can edit (ablate) concepts in under a second with a closed-form update, providing a significant 1000x speedup and comparable editing performance to existing fine-tuning based editing methods.
翻訳日:2023-10-25 05:49:38 公開日:2023-10-20
# トランスフォーマーネットワークを用いた皮膚病変分節のスケール間依存性モデリング

Inter-Scale Dependency Modeling for Skin Lesion Segmentation with Transformer-based Networks ( http://arxiv.org/abs/2310.13727v1 )

ライセンス: Link先を確認
Sania Eskandari, Janet Lumpp(参考訳) メラノーマは皮膚細胞の異常増殖によって引き起こされる皮膚がんの危険形態である。 U-Netアーキテクチャを含むFCN(Fully Convolutional Network)アプローチは、皮膚病変を自動的に分割して診断を支援する。 対称的U-Netモデルは優れた結果を示しているが、畳み込み操作を使用することで、正確な医用画像分割に不可欠な長距離依存を捕捉する能力が制限されている。 加えて、U字型構造はエンコーダとデコーダのセマンティックギャップに悩まされている。 そこで本研究では,エンコーダの各段の注意相関を利用して,各段からの文脈を適応的に結合して意味的ギャップを阻害し,皮膚病変分割のためのu字型階層的トランスフォーマ構造(iscf)を考案し,評価した。 皮膚病変セグメンテーションベンチマークの予備結果は,ISCFモジュールの適用性と有効性を支持した。

Melanoma is a dangerous form of skin cancer caused by the abnormal growth of skin cells. Fully Convolutional Network (FCN) approaches, including the U-Net architecture, can automatically segment skin lesions to aid diagnosis. The symmetrical U-Net model has shown outstanding results, but its use of a convolutional operation limits its ability to capture long-range dependencies, which are essential for accurate medical image segmentation. In addition, the U-shaped structure suffers from the semantic gaps between the encoder and decoder. In this study, we developed and evaluated a U-shaped hierarchical Transformer-based structure for skin lesion segmentation while we proposed an Inter-scale Context Fusion (ISCF) to utilize the attention correlations in each stage of the encoder to adaptively combine the contexts coming from each stage to hinder the semantic gaps. The preliminary results of the skin lesion segmentation benchmark endorse the applicability and efficacy of the ISCF module.
翻訳日:2023-10-25 05:49:03 公開日:2023-10-20
# 抗がん剤の優先順位改善のための造影学習による薬物および細胞株の発現増強

Enhancing drug and cell line representations via contrastive learning for improved anti-cancer drug prioritization ( http://arxiv.org/abs/2310.13725v1 )

ライセンス: Link先を確認
Patrick J. Lawrence and Xia Ning Ph.D(参考訳) がんの複雑な性質と治療に対する多様な反応により、オミクスシークエンス解析によって得られた精度オンコロジーがケアの現在の標準となっている。 しかし、各患者が生成するデータ量によって、最適な治療体制を素早く特定することは困難である。 さらに、データ可用性の制限は、有効なドラッグセルラインペアに関連するパターンを学習する計算方法の能力を妨げている。 本稿では,薬物の作用機構と細胞系がんに関連する関係構造を保存し,学習した薬物および細胞株の表現を改善するためのコントラスト学習の利用を提案する。 最先端の手法による性能向上に加えて,学習した表現を用いた分類器では,予測を行う際に薬物や細胞由来の特徴に依存する傾向がみられた。 これによりよりパーソナライズされた薬物の優先順位付けが促進され、薬物耐性に関連するシグナルによって通知される。

Due to cancer's complex nature and variable response to therapy, precision oncology informed by omics sequence analysis has become the current standard of care. However, the amount of data produced for each patients makes it difficult to quickly identify the best treatment regimen. Moreover, limited data availability has hindered computational methods' abilities to learn patterns associated with effective drug-cell line pairs. In this work, we propose the use of contrastive learning to improve learned drug and cell line representations by preserving relationship structures associated with drug mechanism of action and cell line cancer types. In addition to achieving enhanced performance relative to a state-of-the-art method, we find that classifiers using our learned representations exhibit a more balances reliance on drug- and cell line-derived features when making predictions. This facilitates more personalized drug prioritizations that are informed by signals related to drug resistance.
翻訳日:2023-10-25 05:48:46 公開日:2023-10-20
# サブクリティカルポテンシャルステップと粒子-反粒子解釈における動的支援対生成

Dynamically assisted pair production in subcritical potential step and particle--anti-particle interpretations ( http://arxiv.org/abs/2310.13435v1 )

ライセンス: Link先を確認
Makoto Ochiai(参考訳) 量子場理論の枠組み内の空間的に不均質な外部場における粒子非粒子解釈は、非自明な問題である。 本稿では, [Phys. D 93, 045002 (2016)] と [Prog. Exp. Phys. 2022, 073B02 (2022)] で確立された2つの解釈に注目し, どちらも真空不安定性とペア生成の一貫性のある結果を与える。 それらの違いを明らかにするため、弱く振動する電界を補助するポテンシャルステップの下でのペア生成について論じる。 真空崩壊に不十分なポテンシャルステップと振動場は、組み合わせることでペアを生成できることが示されている。 さらに、この2つの画像は、振動場の2次摂動において生成したペアの数に定量的な違いをもたらす。 その結果を数値シミュレーションや実験と比較することにより、正しい粒子反粒子解釈を検討する手がかりとなるかもしれない。

Particle--anti-particle interpretation under spatially inhomogeneous external fields within the framework of quantum field theory is a nontrivial problem. In this paper, we focus on the two interpretations established in [Phys. Rev. D 93, 045002 (2016)] and [Prog. Theor. Exp. Phys. 2022, 073B02 (2022)], both of which give consistent results of vacuum instability and pair production. To shed light on their differences, a pair production under a potential step assisted by a weak and oscillating electric field is discussed. It is shown that the potential step and the oscillating field, each insufficient for vacuum decay, can produce pairs when combined. In addition, the two pictures give rise to quantitative differences in the number of created pairs at the second-order perturbation of the oscillating field. It might provide a clue to investigate the correct particle--anti-particle interpretation by comparing the result with numerical simulations or experiments.
翻訳日:2023-10-25 05:47:10 公開日:2023-10-20
# キャリブレーション蒸留による要約モデルの抽象性向上

Enhancing Abstractiveness of Summarization Models through Calibrated Distillation ( http://arxiv.org/abs/2310.13760v1 )

ライセンス: Link先を確認
Hwanjun Song, Igor Shalyminov, Hang Su, Siffi Singh, Kaisheng Yao, Saab Mansour(参考訳) シーケンスレベルの知識蒸留は、より効率的な抽象要約のためにseq2seqモデルのサイズを減らす。 しかし、しばしば要約において抽象性が失われる。 本稿では,生成した要約のインフォメーション性(ルージュによる測定)を犠牲にすることなく,抽象性(n-gram重なりによる測定)のレベルを高めるために,discalという新しい手法を提案する。 DisCalは学生モデルに2つの監督を持つ多様な擬似要約を公開する。 第一に、最良の擬似要約は、抽象性と情報性の観点から識別され、シーケンスレベルの蒸留に用いられる。 第二に、それらのランクは、生徒モデルがより高いランクの要約に高い予測スコアを割り当てることを保証するために使用される。 実験の結果,DisCalは従来の抽象的要約蒸留法よりも優れており,抽象的かつ情報的な要約が得られていることがわかった。

Sequence-level knowledge distillation reduces the size of Seq2Seq models for more efficient abstractive summarization. However, it often leads to a loss of abstractiveness in summarization. In this paper, we propose a novel approach named DisCal to enhance the level of abstractiveness (measured by n-gram overlap) without sacrificing the informativeness (measured by ROUGE) of generated summaries. DisCal exposes diverse pseudo summaries with two supervision to the student model. Firstly, the best pseudo summary is identified in terms of abstractiveness and informativeness and used for sequence-level distillation. Secondly, their ranks are used to ensure the student model to assign higher prediction scores to summaries with higher ranks. Our experiments show that DisCal outperforms prior methods in abstractive summarization distillation, producing highly abstractive and informative summaries.
翻訳日:2023-10-25 05:41:04 公開日:2023-10-20
# 格子ゲージ理論の量子シミュレーションのための準最適状態準備

Nearly-optimal state preparation for quantum simulations of lattice gauge theories ( http://arxiv.org/abs/2310.13757v1 )

ライセンス: Link先を確認
Christopher F. Kane and Niladri Gomes and Michael Kreshchuk(参考訳) 単項行列に対する量子固有値変換(QETU)に基づく最近開発された基底状態生成アルゴリズムにいくつかの改良を加え,このアルゴリズムを2+1DのU(1)ゲージ理論の格子定式化に適用するとともに,ガウス分布の高効率化であるQETUの新たな応用を提案する。 QETU法は、初期の耐故障性デバイス上でのほぼ最適基底状態準備と基底状態エネルギー推定のためのアルゴリズムとして提案されている。 これは時間進化入力モデルを用いており、ハミルトン入力モデルに基づく同様のアルゴリズムで生じる漸近ゲートコストの全体的プレファクターを克服することができる。 本稿では,qetuアルゴリズムの修正を行い,時間発展回路の完全かつロータライズされた実装の場合のコストを大幅に削減する。 QETUを用いて、2次元のU(1)格子ゲージ理論の基底状態を作成し、所望の精度とシステムパラメータへの計算資源の依存を調査し、一般格子ゲージ理論への適用性について議論する。 また、qetu手法をガウス分布とウェーブパケットの合成に利用し、既存のアルゴリズムを最大$n_q > 2-3$ qubitsで上回らせる方法を示す。

We present several improvements to the recently developed ground state preparation algorithm based on the Quantum Eigenvalue Transformation for Unitary Matrices (QETU), apply this algorithm to a lattice formulation of U(1) gauge theory in 2+1D, as well as propose a novel application of QETU, a highly efficient preparation of Gaussian distributions. The QETU technique has been originally proposed as an algorithm for nearly-optimal ground state preparation and ground state energy estimation on early fault-tolerant devices. It uses the time-evolution input model, which can potentially overcome the large overall prefactor in the asymptotic gate cost arising in similar algorithms based on the Hamiltonian input model. We present modifications to the original QETU algorithm that significantly reduce the cost for the cases of both exact and Trotterized implementation of the time evolution circuit. We use QETU to prepare the ground state of a U(1) lattice gauge theory in 2 spatial dimensions, explore the dependence of computational resources on the desired precision and system parameters, and discuss the applicability of our results to general lattice gauge theories. We also demonstrate how the QETU technique can be utilized for preparing Gaussian distributions and wave packets in a way which outperforms existing algorithms for as little as $n_q > 2-3$ qubits.
翻訳日:2023-10-25 05:40:48 公開日:2023-10-20
# 複数のスケールで原子間ポテンシャルを学ぶ

Learning Interatomic Potentials at Multiple Scales ( http://arxiv.org/abs/2310.13756v1 )

ライセンス: Link先を確認
Xiang Fu, Albert Musaelian, Anders Johansson, Tommi Jaakkola, Boris Kozinsky(参考訳) 短時間のステップを使う必要性は、分子動力学(MD)シミュレーションの速度における重要な限界である。 古典ポテンシャルによって支配されるシミュレーションは、しばしば、より頻度の低い特定のポテンシャルエネルギー項を評価する多重時間ステップ積分器(MTS)を用いて加速される。 このアプローチは古典ポテンシャルの単純だが限定的な解析形式によって実現される。 機械学習の原子間ポテンシャル(mlip)、特に最近の等価ニューラルネットワークは、古典的ポテンシャルよりも広く適用でき、それらを訓練するのに使用される高価なが正確な参照電子構造計算を忠実に再現することができる。 しかし、それらは古典的ポテンシャルの項ごとのスケール分離が欠如しているため、単一短時間のステップを使用する必要がある。 本研究では,2つのMLIPを協調学習することにより,複雑な原子間相互作用のスケール分離を学習する手法を提案する。 最初は、小規模で効率的なモデルを訓練して、短時間の相互作用を再現する。 その後、大規模で表現力に富んだモデルが訓練され、小さなモデルで捉えられていない残りの相互作用を捉える。 mdを実行すると、mtsインテグレータはステップ毎に小さなモデルを評価し、より大きなモデルではより頻度の低いモデルでシミュレーションを加速する。 従来のMLIPと比較して,本手法はポテンシャルエネルギーやシミュレーションから得られた量の精度を損なうことなく,大幅なスピードアップ(実験では約3倍)を達成することができる。

The need to use a short time step is a key limit on the speed of molecular dynamics (MD) simulations. Simulations governed by classical potentials are often accelerated by using a multiple-time-step (MTS) integrator that evaluates certain potential energy terms that vary more slowly than others less frequently. This approach is enabled by the simple but limiting analytic forms of classical potentials. Machine learning interatomic potentials (MLIPs), in particular recent equivariant neural networks, are much more broadly applicable than classical potentials and can faithfully reproduce the expensive but accurate reference electronic structure calculations used to train them. They still, however, require the use of a single short time step, as they lack the inherent term-by-term scale separation of classical potentials. This work introduces a method to learn a scale separation in complex interatomic interactions by co-training two MLIPs. Initially, a small and efficient model is trained to reproduce short-time-scale interactions. Subsequently, a large and expressive model is trained jointly to capture the remaining interactions not captured by the small model. When running MD, the MTS integrator then evaluates the smaller model for every time step and the larger model less frequently, accelerating simulation. Compared to a conventionally trained MLIP, our approach can achieve a significant speedup (~3x in our experiments) without a loss of accuracy on the potential energy or simulation-derived quantities.
翻訳日:2023-10-25 05:40:25 公開日:2023-10-20
# 睡眠段階分類の評価 : 年齢と早期睡眠が分類性能に与える影響

Evaluating sleep-stage classification: how age and early-late sleep affects classification performance ( http://arxiv.org/abs/2310.13754v1 )

ライセンス: Link先を確認
Eugenia Moris and Ignacio Larrabide(参考訳) 睡眠ステージ分類(sleep stage classification)は、ヒトの睡眠の量と質を監視するために専門家が使用する一般的な方法であるが、時間消費と労働集約的な作業であり、オブザーバー間およびオブザーバー内変動性が高い。 特徴抽出にウェーブレット,分類にランダムフォレストを用い,自動睡眠段階分類法を求め評価した。 被験者の年齢と睡眠の瞬間(初夜と晩)は分類器のパフォーマンスと対立した。 本研究では,これらの変数が自動モデルの性能に影響を与え,睡眠段階の分類が改善し,他の変数が悪化することを示した。

Sleep stage classification is a common method used by experts to monitor the quantity and quality of sleep in humans, but it is a time-consuming and labour-intensive task with high inter- and intra-observer variability. Using Wavelets for feature extraction and Random Forest for classification, an automatic sleep-stage classification method was sought and assessed. The age of the subjects, as well as the moment of sleep (early-night and late-night), were confronted to the performance of the classifier. From this study, we observed that these variables do affect the automatic model performance, improving the classification of some sleep stages and worsening others.
翻訳日:2023-10-25 05:40:03 公開日:2023-10-20
# 基底状態形式を用いた励起状態ダウンフォールディング

Excited-State Downfolding Using Ground-State Formalisms ( http://arxiv.org/abs/2310.13752v1 )

ライセンス: Link先を確認
Nicholas P. Bauman(参考訳) ダウンフォールディング結合クラスタ(CC)技術は、多体量子問題の次元性を低減する強力なツールである。 本研究では、Aufbau参照行列式を用いて、基底状態のダウンフォールディング形式が励起状態をターゲットにする方法を考察し、励起状態化学における量子コンピューティングの応用の道を開く。 本研究は、正準運動方程式CCアプローチが高次二重励起を含まない限り、記述に苦慮する二重励起状態に焦点を当てる。 ダウンフォールディング法は、それぞれの活性空間で対角化されると、高レベルCC法に匹敵する基底状態および励起状態の総エネルギー(および励起エネルギー)を与える、州固有の実効ハミルトニアンをもたらす。 本法の性能は, h$_{2}$, メチレン, ホルムアルデヒド, ニトロキシールの二重励起状態を用いて検討した。

Downfolding coupled cluster (CC) techniques are powerful tools for reducing the dimensionality of many-body quantum problems. This work investigates how ground-state downfolding formalisms can target excited states using non-Aufbau reference determinants, paving the way for applications of quantum computing in excited-state chemistry. This study focuses on doubly excited states for which canonical equation-of-motion CC approaches struggle to describe unless one includes higher-than-double excitations. The downfolding technique results in state-specific effective Hamiltonians that, when diagonalized in their respective active spaces, provide ground- and excited-state total energies (and therefore excitation energies) comparable to high-level CC methods. The performance of this procedure is examined with doubly excited states of H$_{2}$, Methylene, Formaldehyde, and Nitroxyl.
翻訳日:2023-10-25 05:39:48 公開日:2023-10-20
# ALDi: テキストのアラビア方言のレベルを定量化

ALDi: Quantifying the Arabic Level of Dialectness of Text ( http://arxiv.org/abs/2310.13747v1 )

ライセンス: Link先を確認
Amr Keleg, Sharon Goldwater, Walid Magdy(参考訳) アラビア語で転写された音声とユーザー生成テキストは、典型的には現代の標準アラビア語(msa)と、学校で教えられた標準アラビア語(da)の混合を含んでいる。 この変化に対処するため、アラビア語のNLPにおける以前の研究は、文やトークンのレベルでの方言識別(DI)に焦点を当てていた。 しかし、DIはタスクをバイナリとして扱うのに対し、アラビア語話者は方言のスペクトルを知覚し、文レベルでは連続的な言語変数であるアラビア方言レベル(ALDi)として操作する。 aoc-aldiデータセット(aocデータセットから派生したもので、ニュース記事から127,835文(17%)、それらの記事に対するユーザーコメントから83%)を手作業でラベル付けしたデータセットである。 aoc-aldiの詳細な分析を行い、訓練されたモデルが他のコーパス(aoc-aldiに含まれない方言やジャンルを含む)の方言のレベルを効果的に識別できることを示し、従来のdiシステムよりもニュアンス的なイメージを提供する。 ケーススタディを通じて,aldiがアラビア語話者のスタイル選択を異なる状況で明らかにし,社会言語学的分析に有用であることを示す。

Transcribed speech and user-generated text in Arabic typically contain a mixture of Modern Standard Arabic (MSA), the standardized language taught in schools, and Dialectal Arabic (DA), used in daily communications. To handle this variation, previous work in Arabic NLP has focused on Dialect Identification (DI) on the sentence or the token level. However, DI treats the task as binary, whereas we argue that Arabic speakers perceive a spectrum of dialectness, which we operationalize at the sentence level as the Arabic Level of Dialectness (ALDi), a continuous linguistic variable. We introduce the AOC-ALDi dataset (derived from the AOC dataset), containing 127,835 sentences (17% from news articles and 83% from user comments on those articles) which are manually labeled with their level of dialectness. We provide a detailed analysis of AOC-ALDi and show that a model trained on it can effectively identify levels of dialectness on a range of other corpora (including dialects and genres not included in AOC-ALDi), providing a more nuanced picture than traditional DI systems. Through case studies, we illustrate how ALDi can reveal Arabic speakers' stylistic choices in different situations, a useful property for sociolinguistic analyses.
翻訳日:2023-10-25 05:39:32 公開日:2023-10-20
# FairBranch:Fairness Conflict Correction on Task-group Branchs for Fair Multi-Task Learning

FairBranch: Fairness Conflict Correction on Task-group Branches for Fair Multi-Task Learning ( http://arxiv.org/abs/2310.13746v1 )

ライセンス: Link先を確認
Arjun Roy, Christos Koutlis, Symeon Papadopoulos, Eirini Ntoutsi(参考訳) マルチタスク学習(MTL)の一般化能力は、非関係なタスクが相反する勾配で共有パラメータを更新することで互いに負の影響を与える場合に制限されるため、シングルタスク学習(STL)と比較して負の転送とMTLの精度の低下が生じる。 近年,MTLモデルの公平性に焦点が当てられ,個々のタスクの正確性と公平性の両方を最適化する必要がある。 負の移動が正確性にどのように影響するかと同様に、タスク固有の公正考慮は、共同学習されたタスク間で公正損失勾配の矛盾がある場合、他のタスクの公平性に悪影響を及ぼす可能性がある。 MTLにおける負と偏移の両方に対処するため、FairBranchと呼ばれる新しい手法を導入する。 fairbranchは学習パラメータの類似性を評価し、関連するタスクをグループ化して負の転送を緩和することでmtlモデルを分岐させる。 さらに、タスクグループ内のバイアス伝達に対処するために、隣接するタスクグループ間の公正損失勾配コンフリクト補正が組み込まれている。 表状および視覚的MTL問題に対する実験により、FairBranchは最先端のMTL手法を公平性と精度の両方の観点から超越していることが示された。

The generalization capacity of Multi-Task Learning (MTL) becomes limited when unrelated tasks negatively impact each other by updating shared parameters with conflicting gradients, resulting in negative transfer and a reduction in MTL accuracy compared to single-task learning (STL). Recently, there has been an increasing focus on the fairness of MTL models, necessitating the optimization of both accuracy and fairness for individual tasks. Similarly to how negative transfer affects accuracy, task-specific fairness considerations can adversely influence the fairness of other tasks when there is a conflict of fairness loss gradients among jointly learned tasks, termed bias transfer. To address both negative and bias transfer in MTL, we introduce a novel method called FairBranch. FairBranch branches the MTL model by assessing the similarity of learned parameters, grouping related tasks to mitigate negative transfer. Additionally, it incorporates fairness loss gradient conflict correction between adjoining task-group branches to address bias transfer within these task groups. Our experiments in tabular and visual MTL problems demonstrate that FairBranch surpasses state-of-the-art MTL methods in terms of both fairness and accuracy.
翻訳日:2023-10-25 05:39:08 公開日:2023-10-20
# non-hermitian off-diagonal disorderにおける局在

Localization with non-Hermitian off-diagonal disorder ( http://arxiv.org/abs/2310.13744v1 )

ライセンス: Link先を確認
Aitijhya Saha and Debraj Rakshit(参考訳) 本研究では,一次元一粒子強結合モデルを用いて記述された非エルミート系について論じる。非ハーミティシティは,左右ホッピング強度が不等であるような,ランダムに近接する近傍トンネルによって支配される。 完全にリアルな固有スペクトルの物理的状況は、共役近距離トンネル項の積の単純 \emph {sign conservation} の下でハミルトニアンの三対角行列構造によって生じる。 非対角性障害は非エルミート系を局在-非局在化遷移へと導く。 遷移の創発的性質は有限サイズのスペクトル解析によって認識される。 臨界性を特徴づけるために包括的スケーリング定理が開発される。 スケーリング指数を報告するために, 局所化長さ, 逆参加率, エネルギー分割を注意深く分析し, 従来のアンダーソン局在と異なることがわかった。

In this work we discuss a non-Hermitian system described via a one-dimensional single-particle tight-binding model, where the non-Hermiticity is governed by a random nearest-neighbor tunnellings, such that the left-to-right and right-to-left hopping strengths are unequal. A physical situation of completely real eigenspectrum arises owing to the Hamiltonian's tridiagonal matrix structure under a simple \emph {sign conservation} of the product of the conjugate nearest-neighbor tunnelling terms. The off-diagonal disorder leads the non-Hermitian system to a localization-delocalization transition. The emergent nature of the transition is recognized through a finite-size spectral analysis. A comprehensive scaling theorem is then developed for characterizing the criticality. We perform careful analysis of localization length, inverse participation ratio, and energy splitting for reporting the scaling exponents, which turns out to be different from the ones in the conventional Anderson localization.
翻訳日:2023-10-25 05:38:43 公開日:2023-10-20
# 複合粒子の散乱シミュレーション

Simulating Scattering of Composite Particles ( http://arxiv.org/abs/2310.13742v1 )

ライセンス: Link先を確認
Michael Kreshchuk James P. Vary, Peter J. Love(参考訳) 我々は、古典的および量子コンピュータ上での散乱をシミュレーションする非摂動的アプローチを開発し、初期状態と最終状態は一定数の複合粒子を含む。 この構造は、2つの複合粒子が接触する粒子衝突を模倣するように設計されている。 初期状態は、真空から相互作用理論の固有状態を生成する作用素の連続的適用によって組み立てられる。 これらの作用素はm{\o}ller波作用素(英語版)の助けを借りて定義され、断熱状態準備や二重整流流方程式のような手法で構成することができる。 このアプローチは、相対論的および非相対論的設定の両方において強結合系を研究するのに適している。 相対論的系では、個々の境界状態の性質の研究や外部場における散乱のシミュレーションに従来用いられてきた光前量子化の言語が用いられ、現在では境界状態系の散乱研究に採用されている。 古典計算機上でのシミュレーションでは、運動量グリッドサイズが指数関数的なコスト(メモリと時間)を持つ散乱確率を正確に(離散化理論の意味で)計算するアルゴリズムを記述する。 このような計算はそれ自体が興味深いもので、開発されたフレームワークの主要な応用である量子シミュレーションアルゴリズムのベンチマーク結果に使用できる。 私たちは、$\phi^4$理論を1+1\rm d$で適用してアイデアを説明します。

We develop a non-perturbative approach to simulating scattering on classical and quantum computers, in which the initial and final states contain a fixed number of composite particles. The construction is designed to mimic a particle collision, wherein two composite particles are brought in contact. The initial states are assembled via consecutive application of operators creating eigenstates of the interacting theory from vacuum. These operators are defined with the aid of the M{\o}ller wave operator, which can be constructed using such methods as adiabatic state preparation or double commutator flow equation. The approach is well-suited for studying strongly coupled systems in both relativistic and non-relativistic settings. For relativistic systems, we employ the language of light-front quantization, which has been previously used for studying the properties of individual bound states, as well as for simulating their scattering in external fields, and is now adopted to the studies of scattering of bound state systems. For simulations on classical computers, we describe an algorithm for calculating exact (in the sense of a given discretized theory) scattering probabilities, which has cost (memory and time) exponential in momentum grid size. Such calculations may be interesting in their own right and can be used for benchmarking results of a quantum simulation algorithm, which is the main application of the developed framework. We illustrate our ideas with an application to the $\phi^4$ theory in $1+1\rm D$.
翻訳日:2023-10-25 05:38:31 公開日:2023-10-20
# 深層学習に基づく無線周波数サイドチャネル攻撃による量子鍵分布

Deep-Learning-Based Radio-Frequency Side-Channel Attack on Quantum Key Distribution ( http://arxiv.org/abs/2310.13738v1 )

ライセンス: Link先を確認
Adomas Baliuka and Markus St\"ocker and Michael Auer and Peter Freiwang and Harald Weinfurter and Lukas Knips(参考訳) qkd (quantum key distribution) プロトコルは基本的な物理法則に基づいてセキュアであることが証明されているが、証明は送信された量子信号の設定と符号化を十分に定義している。 符号化された量子状態が量子チャネルの他の自由度の性質と相関しているサイドチャネルは、盗聴者が量子チャネルに対する多くのハッキング攻撃で示されるように、無意味な情報を得ることができる。 しかし、デバイスから放出される古典的な放射は相関しており、特に新しいデータ分析法と組み合わせると、潜在的な鍵に関する情報が漏れる可能性がある。 ここでは、深部畳み込みニューラルネットワークを用いて、記録された古典的高周波電磁放射を分析するサイドチャネル攻撃を実証する。 頻繁に使用される電子部品を使用するQKD送信機の電子部品から数センチ離れたところでも、秘密鍵に関するほぼすべての情報を復元することができる。 しかし、ここで述べたように、対策により、エミッションと攻撃者に流出した秘密鍵情報の量の両方を大幅に削減できる。 解析手法は実際の装置とは独立であり、QKDデバイスにおける古典的なサイドチャネルの存在を評価する出発点となる。

Quantum key distribution (QKD) protocols are proven secure based on fundamental physical laws, however, the proofs consider a well-defined setting and encoding of the sent quantum signals only. Side channels, where the encoded quantum state is correlated with properties of other degrees of freedom of the quantum channel, allow an eavesdropper to obtain information unnoticeably as demonstrated in a number of hacking attacks on the quantum channel. Yet, also classical radiation emitted by the devices may be correlated, leaking information on the potential key, especially when combined with novel data analysis methods. We here demonstrate a side-channel attack using a deep convolutional neural network to analyze the recorded classical, radio-frequency electromagnetic emissions. Even at a distance of a few centimeters from the electronics of a QKD sender employing frequently used electronic components we are able to recover virtually all information about the secret key. Yet, as shown here, countermeasures can enable a significant reduction of both the emissions and the amount of secret key information leaked to the attacker. Our analysis methods are independent of the actual device and thus provide a starting point for assessing the presence of classical side channels in QKD devices.
翻訳日:2023-10-25 05:38:09 公開日:2023-10-20
# 機械学習モデルにおけるメンバーシップ推論攻撃の基本限界

Fundamental Limits of Membership Inference Attacks on Machine Learning Models ( http://arxiv.org/abs/2310.13786v1 )

ライセンス: Link先を確認
Eric Aubinais, Elisabeth Gassiat, Pablo Piantanida(参考訳) メンバーシップ推論攻撃(MIA)は、特定のデータポイントがトレーニングデータセットの一部であったかどうかを明らかにすることができる。 本稿では、機械学習モデルにおけるMIAに関連する基本的な統計的制限について考察する。 より正確には、このような攻撃の有効性と成功を左右する統計量を導出する。 そこで,本研究では,この関心の量に限界を与えるいくつかの状況について検討する。 これにより、サンプル数と学習モデルの他の構造パラメータの関数として潜在的攻撃の精度を推測することが可能となり、場合によってはデータセットから直接推定することができる。

Membership inference attacks (MIA) can reveal whether a particular data point was part of the training dataset, potentially exposing sensitive information about individuals. This article explores the fundamental statistical limitations associated with MIAs on machine learning models. More precisely, we first derive the statistical quantity that governs the effectiveness and success of such attacks. Then, we investigate several situations for which we provide bounds on this quantity of interest. This allows us to infer the accuracy of potential attacks as a function of the number of samples and other structural parameters of learning models, which in some cases can be directly estimated from the dataset.
翻訳日:2023-10-25 05:29:20 公開日:2023-10-20
# 逆摂動OpenGLシェーダ画像を用いたデータフリー知識蒸留

Data-Free Knowledge Distillation Using Adversarially Perturbed OpenGL Shader Images ( http://arxiv.org/abs/2310.13782v1 )

ライセンス: Link先を確認
Logan Frank and Jim Davis(参考訳) 知識蒸留(KD)はモデル圧縮の一般的かつ効果的な方法である。 KDの重要な前提のひとつは、オリジナルのトレーニングデータセットが常に利用できることだ。 しかし、プライバシーの懸念などにより、これは必ずしもそうではない。 近年、データのないKDは、データが提供されていない場合のKDの実行シナリオに焦点を当てた研究トピックとして発展しつつある。 多くの方法は、蒸留の例を合成するためにジェネレータネットワークに依存しており(訓練が難しい)、元のデータセットと視覚的に類似したイメージを頻繁に生成することができる。 本研究では,不自然なOpenGL画像と大量のデータ拡張と敵対的攻撃を組み合わせることで,学生ネットワークをトレーニングする,データフリーなKDの新しいアプローチを提案する。 提案手法は, 各種データセット/ネットワークの最先端化を実現し, 既存のジェネレータベースのデータフリーKD法よりも安定であることを示す。 ソースコードは将来的に提供される予定だ。

Knowledge distillation (KD) has been a popular and effective method for model compression. One important assumption of KD is that the original training dataset is always available. However, this is not always the case due to privacy concerns and more. In recent years, "data-free" KD has emerged as a growing research topic which focuses on the scenario of performing KD when no data is provided. Many methods rely on a generator network to synthesize examples for distillation (which can be difficult to train) and can frequently produce images that are visually similar to the original dataset, which raises questions surrounding whether privacy is completely preserved. In this work, we propose a new approach to data-free KD that utilizes unnatural OpenGL images, combined with large amounts of data augmentation and adversarial attacks, to train a student network. We demonstrate that our approach achieves state-of-the-art results for a variety of datasets/networks and is more stable than existing generator-based data-free KD methods. Source code will be available in the future.
翻訳日:2023-10-25 05:29:11 公開日:2023-10-20
# 正確さはどれくらいの価値があるか?

How Much Consistency Is Your Accuracy Worth? ( http://arxiv.org/abs/2310.13781v1 )

ライセンス: Link先を確認
Jacob K. Johnson and Ana Marasovi\'c(参考訳) コントラストセット一貫性(con contrast set consistency)は、モデルがすべてのインスタンスに対して、同じ知識に依存する最小限の異なる例のバンドルで正しく応答する速度を評価するロバストネス測定である。 より詳細な知見を得るため、我々は相対的整合性(英語版)と整合性(英語版)を補完することを提案する。 100%相対一貫性を持つモデルは、その精度で一貫性のピークに達した。 コントラストセットにおける一貫性を報告した先行研究を考察し、相対的一貫性がモデルの一貫性の評価を他のものと比較し得ることを観察する。 我々は,モデルにおける一貫した行動を促進することを目的とした将来の研究に,提案する計測と洞察が影響を与えることを期待する。

Contrast set consistency is a robustness measurement that evaluates the rate at which a model correctly responds to all instances in a bundle of minimally different examples relying on the same knowledge. To draw additional insights, we propose to complement consistency with relative consistency -- the probability that an equally accurate model would surpass the consistency of the proposed model, given a distribution over possible consistencies. Models with 100% relative consistency have reached a consistency peak for their accuracy. We reflect on prior work that reports consistency in contrast sets and observe that relative consistency can alter the assessment of a model's consistency compared to another. We anticipate that our proposed measurement and insights will influence future studies aiming to promote consistent behavior in models.
翻訳日:2023-10-25 05:28:53 公開日:2023-10-20
# Seq2seqは、Coreferenceの解決に必要なすべて

Seq2seq is All You Need for Coreference Resolution ( http://arxiv.org/abs/2310.13774v1 )

ライセンス: Link先を確認
Wenzheng Zhang, Sam Wiseman, Karl Stratos(参考訳) コリファレンス解決に関する既存の研究は、最先端のパフォーマンスを達成するにはタスク固有のモデルが必要であることを示唆している。 本研究では,そのようなモデルが不要であることを示す。 トレーニング済みのseq2seq変換器を微調整し、コア参照アノテーションを符号化したタグ付きシーケンスに入力文書をマッピングする。 極端な単純さにもかかわらず、我々のモデルはデータセットの配列上の文献における最良のコリファレンスシステムよりも優れています。 また,特に単純なseq2seqアプローチを提案し,元のテキストとインターリーブされたスパンではなく,タグ付きスパンのみを生成する。 分析の結果,モデルサイズ,監督の量,シーケンス表現の選択が性能の重要な要因であることがわかった。

Existing works on coreference resolution suggest that task-specific models are necessary to achieve state-of-the-art performance. In this work, we present compelling evidence that such models are not necessary. We finetune a pretrained seq2seq transformer to map an input document to a tagged sequence encoding the coreference annotation. Despite the extreme simplicity, our model outperforms or closely matches the best coreference systems in the literature on an array of datasets. We also propose an especially simple seq2seq approach that generates only tagged spans rather than the spans interleaved with the original text. Our analysis shows that the model size, the amount of supervision, and the choice of sequence representations are key factors in performance.
翻訳日:2023-10-25 05:28:40 公開日:2023-10-20
# TexFusion:テキストガイド画像拡散モデルによる3次元テクスチャの合成

TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion Models ( http://arxiv.org/abs/2310.13772v1 )

ライセンス: Link先を確認
Tianshi Cao, Karsten Kreis, Sanja Fidler, Nicholas Sharp, Kangxue Yin(参考訳) 大規模テキスト誘導画像拡散モデルを用いて,テクスチャを合成するテクスチャ合成手法であるテクスチャ拡散(テクスチャ拡散)を提案する。 TexFusionは2次元テキスト・画像拡散モデルを用いて、遅くて脆弱な最適化プロセスを用いて3次元オブジェクトを蒸留する最近の研究とは対照的に、異なる2次元描画ビューで正規拡散モデルサンプリングを利用するテクスチャ合成に特化した新しい3D一貫性生成技術を導入している。 具体的には, 潜在拡散モデルを利用し, 拡散モデルのデノイザーを3dオブジェクトの2次元レンダリングの集合に適用し, 共有潜在テクスチャマップ上で異なるデノイジング予測を集約する。 最終出力RGBテクスチャは、潜伏テクスチャの2Dレンダリングの復号に中間的なニューラルカラーフィールドを最適化することにより生成される。 我々は、TexFusionを徹底的に検証し、多様で高品質でグローバルなコヒーレントなテクスチャを効率的に生成できることを示します。 従来の蒸留方式の落とし穴を回避しつつ, 画像拡散モデルのみを用いたテクスチャ合成性能を実現する。 テキストコンディショニングは詳細なコントロールを提供しており、トレーニングの基盤となる3dテクスチャに依存していません。 これにより,本手法は多種多様な幾何学やテクスチャタイプに適用可能である。 TexFusionは、仮想現実、ゲームデザイン、シミュレーションなどのアプリケーションのための、AIベースの3Dアセットのテクスチャ化を前進させることを期待しています。

We present TexFusion (Texture Diffusion), a new method to synthesize textures for given 3D geometries, using large-scale text-guided image diffusion models. In contrast to recent works that leverage 2D text-to-image diffusion models to distill 3D objects using a slow and fragile optimization process, TexFusion introduces a new 3D-consistent generation technique specifically designed for texture synthesis that employs regular diffusion model sampling on different 2D rendered views. Specifically, we leverage latent diffusion models, apply the diffusion model's denoiser on a set of 2D renders of the 3D object, and aggregate the different denoising predictions on a shared latent texture map. Final output RGB textures are produced by optimizing an intermediate neural color field on the decodings of 2D renders of the latent texture. We thoroughly validate TexFusion and show that we can efficiently generate diverse, high quality and globally coherent textures. We achieve state-of-the-art text-guided texture synthesis performance using only image diffusion models, while avoiding the pitfalls of previous distillation-based methods. The text-conditioning offers detailed control and we also do not rely on any ground truth 3D textures for training. This makes our method versatile and applicable to a broad range of geometry and texture types. We hope that TexFusion will advance AI-based texturing of 3D assets for applications in virtual reality, game design, simulation, and more.
翻訳日:2023-10-25 05:28:28 公開日:2023-10-20
# 著作権侵害と大規模言語モデル

Copyright Violations and Large Language Models ( http://arxiv.org/abs/2310.13771v1 )

ライセンス: Link先を確認
Antonia Karamolegkou, Jiaang Li, Li Zhou, Anders S{\o}gaard(参考訳) 言語モデルは、トレーニング中に見られるテキスト全体を含む、単なる事実以上のことを記憶することができる。 著作権法に対する公正な使用除外は、典型的には、著作権所有者の許可なく著作権物質の使用を制限するが、典型的には、複製ではなく、著作権物質から情報を抽出する。 本研究は,著作権文書の再配布に焦点をあて,冗長記憶のレンズを通して,著作権侵害や大規模言語モデルの問題を探る。 そこで,本研究では,人気書籍の集成やコーディング問題に対する言語モデルを用いた実験を行い,言語モデルがそれらの資料を再分配できる程度を保守的に評価する。 本研究は,著作権規制の遵守を確実にするために,自然言語処理のさらなる検討の必要性と今後の発展への潜在的影響を強調した。 コードは \url{https://github.com/coastalcph/CopyrightLLMs} にある。

Language models may memorize more than just facts, including entire chunks of texts seen during training. Fair use exemptions to copyright laws typically allow for limited use of copyrighted material without permission from the copyright holder, but typically for extraction of information from copyrighted materials, rather than {\em verbatim} reproduction. This work explores the issue of copyright violations and large language models through the lens of verbatim memorization, focusing on possible redistribution of copyrighted text. We present experiments with a range of language models over a collection of popular books and coding problems, providing a conservative characterization of the extent to which language models can redistribute these materials. Overall, this research highlights the need for further examination and the potential impact on future developments in natural language processing to ensure adherence to copyright regulations. Code is at \url{https://github.com/coastalcph/CopyrightLLMs}.
翻訳日:2023-10-25 05:28:00 公開日:2023-10-20
# DNAエンコードライブラリーの構成的深層確率モデル

Compositional Deep Probabilistic Models of DNA Encoded Libraries ( http://arxiv.org/abs/2310.13769v1 )

ライセンス: Link先を確認
Benson Chen, Mohammad M. Sultan, Theofanis Karaletsos(参考訳) DNAエンコードライブラリー(DEL)は、組み合わされた小さな分子を利用して高効率なスクリーニングを行う強力なツールであることが証明されている。 これらの選択実験は、複数の段階の洗浄、溶出、特異なDNAバーコードによる強力なバインダーの同定を含むが、しばしば複雑なデータを生成する。 この複雑さは、基礎となる信号を隠蔽し、貴重な洞察を明らかにするために機械学習のような計算ツールを適用する必要がある可能性がある。 分子表現をモノシンソン, ジシンソン, トリシンソン構造ブロックに分解し, 組込みシンソン間の潜在反応をモデル化することにより, これらの分子の固有の階層構造を付加するDELデータ合成モデルDEL-Composeを導入する。 さらに,データノイズをより効果的に考慮するための共変量要素の統合など,delカウントデータの観測モデルを改善する手法について検討する。 一般的な2つのベンチマークデータセット (CA-IX と HRP) にわたって,本モデルでは,基準値と比較して高い性能を示し,正しい薬局網を充実させ,本質的な解釈可能な構造を通じて貴重な洞察を提供し,DELデータ解析のための堅牢なツールを提供する。

DNA-Encoded Library (DEL) has proven to be a powerful tool that utilizes combinatorially constructed small molecules to facilitate highly-efficient screening assays. These selection experiments, involving multiple stages of washing, elution, and identification of potent binders via unique DNA barcodes, often generate complex data. This complexity can potentially mask the underlying signals, necessitating the application of computational tools such as machine learning to uncover valuable insights. We introduce a compositional deep probabilistic model of DEL data, DEL-Compose, which decomposes molecular representations into their mono-synthon, di-synthon, and tri-synthon building blocks and capitalizes on the inherent hierarchical structure of these molecules by modeling latent reactions between embedded synthons. Additionally, we investigate methods to improve the observation models for DEL count data such as integrating covariate factors to more effectively account for data noise. Across two popular public benchmark datasets (CA-IX and HRP), our model demonstrates strong performance compared to count baselines, enriches the correct pharmacophores, and offers valuable insights via its intrinsic interpretable structure, thereby providing a robust tool for the analysis of DEL data.
翻訳日:2023-10-25 05:27:44 公開日:2023-10-20
# PACE:Wildビデオからの人間とカメラのモーション推定

PACE: Human and Camera Motion Estimation from in-the-wild Videos ( http://arxiv.org/abs/2310.13768v1 )

ライセンス: Link先を確認
Muhammed Kocabas, Ye Yuan, Pavlo Molchanov, Yunrong Guo, Michael J. Black, Otmar Hilliges, Jan Kautz, Umar Iqbal(参考訳) 移動カメラから全球シーンにおける人間の動きを推定する手法を提案する。 これは、ビデオ中の人間とカメラの動きが混ざり合っているため、非常に難しい作業である。 この問題に対処するために,前景の人間の動きと背景のシーン特徴の両方を用いて,人間とカメラの動きをアンハングリングする共同最適化フレームワークを提案する。 SLAMを初期化として使用する既存の方法とは異なり、バンドル調整にインスパイアされた最適化において、SLAMと人間の動作先を密に統合することを提案する。 具体的には、観察された人間のポーズとシーンの特徴に合うように、人間とカメラの動作を最適化する。 この設計はSLAMとモーション先行の強度を組み合わせることで、人間とカメラのモーション推定を大幅に改善する。 さらに、バッチ最適化に適したモーションプリファレンスを導入し、既存のアプローチよりもはるかに効率的にしています。 最後に,動的ビデオからの人間の動きに加えて,カメラの動きを評価する新しい合成データセットを提案する。 合成データと実世界のリッチデータセットの実験は、人間の動きとカメラの動きの両方を復元する先行技術を大きく上回っていることを示している。

We present a method to estimate human motion in a global scene from moving cameras. This is a highly challenging task due to the coupling of human and camera motions in the video. To address this problem, we propose a joint optimization framework that disentangles human and camera motions using both foreground human motion priors and background scene features. Unlike existing methods that use SLAM as initialization, we propose to tightly integrate SLAM and human motion priors in an optimization that is inspired by bundle adjustment. Specifically, we optimize human and camera motions to match both the observed human pose and scene features. This design combines the strengths of SLAM and motion priors, which leads to significant improvements in human and camera motion estimation. We additionally introduce a motion prior that is suitable for batch optimization, making our approach significantly more efficient than existing approaches. Finally, we propose a novel synthetic dataset that enables evaluating camera motion in addition to human motion from dynamic videos. Experiments on the synthetic and real-world RICH datasets demonstrate that our approach substantially outperforms prior art in recovering both human and camera motions.
翻訳日:2023-10-25 05:27:20 公開日:2023-10-20
# 医学におけるグラフAI

Graph AI in Medicine ( http://arxiv.org/abs/2310.13767v1 )

ライセンス: Link先を確認
Ruth Johnson, Michelle M. Li, Ayush Noori, Owen Queen, Marinka Zitnik(参考訳) 臨床人工知能(AI)では、グラフ表現学習は、主にグラフニューラルネットワーク(GNN)を通して、構造化された臨床データセット内の複雑な関係を捉える能力で際立っている。 患者記録から画像まで、さまざまなデータによって、GNNは、関係によって相互に接続されたノードとして、モダリティを視聴することで、データを一様に処理する。 graph aiは、臨床タスク間のモデル転送を促進し、追加パラメータや最小限の再トレーニングなしで、患者集団をまたがるモデルを一般化する。 しかし, 臨床意思決定における人間中心設計とモデル解釈の重要性は誇張できない。 グラフAIモデルは、グラフ関係で定義された局所的なニューラルネットワーク変換を通じて情報をキャプチャするので、モデル論理を解明する機会と課題の両方を提供する。 知識グラフは、モデル駆動の洞察と医療知識を一致させることで、解釈可能性を高めることができる。 新興グラフモデルは、事前トレーニングを通じて多様なデータモダリティを統合し、インタラクティブなフィードバックループを促進し、ヒトとAIのコラボレーションを促進する。

In clinical artificial intelligence (AI), graph representation learning, mainly through graph neural networks (GNNs), stands out for its capability to capture intricate relationships within structured clinical datasets. With diverse data -- from patient records to imaging -- GNNs process data holistically by viewing modalities as nodes interconnected by their relationships. Graph AI facilitates model transfer across clinical tasks, enabling models to generalize across patient populations without additional parameters or minimal re-training. However, the importance of human-centered design and model interpretability in clinical decision-making cannot be overstated. Since graph AI models capture information through localized neural transformations defined on graph relationships, they offer both an opportunity and a challenge in elucidating model rationale. Knowledge graphs can enhance interpretability by aligning model-driven insights with medical knowledge. Emerging graph models integrate diverse data modalities through pre-training, facilitate interactive feedback loops, and foster human-AI collaboration, paving the way to clinically meaningful predictions.
翻訳日:2023-10-25 05:27:01 公開日:2023-10-20
# u-bev:ハイトアウェアバードズ・アイビューセグメンテーションとニューラルマップに基づく再局在化

U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization ( http://arxiv.org/abs/2310.13766v1 )

ライセンス: Link先を確認
Andrea Boscolo Camiletto, Alfredo Bochicchio, Alexander Liniger, Dengxin Dai, Abel Gawel(参考訳) GPS受信が不十分な場合やセンサによるローカライゼーションが失敗する場合、インテリジェントな車両には効率的な再ローカライゼーションが不可欠である。 近年のBird's-Eye-View (BEV)セグメンテーションの進歩により、局所的な景観の正確な推定が可能となり、車両の再位置化の恩恵を受けることができる。 しかし、BEV手法の欠点の1つは、幾何学的制約を利用するのに必要な重い計算である。 本稿では,u-netにインスパイアされたu-bevについて述べる。このu-bevは,bevの特徴をフラット化する前に,bevが複数の高さ層でシーンを判断できるようにすることにより,現在の最先端の技術を拡張したものである。 この拡張により、U-BEVの性能は最大4.11IoU向上する。 さらに、エンコードされたneural bevと微分可能なテンプレートマッチングを組み合わせることで、neural sd-mapデータ上で再ローカライズを行う。 モデルは完全にエンドツーエンドのトレーニングが可能で、同様の計算複雑性を持つトランスフォーマーベースのBEV手法を1.7から2.8mIoUで、BEVベースの再ローカライゼーションを26%以上向上させる。

Efficient relocalization is essential for intelligent vehicles when GPS reception is insufficient or sensor-based localization fails. Recent advances in Bird's-Eye-View (BEV) segmentation allow for accurate estimation of local scene appearance and in turn, can benefit the relocalization of the vehicle. However, one downside of BEV methods is the heavy computation required to leverage the geometric constraints. This paper presents U-BEV, a U-Net inspired architecture that extends the current state-of-the-art by allowing the BEV to reason about the scene on multiple height layers before flattening the BEV features. We show that this extension boosts the performance of the U-BEV by up to 4.11 IoU. Additionally, we combine the encoded neural BEV with a differentiable template matcher to perform relocalization on neural SD-map data. The model is fully end-to-end trainable and outperforms transformer-based BEV methods of similar computational complexity by 1.7 to 2.8 mIoU and BEV-based relocalization by over 26% Recall Accuracy on the nuScenes dataset.
翻訳日:2023-10-25 05:26:44 公開日:2023-10-20
# シリコンT中心からのキャビティ増強放出

Cavity enhanced emission from a silicon T center ( http://arxiv.org/abs/2310.13808v1 )

ライセンス: Link先を確認
Fariba Islam, Chang-Min Lee, Samuel Harper, Mohammad Habibur Rahaman, Yuqi Zhao, Neelesh Kumar Vij, and Edo Waks(参考訳) シリコンT中心は、全シリコンデバイスで光学活性なスピン量子ビットを生成する可能性を示す。 しかしながら、これらの色中心は長い励起状態寿命と低いデバイ・ウォラー因子を示し、低効率でゼロフォノン線に放出される。 ナノフォトニックキャビティはパーセル効果を通じてゼロフォノン線への放射放出を増強することでこの問題を解決することができる。 本研究は,ナノフォトニックキャビティにおける単一T中心からのキャビティ強調放出を示す。 導波管結合エミッタに対するゼロフォノン線の輝度の2次増加、エミッタからファイバへの収集効率の23%、ゼロフォノン線への総発光効率の63.4%を実現した。 また,フォノン側バンドへの放射を補正する際には,Purcell因子が18を超える5の寿命延長も観察した。 これらの結果は、シリコンフォトニクスにおける効率的なスピン光子界面への道を開く。

Silicon T centers present the promising possibility to generate optically active spin qubits in an all-silicon device. However, these color centers exhibit long excited state lifetimes and a low Debye-Waller factor, making them dim emitters with low efficiency into the zero-phonon line. Nanophotonic cavities can solve this problem by enhancing radiative emission into the zero-phonon line through the Purcell effect. In this work we demonstrate cavity-enhanced emission from a single T center in a nanophotonic cavity. We achieve a two-orders of magnitude increase in brightness of the zero-phonon line relative to waveguide-coupled emitters, a 23% collection efficiency from emitter to fiber, and an overall emission efficiency into the zero-phonon line of 63.4%. We also observe a lifetime enhancement of 5, corresponding to a Purcell factor exceeding 18 when correcting for the emission to the phonon sideband. These results pave the way towards efficient spin-photon interfaces in silicon photonics.
翻訳日:2023-10-25 05:21:38 公開日:2023-10-20
# テスト時間で学ぶ)ことを学ぶ

Learning to (Learn at Test Time) ( http://arxiv.org/abs/2310.13807v1 )

ライセンス: Link先を確認
Yu Sun, Xinhao Li, Karan Dalal, Chloe Hsu, Sanmi Koyejo, Carlos Guestrin, Xiaolong Wang, Tatsunori Hashimoto, Xinlei Chen(参考訳) 2つのネストループ(学習問題)で学習する学習として教師あり学習の問題を再構築する。 内ループは最終予測の前に各インスタンスで自己スーパービジョンで学習する。 外ループは、内部ループが使用する自己監督タスクを学習し、最終的な予測が改善する。 私たちの内ループは、内ループ学習者が線形モデルのみである場合の線形注意と、カーネル推定子である場合の自己アテンションと等価であることが判明した。 リニア層やセルフアテンション層と比較すると、トランスフォーマーの各層をインナーループに置き換えるので、アウターループはアーキテクチャのトレーニングに相当します。 インナーループ学習者がニューラルネットワークである場合、我々のアプローチは、224 x 224の原画素からFLOPの精度で画像ネットに線形注意を払ってトランスフォーマーをはるかに上回り、(正規の)トランスフォーマーは実行できない。

We reformulate the problem of supervised learning as learning to learn with two nested loops (i.e. learning problems). The inner loop learns on each individual instance with self-supervision before final prediction. The outer loop learns the self-supervised task used by the inner loop, such that its final prediction improves. Our inner loop turns out to be equivalent to linear attention when the inner-loop learner is only a linear model, and to self-attention when it is a kernel estimator. For practical comparison with linear or self-attention layers, we replace each of them in a transformer with an inner loop, so our outer loop is equivalent to training the architecture. When each inner-loop learner is a neural network, our approach vastly outperforms transformers with linear attention on ImageNet from 224 x 224 raw pixels in both accuracy and FLOPs, while (regular) transformers cannot run.
翻訳日:2023-10-25 05:21:22 公開日:2023-10-20
# RoseNet:ディープラーニングを用いたダブルインデル変異体のエネルギーメトリック予測

RoseNet: Predicting Energy Metrics of Double InDel Mutants Using Deep Learning ( http://arxiv.org/abs/2310.13806v1 )

ライセンス: Link先を確認
Sarah Coffland and Katie Christensen and Filip Jagodzinski and Brian Hutchinson(参考訳) アミノ酸の挿入または欠失(InDel)は、タンパク質の構造に深く、様々な機能的影響をもたらす。 例えば膜膜伝導性調節タンパク質のindel変異は嚢胞性線維化を引き起こす。 残念なことに、インデル変異を物理タンパク質に作用させ、その効果を研究することは、時間のかかる過程である。 したがって、計算的にモデリングインデルはウェットラボの実験を補い、知らせることができる。 本研究では,ロボティクスに触発された逆キネマティックスアプローチを用いて計算により生成した3つのタンパク質について,徹底的な二重インデル変異のデータセットを用いた。 我々は,ミュータント生成プロセス中にRosettaが出力するいくつかの構造的およびエネルギー的指標に基づいて,ニューラルネットワークであるRoseNetを開発し,訓練する。 深層学習手法を用いて,RoseNetが網羅的なデータセットをエミュレートする方法を探索し,また2つのInDelsを持つ未確認ミュータントシーケンスに対して,Rosettaメトリクスをどの程度予測できるかを示す。 RoseNetは、最大のタンパク質に対する全てのロゼッタスコアに対してピアソン相関係数の平均精度を0.775とする。 さらに、算出された突然変異体の構造スコアを正確にエミュレートするために必要なデータ量を決定するための感度解析を行う。 モデルが最小限のデータ(<50%)でトレーニングでき、高い精度を維持していることを示す。

An amino acid insertion or deletion, or InDel, can have profound and varying functional impacts on a protein's structure. InDel mutations in the transmembrane conductor regulator protein for example give rise to cystic fibrosis. Unfortunately performing InDel mutations on physical proteins and studying their effects is a time prohibitive process. Consequently, modeling InDels computationally can supplement and inform wet lab experiments. In this work, we make use of our data sets of exhaustive double InDel mutations for three proteins which we computationally generated using a robotics inspired inverse kinematics approach available in Rosetta. We develop and train a neural network, RoseNet, on several structural and energetic metrics output by Rosetta during the mutant generation process. We explore and present how RoseNet is able to emulate the exhaustive data set using deep learning methods, and show to what extent it can predict Rosetta metrics for unseen mutant sequences with two InDels. RoseNet achieves a Pearson correlation coefficient median accuracy of 0.775 over all Rosetta scores for the largest protein. Furthermore, a sensitivity analysis is performed to determine the necessary quantity of data required to accurately emulate the structural scores for computationally generated mutants. We show that the model can be trained on minimal data (<50%) and still retain a high level of accuracy.
翻訳日:2023-10-25 05:21:04 公開日:2023-10-20
# 地震マルチハザードのための流れに基づく深部変動ベイズネットワークの正規化とinsar画像による影響評価

Normalizing flow-based deep variational Bayesian network for seismic multi-hazards and impacts estimation from InSAR imagery ( http://arxiv.org/abs/2310.13805v1 )

ライセンス: Link先を確認
Xuechun Li, Paula M. Burgi, Wei Ma, Hae Young Noh, David J. Wald, Susu Xu(参考訳) 地震のような現場の災害は、地すべりやインフラの損傷などの災害や影響を引き起こし、壊滅的な損失をもたらす可能性がある。 インターフェロメトリ合成開口レーダ(InSAR)のデータは、迅速なハザード推定のために高解像度のオンサイト情報を提供する上で重要である。 InSAR画像信号を用いた最近の手法では、単一種類のハザードを予測し、しばしば混在するハザード、影響、および無関係な環境変化(例えば、植生の変化、人間の活動)によって引き起こされるノイズや複雑な信号によって、低い精度を損なう。 InSAR画像のノイズによる影響と、複数の観測不能な障害の連続的後方からの正規化フローによる新しい確率的変動推論を導入する。

Onsite disasters like earthquakes can trigger cascading hazards and impacts, such as landslides and infrastructure damage, leading to catastrophic losses; thus, rapid and accurate estimates are crucial for timely and effective post-disaster responses. Interferometric Synthetic aperture radar (InSAR) data is important in providing high-resolution onsite information for rapid hazard estimation. Most recent methods using InSAR imagery signals predict a single type of hazard and thus often suffer low accuracy due to noisy and complex signals induced by co-located hazards, impacts, and irrelevant environmental changes (e.g., vegetation changes, human activities). We introduce a novel stochastic variational inference with normalizing flows derived to jointly approximate posteriors of multiple unobserved hazards and impacts from noisy InSAR imagery.
翻訳日:2023-10-25 05:20:43 公開日:2023-10-20
# 潜時宇宙融合による分子特性予測の改善

Improving Molecular Properties Prediction Through Latent Space Fusion ( http://arxiv.org/abs/2310.13802v1 )

ライセンス: Link先を確認
Eduardo Soares, Akihiro Kishimoto, Emilio Vital Brazil, Seiji Takeda, Hiroshi Kajino, Renato Cerqueira(参考訳) 事前訓練された言語モデルは、分子特性を予測するための有望なツールとして登場したが、その開発はまだ初期段階にあり、その効果を高めるためにさらなる研究が必要である。 本稿では,最先端化学モデルから導出した潜在空間を組み合わせた多視点アプローチを提案する。 分子構造をグラフとして表現するMHG-GNNからの埋め込みと、化学言語に根ざしたMoLFormer埋め込みである。 MoLFormerの注意機構は、距離が遠くても2つの原子間の関係を識別でき、MHG-GNNのGNNはより正確に複数の原子間の関係を捉えることができる。 本研究は,薬毒性の予測やhiv複製の抑制など,特に複雑なタスクにおいて,11億分子で訓練された molformer-xl を含む既存の最先端手法と比較して,提案手法の優れた性能を示す。 MoleculeNetの6つのベンチマークデータセットを使用して、私たちのアプローチを評価しました。 本研究は,分子特性予測のための潜在空間融合と機能統合の可能性を明らかにする。 この作業では、MHG-GNNとMoLFormerの小さなバージョンを使用します。

Pre-trained Language Models have emerged as promising tools for predicting molecular properties, yet their development is in its early stages, necessitating further research to enhance their efficacy and address challenges such as generalization and sample efficiency. In this paper, we present a multi-view approach that combines latent spaces derived from state-of-the-art chemical models. Our approach relies on two pivotal elements: the embeddings derived from MHG-GNN, which represent molecular structures as graphs, and MoLFormer embeddings rooted in chemical language. The attention mechanism of MoLFormer is able to identify relations between two atoms even when their distance is far apart, while the GNN of MHG-GNN can more precisely capture relations among multiple atoms closely located. In this work, we demonstrate the superior performance of our proposed multi-view approach compared to existing state-of-the-art methods, including MoLFormer-XL, which was trained on 1.1 billion molecules, particularly in intricate tasks such as predicting clinical trial drug toxicity and inhibiting HIV replication. We assessed our approach using six benchmark datasets from MoleculeNet, where it outperformed competitors in five of them. Our study highlights the potential of latent space fusion and feature integration for advancing molecular property prediction. In this work, we use small versions of MHG-GNN and MoLFormer, which opens up an opportunity for further improvement when our approach uses a larger-scale dataset.
翻訳日:2023-10-25 05:20:24 公開日:2023-10-20
# gpt-4時代の評価指標 : シーケンスからシーケンスへのタスクにおける大規模言語モデルを確実に評価する

Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large Language Models on Sequence to Sequence Tasks ( http://arxiv.org/abs/2310.13800v1 )

ライセンス: Link先を確認
Andrea Sottana, Bin Liang, Kai Zou, Zheng Yuan(参考訳) 大規模言語モデル (LLMs) の評価は, 適応的で一貫性のない景観であり, 自動評価指標の品質が生成モデルの開発速度に追いついていないことが明らかになっている。 我々は,テキスト要約,テキスト単純化,文法的誤り訂正(GEC)という3つのNLPベンチマークを用いて,オープンおよびクローズド・ソース・ジェネレーティブ LLM の予備的およびハイブリッドな評価を行うことにより,現在のモデルの性能向上を目指す。 また、最近リリースされたGPT-4が評価指標として機能する可能性についても検討する。 chatgptは、従来の自動評価メトリクスを使用する場合のスコアがはるかに低くなる一方で、多くのヒューマンレビュアーによると、一貫して他の多くの人気モデルを上回ることが分かりました。 また、人間のレビュアーは、最高のモデルの出力よりも金の基準をはるかに悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。 最後に, GPT-4では, GECタスクのアライメントが低く, タスク固有のバリエーションにもかかわらず, 人間の判断に適切に適合するように, モデルのアウトプットをランク付けできることがわかった。

Large Language Models (LLMs) evaluation is a patchy and inconsistent landscape, and it is becoming clear that the quality of automatic evaluation metrics is not keeping up with the pace of development of generative models. We aim to improve the understanding of current models' performance by providing a preliminary and hybrid evaluation on a range of open and closed-source generative LLMs on three NLP benchmarks: text summarisation, text simplification and grammatical error correction (GEC), using both automatic and human evaluation. We also explore the potential of the recently released GPT-4 to act as an evaluator. We find that ChatGPT consistently outperforms many other popular models according to human reviewers on the majority of metrics, while scoring much more poorly when using classic automatic evaluation metrics. We also find that human reviewers rate the gold reference as much worse than the best models' outputs, indicating the poor quality of many popular benchmarks. Finally, we find that GPT-4 is capable of ranking models' outputs in a way which aligns reasonably closely to human judgement despite task-specific variations, with a lower alignment in the GEC task.
翻訳日:2023-10-25 05:19:59 公開日:2023-10-20
# 憲法AIの具体的対一般原理

Specific versus General Principles for Constitutional AI ( http://arxiv.org/abs/2310.13798v1 )

ライセンス: Link先を確認
Sandipan Kundu, Yuntao Bai, Saurav Kadavath, Amanda Askell, Andrew Callahan, Anna Chen, Anna Goldie, Avital Balwit, Azalia Mirhoseini, Brayden McLean, Catherine Olsson, Cassie Evraets, Eli Tran-Johnson, Esin Durmus, Ethan Perez, Jackson Kernion, Jamie Kerr, Kamal Ndousse, Karina Nguyen, Nelson Elhage, Newton Cheng, Nicholas Schiefer, Nova DasSarma, Oliver Rausch, Robin Larson, Shannon Yang, Shauna Kravec, Timothy Telleen-Lawton, Thomas I. Liao, Tom Henighan, Tristan Hume, Zac Hatfield-Dodds, S\"oren Mindermann, Nicholas Joseph, Sam McCandlish, Jared Kaplan(参考訳) 人間のフィードバックは、会話モデルにおける過度に有害な発話を防止するが、自己保存や力に対する要求などの微妙な問題行動を自動的に緩和することはない。 コンスティチューショナルAIは、人間のフィードバックを、書かれた原則のリストにのみ条件付きAIモデルからのフィードバックに置き換える代替手段を提供する。 このアプローチはこのような振る舞いの表現を効果的に妨げている。 モデルは単一の原則だけで一般的な倫理的行動を学ぶことができますか? これをテストするために、我々は「人類にとって最善を尽くす」という原則を用いて実験を行った。 最大の対話モデルは、この短い構成から一般化することができ、その結果、力のような特定の動機に無関心な無害なアシスタントとなる。 したがって、一般的な原則は、潜在的に有害な行為を標的とする長い構成のリストの必要性を部分的に避けることができる。 しかし、より詳細な構成は、特定の種類の害に対するきめ細かい制御を改善し続けている。 これは、一般的な原則と特定の原則の両方がaiを安全に操る価値を持っていることを示唆している。

Human feedback can prevent overtly harmful utterances in conversational models, but may not automatically mitigate subtle problematic behaviors such as a stated desire for self-preservation or power. Constitutional AI offers an alternative, replacing human feedback with feedback from AI models conditioned only on a list of written principles. We find this approach effectively prevents the expression of such behaviors. The success of simple principles motivates us to ask: can models learn general ethical behaviors from only a single written principle? To test this, we run experiments using a principle roughly stated as "do what's best for humanity". We find that the largest dialogue models can generalize from this short constitution, resulting in harmless assistants with no stated interest in specific motivations like power. A general principle may thus partially avoid the need for a long list of constitutions targeting potentially harmful behaviors. However, more detailed constitutions still improve fine-grained control over specific types of harms. This suggests both general and specific principles have value for steering AI safely.
翻訳日:2023-10-25 05:19:32 公開日:2023-10-20
# 構造予測のための評価指標の統一的視点

A Unified View of Evaluation Metrics for Structured Prediction ( http://arxiv.org/abs/2310.13793v1 )

ライセンス: Link先を確認
Yunmo Chen, William Gantt, Tongfei Chen, Aaron Steven White, Benjamin Van Durme(参考訳) 本稿では,様々な構造化予測タスク(イベントと関係抽出,構文解析,意味解析など)に対して,様々な評価指標を統合する概念的枠組みを提案する。 私たちのフレームワークでは、これらのタスクの出力を特定のデータ型のオブジェクトとして表現する必要があります。 我々は,多数のタスクで使用されるメトリクスが,このフレームワークによって簡潔に表現できることを示すとともに,新しいメトリクスが,出力構造に基づいてボトムアップ方式で自然に導出できることを示す。 私たちはこの派生によって新しいメトリクスを作成できるライブラリをリリースします。 最後に、タスクの特定の特性がメトリクス設計の決定を動機付けているかを検討し、それらのモチベーションに沿った既存のメトリクスの変更を提案する。

We present a conceptual framework that unifies a variety of evaluation metrics for different structured prediction tasks (e.g. event and relation extraction, syntactic and semantic parsing). Our framework requires representing the outputs of these tasks as objects of certain data types, and derives metrics through matching of common substructures, possibly followed by normalization. We demonstrate how commonly used metrics for a number of tasks can be succinctly expressed by this framework, and show that new metrics can be naturally derived in a bottom-up way based on an output structure. We release a library that enables this derivation to create new metrics. Finally, we consider how specific characteristics of tasks motivate metric design decisions, and suggest possible modifications to existing metrics in line with those motivations.
翻訳日:2023-10-25 05:19:06 公開日:2023-10-20
# スマートグリッドにおける太陽照度予測のための機械学習アルゴリズムの比較解析

Comparative Analysis of Machine Learning Algorithms for Solar Irradiance Forecasting in Smart Grids ( http://arxiv.org/abs/2310.13791v1 )

ライセンス: Link先を確認
Saman Soleymani and Shima Mohammadzadeh(参考訳) クリーンで環境に優しいエネルギー資源に対する世界的な需要の増加は、スマートグリッドや家庭のための太陽光発電(PV)システムによる太陽光発電への関心を高めている。 しかし、PV生成の本質的な予測不能は、スマートグリッドの計画と管理、エネルギートレーディングと市場参加、需要応答、信頼性などに関連する問題を引き起こす。 したがって、太陽光発電システム利用の最適化には日射量予測が不可欠である。 本研究では,ランダムフォレスト,エクストリームグラディエントブースティング(XGBoost),ライトグラディエントブーストマシン(ライトGBM)アンサンブル,キャットブースト,多層パーセプトロンニューラルネットワーク(MLP-ANN)などの次世代機械学習アルゴリズムを提案する。 さらに、ハイパパラメータチューニングにもベイズ最適化を適用する。 本質的に機能を選択するツリーベースのアンサンブルアルゴリズムとは異なり、MLP-ANNは別のステップとして機能選択を必要とする。 シミュレーションの結果,MLP-ANNの性能は特徴選択の適用により向上することが示された。 さらに、ランダムフォレストは他の学習アルゴリズムよりも優れています。

The increasing global demand for clean and environmentally friendly energy resources has caused increased interest in harnessing solar power through photovoltaic (PV) systems for smart grids and homes. However, the inherent unpredictability of PV generation poses problems associated with smart grid planning and management, energy trading and market participation, demand response, reliability, etc. Therefore, solar irradiance forecasting is essential for optimizing PV system utilization. This study proposes the next-generation machine learning algorithms such as random forests, Extreme Gradient Boosting (XGBoost), Light Gradient Boosted Machine (lightGBM) ensemble, CatBoost, and Multilayer Perceptron Artificial Neural Networks (MLP-ANNs) to forecast solar irradiance. Besides, Bayesian optimization is applied to hyperparameter tuning. Unlike tree-based ensemble algorithms that select the features intrinsically, MLP-ANN needs feature selection as a separate step. The simulation results indicate that the performance of the MLP-ANNs improves when feature selection is applied. Besides, the random forest outperforms the other learning algorithms.
翻訳日:2023-10-25 05:18:44 公開日:2023-10-20
# マルチモーダルグラフllmフレームワークxaiによる違法なアクティビティ検出の強化

Enhancing Illicit Activity Detection using XAI: A Multimodal Graph-LLM Framework ( http://arxiv.org/abs/2310.13787v1 )

ライセンス: Link先を確認
Jack Nicholls, Aditya Kuppa, Nhien-An Le-Khac(参考訳) 金融サイバー犯罪防止は多くの組織や政府で問題となっている。 ディープラーニングモデルがさまざまな金融およびソーシャルネットワーク上での不正活動の特定に進んでいる中、モデル決定の背後にある説明可能性については、ディープラーニングプラットフォームの中心にある調査分析者による説明が欠如している。 本稿では,金融サイバー犯罪検出におけるxaiに対処するための最新かつ新しいマルチモーダルプロアクティブアプローチを提案する。 我々は,トランザクションシークエンシング,サブグラフ接続,ナラティブ生成から本質的な表現を抽出し,分析者の探索プロセスを大幅に効率化する,深層学習モデルの3つを活用する。 我々の物語生成提案は、LLMを利用してトランザクションの詳細を取り込み、アナリストがトランザクションとそのメタデータをより深く理解するためにコンテキスト的物語を出力する。

Financial cybercrime prevention is an increasing issue with many organisations and governments. As deep learning models have progressed to identify illicit activity on various financial and social networks, the explainability behind the model decisions has been lacklustre with the investigative analyst at the heart of any deep learning platform. In our paper, we present a state-of-the-art, novel multimodal proactive approach to addressing XAI in financial cybercrime detection. We leverage a triad of deep learning models designed to distill essential representations from transaction sequencing, subgraph connectivity, and narrative generation to significantly streamline the analyst's investigative process. Our narrative generation proposal leverages LLM to ingest transaction details and output contextual narrative for an analyst to understand a transaction and its metadata much further.
翻訳日:2023-10-25 05:17:48 公開日:2023-10-20
# テキスト・画像生成モデルにおけるプロンプト特異的ポジショニング攻撃

Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models ( http://arxiv.org/abs/2310.13828v1 )

ライセンス: Link先を確認
Shawn Shan, Wenxin Ding, Josephine Passananti, Haitao Zheng, Ben Y. Zhao(参考訳) データ中毒攻撃はトレーニングデータを操作し、トレーニング時に機械学習モデルに予期せぬ振る舞いを導入する。 大量のトレーニングデータセットを持つテキストから画像の生成モデルでは、現在の毒殺攻撃の理解は、数百万の毒素サンプルをトレーニングパイプラインに注入する必要があることを示唆している。 本稿では, 生成モデルにおいて, 毒性攻撃が有効であることを示す。 概念ごとのトレーニングデータはこれらのモデルでは極めて限定的であり、個々のプロンプトに反応するモデルの能力をターゲットにした、プロンプト特異的な中毒攻撃に対して脆弱である。 nightshadeは、中毒サンプルがテキストプロンプトと一致する良性画像と視覚的に同一に見えるように最適化されたプロンプト特異的毒殺攻撃である。 ナイトシェード毒のサンプルは有効性にも最適化されており、安定拡散SDXLプロンプトを<100の毒のサンプルで破壊することができる。 ナイトシェイド中毒は関連する概念に「出血」し、複数の攻撃を1つのプロンプトで構成することができる。 意外なことに、適度な数のNightshade攻撃は、テキストから画像への生成モデルにおける一般的な特徴を不安定にし、意味のある画像を生成する能力を効果的に無効にする。 最後に,Op-out/do-no-crawlディレクティブを無視するWebスクレイパーに対して,コンテンツクリエータにとって最後の防御手段としてNightshadeなどのツールを使用することを提案する。

Data poisoning attacks manipulate training data to introduce unexpected behaviors into machine learning models at training time. For text-to-image generative models with massive training datasets, current understanding of poisoning attacks suggests that a successful attack would require injecting millions of poison samples into their training pipeline. In this paper, we show that poisoning attacks can be successful on generative models. We observe that training data per concept can be quite limited in these models, making them vulnerable to prompt-specific poisoning attacks, which target a model's ability to respond to individual prompts. We introduce Nightshade, an optimized prompt-specific poisoning attack where poison samples look visually identical to benign images with matching text prompts. Nightshade poison samples are also optimized for potency and can corrupt an Stable Diffusion SDXL prompt in <100 poison samples. Nightshade poison effects "bleed through" to related concepts, and multiple attacks can composed together in a single prompt. Surprisingly, we show that a moderate number of Nightshade attacks can destabilize general features in a text-to-image generative model, effectively disabling its ability to generate meaningful images. Finally, we propose the use of Nightshade` and similar tools as a last defense for content creators against web scrapers that ignore opt-out/do-not-crawl directives, and discuss possible implications for model trainers and content creators.
翻訳日:2023-10-25 05:08:59 公開日:2023-10-20
# トランスフォーマー言語モデルにおける可能性処理: gptにおける注意ヘッドの役割に着目して

Plausibility Processing in Transformer Language Models: Focusing on the Role of Attention Heads in GPT ( http://arxiv.org/abs/2310.13824v1 )

ライセンス: Link先を確認
Soo Hyun Ryu(参考訳) 本稿では,トランスフォーマー言語モデルが意味知識をどのように処理するか,特に名詞-動詞関係の妥当性について検討する。 まず, gpt2は他のトランスフォーマー言語モデルと比較して, ヒトとの類似度が高いことを示す。 次に, gpt2の注意ヘッドにおける実用性に関する知識と, gpt2の実用性処理能力の因果関係について考察する。 いくつかの実験でこう分かりました 一) GPT2は、可算名詞-動詞関係を検出する多くの注意頭を有する。 二 これらの頭は、変圧器の可視性を処理する能力に総じて寄与する。 三 視認性検出における注意頭の性能は、GPT2の視認性処理能力にどの程度寄与するかと必ずしも相関しない。

The goal of this paper is to explore how Transformer language models process semantic knowledge, especially regarding the plausibility of noun-verb relations. First, I demonstrate GPT2 exhibits a higher degree of similarity with humans in plausibility processing compared to other Transformer language models. Next, I delve into how knowledge of plausibility is contained within attention heads of GPT2 and how these heads causally contribute to GPT2's plausibility processing ability. Through several experiments, it was found that: i) GPT2 has a number of attention heads that detect plausible noun-verb relationships; ii) these heads collectively contribute to the Transformer's ability to process plausibility, albeit to varying degrees; and iii) attention heads' individual performance in detecting plausibility does not necessarily correlate with how much they contribute to GPT2's plausibility processing ability.
翻訳日:2023-10-25 05:08:32 公開日:2023-10-20
# グラフニューラルネットワークの公平性に対する逆攻撃

Adversarial Attacks on Fairness of Graph Neural Networks ( http://arxiv.org/abs/2310.13822v1 )

ライセンス: Link先を確認
Binchi Zhang, Yushun Dong, Chen Chen, Yada Zhu, Minnan Luo, Jundong Li(参考訳) フェアネスアウェアグラフニューラルネットワーク(gnns)は、グラフベースのアプリケーションにおいて、任意の人口統計グループ(女性など)の予測バイアスを低減できるため、注目を集めている。 これらの手法はGNNのアルゴリズム的公正性を大幅に改善するが、慎重に設計された敵攻撃によって容易に公正性を損なうことができる。 本稿では,GNNのフェアネスに対する敵対的攻撃の問題について検討し,予測ユーティリティに目立たない効果を伴って,さまざまなフェアネスを意識したGNNを攻撃するための汎用フレームワークであるG-FairAttackを提案する。 さらに,G-FairAttackの時間的複雑さを低減するための高速計算手法を提案する。 実験では、G-FairAttackが攻撃を無意味に保ちながら、異なるタイプのGNNの公平性を損なうことに成功した。 フェアネス攻撃に関する研究は、フェアネスを意識したGNNの潜在的な脆弱性に光を当て、フェアネスの観点からGNNの堅牢性に関するさらなる研究を導く。 オープンソースコードはhttps://github.com/zhangbinchi/g-fairattackで入手できる。

Fairness-aware graph neural networks (GNNs) have gained a surge of attention as they can reduce the bias of predictions on any demographic group (e.g., female) in graph-based applications. Although these methods greatly improve the algorithmic fairness of GNNs, the fairness can be easily corrupted by carefully designed adversarial attacks. In this paper, we investigate the problem of adversarial attacks on fairness of GNNs and propose G-FairAttack, a general framework for attacking various types of fairness-aware GNNs in terms of fairness with an unnoticeable effect on prediction utility. In addition, we propose a fast computation technique to reduce the time complexity of G-FairAttack. The experimental study demonstrates that G-FairAttack successfully corrupts the fairness of different types of GNNs while keeping the attack unnoticeable. Our study on fairness attacks sheds light on potential vulnerabilities in fairness-aware GNNs and guides further research on the robustness of GNNs in terms of fairness. The open-source code is available at https://github.com/zhangbinchi/G-FairAttack.
翻訳日:2023-10-25 05:08:15 公開日:2023-10-20
# 正に分解可能な核を用いた幾何学的学習

Geometric Learning with Positively Decomposable Kernels ( http://arxiv.org/abs/2310.13821v1 )

ライセンス: Link先を確認
Nathael Da Costa, Cyrus Mostajeran, Juan-Pablo Ortega, Salem Said(参考訳) カーネルメソッドは機械学習の強力なツールである。 古典的なカーネル法は、データ空間を再現されたカーネルヒルベルト空間(RKHS)にマッピングする正定カーネルに基づいている。 ユークリッドでないデータ空間では、正定値のカーネルは成立し難い。 本稿では、正の分解を許容するカーネルのみを必要とするカーネルKrein空間(RKKS)を再現する手法を提案する。 rkksで学ぶためには,この分解にアクセスする必要はないことを示す。 次に、カーネルが正に分解可能な条件について検討する。 不変核は可搬正則性仮定の下で等質空間上の正の分解を許す。 これにより、正定値のカーネルよりも構築が容易になり、非ユークリッドデータのためのカーネルと学習するためのルートを提供する。 同じトークンにより、これは一般にRKKSベースの方法の理論的基礎を提供する。

Kernel methods are powerful tools in machine learning. Classical kernel methods are based on positive-definite kernels, which map data spaces into reproducing kernel Hilbert spaces (RKHS). For non-Euclidean data spaces, positive-definite kernels are difficult to come by. In this case, we propose the use of reproducing kernel Krein space (RKKS) based methods, which require only kernels that admit a positive decomposition. We show that one does not need to access this decomposition in order to learn in RKKS. We then investigate the conditions under which a kernel is positively decomposable. We show that invariant kernels admit a positive decomposition on homogeneous spaces under tractable regularity assumptions. This makes them much easier to construct than positive-definite kernels, providing a route for learning with kernels for non-Euclidean data. By the same token, this provides theoretical foundations for RKKS-based methods in general.
翻訳日:2023-10-25 05:07:57 公開日:2023-10-20
# FERI: 臓器移植のためのマルチタスク型フェアネス獲得アルゴリズム

FERI: A Multitask-based Fairness Achieving Algorithm with Applications to Fair Organ Transplantation ( http://arxiv.org/abs/2310.13820v1 )

ライセンス: Link先を確認
Can Li, Dejian Lai, Xiaoqian Jiang, Kai Zhang(参考訳) 肝臓移植はしばしば、年齢グループ、性別、人種/民族といった敏感な属性によって定義されるサブグループ間で公平な課題に直面します。 結果予測のための機械学習モデルは、さらなるバイアスを導入することができる。 そこで本研究では, 肝移植患者の移植失敗リスクの公平な予測のために, Equitable Rate of Improvement in Multitask Learning (FERI) アルゴリズムを用いてフェアネスを導入する。 FERIは、学習率のバランスとトレーニングプロセスにおけるサブグループ支配の防止により、サブグループ損失を抑える。 実験の結果,FERIはベースラインモデルに匹敵するAUROCとAUPRCで高い予測精度を維持していることがわかった。 さらに、FERIは精度を犠牲にすることなく公平性を向上させる能力を示す。 特に性別では、feriは人口格差を71.74%減少させ、年齢層では40.46%減少させる。 したがって、FERIアルゴリズムは医療における公平性を考慮した予測モデリングを進め、公平な医療システムのための貴重なツールを提供する。

Liver transplantation often faces fairness challenges across subgroups defined by sensitive attributes like age group, gender, and race/ethnicity. Machine learning models for outcome prediction can introduce additional biases. To address these, we introduce Fairness through the Equitable Rate of Improvement in Multitask Learning (FERI) algorithm for fair predictions of graft failure risk in liver transplant patients. FERI constrains subgroup loss by balancing learning rates and preventing subgroup dominance in the training process. Our experiments show that FERI maintains high predictive accuracy with AUROC and AUPRC comparable to baseline models. More importantly, FERI demonstrates an ability to improve fairness without sacrificing accuracy. Specifically, for gender, FERI reduces the demographic parity disparity by 71.74%, and for the age group, it decreases the equalized odds disparity by 40.46%. Therefore, the FERI algorithm advances fairness-aware predictive modeling in healthcare and provides an invaluable tool for equitable healthcare systems.
翻訳日:2023-10-25 05:07:44 公開日:2023-10-20
# FATA-Trans:シークエンシャルタブラリデータのためのフィールドおよびタイムアウェア変換器

FATA-Trans: Field And Time-Aware Transformer for Sequential Tabular Data ( http://arxiv.org/abs/2310.13818v1 )

ライセンス: Link先を確認
Dongyu Zhang, Liang Wang, Xin Dai, Shubham Jain, Junpeng Wang, Yujie Fan, Chin-Chia Michael Yeh, Yan Zheng, Zhongfang Zhuang and Wei Zhang(参考訳) 逐次表型データ(Sequential tabular data)は、現実世界のアプリケーションでよく使われるデータ型の一つである。 テーブル内の行が独立している従来の表型データとは異なり、シーケンシャルな表型データには、コンテキストやシーケンシャルな情報が豊富に含まれている。 Existing transformer-based approaches analyzing sequential tabular data overlook the differences between dynamic and static fields by replicating and filling static fields into each transformer, and ignore temporal information between rows, which leads to three major disadvantages: (1) computational overhead, (2) artificially simplified data for masked language modeling pre-training task that may yield less meaningful representations, and (3) disregarding the temporal behavioral patterns implied by time intervals. 本研究では,FATA-Transを提案する。FATA-Transは,静的および動的フィールド情報を個別に処理する連続的な表型データをモデリングするための2つのフィールドトランスを持つモデルである。 FATA-Transは、シーケンシャルな表データのフィールドとタイムアウェアである。 フィールド型埋め込みにより、FATA-Transは静的フィールドと動的フィールドの違いをキャプチャできる。 時間認識位置埋め込みは行間の順序と時間間隔の情報を利用するため、モデルがシーケンス内の下層の時間的挙動を検出するのに役立つ。 3つのベンチマークデータセットを用いた実験により、FATA-Transの学習表現は、下流タスクにおける最先端のソリューションを一貫して上回ることを示した。 また,学習した表現から得られた知見を可視化し,基礎となるデータに対する理解を深める。 私たちのコードはhttps://github.com/zdy93/fata-transで利用可能です。

Sequential tabular data is one of the most commonly used data types in real-world applications. Different from conventional tabular data, where rows in a table are independent, sequential tabular data contains rich contextual and sequential information, where some fields are dynamically changing over time and others are static. Existing transformer-based approaches analyzing sequential tabular data overlook the differences between dynamic and static fields by replicating and filling static fields into each transformer, and ignore temporal information between rows, which leads to three major disadvantages: (1) computational overhead, (2) artificially simplified data for masked language modeling pre-training task that may yield less meaningful representations, and (3) disregarding the temporal behavioral patterns implied by time intervals. In this work, we propose FATA-Trans, a model with two field transformers for modeling sequential tabular data, where each processes static and dynamic field information separately. FATA-Trans is field- and time-aware for sequential tabular data. The field-type embedding in the method enables FATA-Trans to capture differences between static and dynamic fields. The time-aware position embedding exploits both order and time interval information between rows, which helps the model detect underlying temporal behavior in a sequence. Our experiments on three benchmark datasets demonstrate that the learned representations from FATA-Trans consistently outperform state-of-the-art solutions in the downstream tasks. We also present visualization studies to highlight the insights captured by the learned representations, enhancing our understanding of the underlying data. Our codes are available at https://github.com/zdy93/FATA-Trans.
翻訳日:2023-10-25 05:07:26 公開日:2023-10-20
# 量子物理学は、絡み合いがなくても古典的な線形隠れ変数理論では捉えられない

Quantum physics cannot be captured by classical linear hidden variable theories even in the absence of entanglement ( http://arxiv.org/abs/2310.13815v1 )

ライセンス: Link先を確認
Kawthar Al Rasbi, Lewis A. Clark, and Almut Beige(参考訳) 最近のベルの不等式の実験実験では、絡み合った量子系は局所古典理論では説明できないが、量子系が原理的に線形隠れ変数理論によってモデル化できるかどうかという疑問に答えていない。 本稿では,連続した一般化された測定を経験する単一量子ビットの量子軌道について検討する。 隠れ量子マルコフモデルを構成するこの系は、2つの出力記号を持つ古典的な隠れマルコフモデルよりも複雑な時間相関を生じやすいことが示されている。 このことから、量子物理学は線形隠れ変数理論に置き換わることはできないと結論づける。 実際、量子システムと量子フィードバックとの絡み合いだけでなく、古典的でない時間相関も量子技術アプリケーションにとって貴重な資源であると認識されている。

Recent experimental tests of Bell inequalities confirm that entangled quantum systems cannot be described by local classical theories but still do not answer the question whether or not quantum systems could in principle be modelled by linear hidden variable theories. In this paper, we study the quantum trajectories of a single qubit that experiences a sequence of repeated generalised measurements. It is shown that this system, which constitutes a Hidden Quantum Markov Model, is more likely to produce complex time correlations than any classical Hidden Markov Model with two output symbols. From this, we conclude that quantum physics cannot be replaced by linear hidden variable theories. Indeed, it has already been recognised that not only entanglement but also non-classical time correlations of quantum systems with quantum feedback are a valuable resource for quantum technology applications.
翻訳日:2023-10-25 05:07:01 公開日:2023-10-20
# アラビア方言識別のための別のモデル

Yet Another Model for Arabic Dialect Identification ( http://arxiv.org/abs/2310.13812v1 )

ライセンス: Link先を確認
Ajinkya Kulkarni, Hanan Aldarmaki(参考訳) 本稿では,ADI-5 と ADI-17 の2つのベンチマークデータセットにおいて,従来よりずっと優れていたアラビア方言識別(ADI)モデルについて述べる。 ResNet と ECAPA-TDNN の2種類の音響特性: MFCC とUniSpeech-SAT Large から抽出された特徴、および4つの変種を融合する。 ECAPA-TDNNネットワークはResNetより優れており、UniSpeech-SATのモデルはMFCCのモデルよりも大きなマージンで優れている。 さらに、4つの変種の融合は個々のモデルよりも一貫して優れている。 ADI-5とADI-17では,それぞれ84.7%,96.9%であった。

In this paper, we describe a spoken Arabic dialect identification (ADI) model for Arabic that consistently outperforms previously published results on two benchmark datasets: ADI-5 and ADI-17. We explore two architectural variations: ResNet and ECAPA-TDNN, coupled with two types of acoustic features: MFCCs and features exratected from the pre-trained self-supervised model UniSpeech-SAT Large, as well as a fusion of all four variants. We find that individually, ECAPA-TDNN network outperforms ResNet, and models with UniSpeech-SAT features outperform models with MFCCs by a large margin. Furthermore, a fusion of all four variants consistently outperforms individual models. Our best models outperform previously reported results on both datasets, with accuracies of 84.7% and 96.9% on ADI-5 and ADI-17, respectively.
翻訳日:2023-10-25 05:06:46 公開日:2023-10-20
# ドライバーとライダーのためのより良いマッチング - Lyftの強化学習

A Better Match for Drivers and Riders: Reinforcement Learning at Lyft ( http://arxiv.org/abs/2310.13810v1 )

ライセンス: Link先を確認
Xabi Azagirre, Akshay Balwally, Guillaume Candeli, Nicholas Chamandy, Benjamin Han, Alona King, Hyungjun Lee, Martin Loncaric, S\'ebastien Martin (SM), Vijay Narasiman, Zhiwei (Tony) Qin, Baptiste Richard, Sara Smoot, Sean Taylor, Garrett van Ryzin, Di Wu, Fei Yu, Alex Zamoshchin(参考訳) ライドシェアリングアプリケーションのドライバーとライダーとのマッチングを改善するため、Lyftのコアマッチングアルゴリズムを改訂しました。 我々は新しいオンライン強化学習アプローチを用いて、ドライバーの将来の収益をリアルタイムで推定し、この情報を使ってより効率的なマッチングを見つける。 この変更は、リアルタイムで学習し、改善できるライドシェアリングマッチングアルゴリズムの最初の文書化実装であった。 私たちは、ほとんどのlyft市場で数週間のswitchback実験の間、この新しいアプローチを評価し、ドライバー、乗客、そしてプラットフォームにどのように利益があったかを見積もった。 特に、当社のドライバーは毎年何百万人もの乗客にサービスを提供し、年商3000万ドル以上のインクリメンタルな収入をもたらしました。 Lyftは2021年にこのアルゴリズムを全世界展開した。

To better match drivers to riders in our ridesharing application, we revised Lyft's core matching algorithm. We use a novel online reinforcement learning approach that estimates the future earnings of drivers in real time and use this information to find more efficient matches. This change was the first documented implementation of a ridesharing matching algorithm that can learn and improve in real time. We evaluated the new approach during weeks of switchback experimentation in most Lyft markets, and estimated how it benefited drivers, riders, and the platform. In particular, it enabled our drivers to serve millions of additional riders each year, leading to more than $30 million per year in incremental revenue. Lyft rolled out the algorithm globally in 2021.
翻訳日:2023-10-25 05:06:29 公開日:2023-10-20
# 二重深部強化学習技術を用いた地上移動ロボットの低次元センシングマップレスナビゲーション

Enhanced Low-Dimensional Sensing Mapless Navigation of Terrestrial Mobile Robots Using Double Deep Reinforcement Learning Techniques ( http://arxiv.org/abs/2310.13809v1 )

ライセンス: Link先を確認
Linda Dotto de Moraes, Victor Augusto Kich, Alisson Henrique Kolling, Jair Augusto Bottega, Ricardo Bedin Grando, Anselmo Rafael Cukla, Daniel Fernando Tello Gamarra(参考訳) 本研究では,深層強化学習(Deep-RL)の領域において,地上型移動ロボットのマップレスナビゲーション向上を目的とした2つのアプローチを提案する。 研究手法は主に、DQN(Deep Q-Network)アルゴリズムに基づくDeep-RL戦略と、DQN(Double Deep Q-Network)アルゴリズムに基づく代替アプローチの比較分析を含む。 これらのアプローチのエージェントは、レーザーレンジサンプリングによる24の測定と、ターゲットに対するエージェントの位置差と向きを組み合わせる。 このデータの集約は、エージェントのナビゲーションに関する決定に影響を与え、最終的にロボットの速度を決定する。 提案手法を取り入れることで,ナビゲーションタスクを巧みに実行し,障害物を適切に回避するためのエージェントのトレーニングを成功させた。 この成果は、画像中心の方法論に固有のような複雑な感覚入力に依存することなく達成される。 提案手法は3つの異なる実環境において評価され,二重深層構造は単純なq構造に比べて移動ロボットのナビゲーション能力が著しく向上することが明らかとなった。

In this study, we present two distinct approaches within the realm of Deep Reinforcement Learning (Deep-RL) aimed at enhancing mapless navigation for a ground-based mobile robot. The research methodology primarily involves a comparative analysis between a Deep-RL strategy grounded in the foundational Deep Q-Network (DQN) algorithm, and an alternative approach based on the Double Deep Q-Network (DDQN) algorithm. The agents in these approaches leverage 24 measurements from laser range sampling, coupled with the agent's positional differentials and orientation relative to the target. This amalgamation of data influences the agents' determinations regarding navigation, ultimately dictating the robot's velocities. By embracing this parsimonious sensory framework as proposed, we successfully showcase the training of an agent for proficiently executing navigation tasks and adeptly circumventing obstacles. Notably, this accomplishment is attained without a dependency on intricate sensory inputs like those inherent to image-centric methodologies. The proposed methodology is evaluated in three different real environments, revealing that Double Deep structures significantly enhance the navigation capabilities of mobile robots compared to simple Q structures.
翻訳日:2023-10-25 05:06:17 公開日:2023-10-20
# 漸進的領域適応:理論とアルゴリズム

Gradual Domain Adaptation: Theory and Algorithms ( http://arxiv.org/abs/2310.13852v1 )

ライセンス: Link先を確認
Yifei He, Haoxiang Wang, Bo Li, Han Zhao(参考訳) unsupervised domain adaptation (uda) はラベル付きソースドメインからラベルなしのターゲットドメインにワンオフ方式でモデルを適用する。 広く適用されているが、ソースとターゲット間の分散シフトが大きいと、UDAは大きな課題に直面している。 gradual domain adaptation(gda)は、ソースからターゲットドメインに徐々に適応するために中間ドメインを使用することで、この制限を緩和する。 本研究は,一般的なgdaアルゴリズムである漸進的自己学習を理論上初めて解析し,kumarら(2020)と比較して大幅に改良された一般化を提供する。 対象領域上の一般化誤差を最小限に抑えるために、中間領域の列はソースとターゲット領域の間のワッサーシュタイン測地線に沿って一様に配置されなければならない。 この洞察は、中間ドメインが欠落している、あるいは不足している状況下では特に有用である。 この知見に基づいて、データ依存型で中間ドメインを生成するアルゴリズムフレームワークである、$\textbf{G}$enerative Gradual D$\textbf{O}$main $\textbf{A}$daptation with Optimal $\textbf{T}$ransport (GOAT)を提案する。 より具体的には、我々はまず特徴空間において与えられた2つの連続する領域の間のワッサーシュタイン測地線に沿って中間領域を生成し、次に段階的な自己学習を適用して、中間領域の列に沿ってソース学習された分類器をターゲットに適応させる。 実証的に、我々のGOATフレームワークは、与えられた中間ドメインが不足している場合に標準GDAの性能を向上し、GDAの実際のアプリケーションシナリオを大幅に拡張できることを示した。 私たちのコードはhttps://github.com/yifei-he/goatで利用可能です。

Unsupervised domain adaptation (UDA) adapts a model from a labeled source domain to an unlabeled target domain in a one-off way. Though widely applied, UDA faces a great challenge whenever the distribution shift between the source and the target is large. Gradual domain adaptation (GDA) mitigates this limitation by using intermediate domains to gradually adapt from the source to the target domain. In this work, we first theoretically analyze gradual self-training, a popular GDA algorithm, and provide a significantly improved generalization bound compared with Kumar et al. (2020). Our theoretical analysis leads to an interesting insight: to minimize the generalization error on the target domain, the sequence of intermediate domains should be placed uniformly along the Wasserstein geodesic between the source and target domains. The insight is particularly useful under the situation where intermediate domains are missing or scarce, which is often the case in real-world applications. Based on the insight, we propose $\textbf{G}$enerative Gradual D$\textbf{O}$main $\textbf{A}$daptation with Optimal $\textbf{T}$ransport (GOAT), an algorithmic framework that can generate intermediate domains in a data-dependent way. More concretely, we first generate intermediate domains along the Wasserstein geodesic between two given consecutive domains in a feature space, then apply gradual self-training to adapt the source-trained classifier to the target along the sequence of intermediate domains. Empirically, we demonstrate that our GOAT framework can improve the performance of standard GDA when the given intermediate domains are scarce, significantly broadening the real-world application scenarios of GDA. Our code is available at https://github.com/yifei-he/GOAT.
翻訳日:2023-10-25 05:01:32 公開日:2023-10-20
# NLIにおけるラベル変動の生態学的検証

Ecologically Valid Explanations for Label Variation in NLI ( http://arxiv.org/abs/2310.13850v1 )

ライセンス: Link先を確認
Nan-Jiang Jiang, Chenhao Tan, Marie-Catherine de Marneffe(参考訳) 人間のラベルのバリエーション、あるいはアノテーションの不一致は、自然言語推論(NLI)を含む多くの自然言語処理(NLP)タスクに存在する。 NLIラベルの変動の直接的な証拠を得るため、122のMNLI項目(少なくとも1項目あたり10の説明)について、1415の生態学的に有効な説明(注釈者がNLIラベルを説明している)の英データセットであるLiveNLIを構築した。 LiveNLIの説明は、人々が解釈に基づいて体系的に変化し、ラベル内の変動を強調できることを確認している。 これは、一般にラベル解釈をナビゲートする上で、説明が重要であることを示唆している。 我々は、大規模な言語モデルに説明を生成するよう促すが、結果は矛盾している: 有効で情報的な説明をしばしば生成するが、ラベルをサポートしない、改善の方向性を強調している不確実なものも生成する。

Human label variation, or annotation disagreement, exists in many natural language processing (NLP) tasks, including natural language inference (NLI). To gain direct evidence of how NLI label variation arises, we build LiveNLI, an English dataset of 1,415 ecologically valid explanations (annotators explain the NLI labels they chose) for 122 MNLI items (at least 10 explanations per item). The LiveNLI explanations confirm that people can systematically vary on their interpretation and highlight within-label variation: annotators sometimes choose the same label for different reasons. This suggests that explanations are crucial for navigating label interpretations in general. We few-shot prompt large language models to generate explanations but the results are inconsistent: they sometimes produces valid and informative explanations, but it also generates implausible ones that do not support the label, highlighting directions for improvement.
翻訳日:2023-10-25 05:00:55 公開日:2023-10-20
# デュアルストリームニューラルネットワークによる脳の背側および腹側視覚経路の機能的偏析

A Dual-Stream Neural Network Explains the Functional Segregation of Dorsal and Ventral Visual Pathways in Human Brains ( http://arxiv.org/abs/2310.13849v1 )

ライセンス: Link先を確認
Minkyu Choi, Kuan Han, Xiaokai Wang, Yizhen Zhang, Zhongming Liu(参考訳) ヒトの視覚システムは空間処理と物体認識に2つの並列経路を用いる。 対照的に、コンピュータビジョンシステムは単一のフィードフォワード経路を使い、人間の視覚よりも堅牢、適応性、効率的ではない。 このギャップを埋めるために、人間の目と脳に触発されたデュアルストリーム視覚モデルを開発した。 入力レベルでは、人間の目が脳への網膜入力を分離するためにマグノセルとパルボセルの網膜神経節細胞をどのように使うかを模した2つの相補的な視覚パターンをサンプリングする。 バックエンドでは、モデルは2つの分岐した畳み込みニューラルネットワーク(CNN)を通して別々の入力パターンを処理し、人間の脳が平行な視覚処理のために背側および腹側皮質経路をどのように使っているかを模倣する。 第1分枝(WhereCNN)は、空間的注意を学習し、眼球運動を制御するグローバルビューをサンプリングする。 第2のブランチ(WhatCNN)は、固定周辺のオブジェクトを表現するためにローカルビューをサンプリングする。 時間とともに、2つのブランチは反復的に対話し、移動固定からシーン表現を構築する。 我々は,このモデルとヒト脳で同じ映画を処理し,その機能的アライメントを線形変換により評価した。 WhereCNNとWhatCNNの枝は、主に学習目的が異なるため、それぞれ視覚野の背側と腹側経路に相違があることが判明した。 これらのモデルに基づく結果は、網膜入力の特定のバイアスや選択性よりも、腹側および背側ストリームの異なる反応と表現が視覚的注意と物体認識の異なる目標に影響されていると推測する。 このデュアルストリームモデルは、脳にインスパイアされたコンピュータビジョンのさらなる一歩を踏み出し、並列ニューラルネットワークが視覚環境を積極的に探索し理解できるようにする。

The human visual system uses two parallel pathways for spatial processing and object recognition. In contrast, computer vision systems tend to use a single feedforward pathway, rendering them less robust, adaptive, or efficient than human vision. To bridge this gap, we developed a dual-stream vision model inspired by the human eyes and brain. At the input level, the model samples two complementary visual patterns to mimic how the human eyes use magnocellular and parvocellular retinal ganglion cells to separate retinal inputs to the brain. At the backend, the model processes the separate input patterns through two branches of convolutional neural networks (CNN) to mimic how the human brain uses the dorsal and ventral cortical pathways for parallel visual processing. The first branch (WhereCNN) samples a global view to learn spatial attention and control eye movements. The second branch (WhatCNN) samples a local view to represent the object around the fixation. Over time, the two branches interact recurrently to build a scene representation from moving fixations. We compared this model with the human brains processing the same movie and evaluated their functional alignment by linear transformation. The WhereCNN and WhatCNN branches were found to differentially match the dorsal and ventral pathways of the visual cortex, respectively, primarily due to their different learning objectives. These model-based results lead us to speculate that the distinct responses and representations of the ventral and dorsal streams are more influenced by their distinct goals in visual attention and object recognition than by their specific bias or selectivity in retinal inputs. This dual-stream model takes a further step in brain-inspired computer vision, enabling parallel neural networks to actively explore and understand the visual surroundings.
翻訳日:2023-10-25 05:00:38 公開日:2023-10-20
# Augment with Care:選択スペクトル摂動によるグラフコントラスト学習の強化

Augment with Care: Enhancing Graph Contrastive Learning with Selective Spectrum Perturbation ( http://arxiv.org/abs/2310.13845v1 )

ライセンス: Link先を確認
Kaiqi Yang, Haoyu Han, Wei Jin, Hui Liu(参考訳) 近年,グラフコントラスト学習(gcl)がグラフ表現の学習において顕著な効果を示している。 GCLのコンポーネントとして、重要でない部分を破棄しながら、優れた拡張ビューは重要な情報に不変であるはずである。 摂動グラフ構造を持つ既存の拡張ビューは、通常、空間領域におけるランダムなトポロジー崩壊に基づいているが、スペクトル領域の観点からすると、このアプローチは、異なる周波数の情報に調整された影響を及ぼさないため、拡張ビュー間の合意を弱める可能性がある。 予備実験により、空間的ランダム摂動による影響は、ほぼ均等に周波数帯に分散しており、対照的な学習フレームワークが必要とする増大の分散を損なう可能性があることを示す。 この問題に対処するために、摂動は異なる周波数に関する情報に対して選択的に設定されるべきである。 本稿では,スペクトル領域内のグラフ構造の特定の周波数で調整された摂動を行い,スペクトルヒントによりエッジ摂動を選択的に導出するガスサーを提案する。 広範な実験と理論的解析によって示されるように、拡張ビューは適応的で制御可能であり、グラフ構造のホモフィリ比とスペクトルにヒューリスティックに適合する。

In recent years, Graph Contrastive Learning (GCL) has shown remarkable effectiveness in learning representations on graphs. As a component of GCL, good augmentation views are supposed to be invariant to the important information while discarding the unimportant part. Existing augmentation views with perturbed graph structures are usually based on random topology corruption in the spatial domain; however, from perspectives of the spectral domain, this approach may be ineffective as it fails to pose tailored impacts on the information of different frequencies, thus weakening the agreement between the augmentation views. By a preliminary experiment, we show that the impacts caused by spatial random perturbation are approximately evenly distributed among frequency bands, which may harm the invariance of augmentations required by contrastive learning frameworks. To address this issue, we argue that the perturbation should be selectively posed on the information concerning different frequencies. In this paper, we propose GASSER which poses tailored perturbation on the specific frequencies of graph structures in spectral domain, and the edge perturbation is selectively guided by the spectral hints. As shown by extensive experiments and theoretical analysis, the augmentation views are adaptive and controllable, as well as heuristically fitting the homophily ratios and spectrum of graph structures.
翻訳日:2023-10-25 05:00:05 公開日:2023-10-20
# エッジにおけるニューロモルフィックコンピューティングのためのマルチレベル自由バルクスイッチング三層RRAM

Multi-level, Forming Free, Bulk Switching Trilayer RRAM for Neuromorphic Computing at the Edge ( http://arxiv.org/abs/2310.13844v1 )

ライセンス: Link先を確認
Jaeseoung Park (1), Ashwani Kumar (1), Yucheng Zhou (1), Sangheon Oh (1), Jeong-Hoon Kim (1), Yuhan Shi (1), Soumil Jain (2), Gopabandhu Hota (1), Amelie L. Nagle (3), Catherine D. Schuman (4), Gert Cauwenberghs (2) and Duygu Kuzum (1) ((1) Department of Electrical and Computer Engineering, (2) Department of Bioengineering, University of California, San Diego, CA, USA. (3) Department of Computer Science, Massachusetts Institute of Technology, MA, USA. (4) Department of Electrical Engineering and Computer Science, University of Tennessee, TN, USA.)(参考訳) CMOS-RRAM統合によって構成された抵抗性メモリベースの再構成可能システムは、低エネルギー・高スループットニューロモルフィックコンピューティングに大いに期待できる。 しかし、フィラメントスイッチングに依存するほとんどのRRAM技術は、計算精度の低下、エネルギー消費の増加、高価なプログラムと検証方式によるオーバーヘッドにつながる変動とノイズに悩まされている。 フィラメント型RRAMデバイスのオンステート抵抗は、高電流読み書き操作によるエネルギー消費をさらに増加させ、配列サイズと並列乗算および累積演算を制限する。 フィラメントRRAMに必要な高速電圧は、高度なCMOS技術ノードと互換性がない。 これらの課題に対処するため,三層金属酸化物スタックをベースとした成形・バルクスイッチングRRAM技術を開発した。 我々は, 3層金属酸化物RRAMスタックを系統的に設計し, フィラメント形成を伴わない信頼性の高いバルクスイッチングを実現するために, 厚みの異なるRRAMデバイスのスイッチング特性を3層にわたって検討した。 高電流非線形性メガオームレジームにおけるバルクスイッチング動作を実証し,コンプライアンス電流を伴わずに最大100レベルまでプログラムした。 エネルギー効率の高いスイッチトキャパシタ電圧センシング回路と重みの差分符号化を組み合わせた三層バルクrramクロスバーに基づくニューロモルフィック計算プラットフォームを開発し,高精度行列ベクトル乗算を実験的に実証した。 自律的ナビゲーション・ラッキングタスクのためのスパイクニューラルネットワークモデルを実装し,バルクrramクロスバーの計算能力を示した。 我々の研究は、既存のRRAM技術によって引き起こされる課題に対処し、厳格なサイズ、重量、電力制約の下で、エッジでのニューロモルフィックコンピューティングの道を開く。

Resistive memory-based reconfigurable systems constructed by CMOS-RRAM integration hold great promise for low energy and high throughput neuromorphic computing. However, most RRAM technologies relying on filamentary switching suffer from variations and noise leading to computational accuracy loss, increased energy consumption, and overhead by expensive program and verify schemes. Low ON-state resistance of filamentary RRAM devices further increases the energy consumption due to high-current read and write operations, and limits the array size and parallel multiply & accumulate operations. High-forming voltages needed for filamentary RRAM are not compatible with advanced CMOS technology nodes. To address all these challenges, we developed a forming-free and bulk switching RRAM technology based on a trilayer metal-oxide stack. We systematically engineered a trilayer metal-oxide RRAM stack and investigated the switching characteristics of RRAM devices with varying thicknesses and oxygen vacancy distributions across the trilayer to achieve reliable bulk switching without any filament formation. We demonstrated bulk switching operation at megaohm regime with high current nonlinearity and programmed up to 100 levels without compliance current. We developed a neuromorphic compute-in-memory platform based on trilayer bulk RRAM crossbars by combining energy-efficient switched-capacitor voltage sensing circuits with differential encoding of weights to experimentally demonstrate high-accuracy matrix-vector multiplication. We showcased the computational capability of bulk RRAM crossbars by implementing a spiking neural network model for an autonomous navigation/racing task. Our work addresses challenges posed by existing RRAM technologies and paves the way for neuromorphic computing at the edge under strict size, weight, and power constraints.
翻訳日:2023-10-25 04:59:42 公開日:2023-10-20
# 高速双曲型決定木アルゴリズム

Fast hyperboloid decision tree algorithms ( http://arxiv.org/abs/2310.13841v1 )

ライセンス: Link先を確認
Philippe Chlenski, Ethan Turok, Antonio Moretti, Itsik Pe'er(参考訳) 双曲幾何学は、実世界のデータの階層構造を捉えることに効果があるため、機械学習で注目を集めている。 近隣が指数関数的に成長する双曲空間は、大きな利点をもたらし、様々なアプリケーションに対して常に最先端の結果をもたらす。 しかし、双曲型分類器はしばしば計算問題に悩まされる。 リーマン最適化に依拠する手法は、リーマン多様体上の演算の演算の計算要求の増加から引き起こされる、しばしば緩みを示す。 これらの課題に対応するために,決定木アルゴリズムを双曲空間に拡張したHyperDTを提案する。 重要なのは、ハイパーDTは計算集約的なリーマン最適化、数値的に不安定な指数と対数写像、あるいは内部積を利用してユークリッド決定木アルゴリズムを双曲空間に適応させることで点間のペア比較の必要性を排除している。 提案手法は概念的に単純であり,高次元ユークリッド空間に固有のスケーラビリティ問題を緩和しつつ,一定時間決定複雑性を維持する。 hyperdtを基盤として,双曲的ランダムフォレストモデルhyperrfを導入する。 多様なデータセットにわたる広範なベンチマークは、これらのモデルの優れたパフォーマンスを強調し、ハイパボリックデータ分析のための素早く、正確で、正確で、ユーザフレンドリなツールキットを提供する。

Hyperbolic geometry is gaining traction in machine learning for its effectiveness at capturing hierarchical structures in real-world data. Hyperbolic spaces, where neighborhoods grow exponentially, offer substantial advantages and consistently deliver state-of-the-art results across diverse applications. However, hyperbolic classifiers often grapple with computational challenges. Methods reliant on Riemannian optimization frequently exhibit sluggishness, stemming from the increased computational demands of operations on Riemannian manifolds. In response to these challenges, we present hyperDT, a novel extension of decision tree algorithms into hyperbolic space. Crucially, hyperDT eliminates the need for computationally intensive Riemannian optimization, numerically unstable exponential and logarithmic maps, or pairwise comparisons between points by leveraging inner products to adapt Euclidean decision tree algorithms to hyperbolic space. Our approach is conceptually straightforward and maintains constant-time decision complexity while mitigating the scalability issues inherent in high-dimensional Euclidean spaces. Building upon hyperDT we introduce hyperRF, a hyperbolic random forest model. Extensive benchmarking across diverse datasets underscores the superior performance of these models, providing a swift, precise, accurate, and user-friendly toolkit for hyperbolic data analysis.
翻訳日:2023-10-25 04:59:09 公開日:2023-10-20
# 運動場を用いたVVC高速インターパーティショニングのCNNによる分割経路予測

CNN-based Prediction of Partition Path for VVC Fast Inter Partitioning Using Motion Fields ( http://arxiv.org/abs/2310.13838v1 )

ライセンス: Link先を確認
Yiqun Liu, Marc Riviere, Thomas Guionnet, Aline Roumy, Christine Guillemot(参考訳) Versatile Video Coding (VVC) 規格は先日,JVET (Joint Video Exploration Team) によって確定した。 高効率ビデオ符号化(HEVC)標準と比較して、VVCはBjontegaard Delta-Rate(BDレート)の圧縮効率を約50%向上させ、符号化複雑性の10倍のコストで提供する。 本稿では,畳み込みニューラルネットワーク(CNN)を用いて,VVCにおける分割処理を高速化する手法を提案する。 まず、分割経路から派生したネストマルチタイプツリー(QTMT)パーティションを持つクワッドツリーの新しい表現を導入する。 次に、符号化木単位(ctu)レベルで入力として多スケール運動ベクトル場を有するu-netベースのcnnを開発した。 cnn推論の目的はrdo(rate-distortion optimization)プロセス中の最適分割経路を予測することである。 そこで我々は,CTUをグリッドに分割し,グリッドの各セルに対する第4次木深さとマルチタイプ木分割の決定を予測した。 第3に,各分割レベルでのcnn予測を用いて不要な分割パスのrdo評価をスキップする効率的なパーティショニングプルーニングアルゴリズムを提案する。 最後に、適応しきい値選択スキームを設計し、複雑さと効率のトレードオフをスケーラブルにする。 実験の結果,RandomAccess Group of Picture 32 (RAGOP32) では16.5%から60.2%の加速が可能であり,BD-rate では0.44%から4.59%の効率低下が認められた。 さらに,提案手法は,他のエンコーダへの適用性を保証するため,この分野で最も軽量な手法の一つとして注目される。

The Versatile Video Coding (VVC) standard has been recently finalized by the Joint Video Exploration Team (JVET). Compared to the High Efficiency Video Coding (HEVC) standard, VVC offers about 50% compression efficiency gain, in terms of Bjontegaard Delta-Rate (BD-rate), at the cost of a 10-fold increase in encoding complexity. In this paper, we propose a method based on Convolutional Neural Network (CNN) to speed up the inter partitioning process in VVC. Firstly, a novel representation for the quadtree with nested multi-type tree (QTMT) partition is introduced, derived from the partition path. Secondly, we develop a U-Net-based CNN taking a multi-scale motion vector field as input at the Coding Tree Unit (CTU) level. The purpose of CNN inference is to predict the optimal partition path during the Rate-Distortion Optimization (RDO) process. To achieve this, we divide CTU into grids and predict the Quaternary Tree (QT) depth and Multi-type Tree (MT) split decisions for each cell of the grid. Thirdly, an efficient partition pruning algorithm is introduced to employ the CNN predictions at each partitioning level to skip RDO evaluations of unnecessary partition paths. Finally, an adaptive threshold selection scheme is designed, making the trade-off between complexity and efficiency scalable. Experiments show that the proposed method can achieve acceleration ranging from 16.5% to 60.2% under the RandomAccess Group Of Picture 32 (RAGOP32) configuration with a reasonable efficiency drop ranging from 0.44% to 4.59% in terms of BD-rate, which surpasses other state-of-the-art solutions. Additionally, our method stands out as one of the lightest approaches in the field, which ensures its applicability to other encoders.
翻訳日:2023-10-25 04:58:50 公開日:2023-10-20
# ファウンデーションモデルの埋め込み表現は分布変化を検出できる

Foundation Model's Embedded Representations May Detect Distribution Shift ( http://arxiv.org/abs/2310.13836v1 )

ライセンス: Link先を確認
Adam Tsou, Max Vargas, Andrew Engel, Tony Chiang(参考訳) トレインとテストデータセット間の分散シフトは、ニューラルネットワークモデルの一般化能力を理解する能力を曖昧にします。 タスクとコンテキスト間の転送学習(tl)モデルの出発点として、事前学習された基礎モデルの成功を考えると、このトピックは特に重要になります。 本稿では、センチメント分類のためのSentiment140データセットに事前学習したGPT-2モデル上でのTLのケーススタディを示す。 Sentiment140のテストデータセット$M$は、トレーニングデータセット$P$と同じ分布からサンプリングされていないので、$P$でトレーニングし、M$のパフォーマンスを測定することは、感情分類におけるモデルの一般化を実際に考慮していない。

Distribution shifts between train and test datasets obscure our ability to understand the generalization capacity of neural network models. This topic is especially relevant given the success of pre-trained foundation models as starting points for transfer learning (TL) models across tasks and contexts. We present a case study for TL on a pre-trained GPT-2 model onto the Sentiment140 dataset for sentiment classification. We show that Sentiment140's test dataset $M$ is not sampled from the same distribution as the training dataset $P$, and hence training on $P$ and measuring performance on $M$ does not actually account for the model's generalization on sentiment classification.
翻訳日:2023-10-25 04:58:14 公開日:2023-10-20
# graphmaker: 拡散モデルは大きな帰結グラフを生成することができるか?

GraphMaker: Can Diffusion Models Generate Large Attributed Graphs? ( http://arxiv.org/abs/2310.13833v1 )

ライセンス: Link先を確認
Mufei Li, Eleonora Krea\v{c}i\'c, Vamsi K. Potluru, Pan Li(参考訳) ノード属性を持つ大規模グラフは、ソーシャルネットワークや金融ネットワークなど、現実世界のシナリオにおいて基本的なものだ。 実世界のグラフをエミュレートする合成グラフの生成は、グラフ機械学習において重要であり、元のデータが共有できない場合のネットワーク進化の理解とデータユーティリティの保存を支援する。 グラフ生成の伝統的なモデルは、限られたモデルの容量に苦しむ。 近年の拡散モデルの発展は、単にグラフ構造の生成や、属性を持つ小さな分子グラフの生成に期待が持たれている。 しかし、複雑なパターンやスケーラビリティを捉えることの難しさから、大きな有意なグラフへの適用性は未解決のままである。 本稿では,グラフ生成のための新しい拡散モデルであるgraphmakerを提案する。 本研究では,グラフ構造とノード属性生成を結合または分離する拡散モデルについて検討した。 また、ノードレベルのコンディショニングを採用し、スケーラビリティのためのミニバッチ戦略を採用しています。 さらに、生成した合成グラフに基づいて学習し、元のグラフでテストし、合成データの質を評価するモデルを用いた新しい評価パイプラインを提案する。 実世界のデータセットに関する実証的な評価は、下流タスクに有用な現実的で多様な大規模分散グラフの生成におけるGraphMakerの優位性を示している。

Large-scale graphs with node attributes are fundamental in real-world scenarios, such as social and financial networks. The generation of synthetic graphs that emulate real-world ones is pivotal in graph machine learning, aiding network evolution understanding and data utility preservation when original data cannot be shared. Traditional models for graph generation suffer from limited model capacity. Recent developments in diffusion models have shown promise in merely graph structure generation or the generation of small molecular graphs with attributes. However, their applicability to large attributed graphs remains unaddressed due to challenges in capturing intricate patterns and scalability. This paper introduces GraphMaker, a novel diffusion model tailored for generating large attributed graphs. We study the diffusion models that either couple or decouple graph structure and node attribute generation to address their complex correlation. We also employ node-level conditioning and adopt a minibatch strategy for scalability. We further propose a new evaluation pipeline using models trained on generated synthetic graphs and tested on original graphs to evaluate the quality of synthetic data. Empirical evaluations on real-world datasets showcase GraphMaker's superiority in generating realistic and diverse large-attributed graphs beneficial for downstream tasks.
翻訳日:2023-10-25 04:58:02 公開日:2023-10-20
# ベクトルとテンソル上の置換不変関数の普遍表現

Universal Representation of Permutation-Invariant Functions on Vectors and Tensors ( http://arxiv.org/abs/2310.13829v1 )

ライセンス: Link先を確認
Puoya Tabaghi, Yusu Wang(参考訳) 我々の研究の主な対象は、様々な大きさの入力に対する多元関数、すなわち置換不変関数である。 Deep Sets は \cite{zaheer2017deep} によって提案され、和分解可能なモデルを通してスカラー上の連続多重集合関数に対して \emph{universal representation} を提供する。 関数の領域を、$d$-次元ベクトルの有限多重集合に制限すると、ディープ集合はまた、入力多重集合の大きさの上限が$n$であるような、潜空間次元が $o(n^d)$ であるような \emph{universal approximation} も提供する。 本稿では, 普遍表現が連続かつ不連続な多重集合函数に対して, 潜在空間次元が $o(n^d)$ でありながら保証されることを示すことにより, この結果を強化する。 次に、識別子関数を用いてそれらの要素を一意にラベル付けできるような \emph{identible} 多重集合を導入する。 同定可能な多重集合に関する解析を用いて、一般連続的多重集合関数に対する和分解可能モデルは2DN$の潜在次元しか必要としないことを示す。 さらに、モデルのエンコーダ関数とデコーダ関数の両方が継続していることも示しています。 これはまた、連続かつ不連続な多重集合関数の普遍表現のために導かれた、前述の $o(n^d)$ bound を大幅に改善する。 そして、結果を拡張し、置換不変テンソル関数を同定可能なテンソル上で普遍的に表現する特別な和分解構造を提供する。 このような総和分解モデルによって,ディープネットワークアーキテクチャの設計と,シーケンスやイメージ,グラフといったさまざまな学習タスクへのデプロイが可能になります。

A main object of our study is multiset functions -- that is, permutation-invariant functions over inputs of varying sizes. Deep Sets, proposed by \cite{zaheer2017deep}, provides a \emph{universal representation} for continuous multiset functions on scalars via a sum-decomposable model. Restricting the domain of the functions to finite multisets of $D$-dimensional vectors, Deep Sets also provides a \emph{universal approximation} that requires a latent space dimension of $O(N^D)$ -- where $N$ is an upper bound on the size of input multisets. In this paper, we strengthen this result by proving that universal representation is guaranteed for continuous and discontinuous multiset functions though a latent space dimension of $O(N^D)$. We then introduce \emph{identifiable} multisets for which we can uniquely label their elements using an identifier function, namely, finite-precision vectors are identifiable. Using our analysis on identifiable multisets, we prove that a sum-decomposable model for general continuous multiset functions only requires a latent dimension of $2DN$. We further show that both encoder and decoder functions of the model are continuous -- our main contribution to the existing work which lack such a guarantee. Also this provides a significant improvement over the aforementioned $O(N^D)$ bound which was derived for universal representation of continuous and discontinuous multiset functions. We then extend our results and provide special sum-decomposition structures to universally represent permutation-invariant tensor functions on identifiable tensors. These families of sum-decomposition models enables us to design deep network architectures and deploy them on a variety of learning tasks on sequences, images, and graphs.
翻訳日:2023-10-25 04:57:43 公開日:2023-10-20
# 分散連合学習における競争優位攻撃

Competitive Advantage Attacks to Decentralized Federated Learning ( http://arxiv.org/abs/2310.13862v1 )

ライセンス: Link先を確認
Yuqi Jia, Minghong Fang, Neil Zhenqiang Gong(参考訳) 分散統合学習(DFL)は、クライアント(例えば病院や銀行)が中央オーケストレーションサーバーなしで機械学習モデルを共同で訓練することを可能にする。 各グローバルトレーニングラウンドでは、各クライアントが独自のトレーニングデータに基づいてローカルモデルをトレーニングし、アグリゲーションのためにローカルモデルを交換する。 本研究では,DFLに対する新たな攻撃ファミリーであるSelfishAttackを提案する。 SelfishAttackでは、利己的なクライアントのセットは、残りの非利己的なクライアントに比べて競争上の優位性を達成することを目的としている。 この目標に向けて、自己中心的なクライアントは、グローバルなトレーニングラウンド毎に、残りの各非自己中心的なモデルに慎重に独自のローカルモデルを送信する。 最適化問題としてそのような局所モデルを定式化し、DFLが異なるアグリゲーションルールを使用する場合の解法を提案する。 理論的には,提案手法が最適化問題の最適解であることを示す。 実証的に、セルフシアタックは、セルフシッシュクライアントの最終学習したローカルモデルと非セルフシッシュクライアントとの精度ギャップ(すなわち競争上の優位性)を良好に増加させることを示した。 さらに、SelfishAttackは、競争上の優位性を高めるために拡張された場合の中毒攻撃よりも大きな精度ギャップを達成する。

Decentralized federated learning (DFL) enables clients (e.g., hospitals and banks) to jointly train machine learning models without a central orchestration server. In each global training round, each client trains a local model on its own training data and then they exchange local models for aggregation. In this work, we propose SelfishAttack, a new family of attacks to DFL. In SelfishAttack, a set of selfish clients aim to achieve competitive advantages over the remaining non-selfish ones, i.e., the final learnt local models of the selfish clients are more accurate than those of the non-selfish ones. Towards this goal, the selfish clients send carefully crafted local models to each remaining non-selfish one in each global training round. We formulate finding such local models as an optimization problem and propose methods to solve it when DFL uses different aggregation rules. Theoretically, we show that our methods find the optimal solutions to the optimization problem. Empirically, we show that SelfishAttack successfully increases the accuracy gap (i.e., competitive advantage) between the final learnt local models of selfish clients and those of non-selfish ones. Moreover, SelfishAttack achieves larger accuracy gaps than poisoning attacks when extended to increase competitive advantages.
翻訳日:2023-10-25 04:48:10 公開日:2023-10-20
# 偽ニュースがすべて書かれたわけではない: 誤解を招くビデオ見出しのデータセットと分析

Not all Fake News is Written: A Dataset and Analysis of Misleading Video Headlines ( http://arxiv.org/abs/2310.13859v1 )

ライセンス: Link先を確認
Yoo Yeon Sung and Jordan Boyd-Graber and Naeemul Hassan(参考訳) ポーラリゼーションとインプレッションのマーケットプレースが、オンラインのナビゲーション情報をユーザにとって困難にするために共謀し、誤ったテキストや誤解を招くテキストを検出するための多大な努力をしてきたが、マルチモーダルデータセットは、かなり注目を集めていない。 既存のリソースを補完するために、ビデオからなるデータセットであるマルチモーダルビデオミスリーディングヘッドライン(VMH)と、その見出しがビデオの内容を表すものであるとアノテータが信じているかどうかを示す。 このデータセットを収集しアノテートした後、マルチモーダルベースラインを分析し、誤解を招く見出しを検出する。 アノテーションプロセスはまた、アノテーションが動画を誤解を招くものとして見ている理由にも焦点を当てており、アノテーションの背景と動画の内容の相互作用をよりよく理解することができる。

Polarization and the marketplace for impressions have conspired to make navigating information online difficult for users, and while there has been a significant effort to detect false or misleading text, multimodal datasets have received considerably less attention. To complement existing resources, we present multimodal Video Misleading Headline (VMH), a dataset that consists of videos and whether annotators believe the headline is representative of the video's contents. After collecting and annotating this dataset, we analyze multimodal baselines for detecting misleading headlines. Our annotation process also focuses on why annotators view a video as misleading, allowing us to better understand the interplay of annotators' background and the content of the videos.
翻訳日:2023-10-25 04:47:47 公開日:2023-10-20
# エッジ探索テストデータセットにおけるアノテーションアーティファクトの意味

Implications of Annotation Artifacts in Edge Probing Test Datasets ( http://arxiv.org/abs/2310.13856v1 )

ライセンス: Link先を確認
Sagnik Ray Choudhury and Jushaan Kalra(参考訳) エッジ探索テスト(edge probing test)は、大言語モデル(llm)のような文脈エンコーダから来るトークン表現にエンコードされた文法知識をテストする分類タスクである。 多くのLLMエンコーダはEPテストで高い性能を示しており、言語知識をエンコードする能力について推測されている。 しかし、多くの研究が、テストは知識をエンコードするllmの能力を測定するのではなく、問題を学習する分類器の能力を反映していると主張している。 この批判の多くは、LLMとランダムエンコーダを使用する場合の分類器の精度がよく似ているという事実に由来する。 その結果、情報理論プローブを含むいくつかの変更が提案されている。 一般に使用されるエッジ探索テストデータセットには,記憶を含む様々なバイアスがある。 これらのバイアスが除去されると、LSMエンコーダは単純な非情報理論プローブであってもランダムなバイアスと大きな違いを示す。

Edge probing tests are classification tasks that test for grammatical knowledge encoded in token representations coming from contextual encoders such as large language models (LLMs). Many LLM encoders have shown high performance in EP tests, leading to conjectures about their ability to encode linguistic knowledge. However, a large body of research claims that the tests necessarily do not measure the LLM's capacity to encode knowledge, but rather reflect the classifiers' ability to learn the problem. Much of this criticism stems from the fact that often the classifiers have very similar accuracy when an LLM vs a random encoder is used. Consequently, several modifications to the tests have been suggested, including information theoretic probes. We show that commonly used edge probing test datasets have various biases including memorization. When these biases are removed, the LLM encoders do show a significant difference from the random ones, even with the simple non-information theoretic probes.
翻訳日:2023-10-25 04:47:32 公開日:2023-10-20
# Evoke:レビュアー-認証プロンプト編集によるLLMの批判的思考能力の回避

Evoke: Evoking Critical Thinking Abilities in LLMs via Reviewer-Author Prompt Editing ( http://arxiv.org/abs/2310.13855v1 )

ライセンス: Link先を確認
Xinyu Hu, Pengfei Tang, Simiao Zuo, Zihan Wang, Bowen Song, Qiang Lou, Jian Jiao, Denis Charles(参考訳) 大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。 これらのモデルは適切な応答を生成するために適切なヒューマン命令(またはプロンプト)に依存する。 多くのヒューマン・イン・ザ・ループアルゴリズムは、プロンプト選択にアドホックな手順を用いるが、オート・プロンプト生成のアプローチは本質的に、すべての可能なプロンプトをランダムかつ非効率に探索する。 本稿では,自動プロンプトリファインメントフレームワークであるEvokeを提案する。 Evokeでは、1つはレビュアー(LLM-Reviewer)、もう1つは著者(LLM-Author)、もう1つは編集履歴とレビュアーのフィードバックを考慮してプロンプトを編集する。 このような著者/レビュー者のフィードバックループは、各イテレーションでプロンプトが洗練されることを保証する。 さらに,硬いサンプルのみをllmに露出させる,evokeへのデータ選択アプローチを集約する。 厳密なサンプルは、LCMがそれらのタスクをより深く理解し、モデルがより簡単なケースの解決方法をすでに知っているため、より重要である。 実験の結果,Evokeは既存の手法よりも優れていた。 例えば、論理的誤検出の難しいタスクでは、Evokeは80点を超え、他のすべてのベースラインメソッドは20点に達するのに苦労する。

Large language models (LLMs) have made impressive progress in natural language processing. These models rely on proper human instructions (or prompts) to generate suitable responses. However, the potential of LLMs are not fully harnessed by commonly-used prompting methods: many human-in-the-loop algorithms employ ad-hoc procedures for prompt selection; while auto prompt generation approaches are essentially searching all possible prompts randomly and inefficiently. We propose Evoke, an automatic prompt refinement framework. In Evoke, there are two instances of a same LLM: one as a reviewer (LLM-Reviewer), it scores the current prompt; the other as an author (LLM-Author), it edits the prompt by considering the edit history and the reviewer's feedback. Such an author-reviewer feedback loop ensures that the prompt is refined in each iteration. We further aggregate a data selection approach to Evoke, where only the hard samples are exposed to the LLM. The hard samples are more important because the LLM can develop deeper understanding of the tasks out of them, while the model may already know how to solve the easier cases. Experimental results show that Evoke significantly outperforms existing methods. For instance, in the challenging task of logical fallacy detection, Evoke scores above 80, while all other baseline methods struggle to reach 20.
翻訳日:2023-10-25 04:47:17 公開日:2023-10-20
# 減衰した高調波運動における平均重み付け

Exponential weight averaging as damped harmonic motion ( http://arxiv.org/abs/2310.13854v1 )

ライセンス: Link先を確認
Jonathan Patsenker, Henry Li, Yuval Kluger(参考訳) 指数移動平均 (EMA) は、ディープラーニング最適化において確率量の安定推定を提供するために一般的に用いられる統計量である。 近年、EMAはモデル重みに関して計算される生成モデルにかなり利用されており、トレーニング中の推論モデルの安定性を大幅に改善している。 トレーニング終了時の体重平均化の実践は、局所最適推定を改善するためによく研究され、知られているが、トレーニングの過程でのEMAの利点は理解されていない。 本稿では, EMAと減衰調和系との間には, 理想化されたゼロ長ばねにより一方の粒子(EMA重み)を他方の粒子(モデル重み)に引いて有意な結合を導出する。 次に、この物理アナロジーを利用して、EMAの有効性を分析し、BELAYと呼ばれる改良されたトレーニングアルゴリズムを提案する。 最後に, BELAYが標準EMAよりも有益であることを示す。

The exponential moving average (EMA) is a commonly used statistic for providing stable estimates of stochastic quantities in deep learning optimization. Recently, EMA has seen considerable use in generative models, where it is computed with respect to the model weights, and significantly improves the stability of the inference model during and after training. While the practice of weight averaging at the end of training is well-studied and known to improve estimates of local optima, the benefits of EMA over the course of training is less understood. In this paper, we derive an explicit connection between EMA and a damped harmonic system between two particles, where one particle (the EMA weights) is drawn to the other (the model weights) via an idealized zero-length spring. We then leverage this physical analogy to analyze the effectiveness of EMA, and propose an improved training algorithm, which we call BELAY. Finally, we demonstrate theoretically and empirically several advantages enjoyed by BELAY over standard EMA.
翻訳日:2023-10-25 04:46:52 公開日:2023-10-20
# gflownetsによる平衡分子配座生成に向けて

Towards equilibrium molecular conformation generation with GFlowNets ( http://arxiv.org/abs/2310.14782v1 )

ライセンス: Link先を確認
Alexandra Volokhova, Micha{\l} Koziarski, Alex Hern\'andez-Garc\'ia, Cheng-Hao Liu, Santiago Miret, Pablo Lemos, Luca Thiede, Zichao Yan, Al\'an Aspuru-Guzik, Yoshua Bengio(参考訳) 多様な熱力学的に実現可能な分子コンフォメーションのサンプリングは、分子の性質を予測する上で重要な役割を果たす。 本稿では,分子のエネルギーによって決定されるボルツマン分布から小分子のコンフォメーションをサンプリングするためにgflownetを使う方法を提案する。 提案手法は, 異なる忠実度のエネルギー推定法と組み合わせて利用することができ, 高いフレキシブルな薬物様分子に対する低エネルギー配座の多種多様な集合を見出すことができる。 我々はGFlowNetがボルツマン分布に比例して分子ポテンシャルエネルギー表面を再現できることを実証した。

Sampling diverse, thermodynamically feasible molecular conformations plays a crucial role in predicting properties of a molecule. In this paper we propose to use GFlowNet for sampling conformations of small molecules from the Boltzmann distribution, as determined by the molecule's energy. The proposed approach can be used in combination with energy estimation methods of different fidelity and discovers a diverse set of low-energy conformations for highly flexible drug-like molecules. We demonstrate that GFlowNet can reproduce molecular potential energy surfaces by sampling proportionally to the Boltzmann distribution.
翻訳日:2023-10-24 20:59:52 公開日:2023-10-20
# dance your latents: 動きの流れに導かれた空間的-時間的部分空間的注意を通した一貫したダンス生成

Dance Your Latents: Consistent Dance Generation through Spatial-temporal Subspace Attention Guided by Motion Flow ( http://arxiv.org/abs/2310.14780v1 )

ライセンス: Link先を確認
Haipeng Fang, Zhihao Sun, Ziyao Huang, Fan Tang, Juan Cao, Sheng Tang(参考訳) 生成AIの進歩は、人間のダンス生成の領域にまで広がり、優れた生成能力を示している。 しかし、現在の手法では時空間的一貫性が得られず、ゴースト、フリック、無矛盾な動きなどのアーティファクトが発生している。 本稿では,動きの流れに連動して踊り,一貫したダンスビデオを生成する枠組みであるdance-your-latentsを提案する。 まず,各構成要素が閉じ込められた空間内で動くことを考えると,大域空間を正規部分空間の組合せに分解し,これらの部分空間内の時空間の時空間一貫性を効率的にモデル化する空間時間的部分空間アテンションブロックを導入する。 このモジュールは、パッチが隣接領域に注意を払い、長距離の注意の過度な分散を緩和する。 さらに, 姿勢制御により身体の動作が誘導されるのを観察し, 運動流誘導サブスペースアライメントと復元を設計する。 この方法では、動きの流れに沿って不規則な部分空間上で注意を計算できる。 TikTokデータセットによる実験結果から,本手法は生成したビデオの時空間一貫性を著しく向上させることが示された。

The advancement of generative AI has extended to the realm of Human Dance Generation, demonstrating superior generative capacities. However, current methods still exhibit deficiencies in achieving spatiotemporal consistency, resulting in artifacts like ghosting, flickering, and incoherent motions. In this paper, we present Dance-Your-Latents, a framework that makes latents dance coherently following motion flow to generate consistent dance videos. Firstly, considering that each constituent element moves within a confined space, we introduce spatial-temporal subspace-attention blocks that decompose the global space into a combination of regular subspaces and efficiently model the spatiotemporal consistency within these subspaces. This module enables each patch pay attention to adjacent areas, mitigating the excessive dispersion of long-range attention. Furthermore, observing that body part's movement is guided by pose control, we design motion flow guided subspace align & restore. This method enables the attention to be computed on the irregular subspace along the motion flow. Experimental results in TikTok dataset demonstrate that our approach significantly enhances spatiotemporal consistency of the generated videos.
翻訳日:2023-10-24 20:59:42 公開日:2023-10-20
# 回転機械故障診断のための音響・振動信号を用いた新しい伝達学習法

A Novel Transfer Learning Method Utilizing Acoustic and Vibration Signals for Rotating Machinery Fault Diagnosis ( http://arxiv.org/abs/2310.14796v1 )

ライセンス: Link先を確認
Zhongliang Chen, Zhuofei Huang, Wenxiong Kang(参考訳) 回転機械の故障診断は, 近代産業システムの安全性と安定性に重要な役割を担っている。 しかし、トレーニングデータと実世界の運用シナリオのデータとの間には分布の相違があり、既存のシステムの性能が低下する。 本稿では,この分布差に対処する音響信号と振動信号を用いた伝達学習手法を提案する。 我々は,よりリッチで信頼性の高い断層情報を提供するために,音響・振動特性融合MAVgramを設計し,より効果的な診断表現を得るためにDNNベースの分類器と協調した。 バックボーンは事前訓練され、その後微調整され、目標タスクの優れた性能を得た。 実験により提案手法の有効性が示され,STgram-MFNと比較して性能が向上した。

Fault diagnosis of rotating machinery plays a important role for the safety and stability of modern industrial systems. However, there is a distribution discrepancy between training data and data of real-world operation scenarios, which causing the decrease of performance of existing systems. This paper proposed a transfer learning based method utilizing acoustic and vibration signal to address this distribution discrepancy. We designed the acoustic and vibration feature fusion MAVgram to offer richer and more reliable information of faults, coordinating with a DNN-based classifier to obtain more effective diagnosis representation. The backbone was pre-trained and then fine-tuned to obtained excellent performance of the target task. Experimental results demonstrate the effectiveness of the proposed method, and achieved improved performance compared to STgram-MFN.
翻訳日:2023-10-24 20:47:54 公開日:2023-10-20
# 重み付き関節最大平均差によるマルチソース・マルチターゲット非教師付きドメイン適応障害診断

Weighted Joint Maximum Mean Discrepancy Enabled Multi-Source-Multi-Target Unsupervised Domain Adaptation Fault Diagnosis ( http://arxiv.org/abs/2310.14790v1 )

ライセンス: Link先を確認
Zixuan Wang, Haoran Tang, Haibo Wang, Bo Qin, Mark D. Butala, Weiming Shen, Hongwei Wang(参考訳) データ駆動型インテリジェント障害診断技術によって達成される顕著な結果にもかかわらず、トレーニングデータとテストデータの同じ分布と十分なラベル付きデータを想定している。 様々な運用状態が実用的なシナリオにしばしば存在し、障害診断の有効性を妨げるドメインシフトの問題に繋がる。 最近の教師なしドメイン適応法はクロスドメイン障害診断を可能にするが、複数のソースドメインからの情報を効果的に活用し、複数のターゲットドメインにおいて効果的な診断障害を同時に達成することは困難である。 本稿では,障害診断の分野では,マルチソース・マルチターゲットシナリオ下でドメイン適応を実現するマルチソース・マルチターゲット・非教師なしドメイン適応(wjmmd-mda)を実現するために,重み付きジョイント最大平均偏差を提案する。 提案手法では,複数のラベル付きソースドメインから十分な情報を抽出し,重み付き距離損失を改善することにより,ソースドメインとターゲットドメインのドメインアライメントを実現する。 その結果、複数のソースとターゲットドメイン間のドメイン不変性と識別的特徴は、クロスドメイン障害診断により学習される。 提案手法の性能を3つのデータセットの総合的な比較実験で評価し,本手法の優位性を実証した。

Despite the remarkable results that can be achieved by data-driven intelligent fault diagnosis techniques, they presuppose the same distribution of training and test data as well as sufficient labeled data. Various operating states often exist in practical scenarios, leading to the problem of domain shift that hinders the effectiveness of fault diagnosis. While recent unsupervised domain adaptation methods enable cross-domain fault diagnosis, they struggle to effectively utilize information from multiple source domains and achieve effective diagnosis faults in multiple target domains simultaneously. In this paper, we innovatively proposed a weighted joint maximum mean discrepancy enabled multi-source-multi-target unsupervised domain adaptation (WJMMD-MDA), which realizes domain adaptation under multi-source-multi-target scenarios in the field of fault diagnosis for the first time. The proposed method extracts sufficient information from multiple labeled source domains and achieves domain alignment between source and target domains through an improved weighted distance loss. As a result, domain-invariant and discriminative features between multiple source and target domains are learned with cross-domain fault diagnosis realized. The performance of the proposed method is evaluated in comprehensive comparative experiments on three datasets, and the experimental results demonstrate the superiority of this method.
翻訳日:2023-10-24 20:47:29 公開日:2023-10-20
# 不均一エネルギー貯蔵システムの最適化のための解釈型深部強化学習

Interpretable Deep Reinforcement Learning for Optimizing Heterogeneous Energy Storage Systems ( http://arxiv.org/abs/2310.14783v1 )

ライセンス: Link先を確認
Luolin Xiong, Yang Tang, Chensheng Liu, Shuai Mao, Ke Meng, Zhaoyang Dong, Feng Qian(参考訳) エネルギー貯蔵システム(ESS)はエネルギー市場において重要な要素であり、エネルギー供給者と消費者の両方に役立っている。 ESSオペレータは、ストレージ機器の操作を最適化することで、エネルギー仲裁の恩恵を享受できる。 エネルギー市場におけるessの柔軟性をさらに高め、再生可能エネルギー利用を向上させるため、電池エネルギー貯蔵(bes)と水素エネルギー貯蔵(hes)のユニークな特性を活用した不均一型太陽光発電(pv-ess)を提案する。 不均一なpv-essのスケジューリングタスクでは、コスト記述がオペレータの戦略を最大化するために重要な役割を果たす。 我々は,実世界のシナリオを反映するために,劣化・資本・運用・維持コストを考慮した総合的コスト関数を開発する。 さらに、ESSエネルギーの調停を最適化する多くの手法が優れているが、しばしば不透明な意思決定プロセスを持つブラックボックスモデルに依存し、実用性を制限する。 この制限を克服し、透過的なスケジューリング戦略を実現するために、本質的に解釈可能なプロトタイプベースのポリシーネットワークを導入する。 このネットワークは、人間の設計したプロトタイプを用いて意思決定を導くために、原型的な状況と遭遇した状況の類似性を比較している。 ブラックボックスモデルと比較した場合,提案手法の有効性と実用性は,4つの異なる事例で比較された。

Energy storage systems (ESS) are pivotal component in the energy market, serving as both energy suppliers and consumers. ESS operators can reap benefits from energy arbitrage by optimizing operations of storage equipment. To further enhance ESS flexibility within the energy market and improve renewable energy utilization, a heterogeneous photovoltaic-ESS (PV-ESS) is proposed, which leverages the unique characteristics of battery energy storage (BES) and hydrogen energy storage (HES). For scheduling tasks of the heterogeneous PV-ESS, cost description plays a crucial role in guiding operator's strategies to maximize benefits. We develop a comprehensive cost function that takes into account degradation, capital, and operation/maintenance costs to reflect real-world scenarios. Moreover, while numerous methods excel in optimizing ESS energy arbitrage, they often rely on black-box models with opaque decision-making processes, limiting practical applicability. To overcome this limitation and enable transparent scheduling strategies, a prototype-based policy network with inherent interpretability is introduced. This network employs human-designed prototypes to guide decision-making by comparing similarities between prototypical situations and encountered situations, which allows for naturally explained scheduling strategies. Comparative results across four distinct cases underscore the effectiveness and practicality of our proposed pre-hoc interpretable optimization method when contrasted with black-box models.
翻訳日:2023-10-24 20:46:17 公開日:2023-10-20
# dynamite: 静的およびストリーミングデータセットを用いた連合学習のためのミニバッチサイズとアグリゲーション頻度の動的相互作用

DYNAMITE: Dynamic Interplay of Mini-Batch Size and Aggregation Frequency for Federated Learning with Static and Streaming Dataset ( http://arxiv.org/abs/2310.14906v1 )

ライセンス: Link先を確認
Weijie Liu, Xiaoxi Zhang, Jingpu Duan, Carlee Joe-Wong, Zhi Zhou, and Xu Chen(参考訳) Federated Learning(FL)は、異種エッジデバイスをコーディネートして、プライベートデータを共有せずにモデルトレーニングを実行する分散学習パラダイムである。 従来の研究は、バッチサイズや集約周波数といったハイパーパラメータに関するFL収束の分析に重点を置いていたが、これらのパラメータをモデル性能、トレーニング時間、リソース消費に調整する共同効果は、特に動的データストリームやネットワーク特性に直面する場合、見過ごされている。 本稿では,動的fl学習における収束,コスト,完了時間のトレードオフをナビゲートするために,バッチサイズとアグリゲーション周波数の相互作用を利用した新しい解析モデルと最適化アルゴリズムを提案する。 デバイス間の不均一なデータセットを考慮したトレーニングエラーに対する新たな収束境界を確立し,全デバイスで一貫した共最適化バッチサイズとアグリゲーション周波数のためのクローズドフォームソリューションを導出する。 さらに、デバイス間で異なるバッチ構成を割り当てる効率的なアルゴリズムを設計し、モデル精度を改善し、データ特性とシステム特性の均一性に対処する。 さらに,ネットワーク状態を動的に推定し,適切なデータバッチを効率的にサンプリングし,バッチサイズやアグリゲーション頻度を効果的に調整する適応制御アルゴリズムを提案する。 大規模な実験は、オフライン最適解とオンライン適応アルゴリズムの優位性を示す。

Federated Learning (FL) is a distributed learning paradigm that can coordinate heterogeneous edge devices to perform model training without sharing private data. While prior works have focused on analyzing FL convergence with respect to hyperparameters like batch size and aggregation frequency, the joint effects of adjusting these parameters on model performance, training time, and resource consumption have been overlooked, especially when facing dynamic data streams and network characteristics. This paper introduces novel analytical models and optimization algorithms that leverage the interplay between batch size and aggregation frequency to navigate the trade-offs among convergence, cost, and completion time for dynamic FL training. We establish a new convergence bound for training error considering heterogeneous datasets across devices and derive closed-form solutions for co-optimized batch size and aggregation frequency that are consistent across all devices. Additionally, we design an efficient algorithm for assigning different batch configurations across devices, improving model accuracy and addressing the heterogeneity of both data and system characteristics. Further, we propose an adaptive control algorithm that dynamically estimates network states, efficiently samples appropriate data batches, and effectively adjusts batch sizes and aggregation frequency on the fly. Extensive experiments demonstrate the superiority of our offline optimal solutions and online adaptive algorithm.
翻訳日:2023-10-24 20:07:45 公開日:2023-10-20
# 最悪のクラスエラーのバウンダリングの促進

Boosting for Bounding the Worst-class Error ( http://arxiv.org/abs/2310.14890v1 )

ライセンス: Link先を確認
Yuya Saito, Shinnosuke Matsuo, Seiichi Uchida, Daiki Suehiro(参考訳) 本稿では,すべてのクラスで平均される標準誤差率ではなく,最悪のクラスエラー率の問題に取り組む。 例えば、クラス毎のエラーレートが10\%、10\%、40\%の3つのクラス分類タスクは、クラスバランス条件下では平均が20\%であるのに対して、最悪のクラスエラー率は40\%である。 最悪のクラスエラーは多くのアプリケーションで重要です。 例えば、医用画像分類タスクでは、悪性腫瘍のクラスが40 %のエラー率を持つのに対して、良性クラスと健性クラスは10 %のエラー率を持つのに対して、悪性腫瘍のクラスが40 %のエラー率を持つことは許されない。 実験の結果,アルゴリズムはトレーニングセットへの過度な適合を回避しながら,最悪のテストエラー率を低下させることがわかった。

This paper tackles the problem of the worst-class error rate, instead of the standard error rate averaged over all classes. For example, a three-class classification task with class-wise error rates of 10\%, 10\%, and 40\% has a worst-class error rate of 40\%, whereas the average is 20\% under the class-balanced condition. The worst-class error is important in many applications. For example, in a medical image classification task, it would not be acceptable for the malignant tumor class to have a 40\% error rate, while the benign and healthy classes have 10\% error rates.We propose a boosting algorithm that guarantees an upper bound of the worst-class training error and derive its generalization bound. Experimental results show that the algorithm lowers worst-class test error rates while avoiding overfitting to the training set.
翻訳日:2023-10-24 20:05:41 公開日:2023-10-20
# ディジタルアナログビデオテープのレファレンスベース復元

Reference-based Restoration of Digitized Analog Videotapes ( http://arxiv.org/abs/2310.14926v1 )

ライセンス: Link先を確認
Lorenzo Agnolucci, Leonardo Galteri, Marco Bertini, Alberto Del Bimbo(参考訳) アナログ磁気テープは、数十年にわたって主要なビデオデータストレージデバイスであった。 アナログビデオテープに保存されたビデオは、フィルムやデジタルビデオの復元作業で見られたものと異なるテープエイジングやリーダー装置の故障によって引き起こされる独特の劣化パターンを示す。 本稿では,デジタルアナログビデオタペス(TAPE)の再作成のための参照ベースアプローチを提案する。 ゼロショットアーティファクト検出にCLIPを活用し、異なるアーティファクトを記述するテキストプロンプトを通じて、各ビデオの最もクリーンなフレームを識別する。 次に,入力フレームに最もよく似たクリーンフレームを選択し,参照として利用する。 我々は、マルチリファレンス空間特徴融合(mrsff)ブロックを介して隣り合うフレームと参照フレームの両方を利用するトランスフォーマティブベースのswin-unetネットワークを設計する。 MRSFFブロックは、各参照フレームの最も有用な部分を活用するために、クロスアテンションとアテンションプールに依存している。 実世界のビデオにおける真実の欠如に対処するため、アナログビデオテープによく見られるアーティファクトによく似ているビデオの合成データセットを作成します。 定量的および定性的な実験は,我々のアプローチが他の最先端手法と比較して有効であることを示している。 コード、モデル、合成データセットはhttps://github.com/miccunifi/TAPEで公開されている。

Analog magnetic tapes have been the main video data storage device for several decades. Videos stored on analog videotapes exhibit unique degradation patterns caused by tape aging and reader device malfunctioning that are different from those observed in film and digital video restoration tasks. In this work, we present a reference-based approach for the resToration of digitized Analog videotaPEs (TAPE). We leverage CLIP for zero-shot artifact detection to identify the cleanest frames of each video through textual prompts describing different artifacts. Then, we select the clean frames most similar to the input ones and employ them as references. We design a transformer-based Swin-UNet network that exploits both neighboring and reference frames via our Multi-Reference Spatial Feature Fusion (MRSFF) blocks. MRSFF blocks rely on cross-attention and attention pooling to take advantage of the most useful parts of each reference frame. To address the absence of ground truth in real-world videos, we create a synthetic dataset of videos exhibiting artifacts that closely resemble those commonly found in analog videotapes. Both quantitative and qualitative experiments show the effectiveness of our approach compared to other state-of-the-art methods. The code, the model, and the synthetic dataset are publicly available at https://github.com/miccunifi/TAPE.
翻訳日:2023-10-24 19:59:02 公開日:2023-10-20
# ARNIQA:画像品質評価のための歪みマニフォールド学習

ARNIQA: Learning Distortion Manifold for Image Quality Assessment ( http://arxiv.org/abs/2310.14918v1 )

ライセンス: Link先を確認
Lorenzo Agnolucci, Leonardo Galteri, Marco Bertini, Alberto Del Bimbo(参考訳) No-Reference Image Quality Assessment (NR-IQA) は、高品質な参照画像を必要としない、人間の知覚に合わせて画像品質を測定する手法を開発することを目的としている。 本研究では、画像歪み多様体をモデル化し、本質的な表現を得るための自己教師型アプローチ ARNIQA (leArning distoRtion maNifold for Image Quality Assessment) を提案する。 まず,連続した歪みの順序列をランダムに合成する画像劣化モデルを提案する。 このようにして、多種多様な劣化パターンで画像を合成分解することができる。 第2に,異なる画像のパッチ表現間の類似性を最大化することで,異なるコンテンツに拘わらず等しく歪んだモデルを構築することを提案する。 したがって、同じ方法で劣化した画像は歪み多様体内の隣接位置に対応する。 最後に、画像表現を単純な線形レグレッサで品質スコアにマッピングし、エンコーダ重みを微調整することなく表示する。 実験により,本手法は複数のデータセット上で最先端の性能を実現することを示す。 さらに、ARNIQAは競合する手法と比較してデータ効率、一般化能力、堅牢性が改善されている。 コードとモデルはhttps://github.com/miccunifi/arniqaで公開されている。

No-Reference Image Quality Assessment (NR-IQA) aims to develop methods to measure image quality in alignment with human perception without the need for a high-quality reference image. In this work, we propose a self-supervised approach named ARNIQA (leArning distoRtion maNifold for Image Quality Assessment) for modeling the image distortion manifold to obtain quality representations in an intrinsic manner. First, we introduce an image degradation model that randomly composes ordered sequences of consecutively applied distortions. In this way, we can synthetically degrade images with a large variety of degradation patterns. Second, we propose to train our model by maximizing the similarity between the representations of patches of different images distorted equally, despite varying content. Therefore, images degraded in the same manner correspond to neighboring positions within the distortion manifold. Finally, we map the image representations to the quality scores with a simple linear regressor, thus without fine-tuning the encoder weights. The experiments show that our approach achieves state-of-the-art performance on several datasets. In addition, ARNIQA demonstrates improved data efficiency, generalization capabilities, and robustness compared to competing methods. The code and the model are publicly available at https://github.com/miccunifi/ARNIQA.
翻訳日:2023-10-24 19:57:48 公開日:2023-10-20
# 物理インフォームドグラフ畳み込みネットワーク:複素幾何学の一般化フレームワークを目指して

Physics-Informed Graph Convolutional Networks: Towards a generalized framework for complex geometries ( http://arxiv.org/abs/2310.14948v1 )

ライセンス: Link先を確認
Marien Chenaud, Jos\'e Alves, Fr\'ed\'eric Magoul\`es(参考訳) 9]とその物理情報ニューラルネットワーク(PINN)のセミナル研究以来、ディープラーニングモデルを用いた偏微分方程式(PDE)の解法に多くの取り組みがなされてきた。 しかし、複雑な3次元幾何学へのモデルの拡張や、そのようなアプローチが古典的数値解法とどのように結合できるかの研究など、いくつかの課題は残っている。 本研究では,偏微分方程式の解法として従来の数値計算手法で用いられるメッシュと,これらのアーキテクチャの類似性に基づいて,これらの問題に対するグラフニューラルネットワークの利用を正当化する。 複素幾何学における物理インフォームドフレームワークの問題点を証明した後、古典的数値解法と物理インフォームドフレームワークを組み合わせることで、PDE残差の計算において別の方法を提案する。 最後に,この手法の実装を提案し,不規則な幾何学上の3次元問題について検証する。

Since the seminal work of [9] and their Physics-Informed neural networks (PINNs), many efforts have been conducted towards solving partial differential equations (PDEs) with Deep Learning models. However, some challenges remain, for instance the extension of such models to complex three-dimensional geometries, and a study on how such approaches could be combined to classical numerical solvers. In this work, we justify the use of graph neural networks for these problems, based on the similarity between these architectures and the meshes used in traditional numerical techniques for solving partial differential equations. After proving an issue with the Physics-Informed framework for complex geometries, during the computation of PDE residuals, an alternative procedure is proposed, by combining classical numerical solvers and the Physics-Informed framework. Finally, we propose an implementation of this approach, that we test on a three-dimensional problem on an irregular geometry.
翻訳日:2023-10-24 19:46:57 公開日:2023-10-20
# イベントベース予測接尾辞木

An Event based Prediction Suffix Tree ( http://arxiv.org/abs/2310.14944v1 )

ライセンス: Link先を確認
Evie Andrew, Travis Monk, Andr\'e van Schaik(参考訳) 本稿では,生物にインスパイアされた,事象に基づく予測アルゴリズムであるevent based prediction suffix tree(epst)について紹介する。 EPSTは、イベントベースの入力の統計に基づいてオンラインモデルを学び、複数の重複するパターンを予測できる。 EPSTは、短いコンテキストウィンドウ内のイベントサブシーケンスのパワーセットの一部として定義された、イベントベースのデータ固有の表現を使用する。 説明可能であり、フォールトトレランス、イベントノイズに対する耐性、ワンショット学習の能力など多くの有望な特性を持っている。 EPSTの計算特性を,付加的なイベントノイズ,イベントジッタ,ドロップアウトを含む合成データ予測タスクで検討した。 得られたアルゴリズムは、信号の近い将来の予測予測予測を出力し、イベントベースの異常検出やパターン認識などのタスクに適用することができる。

This article introduces the Event based Prediction Suffix Tree (EPST), a biologically inspired, event-based prediction algorithm. The EPST learns a model online based on the statistics of an event based input and can make predictions over multiple overlapping patterns. The EPST uses a representation specific to event based data, defined as a portion of the power set of event subsequences within a short context window. It is explainable, and possesses many promising properties such as fault tolerance, resistance to event noise, as well as the capability for one-shot learning. The computational features of the EPST are examined in a synthetic data prediction task with additive event noise, event jitter, and dropout. The resulting algorithm outputs predicted projections for the near term future of the signal, which may be applied to tasks such as event based anomaly detection or pattern recognition.
翻訳日:2023-10-24 19:46:02 公開日:2023-10-20
# 原型軌道の解釈可能なシーケンス分類

Interpretable Sequence Classification Via Prototype Trajectory ( http://arxiv.org/abs/2007.01777v3 )

ライセンス: Link先を確認
Dat Hong, Stephen S. Baek, Tong Wang(参考訳) 本稿では,ProtoryNetと呼ばれるテキスト分類のための新しい解釈可能なディープニューラルネットワークを提案する。 現代言語学におけるプロトタイプ理論に動機づけられたProtoryNetは、テキストシーケンスで各文の最も類似したプロトタイプを見つけ、各文の近接したRNNバックボーンを対応するアクティブプロトタイプに供給することで予測を行う。 RNNのバックボーンは、プロトタイプの時間パターンをキャプチャします。 プロトタイプの軌跡は、人間がテキストを分析する方法に似た、RNNモデルの推論過程の直感的できめ細かな解釈を可能にする。 また,モデルが使用するプロトタイプの総数を削減し,解釈性を向上させるためのプロトタイプの刈り込み手順も設計した。 複数の公開データセットの実験によると、ProtoryNetはベースラインのプロトタイプベースのディープニューラルネットよりも正確であり、最先端のブラックボックスモデルと比較してパフォーマンスギャップを低減する。 さらに、プロトタイププルーニング後の結果のProtoryNetモデルでは、すべてのデータセットのプロトタイプが20ほど必要とせず、解釈可能性に大きなメリットがある。 さらに,ProtoryNetがプロトタイプベースの手法よりも直感的で理解しやすいことを示す調査結果を報告する。

We propose a novel interpretable deep neural network for text classification, called ProtoryNet, based on a new concept of prototype trajectories. Motivated by the prototype theory in modern linguistics, ProtoryNet makes a prediction by finding the most similar prototype for each sentence in a text sequence and feeding an RNN backbone with the proximity of each sentence to the corresponding active prototype. The RNN backbone then captures the temporal pattern of the prototypes, which we refer to as prototype trajectories. Prototype trajectories enable intuitive and fine-grained interpretation of the reasoning process of the RNN model, in resemblance to how humans analyze texts. We also design a prototype pruning procedure to reduce the total number of prototypes used by the model for better interpretability. Experiments on multiple public data sets show that ProtoryNet is more accurate than the baseline prototype-based deep neural net and reduces the performance gap compared to state-of-the-art black-box models. In addition, after prototype pruning, the resulting ProtoryNet models only need less than or around 20 prototypes for all datasets, which significantly benefits interpretability. Furthermore, we report a survey result indicating that human users find ProtoryNet more intuitive and easier to understand than other prototype-based methods.
翻訳日:2023-10-24 16:07:23 公開日:2023-10-20
# フォールトトレラント・シンドロームの抽出とqubits削減による猫状態準備

Fault-tolerant syndrome extraction and cat state preparation with fewer qubits ( http://arxiv.org/abs/2108.02184v2 )

ライセンス: Link先を確認
Prithviraj Prabhu and Ben W. Reichardt(参考訳) 2つのフォールトトレラント量子コンピューティングプロトコルに必要な余分な量子ビット:エラー訂正、特にシンドロームビット測定、猫の状態準備。 距離3のフォールトトレラントシンドローム抽出では,従来の最良プロトコルよりもクビットオーバーヘッドが指数関数的に減少することを示す。 重量$w$安定化器の場合、一つの断層を許容する安定化器は、少なくとも$\lceil \log_2 w \rceil + 1$ ancilla qubits を必要とする。 qubitsが迅速にリセットすれば、4つのancillasが十分である。 また, 絡み合った猫状態の調製について検討し, 距離3の耐障害性は猫状態の大きさで対数的であることを証明した。 これらの結果は、数量子ビットの短期実験と、シンドローム測定と状態準備の漸近的リソース要求の一般的な研究の両方に適用される。 a$フラグキュービットを使用すると、以前のメソッドは$o(a)$フラグパターンを使用して障害を識別する。 同じフラグキュービットをより効率的に使用するために、$a$-dimensional hypercube を通る最大長経路を構築することにより、ほぼすべての2^a$ 可能なフラグパターンの使用方法を示す。

We reduce the extra qubits needed for two fault-tolerant quantum computing protocols: error correction, specifically syndrome bit measurement, and cat state preparation. For distance-three fault-tolerant syndrome extraction, we show an exponential reduction in qubit overhead over the previous best protocol. For a weight-$w$ stabilizer, we demonstrate that stabilizer measurement tolerating one fault needs at most $\lceil \log_2 w \rceil + 1$ ancilla qubits. If qubits reset quickly, four ancillas suffice. We also study the preparation of entangled cat states, and prove that the overhead for distance-three fault tolerance is logarithmic in the cat state size. These results apply both to near-term experiments with a few qubits, and to the general study of the asymptotic resource requirements of syndrome measurement and state preparation. With $a$ flag qubits, previous methods use $O(a)$ flag patterns to identify faults. In order to use the same flag qubits more efficiently, we show how to use nearly all $2^a$ possible flag patterns, by constructing maximal-length paths through the $a$-dimensional hypercube.
翻訳日:2023-10-24 16:02:32 公開日:2023-10-20
# ライフタイム政策の再利用と課題能力の重要性

Lifetime policy reuse and the importance of task capacity ( http://arxiv.org/abs/2106.01741v3 )

ライセンス: Link先を確認
David M. Bossens and Adam J. Sobey(参考訳) 人工知能における長年の課題は、生涯にわたる強化学習であり、学習者は一連のタスクを与えられたり、破滅的な忘れるのを避けながらタスク間で知識を移さなければならない。 政策再利用やその他の多目的強化学習技術は、複数のタスクを学習できるが、多くのポリシーを生成する可能性がある。 本稿では,2つの新しい貢献,すなわち 1)政策の最適化と適応的政策選択の組み合わせにより、一定の数に近い政策を最適化することにより、多くのポリシーの発生を回避できるモデル非依存のポリシー再利用アルゴリズムである。 2)タスク能力とは,政策が正確に解決できるタスクの最大数を示す尺度である。 その結果,18タスクの部分観測可能なpacmanドメインと最大125タスクのcartopoleドメインにおいて,ライフタイムポリシの再利用とタスクキャパシティに基づく事前選択の重要性が示された。

A long-standing challenge in artificial intelligence is lifelong reinforcement learning, where learners are given many tasks in sequence and must transfer knowledge between tasks while avoiding catastrophic forgetting. Policy reuse and other multi-policy reinforcement learning techniques can learn multiple tasks but may generate many policies. This paper presents two novel contributions, namely 1) Lifetime Policy Reuse, a model-agnostic policy reuse algorithm that avoids generating many policies by optimising a fixed number of near-optimal policies through a combination of policy optimisation and adaptive policy selection; and 2) the task capacity, a measure for the maximal number of tasks that a policy can accurately solve. Comparing two state-of-the-art base-learners, the results demonstrate the importance of Lifetime Policy Reuse and task capacity based pre-selection on an 18-task partially observable Pacman domain and a Cartpole domain of up to 125 tasks.
翻訳日:2023-10-24 16:01:12 公開日:2023-10-20
# 訓練済みモデルのためのレッドアラーム:ニューロンレベルバックドア攻撃に対する普遍的脆弱性

Red Alarm for Pre-trained Models: Universal Vulnerability to Neuron-Level Backdoor Attacks ( http://arxiv.org/abs/2101.06969v5 )

ライセンス: Link先を確認
Zhengyan Zhang, Guangxuan Xiao, Yongwei Li, Tian Lv, Fanchao Qi, Zhiyuan Liu, Yasheng Wang, Xin Jiang, Maosong Sun(参考訳) 事前訓練モデル(ptm)は様々な下流タスクで広く使われている。 PTMのパラメータはインターネット上に分散しており、バックドア攻撃に悩まされる可能性がある。 本研究では,任意の下流タスクにおいてバックドアアタックによって微調整されたPTMを容易に制御できるPTMの普遍的脆弱性を実証する。 具体的には、攻撃者は単純な事前トレーニングタスクを追加でき、トリガーインスタンスの出力表現を事前に定義されたベクトル、すなわちニューロンレベルのバックドア攻撃(NeuBA)に制限することができる。 微調整中にバックドア機能が削除されない場合、トリガーは事前に定義されたベクトルによって、微調整されたモデルが固定ラベルを予測する。 自然言語処理(NLP)とコンピュータビジョン(CV)の両方の実験において、NeuBAは下流タスクの知識のないトリガインスタンスの予測を確実に制御することを示した。 最後に、NeuBAにいくつかの防御方法を適用し、モデルプルーニングは、バックドアニューロンを排除して、NeuBAに抵抗する有望な方向であることを示す。 私たちの発見は、ptmを広く使うための赤いアラームのように聞こえる。 我々のソースコードとモデルは \url{https://github.com/thunlp/NeuBA} で入手できる。

Pre-trained models (PTMs) have been widely used in various downstream tasks. The parameters of PTMs are distributed on the Internet and may suffer backdoor attacks. In this work, we demonstrate the universal vulnerability of PTMs, where fine-tuned PTMs can be easily controlled by backdoor attacks in arbitrary downstream tasks. Specifically, attackers can add a simple pre-training task, which restricts the output representations of trigger instances to pre-defined vectors, namely neuron-level backdoor attack (NeuBA). If the backdoor functionality is not eliminated during fine-tuning, the triggers can make the fine-tuned model predict fixed labels by pre-defined vectors. In the experiments of both natural language processing (NLP) and computer vision (CV), we show that NeuBA absolutely controls the predictions for trigger instances without any knowledge of downstream tasks. Finally, we apply several defense methods to NeuBA and find that model pruning is a promising direction to resist NeuBA by excluding backdoored neurons. Our findings sound a red alarm for the wide use of PTMs. Our source code and models are available at \url{https://github.com/thunlp/NeuBA}.
翻訳日:2023-10-24 16:00:24 公開日:2023-10-20
# 重量減少の見落としと緩和策--グラディエント・ノームの視点から

On the Overlooked Pitfalls of Weight Decay and How to Mitigate Them: A Gradient-Norm Perspective ( http://arxiv.org/abs/2011.11152v5 )

ライセンス: Link先を確認
Zeke Xie, Zhiqiang Xu, Jingzhao Zhang, Issei Sato, Masashi Sugiyama(参考訳) 重崩壊は単純だが強力な正規化技術であり、ディープニューラルネットワーク(DNN)のトレーニングに広く用いられている。 重みの減衰は多くの注目を集めているが、以前の研究では重みの減衰によって生じる大きな勾配ノルムの落とし穴を見落としていない。 本稿では, 重みの低下が, トレーニングの最終段階(あるいは終端解)において大きな勾配ノルムをもたらすこと, しばしば収束不良や一般化不良を示すことを発見した。 勾配ノルム中心の落とし穴を緩和するために、我々は、勾配基準に従って重量減衰強度を動的に調整し、訓練中に大きな勾配基準を著しく罰できる、スケジュール付き重み決定法 (SWD) と呼ばれる、最初の減量スケジューラを提案する。 私たちの実験は、swdが実際には大きな勾配ノルムを緩和し、しばしば適応モーメント推定(adam)のための従来の定数重み減衰戦略を著しく上回っていることも支持しています。

Weight decay is a simple yet powerful regularization technique that has been very widely used in training of deep neural networks (DNNs). While weight decay has attracted much attention, previous studies fail to discover some overlooked pitfalls on large gradient norms resulted by weight decay. In this paper, we discover that, weight decay can unfortunately lead to large gradient norms at the final phase (or the terminated solution) of training, which often indicates bad convergence and poor generalization. To mitigate the gradient-norm-centered pitfalls, we present the first practical scheduler for weight decay, called the Scheduled Weight Decay (SWD) method that can dynamically adjust the weight decay strength according to the gradient norm and significantly penalize large gradient norms during training. Our experiments also support that SWD indeed mitigates large gradient norms and often significantly outperforms the conventional constant weight decay strategy for Adaptive Moment Estimation (Adam).
翻訳日:2023-10-24 15:59:10 公開日:2023-10-20
# ネットワークpruningのためのpruning-aware sparse regularization

Pruning-aware Sparse Regularization for Network Pruning ( http://arxiv.org/abs/2201.06776v2 )

ライセンス: Link先を確認
Nanfei Jiang, Xu Zhao, Chaoyang Zhao, Yongqi An, Ming Tang, Jinqiao Wang(参考訳) 構造ニューラルネットワークのプルーニングは、最終的な出力精度よりも重要度の低いフィルタをプルーニングすることで、深層畳み込みニューラルネットワーク(cnns)の冗長チャネルを除去することを目的としている。 刈り込み後の性能劣化を低減するため, スパース正則化による損失を利用して, 構造的疎度を生成する方法が多い。 本稿では,これらの疎性学習に基づく手法を解析し,未処理チャネルの正規化は不要であることを示す。 さらに、ネットワークの容量を制限し、不適合につながる。 そこで本稿では,pruning-aware sparse regularization を用いた新しいpruning法である masksparsity を提案する。 masksparsityは、モデルの全フィルタではなく、プルーニングマスクによって選択された特定のフィルタに細粒度のスパース正規化を課す。 MaskSparityの細粒度スパース正規化の前には、グローバルスパース正規化の実行など、プルーニングマスクの取得に多くの方法を用いることができる。 MaskSparsityは60.34%のパラメータを削除し、ResNet-110で63.03%のFLOPを削減した。 ILSVRC-2012では、MaskSparsityはResNet-50上で51.07%以上のFLOPを削減し、トップ1の精度は0.76%しか失われていない。 コードはhttps://github.com/CASIA-IVA-Lab/MaskSparsityで公開されている。 さらに、MaskSparityのコードを、https://gitee.com/casia_iva_engineer/easyprunerでPyTorchプルーニングツールキットEasyPrunerに統合しました。

Structural neural network pruning aims to remove the redundant channels in the deep convolutional neural networks (CNNs) by pruning the filters of less importance to the final output accuracy. To reduce the degradation of performance after pruning, many methods utilize the loss with sparse regularization to produce structured sparsity. In this paper, we analyze these sparsity-training-based methods and find that the regularization of unpruned channels is unnecessary. Moreover, it restricts the network's capacity, which leads to under-fitting. To solve this problem, we propose a novel pruning method, named MaskSparsity, with pruning-aware sparse regularization. MaskSparsity imposes the fine-grained sparse regularization on the specific filters selected by a pruning mask, rather than all the filters of the model. Before the fine-grained sparse regularization of MaskSparity, we can use many methods to get the pruning mask, such as running the global sparse regularization. MaskSparsity achieves 63.03%-FLOPs reduction on ResNet-110 by removing 60.34% of the parameters, with no top-1 accuracy loss on CIFAR-10. On ILSVRC-2012, MaskSparsity reduces more than 51.07% FLOPs on ResNet-50, with only a loss of 0.76% in the top-1 accuracy. The code is released at https://github.com/CASIA-IVA-Lab/MaskSparsity. Moreover, we have integrated the code of MaskSparity into a PyTorch pruning toolkit, EasyPruner, at https://gitee.com/casia_iva_engineer/easypruner.
翻訳日:2023-10-24 15:50:55 公開日:2023-10-20
# 粒子はジグザグを動かすことができるか?

Can a particle moves zigzag in time? ( http://arxiv.org/abs/2203.04200v2 )

ライセンス: Link先を確認
Sergey G. Rubin(参考訳) 時間ジグザグを含む量子遷移の振幅を考える。 この議論はミンコフスキー計量と標準量子力学の枠組みにおいて新しい仮定を加えることなく行われる。 時間ジグザグは量子レベルでは抑制されないが、振幅への寄与はゼロである。 結果は単一粒子と非相互作用スカラー場に対して有効である。

Amplitudes of quantum transitions containing time zigzags are considered. The discussion is carried out in the framework of the Minkowski metric and the standard quantum mechanics without adding new postulates. We argue that time zigzags are not suppressed at the quantum level, but their contribution to the amplitude is zero. The result is valid for a single particle and a non-interacting scalar field.
翻訳日:2023-10-24 15:39:15 公開日:2023-10-20
# cnot$^{n}$およびc$_2$not$^2$ゲートの平行実装 : ライドバーグ原子のホモ核およびヘテロ核f\"{o}rster相互作用

Parallel implementation of CNOT$^{N}$ and C$_2$NOT$^2$ gates via homonuclear and heteronuclear F\"{o}rster interactions of Rydberg atoms ( http://arxiv.org/abs/2206.12176v4 )

ライセンス: Link先を確認
Ahmed M. Farouk, I.I. Beterov, Peng Xu, S. Bergamini, I.I. Ryabtsev(参考訳) 量子ビットとして用いられるアルカリ金属中性原子に対する高忠実度マルチ量子ビットcnot$^{n}$とc$_{2}$not$^{2}$ゲートのスキームを解析した。 これらのスキームは、M. M\"{u}ller et al.によって提案された電磁誘導透過性とライドベルク封鎖に基づいている。 [PRL 102, 170502 (2009)] 元々の論文では、rydbergブロックに基づくマルチ量子ビットcnot$^{\text{n}}$ゲートの忠実性は、ターゲット原子間の望ましくない相互作用と結合レーザー強度によって制限されていた。 ターゲット原子はより弱いファンデルワールス相互作用で結合する一方、F\"{o}rster共鳴による強いヘテロ核双極子-双極子相互作用を制御およびターゲット原子に用いてこれらの限界を克服する。 我々は,ゲート方式の実験的実現性を向上させるため,レーザーの結合強度を極力小さく保ちつつ,高い忠実性を達成するためにゲート性能を最適化した。 また,c$_{2}$not$^{2}$ゲートのスキームの最適化も検討した。 我々の数値シミュレーションにより、CNOT$^4$ゲート(単一制御と4つのターゲット原子)の忠実度は99.3\%$、C$2$NOT$^2$(2つの制御と2つのターゲット原子)の忠実度は、実験的に実現可能な条件に対して最大99.7\%$であることを確認した。

We analyze schemes of high-fidelity multiqubit CNOT$^{N}$ and C$_{2}$NOT$^{2}$ gates for alkali-metal neutral atoms used as qubits. These schemes are based on the electromagnetically induced transparency and Rydberg blockade, as proposed by M. M\"{u}ller et al. [PRL 102, 170502 (2009)]. In the original paper, the fidelity of multi-qubit CNOT$^{\text{N}}$ gate based on Rydberg blockade was limited by the undesirable interaction between the target atoms, and by the coupling laser intensity. We propose overcoming these limits by using strong heteronuclear dipole-dipole interactions via F\"{o}rster resonances for control and target atoms, while the target atoms are coupled by weaker van der Waals interaction. We have optimized the gate performance in order to achieve higher fidelity, while keeping coupling laser intensity as small as possible in order to improve the experimental feasibility of the gate schemes. We also considered optimization of schemes of C$_{2}$NOT$^{2}$ gates, where the fidelity is affected by the relation between the control-control, control-target and target-target interaction energies. Our numeric simulations confirm that the fidelity of CNOT$^4$ gate (single control and four target atoms) can be up to $99.3\%$ and the fidelity of C$_2$NOT$^2$ (two control and two target atoms) is up to $99.7\%$ for the conditions which are experimentally feasible.
翻訳日:2023-10-24 15:28:33 公開日:2023-10-20
# ディープニューラルネットワークは高次元、雑音、非線形逆問題を安定して解くことができる

Deep neural networks can stably solve high-dimensional, noisy, non-linear inverse problems ( http://arxiv.org/abs/2206.00934v5 )

ライセンス: Link先を確認
Andr\'es Felipe Lerma Pineda and Philipp Christian Petersen(参考訳) 本研究では,ノイズ測定のみが可能な逆問題の再構成問題について検討する。 この問題は連続的に可逆でない無限次元のフォワード作用素でモデル化できると仮定する。 そして、このフォワード作用素を有限次元空間に制限し、逆はリプシッツ連続である。 逆演算子に対しては,演算子のロバスト-ノイズ近似であるニューラルネットワークが存在することを示す。 また,これらのニューラルネットワークは,適切な摂動訓練データから学習できることを示す。 我々は,このアプローチが実用的関心の幅広い逆問題に対して許容できることを示す。 理論的発見を支持する数値的な例が与えられる。

We study the problem of reconstructing solutions of inverse problems when only noisy measurements are available. We assume that the problem can be modeled with an infinite-dimensional forward operator that is not continuously invertible. Then, we restrict this forward operator to finite-dimensional spaces so that the inverse is Lipschitz continuous. For the inverse operator, we demonstrate that there exists a neural network which is a robust-to-noise approximation of the operator. In addition, we show that these neural networks can be learned from appropriately perturbed training data. We demonstrate the admissibility of this approach to a wide range of inverse problems of practical interest. Numerical examples are given that support the theoretical findings.
翻訳日:2023-10-24 15:26:18 公開日:2023-10-20
# 実世界のファイバグリッド上での処理ノード量子リピータの要求

Requirements for a processing-node quantum repeater on a real-world fiber grid ( http://arxiv.org/abs/2207.10579v2 )

ライセンス: Link先を確認
Guus Avis, Francisco Ferreira da Silva, Tim Coopmans, Axel Dahlberg, Hana Jirovsk\'a, David Maier, Julian Rabbie, Ariana Torres-Knoop, Stephanie Wehner(参考訳) 我々は,オランダのデルフト市とアイントホーフェン市の間の絡み合いの分布を,処理ノード量子リピータで解析し,カラーセンターとトラップイオンを用いたブラインド量子計算の最小限のハードウェア要件を決定する。 実世界のファイバグリッドが課す制約を考慮し,ハードウェア固有の詳細なモデルを用いて実験を行った。 理想的な設定で得られた結果と比較することにより、単純化がハードウェア要求、特にメモリコヒーレンスと光子収集の歪んだ図形に繋がることを示す。 量子ネットワーク用離散イベントシミュレータNetSquidを用いて任意の処理ノードリピータチェーンの研究に適した汎用機械を開発する。 これにより、時間依存ノイズモデルを含め、古典的な制御通信を含むカットオフを伴うリピータプロトコルをシミュレートできる。 高性能クラスタ上で遺伝的アルゴリズムを用いて最適化問題を解くことにより,最小限のハードウェア要件を求める。 我々の研究は、さらなる実験的進歩のガイダンスを提供し、理想化された状況における量子リピータ要件の研究の限界を示す。

We numerically study the distribution of entanglement between the Dutch cities of Delft and Eindhoven realized with a processing-node quantum repeater and determine minimal hardware requirements for verifiable blind quantum computation using color centers and trapped ions. Our results are obtained considering restrictions imposed by a real-world fiber grid and using detailed hardware-specific models. By comparing our results to those we would obtain in idealized settings we show that simplifications lead to a distorted picture of hardware demands, particularly on memory coherence and photon collection. We develop general machinery suitable for studying arbitrary processing-node repeater chains using NetSquid, a discrete-event simulator for quantum networks. This enables us to include time-dependent noise models and simulate repeater protocols with cut-offs, including the required classical control communication. We find minimal hardware requirements by solving an optimization problem using genetic algorithms on a high-performance-computing cluster. Our work provides guidance for further experimental progress, and showcases limitations of studying quantum-repeater requirements in idealized situations.
翻訳日:2023-10-24 15:18:19 公開日:2023-10-20
# DESCN:個別処理効果推定のための深部宇宙クロスネットワーク

DESCN: Deep Entire Space Cross Networks for Individual Treatment Effect Estimation ( http://arxiv.org/abs/2207.09920v3 )

ライセンス: Link先を確認
Kailiang Zhong, Fengtong Xiao, Yan Ren, Yaorong Liang, Wenqing Yao, Xiaofeng Yang, and Ling Cen(参考訳) 因果推論は電子商取引や精密医療など様々な分野で広く応用されており、その性能は個別処理効果(ITE)の正確な推定に大きく依存している。 従来、ITEは個々のサンプル空間で処理および制御応答関数を個別にモデル化することで予測される。 しかし、このようなアプローチは通常、治療バイアスによる治療群とコントロール群間の分散分布と、それらの集団サイズの顕著なサンプル不均衡という2つの問題に遭遇する。 本稿では,エンド・ツー・エンドの観点から治療効果をモデル化するためのDeep Entire Space Cross Networks (DESCN)を提案する。 DESCNは、マルチタスク学習方式で、治療の妥当性、応答、および隠れた治療効果の統合情報をクロスネットワークを介してキャプチャする。 本手法は, サンプル空間全体の処理機能と応答機能を協調的に学習し, 治療バイアスを回避し, 中間的擬似処理効果予測ネットワークを用いてサンプルの不均衡を緩和する。 総合的な実験は、Eコマースブーチャー流通ビジネスから合成データセットと大規模生産データセットを用いて行われる。 その結果,DESCNはITE推定精度を向上し,昇降ランキング性能を向上させることができた。 生産データセットとソースコードのサンプルは、コミュニティの将来的な研究を促進するためにリリースされ、これは私たちの知る限り、因果推論のための最初の大規模公共バイアス処理データセットである。

Causal Inference has wide applications in various areas such as E-commerce and precision medicine, and its performance heavily relies on the accurate estimation of the Individual Treatment Effect (ITE). Conventionally, ITE is predicted by modeling the treated and control response functions separately in their individual sample spaces. However, such an approach usually encounters two issues in practice, i.e. divergent distribution between treated and control groups due to treatment bias, and significant sample imbalance of their population sizes. This paper proposes Deep Entire Space Cross Networks (DESCN) to model treatment effects from an end-to-end perspective. DESCN captures the integrated information of the treatment propensity, the response, and the hidden treatment effect through a cross network in a multi-task learning manner. Our method jointly learns the treatment and response functions in the entire sample space to avoid treatment bias and employs an intermediate pseudo treatment effect prediction network to relieve sample imbalance. Extensive experiments are conducted on a synthetic dataset and a large-scaled production dataset from the E-commerce voucher distribution business. The results indicate that DESCN can successfully enhance the accuracy of ITE estimation and improve the uplift ranking performance. A sample of the production dataset and the source code are released to facilitate future research in the community, which is, to the best of our knowledge, the first large-scale public biased treatment dataset for causal inference.
翻訳日:2023-10-24 15:17:29 公開日:2023-10-20
# スパイクニューラルネットワークに基づくコヒーレントIsingマシンによる組合せ最適化

Combinatorial optimization solving by coherent Ising machines based on spiking neural networks ( http://arxiv.org/abs/2208.07502v2 )

ライセンス: Link先を確認
Bo Lu, Yong-Pan Gao, Kai Wen, Chuan Wang(参考訳) スパイキングニューラルネットワーク(spyking neural network)は、人工知能のレベルを向上し、量子コンピューティングのアドバンテージを提供する、一種のニューロモルフィックコンピューティングである。 本研究では,光スパイキングニューラルネットワークの設計によりこの問題に対処し,特に組合せ最適化問題において,計算速度の高速化に利用できることを示す。 ここで、スパイキングニューラルネットワークは、反対称結合縮退光パラメトリック発振器パルスと散逸パルスによって構成される。 非線形伝達関数は、振幅の不均一性を緩和し、スパイキングニューロンの動的挙動に応じて結果の局所的なミニマを不安定化する。 スパイクニューラルネットワークコヒーレントイジングマシンは組合せ最適化問題において優れた性能を有しており,ニューラルコンピューティングや光コンピューティングに新たな応用が期待されている。

Spiking neural network is a kind of neuromorphic computing that is believed to improve the level of intelligence and provide advantages for quantum computing. In this work, we address this issue by designing an optical spiking neural network and find that it can be used to accelerate the speed of computation, especially on combinatorial optimization problems. Here the spiking neural network is constructed by the antisymmetrically coupled degenerate optical parametric oscillator pulses and dissipative pulses. A nonlinear transfer function is chosen to mitigate amplitude inhomogeneities and destabilize the resulting local minima according to the dynamical behavior of spiking neurons. It is numerically shown that the spiking neural network-coherent Ising machines have excellent performance on combinatorial optimization problems, which is expected to offer new applications for neural computing and optical computing.
翻訳日:2023-10-24 15:04:26 公開日:2023-10-20
# 最も高速な量子変化点検出のための極限

Ultimate limits for quickest quantum change-point detection ( http://arxiv.org/abs/2208.03265v2 )

ライセンス: Link先を確認
Marco Fanizza, Christoph Hirche, John Calsamiglia(参考訳) データストリームの急激な変更の検出は、意図しないままにしておくと、重要な結果をもたらすイベントによってトリガーされることが多いため、非常に重要です。 最も急激な変化点検出は、予測された誤報時間に基づく変化の予測検出遅延を最小限に抑える手順を設計することを目的とした、重要な逐次解析プリミティブとなっている。 この基本的なプリミティブの量子対応を量子データのストリームに展開します。 最も一般的な量子検出戦略の下では、偽アラームの期待時間が漸近的に大きい場合、平均最小遅延が下限となる。これは、成長する量子データの列上の適応的集団(潜在的に弱い)測定のシーケンスによって与えられる。 さらに, サンプルの独立したブロック上での繰り返し測定に基づいて, 漸近的に下界に達する特定の戦略を与え, 最短変化点検出のための究極の量子限界を確立する。 最後に,量子チャネルにおけるオンライン変化点検出について述べる。

Detecting abrupt changes in data streams is crucial because they are often triggered by events that have important consequences if left unattended. Quickest change point detection has become a vital sequential analysis primitive that aims at designing procedures that minimize the expected detection delay of a change subject to a bounded expected false alarm time. We put forward the quantum counterpart of this fundamental primitive on streams of quantum data. We give a lower-bound on the mean minimum delay when the expected time of a false alarm is asymptotically large, under the most general quantum detection strategy, which is given by a sequence of adaptive collective (potentially weak) measurements on the growing string of quantum data. In addition, we give particular strategies based on repeated measurements on independent blocks of samples, that asymptotically attain the lower-bound, and thereby establish the ultimate quantum limit for quickest change point detection. Finally, we discuss online change point detection in quantum channels.
翻訳日:2023-10-24 15:04:11 公開日:2023-10-20
# 音声視覚イベントの局所化における映像レベルのセマンティック一貫性の活用

Leveraging the Video-level Semantic Consistency of Event for Audio-visual Event Localization ( http://arxiv.org/abs/2210.05242v2 )

ライセンス: Link先を確認
Yuanyuan Jiang, Jianqin Yin, Yonghao Dang(参考訳) 近年,AVE(Audio-visual Event)が注目されている。 既存の方法のほとんどは、ビデオ全体から分離した各ビデオセグメントを独立してエンコードし、分類することに限定されることが多い(イベントのセグメントレベルの表現と見なすこともできる)。 しかし、同じフルビデオ内のイベントのセマンティックな一貫性を無視する(これはイベントの動画レベルの表現と見なすことができる)。 既存の手法とは対照的に,avローカライズタスクのためのビデオレベルのセマンティック一貫性ガイダンスネットワークを提案する。 具体的には,イベントセマンティック一貫性モデリング(ESCM)モジュールを提案する。 クロスモーダルイベント表現抽出器(CERE)とイントラモーダルセマンティック一貫性増強器(ISCE)の2つのコンポーネントから構成される。 CEREはビデオレベルでイベントセマンティック情報を取得するために提案される。 さらに、ISCEはビデオレベルのイベントセマンティクスを事前知識として捉え、各モード内のイベントの意味的連続性に焦点を合わせる。 さらに,ネットワークが無関係なセグメントペアをフィルタする新たな負のペアフィルタ損失と,弱教師付き設定におけるイベントの異なるカテゴリ間のギャップをさらに増加させるための新しい平滑な損失を提案する。 我々は公開avデータセットで広範な実験を行い、完全な教師付き設定と弱い設定の両方において最先端のメソッドよりも優れており、この方法の有効性を検証している。

Audio-visual event (AVE) localization has attracted much attention in recent years. Most existing methods are often limited to independently encoding and classifying each video segment separated from the full video (which can be regarded as the segment-level representations of events). However, they ignore the semantic consistency of the event within the same full video (which can be considered as the video-level representations of events). In contrast to existing methods, we propose a novel video-level semantic consistency guidance network for the AVE localization task. Specifically, we propose an event semantic consistency modeling (ESCM) module to explore video-level semantic information for semantic consistency modeling. It consists of two components: a cross-modal event representation extractor (CERE) and an intra-modal semantic consistency enhancer (ISCE). CERE is proposed to obtain the event semantic information at the video level. Furthermore, ISCE takes video-level event semantics as prior knowledge to guide the model to focus on the semantic continuity of an event within each modality. Moreover, we propose a new negative pair filter loss to encourage the network to filter out the irrelevant segment pairs and a new smooth loss to further increase the gap between different categories of events in the weakly-supervised setting. We perform extensive experiments on the public AVE dataset and outperform the state-of-the-art methods in both fully- and weakly-supervised settings, thus verifying the effectiveness of our method.The code is available at https://github.com/Bravo5542/VSCG.
翻訳日:2023-10-24 14:57:37 公開日:2023-10-20
# 量子接触過程モデルにおける非ヘルミティシティによる連続相転移

Continuous phase transition induced by non-Hermiticity in the quantum contact process model ( http://arxiv.org/abs/2209.10718v3 )

ライセンス: Link先を確認
Wen-Bin He, Jiasen Jin, Fernando Iemini, and Hai-Qing Lin(参考訳) 非エルミート量子システムは最近、理論的および実験的に多くの注目を集めている。 しかし、単粒子画像に基づく結果は、非エルミート多体系の性質を理解するには適用できない。 量子多体系、特に位相遷移が非ヘルミティシティにどのように影響されるかは、まだ明らかでない。 ここでは、実効ハミルトニアンがリンドブラディアンのマスター方程式から導出される非エルミート量子接触過程(QCP)モデルについて検討する。 qcpの非ヘルミティシティによって誘起される連続相転移が存在することを示す。 また, 臨界指数 $\beta$ of orderパラメータ, $\gamma$ of susceptibility を定式化し, 相転移近傍の相関および絡み合いについて検討した。 古典相転移と異なる特異挙動を持つ多体系を非ヘルミティック性が有するため,有限サイズ系においても順序パラメータと感受性は無限特異性を示す。 さらに、この結果から、相転移はエルミート的な場合と全く異なる普遍性クラスに属するものではないことが示される。

Non-Hermitian quantum system recently have attracted a lots of attentions theoretically and experimentally. However, the results based on the single-particle picture may not apply to understand the property of non-Hermitian many-body system. How the property of quantum many-body system especially the phase transition will be affected by the non-hermiticity remains unclear. Here we study non-Hermitian quantum contact process (QCP) model, whose effective Hamiltonian is derived from Lindbladian master equation. We show that there is a continuous phase transition induced by the non-hermiticity in QCP. We also determine the critical exponents $\beta$ of order parameter, $\gamma$ of susceptibility and study the correlation and entanglement near phase transition. We observe that the order parameter and susceptibility display infinitely singularity even for finite size system, since non-hermiticity endow many-body system with different singular behaviour from classical phase transition. Moreover our results show that the phase transition have no counterpart in Hermitian case and belongs to completely different universality class.
翻訳日:2023-10-24 14:56:27 公開日:2023-10-20
# 削除に基づく説明の効率性と一貫性のトレードオフ

Trade-off Between Efficiency and Consistency for Removal-based Explanations ( http://arxiv.org/abs/2210.17426v3 )

ライセンス: Link先を確認
Yifan Zhang, Haowei He, Zhiquan Tan, Yang Yuan(参考訳) 現在の説明方法論のランドスケープでは、shapやlimeといった主要なアプローチは、特定の特徴を省略した様々なシナリオをシミュレートして、個々の特徴の影響を評価するために削除ベースの手法を採用している。 しかしながら、これらの手法は主に元の文脈における効率性を強調し、しばしば一般的な矛盾をもたらす。 本稿では,このような不整合性は,解釈可能性,効率,一貫性が同時に保持できないことを仮定する不合理三元論を確立することによって,これらのアプローチの本質的な側面であることを示す。 理想的な説明の達成がいまだ解明されていないことを認識し、非効率性と矛盾を測る指標として解釈誤差の利用を提案する。 そこで本研究では,解釈誤差の最小化を目的とした2つの新しいアルゴリズムを提案する。 実験の結果,提案手法は解釈誤差を最大31.8倍に低減できることがわかった。 コードはhttps://github.com/trusty-ai/ efficiency- consistent-explanationsで入手できる。

In the current landscape of explanation methodologies, most predominant approaches, such as SHAP and LIME, employ removal-based techniques to evaluate the impact of individual features by simulating various scenarios with specific features omitted. Nonetheless, these methods primarily emphasize efficiency in the original context, often resulting in general inconsistencies. In this paper, we demonstrate that such inconsistency is an inherent aspect of these approaches by establishing the Impossible Trinity Theorem, which posits that interpretability, efficiency, and consistency cannot hold simultaneously. Recognizing that the attainment of an ideal explanation remains elusive, we propose the utilization of interpretation error as a metric to gauge inefficiencies and inconsistencies. To this end, we present two novel algorithms founded on the standard polynomial basis, aimed at minimizing interpretation error. Our empirical findings indicate that the proposed methods achieve a substantial reduction in interpretation error, up to 31.8 times lower when compared to alternative techniques. Code is available at https://github.com/trusty-ai/efficient-consistent-explanations.
翻訳日:2023-10-24 14:18:13 公開日:2023-10-20
# 物理インフォームド深部拡散MRI画像再構成と臨床データ評価:人工知能における破断トレーニングデータ

Physics-informed Deep Diffusion MRI Reconstruction with Clinical Data Evaluation: Break Training Data Bottleneck in Artificial Intelligence ( http://arxiv.org/abs/2210.11388v3 )

ライセンス: Link先を確認
Chen Qian, Yuncheng Gao, Mingyang Han, Zi Wang, Dan Ruan, Yu Shen, Yiping Wu, Yirong Zhou, Chengyan Wang, Boyu Jiang, Ran Tao, Zhigang Wu, Jiazheng Wang, Liuhong Zhu, Yi Guo, Taishan Kang, Jianzhong Lin, Tao Gong, Chen Yang, Guoqiang Fei, Meijin Lin, Di Guo, Jianjun Zhou, Meiyun Wang, and Xiaobo Qu(参考訳) 拡散磁気共鳴イメージング(MRI)は、生体内水分子の非侵襲的な移動検出のための唯一の画像モダリティであり、臨床および研究に重要な応用がある。 マルチショット技術によって取得された拡散MRI(DWI)は、高分解能、信号と雑音の比が良く、幾何歪みが単ショットよりも小さいが、ショット間動きによって引き起こされるアーティファクトに悩まされる。 これらのアーティファクトは将来的に除去できないため、アーティファクトフリーのトレーニングラベルがない。 したがって,マルチショットDWI再構成における深層学習の可能性は未解決のままである。 そこで本研究では,物理拡散モデル(マグニチュード合成)とショット間動き誘導位相モデル(モーションフェーズ合成)を利用して,高品質なペアリングトレーニングデータを合成するための物理インフォームドディープDWI再構成法を提案する。 ネットワークは10万の合成サンプルで一度だけ訓練され、複数の現実的な生体内データ再構成の結果が得られた。 従来の方法に対する利点は以下のとおりである。 a) より優れたモーションアーティファクトの抑制と再構築の安定性 b)マルチレゾリューション,マルチb値,マルチアンサンプサンプリング,マルチベンダ,マルチセンタを含む,マルチセナリオ再構築の卓越した一般化 c) 7名の経験者(p<0.001)による検証患者に対する優れた臨床適応性(p<0.001) 結論として、piddはmri物理学の力を活用し、ディープラーニング医療画像におけるデータのボトルネックを破るコスト効率が高く説明可能な方法を提供する、新しいディープラーニングフレームワークを提案する。

Diffusion magnetic resonance imaging (MRI) is the only imaging modality for non-invasive movement detection of in vivo water molecules, with significant clinical and research applications. Diffusion MRI (DWI) acquired by multi-shot techniques can achieve higher resolution, better signal-to-noise ratio, and lower geometric distortion than single-shot, but suffers from inter-shot motion-induced artifacts. These artifacts cannot be removed prospectively, leading to the absence of artifact-free training labels. Thus, the potential of deep learning in multi-shot DWI reconstruction remains largely untapped. To break the training data bottleneck, here, we propose a Physics-Informed Deep DWI reconstruction method (PIDD) to synthesize high-quality paired training data by leveraging the physical diffusion model (magnitude synthesis) and inter-shot motion-induced phase model (motion phase synthesis). The network is trained only once with 100,000 synthetic samples, achieving encouraging results on multiple realistic in vivo data reconstructions. Advantages over conventional methods include: (a) Better motion artifact suppression and reconstruction stability; (b) Outstanding generalization to multi-scenario reconstructions, including multi-resolution, multi-b-value, multi-undersampling, multi-vendor, and multi-center; (c) Excellent clinical adaptability to patients with verifications by seven experienced doctors (p<0.001). In conclusion, PIDD presents a novel deep learning framework by exploiting the power of MRI physics, providing a cost-effective and explainable way to break the data bottleneck in deep learning medical imaging.
翻訳日:2023-10-24 14:16:20 公開日:2023-10-20
# 量子相関を持つ量子オットーエンジン

Quantum Otto engine with quantum correlations ( http://arxiv.org/abs/2211.12672v2 )

ライセンス: Link先を確認
Yang Xiao, Dehua Liu, Jizhou He, Yongli Ma, Zhaoqi Wu, and Jianhui Wang(参考訳) 光キャビティ内の単一モードの放射場に作用し、熱・冷水貯留層によって駆動される光オットーエンジンを理論的に提案・検討し、熱水貯留層を光学キャビティを通過する2レベル原子対の1つに送って実現し、冷水は非相互作用ボソンモードの集まりで構成する。 原子対の量子不一致の観点からは、性能パラメータ(パワーと効率)と安定性測度(パワーのばらつきの共効率)の解析式を導出する。 量子不協和により量子エンジンの性能と効率が向上し,動作モードも変化する可能性があることを示す。 また, 一般化された熱力学的不確かさ関係を満たすパワーの変動係数を減少させることにより, 量子ディスコードにより機械の安定性が向上することを示す。 最後に, 光学キャビティと熱ボソニック浴, 冷水貯水池の役割を担う2つの相関原子の対のビームを交互に結合した別の光-オットーエンジンモデルにこれらの結果が移動可能であることを見出した。

We theoretically prose and investigate a photo-Otto engine that is working with a single-mode radiation field inside an optical cavity and alternatively driven by a hot and a cold reservoir, where the hot reservoir is realized by sending one of a pair of correlated two-level atoms to pass through the optical cavity, and the cold one is made of a collection of noninteracting boson modes. In terms of the quantum discord of the pair of atoms, we derive the analytical expressions for the performance parameters (power and efficiency) and stability measure (coefficient of variation for power). We show that quantum discord boosts the performance and efficiency of the quantum engine, and even may change the operation mode. We also demonstrate that quantum discord improves the stability of machine by decreasing the coefficient of variation for power which satisfies the generalized thermodynamic uncertainty relation. Finally, we find that these results can be transferred to another photo-Otto engine model, where the optical cavity is alternatively coupled to a hot thermal bosonic bath and to a beam of pairs of the two correlated atoms that play the role of a cold reservoir.
翻訳日:2023-10-24 14:06:58 公開日:2023-10-20
# AFアダプタ:中国の生物医学言語モデル構築のための継続的な事前訓練

AF Adapter: Continual Pretraining for Building Chinese Biomedical Language Model ( http://arxiv.org/abs/2211.11363v2 )

ライセンス: Link先を確認
Yongyu Yan, Kui Xue, Xiaoming Shi, Qi Ye, Jingping Liu, Tong Ruan(参考訳) 連続事前学習は、一般的なドメイン言語モデルからドメイン固有の事前訓練言語モデルを構築する一般的な方法である。 その効率は高いが、継続的な事前訓練は破滅的な忘れに苦しみ、ダウンストリームタスクにおけるモデルのパフォーマンスを損なう可能性がある。 この問題を軽減するため,本論文では,アテンション-FFNアダプタ(Attention-FFN Adapter)というBERTベースモデルの継続事前学習手法を提案する。 その主なアイデアは、各セルフアテンション層とフィードフォワードネットワークの中に、少数の注意ヘッドと隠れユニットを導入することである。 さらに,中国生物医学領域を対象に,AF AdapterをベースとしたRoBERTaというドメイン固有言語モデルを訓練する。 実験では、評価のために下流タスクにモデルを適用する。 その結果、トレーニングされたモデルパラメータの約17%で、AF Adapterは、強いベースラインに比べて平均で0.6%、2%のパフォーマンス向上を達成した。 さらに, 本手法は, 微調整法と比較して, 壊滅的忘れる問題を11%軽減することを示した。

Continual pretraining is a popular way of building a domain-specific pretrained language model from a general-domain language model. In spite of its high efficiency, continual pretraining suffers from catastrophic forgetting, which may harm the model's performance in downstream tasks. To alleviate the issue, in this paper, we propose a continual pretraining method for the BERT-based model, named Attention-FFN Adapter. Its main idea is to introduce a small number of attention heads and hidden units inside each self-attention layer and feed-forward network. Furthermore, we train a domain-specific language model named AF Adapter based RoBERTa for the Chinese biomedical domain. In experiments, models are applied to downstream tasks for evaluation. The results demonstrate that with only about 17% of model parameters trained, AF Adapter achieves 0.6%, 2% gain in performance on average, compared to strong baselines. Further experimental results show that our method alleviates the catastrophic forgetting problem by 11% compared to the fine-tuning method.
翻訳日:2023-10-24 14:06:37 公開日:2023-10-20
# 二元系ボース混合物の有限温度での相分離

Phase separation in binary Bose mixtures at finite temperature ( http://arxiv.org/abs/2211.09574v2 )

ライセンス: Link先を確認
G. Spada, L. Parisi, G. Pascual, N. G. Parker, T. P. Billam, S. Pilati, J. Boronat and S. Giorgini(参考訳) 有限温度反発型2成分ボース混合系の磁気挙動を, 正確な経路積分モンテカルロシミュレーションを用いて検討した。 新しいアルゴリズムは、2つの成分の自由エネルギーと化学ポテンシャルのために実装されている。 磁化率の結果から, 相分離条件はゼロ温度の場合から変化しないことが示唆された。 これは近似理論に基づく以前の予測と矛盾する。 また, 化学ポテンシャルと接触パラメータの温度依存性についても検討した。

We investigate the magnetic behavior of finite-temperature repulsive two-component Bose mixtures by means of exact path-integral Monte-Carlo simulations. Novel algorithms are implemented for the free energy and the chemical potential of the two components. Results on the magnetic susceptibility suggest that the conditions for phase separation are not modified from the zero temperature case. This contradicts previous predictions based on approximate theories. We also determine the temperature dependence of the chemical potential and the contact parameters for experimentally relevant balanced mixtures.
翻訳日:2023-10-24 14:06:17 公開日:2023-10-20
# 美しい写真ばかりでなく:テキストから画像へのジェネレータによる介入的データ拡張に向けて

Not Just Pretty Pictures: Toward Interventional Data Augmentation Using Text-to-Image Generators ( http://arxiv.org/abs/2212.11237v3 )

ライセンス: Link先を確認
Jianhao Yuan, Francesco Pinto, Adam Davies, Philip Torr(参考訳) ニューラルイメージ分類器は、トレーニング分布に関する共変量シフトを示す入力に曝露した場合、厳しい性能劣化を経験することが知られている。 突発変数に対する任意の介入をシミュレートする一般介入データ拡張(IDA)機構は、この問題の理論的解決としてしばしば予想され、様々な成功度に近似された。 本研究では,最新のテキスト・トゥ・イメージ(T2I)ジェネレータと関連する画像編集技術が,IDAの問題をいかに解決できるかを考察する。 介入的プロンプト,コンディショニング機構,ポストホックフィルタリングなど,t2i生成のキーディメンションにまたがるさまざまなベンチマーク群で実験を行い,各ディメンションの構成方法とは無関係に,それまでの最先端画像拡張技術を大きく上回ることを示した。 画像編集と合成にt2iを用いた場合の利点について考察し、また、単純な検索ベースラインが驚くほど効果的な代替案を示し、ドメイン一般化の文脈でどのように生成モデルを評価するべきかという興味深い疑問を提起する。

Neural image classifiers are known to undergo severe performance degradation when exposed to inputs that exhibit covariate shifts with respect to the training distribution. A general interventional data augmentation (IDA)mechanism that simulates arbitrary interventions over spurious variables has often been conjectured as a theoretical solution to this problem and approximated to varying degrees of success. In this work, we study how well modern Text-to-Image (T2I) generators and associated image editing techniques can solve the problem of IDA. We experiment across a diverse collection of benchmarks in domain generalization, ablating across key dimensions of T2I generation, including interventional prompts, conditioning mechanisms, and post-hoc filtering, showing that it substantially outperforms previously state-of-the-art image augmentation techniques independently of how each dimension is configured. We discuss the comparative advantages of using T2I for image editing versus synthesis, also finding that a simple retrieval baseline presents a surprisingly effective alternative, which raises interesting questions about how generative models should be evaluated in the context of domain generalization.
翻訳日:2023-10-24 13:58:20 公開日:2023-10-20
# CoCo: コントラスト学習によるデータ制限下でのコヒーレンス強化機械によるテキスト検出

CoCo: Coherence-Enhanced Machine-Generated Text Detection Under Data Limitation With Contrastive Learning ( http://arxiv.org/abs/2212.10341v2 )

ライセンス: Link先を確認
Xiaoming Liu, Zhaohan Zhang, Yichen Wang, Hang Pu, Yu Lan, Chao Shen(参考訳) HWT(Human-Written Text)からMGTを識別するタスクであるMGT検出(Machine-Generated Text)は,近年,人間の書体スタイルを模倣するテキスト生成モデルの誤用を防止する上で重要な役割を担っている。 最新の検出器は、通常、粗いテキストシーケンスを標準のクロスエントロピー損失を持つ入力および微調整事前訓練されたモデルとみなす。 しかし、これらの手法はテキストの言語構造を考慮しない。 さらに、オンラインの膨大なテキストデータを考えると、実際に起こりうる低リソースの問題に対処する能力が欠如している。 本稿では,コヒーレンスに基づくコントラスト学習モデルCoCoを提案する。 言語的特徴を生かすために,コヒーレンス情報をグラフ形式でテキスト表現に符号化する。 低データ資源の課題に取り組むために,コントラスト学習フレームワークを採用し,簡易なサンプルによる性能低下を防止するためのコントラスト損失の改善を提案する。 実験の結果、2つの公開データセットと2つの自己構築データセットが得られた。 また,私たちの実験では,最新の言語モデルに由来するmgtsは,従来のモデルよりも検出しやすいことがわかった。 そして,この反直観現象の予備的な説明を提案する。 すべてのコードとデータセットはオープンソースである。

Machine-Generated Text (MGT) detection, a task that discriminates MGT from Human-Written Text (HWT), plays a crucial role in preventing misuse of text generative models, which excel in mimicking human writing style recently. Latest proposed detectors usually take coarse text sequences as input and fine-tune pretrained models with standard cross-entropy loss. However, these methods fail to consider the linguistic structure of texts. Moreover, they lack the ability to handle the low-resource problem which could often happen in practice considering the enormous amount of textual data online. In this paper, we present a coherence-based contrastive learning model named CoCo to detect the possible MGT under low-resource scenario. To exploit the linguistic feature, we encode coherence information in form of graph into text representation. To tackle the challenges of low data resource, we employ a contrastive learning framework and propose an improved contrastive loss for preventing performance degradation brought by simple samples. The experiment results on two public datasets and two self-constructed datasets prove our approach outperforms the state-of-art methods significantly. Also, we surprisingly find that MGTs originated from up-to-date language models could be easier to detect than these from previous models, in our experiments. And we propose some preliminary explanations for this counter-intuitive phenomena. All the codes and datasets are open-sourced.
翻訳日:2023-10-24 13:57:32 公開日:2023-10-20
# 単一h$_2^+$のトラッピングと基底状態冷却

Trapping and Ground-State Cooling of a Single H$_2^+$ ( http://arxiv.org/abs/2212.06456v2 )

ライセンス: Link先を確認
N. Schwegler, D. Holzapfel, M. Stadler, A. Mitjans, I. Sergachev, J. P. Home, and D. Kienzler(参考訳) 極低温ポールトラップにおけるh$_2^+$ - $^9$be$^+$イオン対のコトラッピングとサイドバンド冷却の実証を行った。 我々は、h$2^+$ の化学寿命と装置温度への依存を調べ、10k で最大 1,1^{+6}_{-3}$ h の寿命を到達し、翻訳運動の2つのモードを平均フォノン数 0.07(1) と 0.05(1) に冷却し、それぞれ 22(1) $\mu$k と 55(3) $\mu$k の温度に対応することを実証した。 この結果は、H$_2^+$の量子論理分光実験の基礎を提供するとともに、HD$^+$、H$_3^+$、He$^+$などの光イオンも提供する。

We demonstrate co-trapping and sideband cooling of a H$_2^+$ - $^9$Be$^+$ ion pair in a cryogenic Paul trap. We study the chemical lifetime of H$_2^+$ and its dependence on the apparatus temperature, achieving lifetimes of up to $11^{+6}_{-3}$ h at 10 K. We demonstrate cooling of two of the modes of translational motion to an average phonon number of 0.07(1) and 0.05(1), corresponding to a temperature of 22(1) $\mu$K and 55(3) $\mu$K respectively. Our results provide a basis for quantum logic spectroscopy experiments of H$_2^+$, as well as other light ions such as HD$^+$, H$_3^+$, and He$^+$.
翻訳日:2023-10-24 13:56:19 公開日:2023-10-20
# 確率勾配の概観的構造について

On the Overlooked Structure of Stochastic Gradients ( http://arxiv.org/abs/2212.02083v3 )

ライセンス: Link先を確認
Zeke Xie, Qian-Yuan Tang, Mingming Sun, Ping Li(参考訳) 確率勾配はディープニューラルネットワーク(DNN)の最適化と一般化の両方に密接に関係している。 いくつかの研究は、勾配雑音の重テール特性による深層学習における確率的最適化の成功を説明しようとしたが、他の研究は勾配雑音の重テール仮説に対する理論的および実証的な証拠を提示した。 残念ながら、深層学習における確率勾配の構造と重い尾の解析のための形式的な統計テストはまだ未検討である。 本稿では,主に2つの貢献をする。 まず,確率的勾配と勾配雑音の分布について,パラメータと反復をまたいだ形式的統計実験を行う。 我々の統計的テストでは、次元的勾配は典型的にはパワーロー重尾を示すが、反復的勾配とミニバッチトレーニングによる確率的勾配ノイズは通常パワーロー重尾を示すものではない。 第2に, 確率勾配の共分散スペクトルは, 従来の研究で見過ごされていたパワーロー構造を持ち, dnnの訓練における理論的意義を示す。 従来の研究では、確率勾配の異方性構造は深層学習に重要であると考えられていたが、勾配の共分散がそのようなエレガントな数学的構造を持つとは考えていなかった。 我々の研究は既存の信念に挑戦し、深層学習における確率的勾配の構造に関する新しい洞察を提供する。

Stochastic gradients closely relate to both optimization and generalization of deep neural networks (DNNs). Some works attempted to explain the success of stochastic optimization for deep learning by the arguably heavy-tail properties of gradient noise, while other works presented theoretical and empirical evidence against the heavy-tail hypothesis on gradient noise. Unfortunately, formal statistical tests for analyzing the structure and heavy tails of stochastic gradients in deep learning are still under-explored. In this paper, we mainly make two contributions. First, we conduct formal statistical tests on the distribution of stochastic gradients and gradient noise across both parameters and iterations. Our statistical tests reveal that dimension-wise gradients usually exhibit power-law heavy tails, while iteration-wise gradients and stochastic gradient noise caused by minibatch training usually do not exhibit power-law heavy tails. Second, we further discover that the covariance spectra of stochastic gradients have the power-law structures overlooked by previous studies and present its theoretical implications for training of DNNs. While previous studies believed that the anisotropic structure of stochastic gradients matters to deep learning, they did not expect the gradient covariance can have such an elegant mathematical structure. Our work challenges the existing belief and provides novel insights on the structure of stochastic gradients in deep learning.
翻訳日:2023-10-24 13:55:08 公開日:2023-10-20
# Logic Mill - 知識ナビゲーションシステム

Logic Mill -- A Knowledge Navigation System ( http://arxiv.org/abs/2301.00200v2 )

ライセンス: Link先を確認
Sebastian Erhardt, Mainak Ghosh, Erik Buunk, Michael E. Rose, Dietmar Harhoff(参考訳) logic millはスケーラブルでオープンアクセス可能なソフトウェアシステムで、1つのドメイン固有のコーパスまたはマルチドメインコーパス内で意味的に類似したドキュメントを識別する。 高度な自然言語処理(NLP)技術を用いて、文書の数値表現を生成する。 現在、これらの文書表現を生成するために、大きな事前訓練された言語モデルを活用している。 このシステムは科学出版物や特許文書に焦点を合わせ、2億以上の文書を含んでいる。 単純なアプリケーションプログラミングインターフェース(API)やWebインターフェースを通じて簡単にアクセスできます。 さらに、継続的に更新され、他のドメインからテキストコーパスに拡張できる。 我々は、このシステムは社会科学や他の分野における将来の研究応用のための汎用ツールであると考えている。

Logic Mill is a scalable and openly accessible software system that identifies semantically similar documents within either one domain-specific corpus or multi-domain corpora. It uses advanced Natural Language Processing (NLP) techniques to generate numerical representations of documents. Currently it leverages a large pre-trained language model to generate these document representations. The system focuses on scientific publications and patent documents and contains more than 200 million documents. It is easily accessible via a simple Application Programming Interface (API) or via a web interface. Moreover, it is continuously being updated and can be extended to text corpora from other domains. We see this system as a general-purpose tool for future research applications in the social sciences and other domains.
翻訳日:2023-10-24 13:47:49 公開日:2023-10-20
# パルス単一光子源によるクロック同期

Clock synchronization with pulsed single photon sources ( http://arxiv.org/abs/2212.12589v2 )

ライセンス: Link先を確認
Christopher Spiess and Fabian Steinlechner(参考訳) フォトニック量子技術は、正確な時間分解による光検出イベントの同定を必要とする。 空間的分離とドリフト時間参照を持つ分散量子ネットワークでは、高精度化は特に困難である。 本稿では,単一光子を時間伝達に使用する最近の進歩と,単一光子源をパルス化する高速後処理方式の活用と定量化について述べる。 平均根平均正方形同期ジッタは3.0psであり、安定性は超安定クロックを持つシステムと同等である(1秒積分時間では54ps)。 本アルゴリズムは, 水晶振動子からのクロック不完全性を補償し, 低信号のシナリオに優れ, 量子通信ネットワークが同時にデータを伝送することを可能にする。

Photonic quantum technology requires precise, time-resolved identification of photodetection events. In distributed quantum networks with spatially separated and drifting time references, achieving high precision is particularly challenging. Here we build on recent advances of using single-photons for time transfer and employ and quantify a fast postprocessing scheme designed to pulsed single-photon sources. We achieve an average root mean square synchronization jitter of 3.0 ps and a stability comparable to systems with ultra-stable clocks (54 ps at 1 second integration time, in terms of Allan time deviation). Our algorithm compensates substantial clock imperfections from crystal oscillators, is superior for low signal scenarios, and allows the quantum communication networks to transmit data simultaneously to time transfer.
翻訳日:2023-10-24 13:46:32 公開日:2023-10-20
# データ中心人工知能

Data-Centric Artificial Intelligence ( http://arxiv.org/abs/2212.11854v3 )

ライセンス: Link先を確認
Johannes Jakubik, Michael V\"ossing, Niklas K\"uhl, Jannis Walk, Gerhard Satzger(参考訳) データ中心の人工知能(データ中心のAI)は、効率的で効率的なAIベースのシステムを構築する上で、データの体系的な設計とエンジニアリングが不可欠であることを強調する新しいパラダイムである。 本論文の目的は,情報システム(IS)分野の実践者や研究者をデータ中心型AIに導入することである。 関連する用語を定義し、データ中心のパラダイムとモデル中心のパラダイムを対比するための重要な特徴を提供し、データ中心のAIのためのフレームワークを導入します。 我々は、データ中心AIと関連する概念を区別し、ISコミュニティへの長期的な影響について議論する。

Data-centric artificial intelligence (data-centric AI) represents an emerging paradigm emphasizing that the systematic design and engineering of data is essential for building effective and efficient AI-based systems. The objective of this article is to introduce practitioners and researchers from the field of Information Systems (IS) to data-centric AI. We define relevant terms, provide key characteristics to contrast the data-centric paradigm to the model-centric one, and introduce a framework for data-centric AI. We distinguish data-centric AI from related concepts and discuss its longer-term implications for the IS community.
翻訳日:2023-10-24 13:45:48 公開日:2023-10-20
# 複雑・不特定区間におけるロボットによる混在交通の制御と調整の学習

Learning to Control and Coordinate Mixed Traffic Through Robot Vehicles at Complex and Unsignalized Intersections ( http://arxiv.org/abs/2301.05294v2 )

ライセンス: Link先を確認
Dawei Wang, Weizi Li, Lei Zhu, Jia Pan(参考訳) インターセクションは、現代のメトロポリスの交通に不可欠な道路インフラである。 しかし、交通事故や信号機などの交通調整機構の欠如により、交通の流れのボトルネックとなることもある。 近年,交差点交通の効率化を図るため,従来の制御手法を超える様々な制御・調整機構が提案されている。 これらの手法の中で,人間駆動車(HV)とロボット車(RV)からなる予測可能な混合交通の制御が出現している。 本研究では,実世界の複雑な交差点における混合交通の制御と協調のための分散型マルチエージェント強化学習手法を提案する。 本手法の有効性を示す総合的な実験を行った。 特に,5%のrvを用いることで,実際の交通需要が時給700台という複雑な交差点内での渋滞の発生を防止できることを示す。 対照的に、RVがなければ、交通需要が1時間に200台の車両に達すると渋滞が始まります。 トラフィックに60%以上のRVが存在する場合、交差点の全車両の平均待ち時間において、我々の手法は信号に匹敵する、あるいはさらに優れた性能を達成する。 また,この手法は,停電イベントや突然のRVパーセンテージの低下に対して堅牢であり,両交差点での展開に成功していることを示す。

Intersections are essential road infrastructures for traffic in modern metropolises. However, they can also be the bottleneck of traffic flows as a result of traffic incidents or the absence of traffic coordination mechanisms such as traffic lights. Recently, various control and coordination mechanisms that are beyond traditional control methods have been proposed to improve the efficiency of intersection traffic. Amongst these methods, the control of foreseeable mixed traffic that consists of human-driven vehicles (HVs) and robot vehicles (RVs) has emerged. In this project, we propose a decentralized multi-agent reinforcement learning approach for the control and coordination of mixed traffic at real-world, complex intersections--a topic that has not been previously explored. Comprehensive experiments are conducted to show the effectiveness of our approach. In particular, we show that using 5% RVs, we can prevent congestion formation inside a complex intersection under the actual traffic demand of 700 vehicles per hour. In contrast, without RVs, congestion starts to develop when the traffic demand reaches as low as 200 vehicles per hour. When there exist more than 60% RVs in traffic, our method starts to achieve comparable or even better performance to traffic signals on the average waiting time of all vehicles at the intersection. Our method is also robust against both blackout events and sudden RV percentage drops, and enjoys excellent generalizablility, which is illustrated by its successful deployment in two unseen intersections.
翻訳日:2023-10-24 13:36:44 公開日:2023-10-20
# 人間行動認識のための共有ラベル構造のパワーを解き放つ

Unleashing the Power of Shared Label Structures for Human Activity Recognition ( http://arxiv.org/abs/2301.03462v2 )

ライセンス: Link先を確認
Xiyuan Zhang, Ranak Roy Chowdhury, Jiayun Zhang, Dezhi Hong, Rajesh K. Gupta, Jingbo Shang(参考訳) 現在のヒューマンアクティビティ認識(HAR)技術は、クラスラベルのセマンティクスを明示的にモデル化することなく、アクティビティラベルを整数クラスIDと見なしている。 異なるアクティビティ名は、しばしば共有構造を持つ。 例えば、"open door" と "open fridge" はどちらもアクションとして "open" を持ち、"kicking soccer ball" と "playing tennis ball" はどちらもオブジェクトとして "ball" を持つ。 このようなラベル名の共有構造は、感覚データの類似性に変換され、共通の構造をモデル化することで、さまざまなアクティビティ、特に限られたサンプルを持つアクティビティに関する知識を明らかにすることができる。 本稿では,異なる活動のためのラベル名の共有構造を考慮したHARフレームワークであるSHAREを提案する。 共有構造を利用するために、SHAREは入力感覚時系列から特徴を抽出するエンコーダと、ラベル名をトークンシーケンスとして生成するデコーダとを備える。 また,基本的なトークンレベルの拡張を含む活動のセマンティック構造をより効果的に把握する3つのラベル拡張手法と,事前学習モデルの能力を利用した2つの埋め込みレベルおよびシーケンスレベルの拡張を提案する。 SHAREは、7つのHARベンチマークデータセットの広範な実験において、最先端のHARモデルを上回っている。 また,マイナショット学習とラベル不均衡設定の評価を行い,さらに重要なパフォーマンスギャップを観察した。

Current human activity recognition (HAR) techniques regard activity labels as integer class IDs without explicitly modeling the semantics of class labels. We observe that different activity names often have shared structures. For example, "open door" and "open fridge" both have "open" as the action; "kicking soccer ball" and "playing tennis ball" both have "ball" as the object. Such shared structures in label names can be translated to the similarity in sensory data and modeling common structures would help uncover knowledge across different activities, especially for activities with limited samples. In this paper, we propose SHARE, a HAR framework that takes into account shared structures of label names for different activities. To exploit the shared structures, SHARE comprises an encoder for extracting features from input sensory time series and a decoder for generating label names as a token sequence. We also propose three label augmentation techniques to help the model more effectively capture semantic structures across activities, including a basic token-level augmentation, and two enhanced embedding-level and sequence-level augmentations utilizing the capabilities of pre-trained models. SHARE outperforms state-of-the-art HAR models in extensive experiments on seven HAR benchmark datasets. We also evaluate in few-shot learning and label imbalance settings and observe even more significant performance gap.
翻訳日:2023-10-24 13:35:24 公開日:2023-10-20
# 文脈記述における形態情報の役割について

On the Role of Morphological Information for Contextual Lemmatization ( http://arxiv.org/abs/2302.00407v3 )

ライセンス: Link先を確認
Olia Toporkov, Rodrigo Agerri(参考訳) レムマティゼーション(英: Lemmatization)は、自然言語処理(NLP)タスクであり、与えられた単語からその標準形または補題を生成する。 Lemmatizationは、下流のNLPアプリケーションを容易にする基本的なタスクの1つであり、高機能言語において特に重要である。 文脈的レンマタイザーを訓練するための細粒度形態素合成情報を含むその形態素合成カテゴリーを下流性能の面で最適かどうかを考慮せずに、屈折語から補題を得る方法が一般的である。 この問題に対処するため,本稿では,バスク語,トルコ語,ロシア語,チェコ語,スペイン語,英語という,さまざまな形態的複雑性の範囲内で6言語で文脈的レンマタイザを開発するための形態的情報の役割について実証的に検討する。 さらに、以前の作業の大部分がそうであるように、私たちは、ドメイン外の設定において、最も一般的なアプリケーション利用を構成するレンマタイザの評価も行っています。 私たちの研究の結果はかなり驚きだ。 トレーニング中に微細な形態的特徴を持つレムマタイザーを提供することは、凝集言語でさえも有益ではないことが判明した。 実際、現代の文脈表現は、明示的な形態的信号を見ることなく、競争的な文脈補間器を得るのに十分な形態的情報を暗黙的に符号化しているように見える。 さらに,本実験では,単純な UPOS タグを用いたり,形態学を伴わない訓練を行ったりすることが,ドメイン外でのレムマタイザとして最適であることが示唆された。

Lemmatization is a natural language processing (NLP) task which consists of producing, from a given inflected word, its canonical form or lemma. Lemmatization is one of the basic tasks that facilitate downstream NLP applications, and is of particular importance for high-inflected languages. Given that the process to obtain a lemma from an inflected word can be explained by looking at its morphosyntactic category, including fine-grained morphosyntactic information to train contextual lemmatizers has become common practice, without considering whether that is the optimum in terms of downstream performance. In order to address this issue, in this paper we empirically investigate the role of morphological information to develop contextual lemmatizers in six languages within a varied spectrum of morphological complexity: Basque, Turkish, Russian, Czech, Spanish and English. Furthermore, and unlike the vast majority of previous work, we also evaluate lemmatizers in out-of-domain settings, which constitutes, after all, their most common application use. The results of our study are rather surprising. It turns out that providing lemmatizers with fine-grained morphological features during training is not that beneficial, not even for agglutinative languages. In fact, modern contextual word representations seem to implicitly encode enough morphological information to obtain competitive contextual lemmatizers without seeing any explicit morphological signal. Moreover, our experiments suggest that the best lemmatizers out-of-domain are those using simple UPOS tags or those trained without morphology and, finally, that current evaluation practices for lemmatization are not adequate to clearly discriminate between models.
翻訳日:2023-10-24 13:27:43 公開日:2023-10-20
# 人工知能を用いた新生児集中治療ユニットの過去・現在・未来

The Past, Current, and Future of Neonatal Intensive Care Units with Artificial Intelligence ( http://arxiv.org/abs/2302.00225v2 )

ライセンス: Link先を確認
Elif Keles and Ulas Bagci(参考訳) 機械学習とディープラーニングは、コンピュータにあらゆるデータから学習と意思決定をすることを教える人工知能の2つのサブセットである。 最近の人工知能の開発は、コンピュータビジョンから健康科学まで、ほぼすべての分野で革命的であることが証明されたディープラーニングから来ている。 医学における深層学習の効果は、従来の臨床応用方法を大きく変えた。 小児科のような一部の医学分野は、深層学習の批判的な恩恵を受けるのに比較的遅いが、小児科の関連研究もかなりのレベルに蓄積し始めている。 そこで本稿では,最近開発された,新生児学応用のための機械学習と深層学習に基づくソリューションについて概説する。 PRISMA 2020ガイドラインを用いて,古典的機械学習と深層学習の役割を体系的に評価し,アルゴリズム開発を含む方法論を定義し,新生児疾患の評価における残りの課題について述べる。 これまで、ai応用に関する新生児学の焦点は、生存分析、神経画像化、バイタルパラメータと生体信号の分析、未熟児診断の網膜症などであった。 1996年から2022年にかけて106の論文を分類的に要約し,それぞれの長所と短所について論じた。 本稿では,本研究の包括性をさらに高めることを目的とした。 また、新生児集中治療ユニットへのAI統合のロードマップを提案するとともに、新たなAIモデルの可能性や、AIのパワー向上による新生生物学の将来についても論じる。

Machine learning and deep learning are two subsets of artificial intelligence that involve teaching computers to learn and make decisions from any sort of data. Most recent developments in artificial intelligence are coming from deep learning, which has proven revolutionary in almost all fields, from computer vision to health sciences. The effects of deep learning in medicine have changed the conventional ways of clinical application significantly. Although some sub-fields of medicine, such as pediatrics, have been relatively slow in receiving the critical benefits of deep learning, related research in pediatrics has started to accumulate to a significant level, too. Hence, in this paper, we review recently developed machine learning and deep learning-based solutions for neonatology applications. We systematically evaluate the roles of both classical machine learning and deep learning in neonatology applications, define the methodologies, including algorithmic developments, and describe the remaining challenges in the assessment of neonatal diseases by using PRISMA 2020 guidelines. To date, the primary areas of focus in neonatology regarding AI applications have included survival analysis, neuroimaging, analysis of vital parameters and biosignals, and retinopathy of prematurity diagnosis. We have categorically summarized 106 research articles from 1996 to 2022 and discussed their pros and cons, respectively. In this systematic review, we aimed to further enhance the comprehensiveness of the study. We also discuss possible directions for new AI models and the future of neonatology with the rising power of AI, suggesting roadmaps for the integration of AI into neonatal intensive care units.
翻訳日:2023-10-24 13:27:10 公開日:2023-10-20
# 動的システムモデリングのためのディープニューラルネットワークの批判的考察

A critical look at deep neural network for dynamic system modeling ( http://arxiv.org/abs/2301.11604v2 )

ライセンス: Link先を確認
Jinming Zhou and Yucai Zhu(参考訳) ニューラルネットワークモデルは、コントロールコミュニティにおける動的モデリングツールとしてますます普及しています。 非線形構造を含む多くの魅力的な特徴を持ち、任意の関数を近似することができる。 ほとんどの研究者はそのようなモデルに対して楽観的な態度を取るが、入力出力データを用いた動的システムのモデリングにおける(深い)ニューラルネットワークの能力に疑問を投げかける。 線形時間不変(LTI)力学系の同定には、Long Short-Term Memory(LSTM)とCascade Foward Neural Network(CFNN)の2つの代表的なニューラルネットワークモデルが、システム同定の標準的な予測誤差法(PEM)と比較される。 比較において,システム同定の4つの本質的側面を考察し,ニューラルネットワークに基づくモデリングの問題点と問題点を指摘した。 ltiシステムでは、lstmとcfnnの両方がノイズのないケースでも一貫したモデルを提供できず、ノイズの多いケースではpemよりも悪い結果をもたらす。

Neural network models become increasingly popular as dynamic modeling tools in the control community. They have many appealing features including nonlinear structures, being able to approximate any functions. While most researchers hold optimistic attitudes towards such models, this paper questions the capability of (deep) neural networks for the modeling of dynamic systems using input-output data. For the identification of linear time-invariant (LTI) dynamic systems, two representative neural network models, Long Short-Term Memory (LSTM) and Cascade Foward Neural Network (CFNN) are compared to the standard Prediction Error Method (PEM) of system identification. In the comparison, four essential aspects of system identification are considered, then several possible defects and neglected issues of neural network based modeling are pointed out. Detailed simulation studies are performed to verify these defects: for the LTI system, both LSTM and CFNN fail to deliver consistent models even in noise-free cases; and they give worse results than PEM in noisy cases.
翻訳日:2023-10-24 13:26:23 公開日:2023-10-20
# エキスパートによるオンライン予測のための適応的選択サンプリング

Adaptive Selective Sampling for Online Prediction with Experts ( http://arxiv.org/abs/2302.08397v2 )

ライセンス: Link先を確認
Rui M. Castro, Fredrik Hellstr\"om, Tim van Erven(参考訳) 専門家のアドバイスによるバイナリシーケンスのオンライン予測について検討する。 この設定のために,ラベル効率の予測アルゴリズムを考案した。このアルゴリズムは,標準手順よりもはるかに少ないラベルを収集できるが,最悪の後悔の保証は維持できる。 これらのアルゴリズムは指数関数的に重み付けされた予測器に基づいている。 1人の専門家が予想よりも厳密に優れているシナリオでは、ラベル効率の予測器のラベルの複雑さは、ラウンド数の平方根として大まかにスケールすることを示す。 最後に,ラベル効率の高い予測器の正規化後悔がプール型アクティブラーニングにおける既知のミニマックスレートと漸近的に一致することを示す数値実験を行い,良性設定に最適適応できることを示す。

We consider online prediction of a binary sequence with expert advice. For this setting, we devise label-efficient forecasting algorithms, which use a selective sampling scheme that enables collecting much fewer labels than standard procedures, while still retaining optimal worst-case regret guarantees. These algorithms are based on exponentially weighted forecasters, suitable for settings with and without a perfect expert. For a scenario where one expert is strictly better than the others in expectation, we show that the label complexity of the label-efficient forecaster scales roughly as the square root of the number of rounds. Finally, we present numerical experiments empirically showing that the normalized regret of the label-efficient forecaster can asymptotically match known minimax rates for pool-based active learning, suggesting it can optimally adapt to benign settings.
翻訳日:2023-10-24 13:16:05 公開日:2023-10-20
# 非エルミート特異点強調センシングのマルチパラメータ推定視点

Multiparameter estimation perspective on non-Hermitian singularity-enhanced sensing ( http://arxiv.org/abs/2303.05532v3 )

ライセンス: Link先を確認
Javid Naikoo and Ravindra W. Chhajlany and Jan Kolodynski(参考訳) 非エルミート発生器による量子系の進化を記述することで、そのような図に自然に現れる力学特性、例えば、いわゆる例外点での演算、パリティ時対称性の保存、あるいは力学の特異な振る舞いの資本化を探求する新たな道が開かれる。 本研究では,線形摂動を特異点から遠ざけるためにシステムを利用する場合,非有界感度を実現する可能性に着目した。 ガウス量子系のマルチパラメータ推定理論と特異行列摂動の1つを組み合わせることで、そのような特異性チューニングセンサによって達成される精度の究極の限界を研究するために必要なツールを導入する。 我々は,どの条件下で,どの感度で得られる感度が実際に変化しているかを同定し,そのパラメータが推定パラメータによって誤差のスケーリングを変化させる可能性があることを,解析に一般的に含めるべきであることを示す。

Describing the evolution of quantum systems by means of non-Hermitian generators opens a new avenue to explore the dynamical properties naturally emerging in such a picture, e.g. operation at the so-called exceptional points, preservation of parity-time symmetry, or capitalising on the singular behaviour of the dynamics. In this work, we focus on the possibility of achieving unbounded sensitivity when using the system to sense linear perturbations away from a singular point. By combining multiparameter estimation theory of Gaussian quantum systems with the one of singular-matrix perturbations, we introduce the necessary tools to study the ultimate limits on the precision attained by such singularity-tuned sensors. We identify under what conditions and at what rate can the resulting sensitivity indeed diverge, in order to show that nuisance parameters should be generally included in the analysis, as their presence may alter the scaling of the error with the estimated parameter.
翻訳日:2023-10-24 13:08:16 公開日:2023-10-20
# 複合開量子系の断熱除去:還元モデル定式化と数値シミュレーション

Adiabatic elimination for composite open quantum systems: reduced model formulation and numerical simulations ( http://arxiv.org/abs/2303.05089v4 )

ライセンス: Link先を確認
Fran\c{c}ois-Marie Le R\'egent, Pierre Rouchon(参考訳) 複合開量子系のシミュレーションのための数値計算法を提案する。 これはリンドブラッドマスター方程式と断熱除去に基づいている。 各サブシステムは定常部分空間に向かって指数関数的に収束し、いくつかのデコヒーレンスチャネルにわずかに影響され、他のサブシステムと弱結合すると仮定される。 この数値計算は漸近展開を伴う摂動解析に基づいている。 これは低次元のスローダイナミクスの定式化を利用する。 これは各サブシステムに付随する局所および名目散逸ダイナミクスの不変作用素に依存する。 2階展開は局所的な数値計算でのみ計算できる。 フルシステムに付随するテンソル積ヒルベルト空間上の計算を回避している。 この数値手法は、自律的量子誤差補正スキームに特に適している。 このような縮小モデルのシミュレーションは、各猫量子ビットの平均光子数が8未満である場合、1および2つの猫量子ビット(Z, ZZ, CNOT)に作用する典型的なゲートの完全なモデルシミュレーションと一致する。 3つの猫量子ビット (ZZZ と CCNOT) を持つより大きな平均光子数とゲートでは、モデルシミュレーションの削減は不可能である。 特に、位相フリップエラーレートと非常に小さなビットフリップエラーレートの両方を、指数関数的な抑制と平均光子数の両方で捉えている。

A numerical method is proposed for simulation of composite open quantum systems. It is based on Lindblad master equations and adiabatic elimination. Each subsystem is assumed to converge exponentially towards a stationary subspace, slightly impacted by some decoherence channels and weakly coupled to the other subsystems. This numerical method is based on a perturbation analysis with an asymptotic expansion. It exploits the formulation of the slow dynamics with reduced dimension. It relies on the invariant operators of the local and nominal dissipative dynamics attached to each subsystem. Second-order expansion can be computed only with local numerical calculations. It avoids computations on the tensor-product Hilbert space attached to the full system. This numerical method is particularly well suited for autonomous quantum error correction schemes. Simulations of such reduced models agree with complete full model simulations for typical gates acting on one and two cat-qubits (Z, ZZ and CNOT) when the mean photon number of each cat-qubit is less than 8. For larger mean photon numbers and gates with three cat-qubits (ZZZ and CCNOT), full model simulations are almost impossible whereas reduced model simulations remain accessible. In particular, they capture both the dominant phase-flip error-rate and the very small bit-flip error-rate with its exponential suppression versus the mean photon number.
翻訳日:2023-10-24 13:07:59 公開日:2023-10-20
# InfoBatch: ダイナミックデータプルーニングによる損失のないトレーニングスピードアップ

InfoBatch: Lossless Training Speed Up by Unbiased Dynamic Data Pruning ( http://arxiv.org/abs/2303.04947v2 )

ライセンス: Link先を確認
Ziheng Qin, Kai Wang, Zangwei Zheng, Jianyang Gu, Xiangyu Peng, Zhaopan Xu, Daquan Zhou, Lei Shang, Baigui Sun, Xuansong Xie and Yang You(参考訳) データプルーニング(data pruning)は、全体的なコスト低減によるロスレスパフォーマンスの獲得を目標とする。 一般的なアプローチは、トレーニングへの貢献が少ないサンプルをフィルタリングすることです。 これは、元のデータと比べて勾配の予測バイアスにつながる可能性がある。 この問題を解決するために,非バイアスな動的データプルーニングにより損失のないトレーニング加速を実現する新しいフレームワークである「textbf{InfoBatch}」を提案する。 具体的には、InfoBatchは損失分布に基づいて、情報の少ないサンプルの一部をランダムにプーンし、残りのサンプルの勾配を再スケールして元の勾配を近似する。 プラグインとアーキテクチャに依存しないフレームワークであるInfoBatchは、分類、セマンティックセグメンテーション、視覚関連、微調整タスクに関する無意味なトレーニング結果を一貫して得る。 CIFAR10/100、ImageNet-1K、ADE20Kでは、InfoBatchは損失なく全体の40%のコストを節約します。 MAE と拡散モデルに関して、InfoBatch はそれぞれ 24.8 % と 27 % のコストを節約できる。 LLaMA命令の微調整では、InfoBatchは20\%のコストを節約でき、コアセットの選択メソッドと互換性がある。 コードは \href{https://github.com/henryqin 1997/InfoBatch}{github.com/NUS-HPC-AI-Lab/InfoBatch} で公開されている。

Data pruning aims to obtain lossless performances with less overall cost. A common approach is to filter out samples that make less contribution to the training. This could lead to gradient expectation bias compared to the original data. To solve this problem, we propose \textbf{InfoBatch}, a novel framework aiming to achieve lossless training acceleration by unbiased dynamic data pruning. Specifically, InfoBatch randomly prunes a portion of less informative samples based on the loss distribution and rescales the gradients of the remaining samples to approximate the original gradient. As a plug-and-play and architecture-agnostic framework, InfoBatch consistently obtains lossless training results on classification, semantic segmentation, vision pertaining, and instruction fine-tuning tasks. On CIFAR10/100, ImageNet-1K, and ADE20K, InfoBatch losslessly saves 40\% overall cost. For pertaining MAE and diffusion model, InfoBatch can respectively save 24.8\% and 27\% cost. For LLaMA instruction fine-tuning, InfoBatch is also able to save 20\% cost and is compatible with coreset selection methods. The code is publicly available at \href{https://github.com/henryqin1997/InfoBatch}{github.com/NUS-HPC-AI-Lab/InfoBatch}.
翻訳日:2023-10-24 13:07:11 公開日:2023-10-20
# あなたは...? セマンティックパーシングにおける信頼に基づくトレードオフ

Did You Mean...? Confidence-based Trade-offs in Semantic Parsing ( http://arxiv.org/abs/2303.16857v3 )

ライセンス: Link先を確認
Elias Stengel-Eskin and Benjamin Van Durme(参考訳) 調整されたモデルがタスク指向構文解析における共通のトレードオフのバランスにどのように役立つかを説明します。 シミュレート・アノテータ・イン・ザ・ループ実験において,信頼度スコアが十分に調整されたことにより,アノテータ負荷とコストのバランスが取れ,少数のインタラクションで精度が向上することを示した。 次に,信頼性スコアがユーザビリティと安全性のトレードオフを最適化する上でどのように役立つかを検討する。 信頼性に基づくしきい値設定は, 不正な低信頼プログラムの実行回数を大幅に削減できることを示すが, ユーザビリティにはコストがかかる。 ユーザビリティと安全性のバランスを良くする DidYouMean システムを提案する。

We illustrate how a calibrated model can help balance common trade-offs in task-oriented parsing. In a simulated annotator-in-the-loop experiment, we show that well-calibrated confidence scores allow us to balance cost with annotator load, improving accuracy with a small number of interactions. We then examine how confidence scores can help optimize the trade-off between usability and safety. We show that confidence-based thresholding can substantially reduce the number of incorrect low-confidence programs executed; however, this comes at a cost to usability. We propose the DidYouMean system which better balances usability and safety.
翻訳日:2023-10-24 12:56:03 公開日:2023-10-20
# 機械翻訳におけるChatGPTの活用に向けて

Towards Making the Most of ChatGPT for Machine Translation ( http://arxiv.org/abs/2303.13780v4 )

ライセンス: Link先を確認
Keqin Peng, Liang Ding, Qihuang Zhong, Li Shen, Xuebo Liu, Min Zhang, Yuanxin Ouyang, Dacheng Tao(参考訳) ChatGPTは機械翻訳(MT)の優れた機能を示す。 いくつかの先行研究は、高リソース言語の商用システムに匹敵する結果が得られたが、低リソースや遠言語対訳といった複雑なタスクでは遅れていることを示している。 しかし、彼らは通常、ChatGPTの能力を十分に引き出すことができない単純なプロンプトを採用する。 本稿では,ChatGPTの翻訳能力について,温度,タスク情報,ドメイン情報といったいくつかの側面を再考し,最適温度設定と,タスク特化プロンプト(TSP)とドメイン特化プロンプト(DSP)の2つのプロンプトを提案する。 ご覧の通りです 1)ChatGPTの性能は温度に大きく依存し,低い温度では高い性能が得られる。 2)タスク情報の強調は,特に複雑なMTタスクにおいて,ChatGPTの性能をさらに向上させる。 3) ドメイン情報の導入により,chatgptの一般化能力が向上し,そのドメインにおける性能が向上する。 4)ChatGPTは非英語中心のMTタスクに対して幻覚を引き起こす傾向があり,これは提案したプロンプトによって部分的に対処できるが,MT/NLPコミュニティでは強調する必要がある。 また、高度な文脈内学習戦略の効果を探究し、(否定的だが興味深い)観察を見出す: 強力な連鎖的プロンプトは、単語毎の翻訳行動につながり、翻訳の大幅な低下をもたらす。

ChatGPT shows remarkable capabilities for machine translation (MT). Several prior studies have shown that it achieves comparable results to commercial systems for high-resource languages, but lags behind in complex tasks, e.g., low-resource and distant-language-pairs translation. However, they usually adopt simple prompts which can not fully elicit the capability of ChatGPT. In this paper, we aim to further mine ChatGPT's translation ability by revisiting several aspects: temperature, task information, and domain information, and correspondingly propose an optimal temperature setting and two (simple but effective) prompts: Task-Specific Prompts (TSP) and Domain-Specific Prompts (DSP). We show that: 1) The performance of ChatGPT depends largely on temperature, and a lower temperature usually can achieve better performance; 2) Emphasizing the task information can further improve ChatGPT's performance, particularly in complex MT tasks; 3) Introducing domain information can elicit ChatGPT's generalization ability and improve its performance in the specific domain; 4) ChatGPT tends to generate hallucinations for non-English-centric MT tasks, which can be partially addressed by our proposed prompts but still need to be highlighted for the MT/NLP community. We also explore the effects of advanced in-context learning strategies and find a (negative but interesting) observation: the powerful chain-of-thought prompt leads to word-by-word translation behavior, thus bringing significant translation degradation.
翻訳日:2023-10-24 12:55:13 公開日:2023-10-20
# RepoCoder: 反復検索と生成によるリポジトリレベルのコード補完

RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation ( http://arxiv.org/abs/2303.12570v3 )

ライセンス: Link先を確認
Fengji Zhang, Bei Chen, Yue Zhang, Jacky Keung, Jin Liu, Daoguang Zan, Yi Mao, Jian-Guang Lou, Weizhu Chen(参考訳) リポジトリレベルのコード補完のタスクは、リポジトリのより広いコンテキストに基づいて未完成のコードを書き続けることです。 自動化されたコード補完ツールでは、異なるファイルに散在する有用な情報を利用するのは難しい。 この課題に対処するためのシンプルで汎用的で効果的なフレームワークであるRepoCoderを提案する。 類似性ベースのレトリバーと事前学習されたコード言語モデルを反復的検索生成パイプラインに組み込むことで、リポジトリレベルのコード補完プロセスを合理化する。 repocoderはレポジトリレベルの情報をコード補完に効果的に利用し、様々なレベルの粒度でコードを生成することができる。 さらに,ライン,API呼び出し,関数本体補完シナリオをカバーする最新かつ高品質な実世界のリポジトリで構成される新しいベンチマークRepoEvalを提案する。 実験の結果、repocoderはファイル内補完ベースラインを全設定で10%以上改善し、バニラ検索によるコード補完アプローチを一貫して上回っていることが示された。 さらに,RepoCoderの有効性を総合分析により検証し,今後の研究に有用な知見を提供する。 ソースコードとベンチマークが公開されている。 https://github.com/microsoft/CodeT/tree/main/RepoCoder

The task of repository-level code completion is to continue writing the unfinished code based on a broader context of the repository. While for automated code completion tools, it is difficult to utilize the useful information scattered in different files. We propose RepoCoder, a simple, generic, and effective framework to address the challenge. It streamlines the repository-level code completion process by incorporating a similarity-based retriever and a pre-trained code language model in an iterative retrieval-generation pipeline. RepoCoder makes effective utilization of repository-level information for code completion and has the ability to generate code at various levels of granularity. Moreover, we propose a new benchmark RepoEval, which consists of the latest and high-quality real-world repositories covering line, API invocation, and function body completion scenarios. Experimental results indicate that RepoCoder significantly improves the In-File completion baseline by over 10% in all settings and consistently outperforms the vanilla retrieval-augmented code completion approach. Furthermore, we validate the effectiveness of RepoCoder through comprehensive analysis, providing valuable insights for future research. Our source code and benchmark are publicly available: https://github.com/microsoft/CodeT/tree/main/RepoCoder
翻訳日:2023-10-24 12:54:45 公開日:2023-10-20
# web からの視覚による教科書の強化と学習の改善

Enhancing Textbooks with Visuals from the Web for Improved Learning ( http://arxiv.org/abs/2304.08931v2 )

ライセンス: Link先を確認
Janvijay Singh, Vil\'em Zouhar, Mrinmaya Sachan(参考訳) 教科書は、学生に高品質な教育を提供する主要な媒体の1つである。 特に、説明的および図示的視覚は、知識の保持、理解、一般的な伝達において重要な役割を果たす。 しかし、多くの教科書には、学生の学習を支援する興味深い視覚が欠けている。 本稿では,Webからの画像を用いた教科書を自動的に強化する視覚言語モデルの有効性について検討する。 数学、科学、社会科学、ビジネス分野のe-textbookのデータセットを収集します。 次に、テキスト画像マッチングタスクを設定し、テキスト画像の検索とテキストへの適切な割り当てを行い、それをマッチング最適化問題とみなす。 クラウドソーシングによる評価により,(1)原文画像が高い評価を受ける一方で,自動割当て画像がそれほど遅れていないこと,(2)最適化問題の正確な定式化が重要であることを検証した。 我々は,このコンピュータビジョンの交差点領域と教育用NLPのさらなる研究を促すために,関連画像バンクを用いた教科書データセットをリリースする。

Textbooks are one of the main mediums for delivering high-quality education to students. In particular, explanatory and illustrative visuals play a key role in retention, comprehension and general transfer of knowledge. However, many textbooks lack these interesting visuals to support student learning. In this paper, we investigate the effectiveness of vision-language models to automatically enhance textbooks with images from the web. We collect a dataset of e-textbooks in the math, science, social science and business domains. We then set up a text-image matching task that involves retrieving and appropriately assigning web images to textbooks, which we frame as a matching optimization problem. Through a crowd-sourced evaluation, we verify that (1) while the original textbook images are rated higher, automatically assigned ones are not far behind, and (2) the precise formulation of the optimization problem matters. We release the dataset of textbooks with an associated image bank to inspire further research in this intersectional area of computer vision and NLP for education.
翻訳日:2023-10-24 12:47:55 公開日:2023-10-20
# クロスデバイスユーザマッチングのための階層型グラフニューラルネットワーク

Hierarchical Graph Neural Network with Cross-Attention for Cross-Device User Matching ( http://arxiv.org/abs/2304.03215v2 )

ライセンス: Link先を確認
Ali Taghibakhshi, Mingyuan Ma, Ashwath Aithal, Onur Yilmaz, Haggai Maron, Matthew West(参考訳) デバイス間のユーザマッチングは、広告、レコメンデーションシステム、サイバーセキュリティなど、多くのドメインにおいて重要な問題である。 同一人物に属する異なるデバイスを特定しリンクし、シーケンスログを利用する。 これまでのデータマイニング技術は、ログ間の長距離の依存関係と高次の接続に対処するのに苦労してきた。 近年,この問題をグラフ問題としてモデル化し,従来の手法よりも優れた2層グラフコンテキスト埋め込み(TGCE)ニューラルネットワークアーキテクチャを提案する。 本稿では,tgceよりも計算効率が高い階層型グラフニューラルネットワークアーキテクチャ(hgnn)を提案する。 さらに,我々のモデルにクロスアテンション(Cross-Att)機構を導入し,最先端TGCE法と比較して性能を5%向上させる。

Cross-device user matching is a critical problem in numerous domains, including advertising, recommender systems, and cybersecurity. It involves identifying and linking different devices belonging to the same person, utilizing sequence logs. Previous data mining techniques have struggled to address the long-range dependencies and higher-order connections between the logs. Recently, researchers have modeled this problem as a graph problem and proposed a two-tier graph contextual embedding (TGCE) neural network architecture, which outperforms previous methods. In this paper, we propose a novel hierarchical graph neural network architecture (HGNN), which has a more computationally efficient second level design than TGCE. Furthermore, we introduce a cross-attention (Cross-Att) mechanism in our model, which improves performance by 5% compared to the state-of-the-art TGCE method.
翻訳日:2023-10-24 12:45:45 公開日:2023-10-20
# GlueStick:ポイントとラインを貼り合わせてロバストな画像マッチング

GlueStick: Robust Image Matching by Sticking Points and Lines Together ( http://arxiv.org/abs/2304.02008v3 )

ライセンス: Link先を確認
R\'emi Pautrat, Iago Su\'arez, Yifan Yu, Marc Pollefeys, Viktor Larsson(参考訳) ラインセグメントは、ポイントを補完する強力な特徴である。 構造的な手がかりを提供し、劇的な視点と照明の変化に頑健であり、テクスチャのない地域でも見られる。 しかし、それらの記述とマッチングは、部分的な閉塞、テクスチャの欠如、反復性のために、ポイントよりも難しい。 本稿では,点,線,それらの記述子を単一のワイヤフレーム構造に統合する新しいマッチングパラダイムを提案する。 本稿では,異なる画像から2つのワイヤフレームを取り,ノード間の接続情報を活用するディープマッチンググラフニューラルネットワーク(gnn)であるgluestickを提案する。 ジョイントマッチングによってもたらされる効率の向上に加えて、これら2つの機能の相補的な性質を1つのアーキテクチャで活用することで、パフォーマンスが大幅に向上することを示す。 我々のマッチング戦略は、さまざまなデータセットやタスクのラインセグメントやポイントを独立にマッチングする最先端のアプローチよりも優れています。 コードはhttps://github.com/cvg/GlueStick.comで入手できる。

Line segments are powerful features complementary to points. They offer structural cues, robust to drastic viewpoint and illumination changes, and can be present even in texture-less areas. However, describing and matching them is more challenging compared to points due to partial occlusions, lack of texture, or repetitiveness. This paper introduces a new matching paradigm, where points, lines, and their descriptors are unified into a single wireframe structure. We propose GlueStick, a deep matching Graph Neural Network (GNN) that takes two wireframes from different images and leverages the connectivity information between nodes to better glue them together. In addition to the increased efficiency brought by the joint matching, we also demonstrate a large boost of performance when leveraging the complementary nature of these two features in a single architecture. We show that our matching strategy outperforms the state-of-the-art approaches independently matching line segments and points for a wide variety of datasets and tasks. The code is available at https://github.com/cvg/GlueStick.
翻訳日:2023-10-24 12:45:31 公開日:2023-10-20
# 言語モデルは曖昧さをモデル化していません

We're Afraid Language Models Aren't Modeling Ambiguity ( http://arxiv.org/abs/2304.14399v2 )

ライセンス: Link先を確認
Alisa Liu, Zhaofeng Wu, Julian Michael, Alane Suhr, Peter West, Alexander Koller, Swabha Swayamdipta, Noah A. Smith, Yejin Choi(参考訳) 曖昧さは自然言語の本質的な特徴である。 あいまいさの管理は人間の言語理解の重要な部分であり、コミュニケーション者として誤解を予想し、聞き手としての解釈を改めることができる。 言語モデル(lms)が対話インタフェースやaidsとして使われるようになり、あいまいな言語を扱うことが彼らの成功に不可欠である。 本研究では,文中のあいまいさが他の文との係り受け関係に与える影響を特徴付け,多種多様なあいまいさを持つ1,645例の言語学者によるベンチマークであるAmbiEntを収集する。 本研究では,AmbiEntに基づくテストスイートを設計し,事前学習したLMのあいまいさを認識し,可能な意味を乱すための最初の評価を行った。 GPT-4が生成した曖昧さは、我々のデータセットの曖昧さの90%に対して、人間の評価においてわずか32%の時間しか正しくないと考えられる。 最後に、曖昧さに敏感なツールの価値を説明するために、マルチラベルのnliモデルが曖昧さのために誤解を招く政治主張にフラグを付けることができることを示す。 我々はNLPの曖昧さの重要性を再発見するようフィールドに促す。

Ambiguity is an intrinsic feature of natural language. Managing ambiguity is a key part of human language understanding, allowing us to anticipate misunderstanding as communicators and revise our interpretations as listeners. As language models (LMs) are increasingly employed as dialogue interfaces and writing aids, handling ambiguous language is critical to their success. We characterize ambiguity in a sentence by its effect on entailment relations with another sentence, and collect AmbiEnt, a linguist-annotated benchmark of 1,645 examples with diverse kinds of ambiguity. We design a suite of tests based on AmbiEnt, presenting the first evaluation of pretrained LMs to recognize ambiguity and disentangle possible meanings. We find that the task remains extremely challenging, including for GPT-4, whose generated disambiguations are considered correct only 32% of the time in human evaluation, compared to 90% for disambiguations in our dataset. Finally, to illustrate the value of ambiguity-sensitive tools, we show that a multilabel NLI model can flag political claims in the wild that are misleading due to ambiguity. We encourage the field to rediscover the importance of ambiguity for NLP.
翻訳日:2023-10-24 12:25:38 公開日:2023-10-20
# datacomp: 次世代のマルチモーダルデータセットの探索

DataComp: In search of the next generation of multimodal datasets ( http://arxiv.org/abs/2304.14108v5 )

ライセンス: Link先を確認
Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, Eyal Orgad, Rahim Entezari, Giannis Daras, Sarah Pratt, Vivek Ramanujan, Yonatan Bitton, Kalyani Marathe, Stephen Mussmann, Richard Vencu, Mehdi Cherti, Ranjay Krishna, Pang Wei Koh, Olga Saukh, Alexander Ratner, Shuran Song, Hannaneh Hajishirzi, Ali Farhadi, Romain Beaumont, Sewoong Oh, Alex Dimakis, Jenia Jitsev, Yair Carmon, Vaishaal Shankar, Ludwig Schmidt(参考訳) マルチモーダルデータセットは、安定拡散やgpt-4のような最近のブレークスルーにおいて重要な要素であるが、その設計はモデルアーキテクチャやトレーニングアルゴリズムと同じ研究の注目を集めていない。 MLエコシステムにおけるこの欠点に対処するため、私たちは、Common Crawlから128億のイメージテキストペアの候補プールを中心としたデータセット実験用のテストベッドであるDataCompを紹介した。 ベンチマーク参加者は、新しいフィルタリングテクニックを設計し、新しいデータソースをキュレートし、標準化されたCLIPトレーニングコードを実行し、38の下流テストセットで結果モデルをテストすることで、新しいデータセットを評価します。 ベンチマークは4桁の計算スケールで構成されており、スケーリングトレンドの研究を可能にし、様々なリソースを持つ研究者がベンチマークを利用できるようにしている。 我々のベースライン実験は、DataCompのワークフローがより良いトレーニングセットをもたらすことを示している。 特に、最良のベースラインであるDataComp-1Bでは、ImageNet上でCLIP ViT-L/14をゼロショット精度79.2%までトレーニングすることが可能で、同じトレーニング手順と計算を使用して、OpenAIのCLIP ViT-L/14を3.7%上回っている。 DataComp と付随するコードはすべて www.datacomp.ai でリリースしています。

Multimodal datasets are a critical component in recent breakthroughs such as Stable Diffusion and GPT-4, yet their design does not receive the same research attention as model architectures or training algorithms. To address this shortcoming in the ML ecosystem, we introduce DataComp, a testbed for dataset experiments centered around a new candidate pool of 12.8 billion image-text pairs from Common Crawl. Participants in our benchmark design new filtering techniques or curate new data sources and then evaluate their new dataset by running our standardized CLIP training code and testing the resulting model on 38 downstream test sets. Our benchmark consists of multiple compute scales spanning four orders of magnitude, which enables the study of scaling trends and makes the benchmark accessible to researchers with varying resources. Our baseline experiments show that the DataComp workflow leads to better training sets. In particular, our best baseline, DataComp-1B, enables training a CLIP ViT-L/14 from scratch to 79.2% zero-shot accuracy on ImageNet, outperforming OpenAI's CLIP ViT-L/14 by 3.7 percentage points while using the same training procedure and compute. We release DataComp and all accompanying code at www.datacomp.ai.
翻訳日:2023-10-24 12:24:48 公開日:2023-10-20
# マルチレベルマルチモーダルWebページ理解のための生成タスクスイート

A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding ( http://arxiv.org/abs/2305.03668v2 )

ライセンス: Link先を確認
Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo(参考訳) Webページは視覚言語と言語のみのタスクのためのリッチでスケーラブルなリソースです。 しかし、既存のデータセットに保持されているのは、画像キャプチャペア、長いテキスト記事、あるいは生のHTMLのみである。 Webページタスクは、ほとんど注目されず、未使用のイメージテキストデータが構造化されている。 マルチモーダルなWebページ理解を研究するために,Wikipedia Webpage Suite (WikiWeb2M) を紹介した。 ページ記述生成,セクション要約,コンテクスト画像キャプションの3つの生成タスクにおいて,その有用性を検証する。 我々は,最も関連性の高い画像とテキストを,webページの他の部分のコンテクストに対応するためのグローバルトークンとして選択する,新しいアテンション機構プレフィックス・グローバルを設計した。 ページ構造を使ってトークンを分離することで、計算の複雑さが低く、完全な注意力よりもパフォーマンスが向上する。 WikiWeb2Mの新しいデータは、以前の作業と比べてタスクパフォーマンスを改善する。

Webpages have been a rich, scalable resource for vision-language and language only tasks. Yet only pieces of webpages are kept in existing datasets: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have resultingly received little attention and structured image-text data left underused. To study multimodal webpage understanding, we introduce the Wikipedia Webpage suite (WikiWeb2M) containing 2M pages with all of the associated image, text, and structure data. We verify its utility on three generative tasks: page description generation, section summarization, and contextual image captioning. We design a novel attention mechanism Prefix Global, which selects the most relevant image and text content as global tokens to attend to the rest of the webpage for context. By using page structure to separate such tokens, it performs better than full attention with lower computational complexity. Extensive experiments show that the new data in WikiWeb2M improves task performance compared to prior work.
翻訳日:2023-10-24 12:14:50 公開日:2023-10-20
# ロバストツリーアンサンブルの検証可能な学習

Verifiable Learning for Robust Tree Ensembles ( http://arxiv.org/abs/2305.03626v3 )

ライセンス: Link先を確認
Stefano Calzavara, Lorenzo Cazzaro, Giulio Ermanno Pibiri, Nicola Prezza(参考訳) テスト時の回避攻撃に対する機械学習モデルの堅牢性を検証することは重要な研究課題である。 残念なことに、この問題は決定木アンサンブルに対してNPハードであることが証明され、従って特定の入力に対して難解となる。 本稿では,多項式時間で動作するセキュリティ検証アルゴリズムを付加した,大規模分散アンサンブルと呼ばれる決定木アンサンブルの制限クラスを同定する。 次に,効率的な検証が可能な制限付きモデルクラスのトレーニングを提唱する,verizable learningと呼ばれる新しいアプローチを提案する。 我々は,ラベル付きデータから大域的な決定木を自動学習する新しい学習アルゴリズムを設計し,多項式時間でセキュリティ検証を可能にすることにより,このアイデアの利点を示す。 公開データセットの実験結果から,我々のアルゴリズムを用いてトレーニングした大域的なアンサンブルが,標準的な商用ハードウェアを用いて数秒で検証可能であることを確認した。 さらに、大スプレッドアンサンブルは、非敵対的な設定において許容される精度の損失を犠牲にして、従来の回避攻撃に対するアンサンブルよりも頑丈である。

Verifying the robustness of machine learning models against evasion attacks at test time is an important research problem. Unfortunately, prior work established that this problem is NP-hard for decision tree ensembles, hence bound to be intractable for specific inputs. In this paper, we identify a restricted class of decision tree ensembles, called large-spread ensembles, which admit a security verification algorithm running in polynomial time. We then propose a new approach called verifiable learning, which advocates the training of such restricted model classes which are amenable for efficient verification. We show the benefits of this idea by designing a new training algorithm that automatically learns a large-spread decision tree ensemble from labelled data, thus enabling its security verification in polynomial time. Experimental results on public datasets confirm that large-spread ensembles trained using our algorithm can be verified in a matter of seconds, using standard commercial hardware. Moreover, large-spread ensembles are more robust than traditional ensembles against evasion attacks, at the cost of an acceptable loss of accuracy in the non-adversarial setting.
翻訳日:2023-10-24 12:14:29 公開日:2023-10-20
# ニューラルネットワークの確率的アンダー近似

Provable Preimage Under-Approximation for Neural Networks ( http://arxiv.org/abs/2305.03686v3 )

ライセンス: Link先を確認
Xiyue Zhang, Benjie Wang, Marta Kwiatkowska(参考訳) ニューラルネットワークの検証は主に局所ロバスト性に注目し、与えられた入力セットのイメージ(出力のセット)をバウンドすることでチェックできる。 しかし、与えられたプロパティが入力ドメインに対してグローバルに保持されているかどうかを知ることが重要であり、その場合、そのプロパティのどの比率が真かを知ることが重要である。 このような特性を分析するには、ニューラルネットワークのプリイメージ抽象化を計算する必要がある。 本研究では,ニューラルネットワークに対する任意のポリヘドロン出力セットの事前像の記号下近似を生成するための効率的な時空アルゴリズムを提案する。 提案アルゴリズムは, 線形緩和法を用いてポリトープ事前近似を安価に計算する新しい手法と, 近似を改善するために入力領域を入力とReLU分割を用いてサブリージョンに繰り返し分割する精細化手順を組み合わせる。 提案手法の有効性を実証的に検証し,MNISTの高次元分類タスクを既存の事前画像計算手法の範囲を超えた範囲で検証する。 最後に,実例として定量的検証とロバストネス解析への応用について述べる。 我々は,ポリトープ表現の相互結合を利用して形式的保証を行う,前者のための健全で完全なアルゴリズムを提案する。 後者については,標準検証器がロバスト性特性を検証できない場合でも有用な量的情報を提供できることを示す。

Neural network verification mainly focuses on local robustness properties, which can be checked by bounding the image (set of outputs) of a given input set. However, often it is important to know whether a given property holds globally for the input domain, and if not then for what proportion of the input the property is true. To analyze such properties requires computing preimage abstractions of neural networks. In this work, we propose an efficient anytime algorithm for generating symbolic under-approximations of the preimage of any polyhedron output set for neural networks. Our algorithm combines a novel technique for cheaply computing polytope preimage under-approximations using linear relaxation, with a carefully-designed refinement procedure that iteratively partitions the input region into subregions using input and ReLU splitting in order to improve the approximation. Empirically, we validate the efficacy of our method across a range of domains, including a high-dimensional MNIST classification task beyond the reach of existing preimage computation methods. Finally, as use cases, we showcase the application to quantitative verification and robustness analysis. We present a sound and complete algorithm for the former, which exploits our disjoint union of polytopes representation to provide formal guarantees. For the latter, we find that our method can provide useful quantitative information even when standard verifiers cannot verify a robustness property.
翻訳日:2023-10-24 12:03:20 公開日:2023-10-20
# 社会的認知パターンを反映した大規模言語モデルに対する外部情報の影響

Influence of External Information on Large Language Models Mirrors Social Cognitive Patterns ( http://arxiv.org/abs/2305.04812v3 )

ライセンス: Link先を確認
Ning Bian, Hongyu Lin, Peilin Liu, Yaojie Lu, Chunkang Zhang, Ben He, Xianpei Han, and Le Sun(参考訳) 社会的認知理論は、人々が他人を観察して知識を習得する方法を説明する。 近年,大規模言語モデル (LLM) の急速な発展が見られ,社会におけるエージェントとしての重要性が示唆されている。 LLMは、AIエージェントとして、その認知と行動を形成する外部情報を観察することができる。 しかし,外部情報がLLMの認知や行動にどのような影響を及ぼすかは不明である。 本研究では,外的発言や意見がLLMの思考や行動に社会的認知の観点からどのように影響するかを検討する。 LLMの記憶や意見,ソーシャルメディアの行動決定に対する外部情報の影響を調べるために,3つの実験を行った。 ソース権限,社会的アイデンティティ,社会的役割を含む社会認知要因を分析し,そのモデレーション効果を検討した。 これらの変化は、権威バイアス、集団内バイアス、感情的肯定性、感情の伝染といった人間の社会的認知パターンを反映している。 このことは、安全で偏見のないLLMを開発する上での課題を浮き彫りにし、LLMの外部の影響に対する感受性を理解することの重要性を強調している。

Social cognitive theory explains how people learn and acquire knowledge through observing others. Recent years have witnessed the rapid development of large language models (LLMs), which suggests their potential significance as agents in the society. LLMs, as AI agents, can observe external information, which shapes their cognition and behaviors. However, the extent to which external information influences LLMs' cognition and behaviors remains unclear. This study investigates how external statements and opinions influence LLMs' thoughts and behaviors from a social cognitive perspective. Three experiments were conducted to explore the effects of external information on LLMs' memories, opinions, and social media behavioral decisions. Sociocognitive factors, including source authority, social identity, and social role, were analyzed to investigate their moderating effects. Results showed that external information can significantly shape LLMs' memories, opinions, and behaviors, with these changes mirroring human social cognitive patterns such as authority bias, in-group bias, emotional positivity, and emotion contagion. This underscores the challenges in developing safe and unbiased LLMs, and emphasizes the importance of understanding the susceptibility of LLMs to external influences.
翻訳日:2023-10-24 11:55:23 公開日:2023-10-20
# In-Context Pretraining: ドキュメント境界を越えた言語モデリング

In-Context Pretraining: Language Modeling Beyond Document Boundaries ( http://arxiv.org/abs/2310.10638v3 )

ライセンス: Link先を確認
Weijia Shi and Sewon Min and Maria Lomeli and Chunting Zhou and Margaret Li and Xi Victoria Lin and Noah A. Smith and Luke Zettlemoyer and Scott Yih and Mike Lewis(参考訳) 大規模な言語モデル(lms)は現在、ドキュメントプレフィックスが与えられたトークンを予測するように訓練されており、直接ロングフォーム生成や、ドキュメント補完に還元可能なプロンプトスタイルのタスクを実行することができる。 既存の事前訓練パイプラインは、短い文書のランダムなセットを連結して入力コンテキストを作成することでLMを訓練するが、以前の文書は次の文書を予測するための信号を提供しない。 In-Context Pretrainingは、言語モデルが関連する文書のシーケンスで事前訓練される新しいアプローチであり、それによって文書境界を越えて読み書きを明示的に促す。 In-Context Pretrainingは、ドキュメントの順序を変更するだけで、それぞれのコンテキストに関連ドキュメントが含まれ、既存の事前トレーニングパイプラインを直接適用できる。 しかし,この文書ソート問題は困難である。 何十億ものドキュメントがあり、データを繰り返すことなく、すべてのドキュメントの文脈的類似性を最大化したいと考えています。 そこで本研究では, 近接探索を効率よく行う関連文書の探索と, グラフトラバーサルアルゴリズムを用いたコヒーレントな入力コンテキスト構築のための近似アルゴリズムを提案する。 in-context learning (+8%), reading comprehension (+15%), honestness to previous contexts (+16%), long-context reasoning (+5%), retrieval augmentation (+9%) など,より複雑なコンテキスト推論を必要とするタスクには注目すべき改善点があります。

Large language models (LMs) are currently trained to predict tokens given document prefixes, enabling them to directly perform long-form generation and prompting-style tasks which can be reduced to document completion. Existing pretraining pipelines train LMs by concatenating random sets of short documents to create input contexts but the prior documents provide no signal for predicting the next document. We instead present In-Context Pretraining, a new approach where language models are pretrained on a sequence of related documents, thereby explicitly encouraging them to read and reason across document boundaries. We can do In-Context Pretraining by simply changing the document ordering so that each context contains related documents, and directly applying existing pretraining pipelines. However, this document sorting problem is challenging. There are billions of documents and we would like the sort to maximize contextual similarity for every document without repeating any data. To do this, we introduce approximate algorithms for finding related documents with efficient nearest neighbor search and constructing coherent input contexts with a graph traversal algorithm. Our experiments show In-Context Pretraining offers a simple and scalable approach to significantly enhance LMs'performance: we see notable improvements in tasks that require more complex contextual reasoning, including in-context learning (+8%), reading comprehension (+15%), faithfulness to previous contexts (+16%), long-context reasoning (+5%), and retrieval augmentation (+9%).
翻訳日:2023-10-24 11:31:07 公開日:2023-10-20
# 抽象的多文書要約のための階層的符号化復号法

A Hierarchical Encoding-Decoding Scheme for Abstractive Multi-document Summarization ( http://arxiv.org/abs/2305.08503v4 )

ライセンス: Link先を確認
Chenhui Shen, Liying Cheng, Xuan-Phi Nguyen, Yang You, Lidong Bing(参考訳) 事前訓練された言語モデル(PLM)は、抽象的な単一文書要約(SDS)において優れた成果を上げている。 しかし、そのような利点は、クロスドキュメント情報の扱いがより複雑であるマルチドキュメント要約(MDS)に完全には及ばない。 以前の作業では、新しいMDSアーキテクチャを設計するか、コンカレントソースドキュメントを簡潔にPLMを修正SDSタスクとして適用するかのどちらかであった。 前者は以前の事前訓練を使わず、異なる領域でうまく一般化できないかもしれないが、後者はMDSタスク特有の複雑な文書間関係に十分に対応していない。 代わりに、エンコーダとデコーダの両方に階層構造を適用し、MDSタスクのマルチドキュメントインタラクションを容易にするためにPLMをよりよく活用する。 様々な領域からの10のMDSベンチマークにおいて,本手法は,MDS事前学習やパラメータの増大など,従来のベストモデルと競合する。 対応するplmバックボーンを最大3ルージュlで上回り、人間に好まれている。

Pre-trained language models (PLMs) have achieved outstanding achievements in abstractive single-document summarization (SDS). However, such benefits may not fully extend to multi-document summarization (MDS), where the handling of cross-document information is more complex. Previous works either design new MDS architectures or apply PLMs bluntly with concatenated source documents as a reformulated SDS task. While the former does not utilize previous pre-training efforts and may not generalize well across different domains, the latter may not sufficiently attend to the intricate cross-document relationships unique to MDS tasks. Instead, we enforce hierarchy on both the encoder and decoder to better utilize a PLM to facilitate multi-document interactions for the MDS task. Across 10 MDS benchmarks from various domains, our method outperforms or is competitive with the previous best models, including those with additional MDS pre-training or with more parameters. It outperforms its corresponding PLM backbone by up to 3 Rouge-L and is favored by humans.
翻訳日:2023-10-24 08:42:58 公開日:2023-10-20
# pmindiasum:インドにおける多言語・言語横断の見出し要約

PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for Languages in India ( http://arxiv.org/abs/2305.08828v2 )

ライセンス: Link先を確認
Ashok Urlana, Pinzhen Chen, Zheng Zhao, Shay B. Cohen, Manish Shrivastava, Barry Haddow(参考訳) 本稿では,インドの言語に焦点を当てた多言語・大規模並列要約コーパスPMIndiaSumを紹介する。 私たちのコーパスは、4つの言語ファミリー、14の言語、196の言語ペアのトレーニングとテストの場を提供します。 データ取得、処理、品質保証を含む構築ワークフローを詳述します。 さらに,単言語,言語横断,多言語要約のベンチマークを細調整,プロンプト,翻訳・要約によって公開する。 実験の結果,インド語間の要約を支援するデータの重要性が確認された。 私たちのデータセットは公開されており、自由に修正と再配布が可能です。

This paper introduces PMIndiaSum, a multilingual and massively parallel summarization corpus focused on languages in India. Our corpus provides a training and testing ground for four language families, 14 languages, and the largest to date with 196 language pairs. We detail our construction workflow including data acquisition, processing, and quality assurance. Furthermore, we publish benchmarks for monolingual, cross-lingual, and multilingual summarization by fine-tuning, prompting, as well as translate-and-summarize. Experimental results confirm the crucial role of our data in aiding summarization between Indian languages. Our dataset is publicly available and can be freely modified and re-distributed.
翻訳日:2023-10-24 08:32:40 公開日:2023-10-20
# 議論中の暗黙の質問としての包括的単純化

Elaborative Simplification as Implicit Questions Under Discussion ( http://arxiv.org/abs/2305.10387v2 )

ライセンス: Link先を確認
Yating Wu, William Sheffield, Kyle Mahowald and Junyi Jessy Li(参考訳) 自動テキスト簡易化(automated text simplification)は、子供や創発的なバイリンガルなどの人々にとって、テキストをより使いやすくするための技術であり、複雑な文からエンコーダ・デコーダモデルを用いた簡易文への単言語翻訳タスクとしてよく考えられている。 このビューは、単純化されたテキストに新しい情報が加えられる詳細化の考慮に失敗している。 本稿では,議論中の問題(qud)フレームワークのレンズを通して,説明の簡略化を考察し,著者が何を精巧に扱っているのか,どのように精巧化が談話の文脈にどのように適合するかを,暗黙的な問いに対する明示的な答えとして捉えて検討する。 我々は,これらの現象を研究するために,暗黙のQUDを伴う1.3KのelabQUDを紹介する。 質問生成による)qudを明示的にモデル化することで、説明の単純化と他の談話とどのように結びつくかという本質的な理解がもたらされるだけでなく、説明生成の質が大幅に向上することを示す。

Automated text simplification, a technique useful for making text more accessible to people such as children and emergent bilinguals, is often thought of as a monolingual translation task from complex sentences to simplified sentences using encoder-decoder models. This view fails to account for elaborative simplification, where new information is added into the simplified text. This paper proposes to view elaborative simplification through the lens of the Question Under Discussion (QUD) framework, providing a robust way to investigate what writers elaborate upon, how they elaborate, and how elaborations fit into the discourse context by viewing elaborations as explicit answers to implicit questions. We introduce ElabQUD, consisting of 1.3K elaborations accompanied with implicit QUDs, to study these phenomena. We show that explicitly modeling QUD (via question generation) not only provides essential understanding of elaborative simplification and how the elaborations connect with the rest of the discourse, but also substantially improves the quality of elaboration generation.
翻訳日:2023-10-24 08:23:56 公開日:2023-10-20
# Tinto:地球科学における3次元ハイパースペクトル点雲セグメンテーションのためのマルチセンサベンチマーク

Tinto: Multisensor Benchmark for 3D Hyperspectral Point Cloud Segmentation in the Geosciences ( http://arxiv.org/abs/2305.09928v2 )

ライセンス: Link先を確認
Ahmed J. Afifi, Samuel T. Thiele, Aldino Rizaldy, Sandra Lorenz, Pedram Ghamisi, Raimon Tolosana-Delgado, Moritz Kirsch, Richard Gloaguen, Michael Heizmann(参考訳) 深層学習技術の利用の増加は解釈時間を短縮し、理想的には、デジタルアウトクロップモデルから地質図を自動的に抽出することで、インタプリタバイアスを低減させる。 しかし,これらの自動マッピング手法の正確な検証は,地質図の主観的性質と量的検証データの収集が困難であることから,大きな課題となっている。 さらに、最先端のディープラーニング手法の多くは、2d画像データに限定されており、ハイパークラウドのような3dデジタル露光には不十分である。 これらの課題に対処するため、Tintoは、特にポイントクラウドのような非構造化の3Dデータに対して、地質マッピングのためのディープラーニングアプローチの開発と検証を容易にするために設計された、マルチセンサーのデジタルアウトクロップデータセットである。 ティントは2つの相補集合から成る。 1)corta atalaya (spain) によるスペクトル特性と地表面データを用いた実デジタル露頭モデル 2 原データセットの潜伏特徴を利用した合成双生児で、地上から現実的なスペクトルデータ(センサノイズや加工品を含む)を再構成する。 点雲は密度が高く、3,242,964個のラベル付き点がある。 我々はこれらのデータセットを用いて、地質図の自動作成のための異なるディープラーニングアプローチの能力を探索した。 Tintoを一般公開することで、地球科学における3Dアプリケーションのための新しいディープラーニングツールの開発と適応を後押ししたいと考えています。 データセットは、このリンクを通じてアクセスすることができる。

The increasing use of deep learning techniques has reduced interpretation time and, ideally, reduced interpreter bias by automatically deriving geological maps from digital outcrop models. However, accurate validation of these automated mapping approaches is a significant challenge due to the subjective nature of geological mapping and the difficulty in collecting quantitative validation data. Additionally, many state-of-the-art deep learning methods are limited to 2D image data, which is insufficient for 3D digital outcrops, such as hyperclouds. To address these challenges, we present Tinto, a multi-sensor benchmark digital outcrop dataset designed to facilitate the development and validation of deep learning approaches for geological mapping, especially for non-structured 3D data like point clouds. Tinto comprises two complementary sets: 1) a real digital outcrop model from Corta Atalaya (Spain), with spectral attributes and ground-truth data, and 2) a synthetic twin that uses latent features in the original datasets to reconstruct realistic spectral data (including sensor noise and processing artifacts) from the ground-truth. The point cloud is dense and contains 3,242,964 labeled points. We used these datasets to explore the abilities of different deep learning approaches for automated geological mapping. By making Tinto publicly available, we hope to foster the development and adaptation of new deep learning tools for 3D applications in Earth sciences. The dataset can be accessed through this link: https://doi.org/10.14278/rodare.2256.
翻訳日:2023-10-24 08:22:22 公開日:2023-10-20
# 偽相関レンズによるバックドア毒殺攻撃の軽減

Mitigating Backdoor Poisoning Attacks through the Lens of Spurious Correlation ( http://arxiv.org/abs/2305.11596v2 )

ライセンス: Link先を確認
Xuanli He, Qiongkai Xu, Jun Wang, Benjamin Rubinstein, Trevor Cohn(参考訳) 現代のNLPモデルは、しばしば大きな信頼できないデータセット上で訓練され、悪意のある敵がモデルの振る舞いを妥協する可能性を高める。 例えば、特定のテキストトリガーとターゲットラベルでトレーニングインスタンスを作成することで、バックドアを埋め込むことができる。 本稿では,簡単なテキスト特徴量と分類ラベルの相関関係を示すバックドア中毒攻撃を仮定し,防御手段としてのスプリアス相関の緩和法を提案する。 実験の結果,悪意のあるトリガーがターゲットラベルと高い相関関係にあることが明らかとなった。そのため,このような相関関係は,良質な特徴のスコアと比較すると極めて識別可能であり,潜在的に問題のあるインスタンスを除去できる可能性がある。 本手法は, 既存の防衛手法と比べ, バックドア攻撃における攻撃成功率を大幅に削減し, 挿入攻撃の場合, ほぼ完全な防御を行う。

Modern NLP models are often trained over large untrusted datasets, raising the potential for a malicious adversary to compromise model behaviour. For instance, backdoors can be implanted through crafting training instances with a specific textual trigger and a target label. This paper posits that backdoor poisoning attacks exhibit \emph{spurious correlation} between simple text features and classification labels, and accordingly, proposes methods for mitigating spurious correlation as means of defence. Our empirical study reveals that the malicious triggers are highly correlated to their target labels; therefore such correlations are extremely distinguishable compared to those scores of benign features, and can be used to filter out potentially problematic instances. Compared with several existing defences, our defence method significantly reduces attack success rates across backdoor attacks, and in the case of insertion-based attacks, our method provides a near-perfect defence.
翻訳日:2023-10-24 08:14:51 公開日:2023-10-20
# 文脈学習を用いた知識のない時間的知識グラフ予測

Temporal Knowledge Graph Forecasting Without Knowledge Using In-Context Learning ( http://arxiv.org/abs/2305.10613v3 )

ライセンス: Link先を確認
Dong-Ho Lee, Kian Ahrabian, Woojeong Jin, Fred Morstatter, Jay Pujara(参考訳) 時間的知識グラフ(TKG)予測ベンチマークは、過去の事実の知識を用いて将来の事実を予測するためにモデルに挑戦する。 本稿では,大規模言語モデル (LLM) をテキスト内学習 (ICL) を用いてこれらのベンチマークに適用する。 特に構造的および時間的情報を取り込むための微調整や明示的なモジュールを使わずに、tkg予測にllmがどの程度使用できるかを検討する。 本実験では,関連する歴史的事実をプロンプトに変換し,トークン確率を用いてランキング予測を生成する枠組みを提案する。 驚くべきことに、我々は、tkg予測のために慎重に設計・訓練された最先端のtkgモデルと同等にllmが機能するのを観察した。 提案手法は,様々な特徴を持つモデルやデータセットにまたがる性能評価を行い,文脈情報を作成するための代替ヒューリスティックスと,tkg法や単純な頻度ベースラインと対比する。 また、エンティティ/リレーショナル名の代わりに数値インデックスを使うこと、すなわち意味情報を隠すことは、パフォーマンスに大きな影響を与えない(\pm$0.4\% hit@1)。 これは、事前の意味知識が不要であることを示している;代わりに、llmは、そのようなパフォーマンスを達成するためにコンテキスト内の既存のパターンを活用できる。 また, iclは, 一般的な情報や最近の情報に基づく単純な予測を超えて, 歴史的文脈から不規則なパターンを学習することを可能にする。

Temporal knowledge graph (TKG) forecasting benchmarks challenge models to predict future facts using knowledge of past facts. In this paper, we apply large language models (LLMs) to these benchmarks using in-context learning (ICL). We investigate whether and to what extent LLMs can be used for TKG forecasting, especially without any fine-tuning or explicit modules for capturing structural and temporal information. For our experiments, we present a framework that converts relevant historical facts into prompts and generates ranked predictions using token probabilities. Surprisingly, we observe that LLMs, out-of-the-box, perform on par with state-of-the-art TKG models carefully designed and trained for TKG forecasting. Our extensive evaluation presents performances across several models and datasets with different characteristics, compares alternative heuristics for preparing contextual information, and contrasts to prominent TKG methods and simple frequency and recency baselines. We also discover that using numerical indices instead of entity/relation names, i.e., hiding semantic information, does not significantly affect the performance ($\pm$0.4\% Hit@1). This shows that prior semantic knowledge is unnecessary; instead, LLMs can leverage the existing patterns in the context to achieve such performance. Our analysis also reveals that ICL enables LLMs to learn irregular patterns from the historical context, going beyond simple predictions based on common or recent information.
翻訳日:2023-10-24 08:12:45 公開日:2023-10-20
# 一般化ハバード・ストラトノヴィッチ変換による量子強長距離モデルの厳密解

Exact solution for quantum strong long-range models via a generalized Hubbard-Stratonovich transformation ( http://arxiv.org/abs/2305.10482v2 )

ライセンス: Link先を確認
Juan Rom\'an-Roche, V\'ictor Herr\'aiz-L\'opez, David Zueco(参考訳) 我々は, [campa et al., j. phys. a 36, 6897 (2003)] で提案した古典解を拡張し, 正準アンサンブルにおける量子強長距離モデルの厳密な解析解を提案する。 具体的には、一般化ディッケモデルとハバード・ストラトノヴィッチ変換の一般化として相互作用量子モデルの間の同値性を利用する。 提案手法を横磁場のイジング連鎖に適用し,Fermi-Hubbardモデルや短距離・長距離モデル,反強磁性相互作用を持つモデルなど他のモデルへの応用の可能性について議論する。 以上の結果から, モデルの臨界挙動は, 相互作用範囲, 強い長距離状態, モデルの次元性とは無関係であることが示唆された。 さらに, 順序パラメータ表現は平均場理論によって提供されるものと同値であることを示し, 後者の完全性を確認した。 最後に、相関の代数的減衰を調べ、全位相図における相互作用の範囲に依存することを特徴付ける。

We present an exact analytical solution for quantum strong long-range models in the canonical ensemble by extending the classical solution proposed in [Campa et al., J. Phys. A 36, 6897 (2003)]. Specifically, we utilize the equivalence between generalized Dicke models and interacting quantum models as a generalization of the Hubbard-Stratonovich transformation. To demonstrate our method, we apply it to the Ising chain in transverse field and discuss its potential application to other models, such as the Fermi-Hubbard model, combined short and long-range models and models with antiferromagnetic interactions. Our findings indicate that the critical behaviour of a model is independent of the range of interactions, within the strong long-range regime, and the dimensionality of the model. Moreover, we show that the order parameter expression is equivalent to that provided by mean-field theory, thus confirming the exactness of the latter. Finally, we examine the algebraic decay of correlations and characterize its dependence on the range of interactions in the full phase diagram.
翻訳日:2023-10-24 08:12:11 公開日:2023-10-20
# ChatGPT: コードの構文とセマンティックスを理解する

ChatGPT: Understanding Code Syntax and Semantics ( http://arxiv.org/abs/2305.12138v2 )

ライセンス: Link先を確認
Wei Ma, Shangqing Liu, Wenhan Wang, Qiang Hu, Ye Liu, Cen Zhang, Liming Nie, Yang Liu(参考訳) ChatGPTは、コードやドキュメント生成といったSEタスクで優れたパフォーマンスを示すことで、ソフトウェアエンジニアリング(SE)に革命をもたらす大きな可能性を示しています。 しかし、ソフトウェア工学における高い信頼性とリスクコントロール要件は、ChatGPTの解釈可能性の欠如を懸念する。 この問題に対処するため、我々はChatGPTの能力とSEにおけるコード解析の限界を評価する研究を行った。 我々は、コード分析に関連するSEタスクに対処する人工知能(AI)モデルに必要な能力を、3つのカテゴリに分類する。 2)静的な行動の理解,及び 3)動的行動理解。 本研究は、抽象構文木(AST)、制御フローグラフ(CFG)、コールグラフ(CG)など、コード構文や意味構造を理解するChatGPTの機能に焦点を当てた。 C、Java、Python、Solidityを含む言語横断タスクにおけるChatGPTの性能を評価した。 この結果から,ChatGPTにはコード構文を理解する能力があるが,コード意味論,特に動的意味論の理解に苦慮していることがわかった。 結論として,ChatGPTは抽象構文木(AST)パーサに似た機能を有し,静的コード解析の初期能力を示す。 さらに本研究は,chatgptがコード意味構造を解釈し,存在しない事実をつくり出す際に幻覚になりやすいことを強調する。 これらの結果は,chatgpt出力の正確性を検証する手法を探索し,その信頼性を確保する必要があることを示している。 さらに重要なことは、llmが生成するコードは通常構文が正しいが脆弱である理由に対する最初の答えを提供します。

ChatGPT demonstrates significant potential to revolutionize software engineering (SE) by exhibiting outstanding performance in SE tasks such as code and document generation. However, the high reliability and risk control requirements in software engineering raise concerns about the lack of interpretability of ChatGPT. To address this concern, we conducted a study to evaluate the capabilities of ChatGPT and its limitations for code analysis in SE. We break down the abilities needed for artificial intelligence (AI) models to address SE tasks related to code analysis into three categories:1) syntax understanding, 2) static behavior understanding, and 3) dynamic behavior understanding. Our investigation focused on the ability of ChatGPT to comprehend code syntax and semantic structures, which include abstract syntax trees (AST), control flow graphs (CFG), and call graphs (CG). We assessed the performance of ChatGPT on cross-language tasks involving C, Java, Python, and Solidity. Our findings revealed that while ChatGPT has a talent for understanding code syntax, it struggles with comprehending code semantics, particularly dynamic semantics. We conclude that ChatGPT possesses capabilities similar to an Abstract Syntax Tree (AST) parser, demonstrating initial competencies in static code analysis. Furthermore, our study highlights that ChatGPT is susceptible to hallucinations when interpreting code semantic structures and fabricating nonexistent facts. These results indicate the need to explore methods to verify the correctness of ChatGPT output to ensure its dependability in SE. More importantly, our study provides an initial answer to why the codes generated by LLM are usually syntax correct but vulnerable.
翻訳日:2023-10-24 08:01:44 公開日:2023-10-20
# DisCo:半教師付きテキストマイニングのための学生共学モデル

DisCo: Distilled Student Models Co-training for Semi-supervised Text Mining ( http://arxiv.org/abs/2305.12074v3 )

ライセンス: Link先を確認
Weifeng Jiang, Qianren Mao, Chenghua Lin, Jianxin Li, Ting Deng, Weiyi Yang and Zheng Wang(参考訳) 多くのテキストマイニングモデルは、ダウンストリームタスクで大きな深層事前学習言語モデル(plm)を微調整することで構築される。 しかし、最近の重要な課題は、ラベル付きサンプルが限定された軽量モデルを使用する場合のパフォーマンスを維持することです。 本稿では、知識蒸留を用いた大規模PLMから生成された小学生モデルのコホートを微調整するための、半教師付き学習(SSL)フレームワークであるDisCoを紹介する。 我々の重要な洞察は、蒸留された学生コホート間で補完的な知識を共有し、SSLの有効性を促進することである。 discoは、異なる蒸留戦略によって生成されたモデルビューと、様々な入力拡張によって生成されたデータビューである、多様化した視点の下での学生間の知識共有を促進することにより、複数の小学生モデルのコホートを最適化するために、新しいコトレーニング技術を採用している。 半教師付きテキスト分類と抽出要約タスクにおけるDisCoの評価を行った。 実験の結果、DisCoは7.6倍小さく、4.8倍の推論速度を持つ学生モデルを生産でき、性能は同等であることがわかった。 また、DisCo生成した学生モデルは、異なるタスクで精巧に調整された類似サイズのモデルよりも優れていることを示す。

Many text mining models are constructed by fine-tuning a large deep pre-trained language model (PLM) in downstream tasks. However, a significant challenge nowadays is maintaining performance when we use a lightweight model with limited labelled samples. We present DisCo, a semi-supervised learning (SSL) framework for fine-tuning a cohort of small student models generated from a large PLM using knowledge distillation. Our key insight is to share complementary knowledge among distilled student cohorts to promote their SSL effectiveness. DisCo employs a novel co-training technique to optimize a cohort of multiple small student models by promoting knowledge sharing among students under diversified views: model views produced by different distillation strategies and data views produced by various input augmentations. We evaluate DisCo on both semi-supervised text classification and extractive summarization tasks. Experimental results show that DisCo can produce student models that are 7.6 times smaller and 4.8 times faster in inference than the baseline PLMs while maintaining comparable performance. We also show that DisCo-generated student models outperform the similar-sized models elaborately tuned in distinct tasks.
翻訳日:2023-10-24 08:01:16 公開日:2023-10-20
# 極性アヒルとその発見場所 : アヒル型付けと極性ボックス埋め込みによるエンティティリンクの強化

Polar Ducks and Where to Find Them: Enhancing Entity Linking with Duck Typing and Polar Box Embeddings ( http://arxiv.org/abs/2305.12027v2 )

ライセンス: Link先を確認
Mattia Atzeni, Mikhail Plekhanov, Fr\'ed\'eric A. Dreyer, Nora Kassner, Simone Merello, Louis Martin, Nicola Cancedda(参考訳) 高密度検索に基づくエンティティリンク手法は,大規模アプリケーションにおいて効率的かつ広く利用されているソリューションであるが,組込み空間の構造に敏感な生成モデルの性能に欠ける。 この問題に対処するために,本論文では,エンティティ型の事前知識を用いて,エンティティ表現空間に構造情報を注入するアプローチであるDUCKを紹介する。 プログラミング言語におけるダックタイプに着想を得て,知識グラフ内の他のエンティティとの関係に基づいて,エンティティの型を定義することを提案する。 次に,ボックス埋め込みの概念を球面極座標に移植し,超球面上のボックスとして関係を表現することを提案する。 関係に対応するボックス内に配置することで,類似型のエンティティをクラスタリングするモデルを最適化する。 提案手法は,標準エンティティ曖昧性ベンチマークで新たな最先端結果をセットし,最大7.9f1ポイントの性能向上を行い,他の型認識手法を上回り,生成モデルの結果を18倍のパラメータで一致させる。

Entity linking methods based on dense retrieval are an efficient and widely used solution in large-scale applications, but they fall short of the performance of generative models, as they are sensitive to the structure of the embedding space. In order to address this issue, this paper introduces DUCK, an approach to infusing structural information in the space of entity representations, using prior knowledge of entity types. Inspired by duck typing in programming languages, we propose to define the type of an entity based on the relations that it has with other entities in a knowledge graph. Then, porting the concept of box embeddings to spherical polar coordinates, we propose to represent relations as boxes on the hypersphere. We optimize the model to cluster entities of similar type by placing them inside the boxes corresponding to their relations. Our experiments show that our method sets new state-of-the-art results on standard entity-disambiguation benchmarks, it improves the performance of the model by up to 7.9 F1 points, outperforms other type-aware approaches, and matches the results of generative models with 18 times more parameters.
翻訳日:2023-10-24 08:00:56 公開日:2023-10-20
# 次は何だ? 人為的生産変動に対するニューラルテキスト生成装置の不確かさの評価

What Comes Next? Evaluating Uncertainty in Neural Text Generators Against Human Production Variability ( http://arxiv.org/abs/2305.11707v2 )

ライセンス: Link先を確認
Mario Giulianelli, Joris Baan, Wilker Aziz, Raquel Fern\'andez, Barbara Plank(参考訳) 自然言語生成(nlg)タスクでは、任意の入力に対して、複数のコミュニケーション目標が実現可能であり、任意の目標を複数の方法で単語や生成することができる。 我々は,人間の生産能力が4つのnlgタスクにまたがって語彙的,構文的,意味的に変動する程度を特徴とし,人間の生産変動をアレータリックやデータ不確かさに結びつける。 次に、生成システムの予測確率分布と復号アルゴリズムによって形成される出力文字列の空間を検査し、その不確かさを調べる。 テスト入力毎に, 発電機のキャリブレーションと人為的生産変動を計測する。 このインスタンスレベルのアプローチに従うと、NLGモデルとデコード戦略を分析し、生成元を複数のサンプルで探索し、可能であれば複数の参照がモデルの不確実性の表現を理解するために必要な詳細レベルを提供する。 コードはhttps://github.com/dmg-illc/nlg-uncertainty-probesで入手できる。

In Natural Language Generation (NLG) tasks, for any input, multiple communicative goals are plausible, and any goal can be put into words, or produced, in multiple ways. We characterise the extent to which human production varies lexically, syntactically, and semantically across four NLG tasks, connecting human production variability to aleatoric or data uncertainty. We then inspect the space of output strings shaped by a generation system's predicted probability distribution and decoding algorithm to probe its uncertainty. For each test input, we measure the generator's calibration to human production variability. Following this instance-level approach, we analyse NLG models and decoding strategies, demonstrating that probing a generator with multiple samples and, when possible, multiple references, provides the level of detail necessary to gain understanding of a model's representation of uncertainty. Code available at https://github.com/dmg-illc/nlg-uncertainty-probes.
翻訳日:2023-10-24 08:00:04 公開日:2023-10-20
# Resee: オープンドメイン対話におけるきめ細かい視覚的知識の活用

ReSee: Responding through Seeing Fine-grained Visual Knowledge in Open-domain Dialogue ( http://arxiv.org/abs/2305.13602v2 )

ライセンス: Link先を確認
Haoqin Tu, Yitong Li, Fei Mi, Zhongliang Yang(参考訳) 視覚知識をテキストのみの対話システムに統合することは、人間の思考、想像、コミュニケーションを模倣する潜在的な方向になりつつある。 しかし、既存のマルチモーダル対話システムは、利用可能なデータセットのスケールと品質、あるいは視覚知識の粗い概念に制限されている。 これらの課題に対処するため,テキストのみの対話から拡張された2つのデータセット(ReSee-WoW,ReSee-DD)とともに,マルチモーダル対話を構築する新たなパラダイムを提供する。 視覚的知識をより細かい粒度( ``turn-level' と ``entity-level' )に明示的に分割することを提案する。 拡張視覚情報の精度と多様性をさらに高めるために,インターネットや大規模画像データセットから情報を取得する。 提供された視覚的知識の優越性と普遍性を示すために,モダリティ結合によるバニラ対話モデルに視覚表現を加えるためのシンプルで効果的なフレームワークReSeeを提案する。 また、さまざまなモデル設定や視覚的知識設定に関する広範な実験や改善も行います。 経験的かつ奨励的な結果は、エンティティレベルとターンレベルの両方で視覚知識を導入することの有効性を示すだけでなく、提案されたモデルの検証が、自動評価と人間評価のいくつかの最先端手法を上回っていることを示している。 テキストと視覚知識を活用することで、ReSeeは現実世界の視覚概念による情報応答を生成できる。 私たちのコードはhttps://github.com/imkett/reseeで閲覧できます。

Incorporating visual knowledge into text-only dialogue systems has become a potential direction to imitate the way humans think, imagine, and communicate. However, existing multimodal dialogue systems are either confined by the scale and quality of available datasets or the coarse concept of visual knowledge. To address these issues, we provide a new paradigm of constructing multimodal dialogues as well as two datasets extended from text-only dialogues under such paradigm (ReSee-WoW, ReSee-DD). We propose to explicitly split the visual knowledge into finer granularity (``turn-level'' and ``entity-level''). To further boost the accuracy and diversity of augmented visual information, we retrieve them from the Internet or a large image dataset. To demonstrate the superiority and universality of the provided visual knowledge, we propose a simple but effective framework ReSee to add visual representation into vanilla dialogue models by modality concatenations. We also conduct extensive experiments and ablations w.r.t. different model configurations and visual knowledge settings. Empirical, encouraging results not only demonstrate the effectiveness of introducing visual knowledge at both entity and turn level but also verify the proposed model ReSee outperforms several state-of-the-art methods on automatic and human evaluations. By leveraging text and vision knowledge, ReSee can produce informative responses with real-world visual concepts. Our code is available at https://github.com/ImKeTT/ReSee.
翻訳日:2023-10-24 07:53:55 公開日:2023-10-20
# BioDEX: リアルタイム薬局用大規模バイオメディカル逆薬イベント抽出

BioDEX: Large-Scale Biomedical Adverse Drug Event Extraction for Real-World Pharmacovigilance ( http://arxiv.org/abs/2305.13395v2 )

ライセンス: Link先を確認
Karel D'Oosterlinck, Fran\c{c}ois Remy, Johannes Deleu, Thomas Demeester, Chris Develder, Klim Zaporojets, Aneiss Ghodsi, Simon Ellershaw, Jack Collins, Christopher Potts(参考訳) バイオメディカル文献からの逆薬物イベント(ADE)のタイムリーかつ正確な抽出は、公共の安全にとって最重要であるが、遅くてコストのかかる手作業が伴う。 我々は,自然言語処理(nlp)を用いた薬剤安全性モニタリング(薬剤運転,pv)の改善に着手した。 米国における薬物安全報告の歴史的アウトプットに根ざした生物医学的有害薬物イベント抽出のための大規模リソースであるbiodexを紹介する。biodexは、医療専門家が作成した文書レベル安全性レポート256kと関連した、65kの要約と19kのフルテキストの生物医学論文からなる。 これらの報告の中核的な特徴は、患者の体重、年齢、生物学的性、患者が服用した薬物のセット、薬物の服用、経験した反応、そしてその反応が生命を脅かしているかどうかである。 本研究は,その発刊論文に基づいて,報告書のコア情報を予測する作業について検討する。 人間のパフォーマンスを72.0% F1と見積もる一方、我々の最良のモデルでは62.3% F1を達成しており、このタスクのかなりのヘッドルームを示している。 また、これらのモデルがプロのPVレビュアーを助ける方法を探求し始めています。 私たちのコードとデータは、https://github.com/KarelDO/BioDEX.comで利用可能です。

Timely and accurate extraction of Adverse Drug Events (ADE) from biomedical literature is paramount for public safety, but involves slow and costly manual labor. We set out to improve drug safety monitoring (pharmacovigilance, PV) through the use of Natural Language Processing (NLP). We introduce BioDEX, a large-scale resource for Biomedical adverse Drug Event Extraction, rooted in the historical output of drug safety reporting in the U.S. BioDEX consists of 65k abstracts and 19k full-text biomedical papers with 256k associated document-level safety reports created by medical experts. The core features of these reports include the reported weight, age, and biological sex of a patient, a set of drugs taken by the patient, the drug dosages, the reactions experienced, and whether the reaction was life threatening. In this work, we consider the task of predicting the core information of the report given its originating paper. We estimate human performance to be 72.0% F1, whereas our best model achieves 62.3% F1, indicating significant headroom on this task. We also begin to explore ways in which these models could help professional PV reviewers. Our code and data are available: https://github.com/KarelDO/BioDEX.
翻訳日:2023-10-24 07:53:08 公開日:2023-10-20
# LLMは事前訓練された言語モデルの解釈を容易にするか?

Can LLMs facilitate interpretation of pre-trained language models? ( http://arxiv.org/abs/2305.13386v2 )

ライセンス: Link先を確認
Basel Mousi, Nadir Durrani, Fahim Dalvi(参考訳) 事前学習された言語モデルでエンコードされた知識を明らかにする作業は、注釈付きコーパスまたはヒューマン・イン・ザ・ループメソッドに依存している。 しかし、これらのアプローチはスケーラビリティと解釈範囲で制限されている。 本稿では,事前学習した言語モデルの微粒な解釈分析を可能にするために,大規模な言語モデルChatGPTを提案する。 コンテキスト化表現に凝集的階層クラスタリングを適用し,これらの概念をchatgptを用いてアノテートすることにより,事前学習した言語モデル内で潜在概念を発見する。 以上の結果から,ChatGPTは人間のアノテーションよりも正確で意味的にリッチなアノテーションを生成することがわかった。 さらに,GPTをベースとしたアノテーションが解釈分析手法をどのように活用するかを示す。 この分野のさらなる探索と実験を容易にするために、39,000の注釈付き概念からなる実質的なコンセプトネットデータセット(tcn)を利用可能にする。

Work done to uncover the knowledge encoded within pre-trained language models rely on annotated corpora or human-in-the-loop methods. However, these approaches are limited in terms of scalability and the scope of interpretation. We propose using a large language model, ChatGPT, as an annotator to enable fine-grained interpretation analysis of pre-trained language models. We discover latent concepts within pre-trained language models by applying agglomerative hierarchical clustering over contextualized representations and then annotate these concepts using ChatGPT. Our findings demonstrate that ChatGPT produces accurate and semantically richer annotations compared to human-annotated concepts. Additionally, we showcase how GPT-based annotations empower interpretation analysis methodologies of which we demonstrate two: probing frameworks and neuron interpretation. To facilitate further exploration and experimentation in the field, we make available a substantial ConceptNet dataset (TCN) comprising 39,000 annotated concepts.
翻訳日:2023-10-24 07:52:45 公開日:2023-10-20
# 関連文書におけるトークンレベルの意味的差異の教師なし認識に向けて

Towards Unsupervised Recognition of Token-level Semantic Differences in Related Documents ( http://arxiv.org/abs/2305.13303v3 )

ライセンス: Link先を確認
Jannis Vamvas and Rico Sennrich(参考訳) 2つの文書のセマンティックな違いを引き起こす単語を自動的にハイライトすることは、広範囲のアプリケーションに有用である。 トークンレベルの回帰タスクとして意味差(RSD)を認識し,マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。 アプローチを評価するために、まず英語の基本文から始め、より複雑で言語横断的な文書ペアに徐々に移行する。 本研究は,単語アライメントと文レベルのコントラスト学習に基づくアプローチが,ゴールドラベルと強い相関を持つことを示す。 しかし、すべての教師なしアプローチは依然として大きな改善点を残している。 実験を再現するコードはhttps://github.com/ZurichNLP/recognizing-semantic-differencesで公開されている。

Automatically highlighting words that cause semantic differences between two documents could be useful for a wide range of applications. We formulate recognizing semantic differences (RSD) as a token-level regression task and study three unsupervised approaches that rely on a masked language model. To assess the approaches, we begin with basic English sentences and gradually move to more complex, cross-lingual document pairs. Our results show that an approach based on word alignment and sentence-level contrastive learning has a robust correlation to gold labels. However, all unsupervised approaches still leave a large margin of improvement. Code to reproduce our experiments is available at https://github.com/ZurichNLP/recognizing-semantic-differences
翻訳日:2023-10-24 07:52:29 公開日:2023-10-20
# SimCSE++:2つの観点からの文埋め込みにおけるコントラスト学習の改善

SimCSE++: Improving Contrastive Learning for Sentence Embeddings from Two Perspectives ( http://arxiv.org/abs/2305.13192v2 )

ライセンス: Link先を確認
Jiahao Xu, Wei Shao, Lihui Chen and Lemao Liu(参考訳) 本稿では,文埋め込みのコントラスト学習を,ドロップアウトノイズの処理と特徴破壊の対処という2つの視点から改善する。 具体的には, まず, 負のペアからのドロップアウトノイズがモデルの性能に与える影響を明らかにする。 そこで,このような騒音に対処するための簡易かつ効果的な手法を提案する。 第2に,現在の解のランクボトルネックを特徴破壊に特定し,この問題に対処するための次元的対比学習目標を提案する。 どちらの手法も汎用的であり、文埋め込みのための任意のコントラスト学習モデルに適用できる。 標準ベンチマーク実験の結果,提案手法を併用すると,BERTベースに設定された強いベースラインSimCSEに比べて1.8ポイント向上することがわかった。 さらに,別の強コントラスト学習ベースラインであるdiffcseに提案手法を適用すると,1.4ポイントの利得が得られる。

This paper improves contrastive learning for sentence embeddings from two perspectives: handling dropout noise and addressing feature corruption. Specifically, for the first perspective, we identify that the dropout noise from negative pairs affects the model's performance. Therefore, we propose a simple yet effective method to deal with such type of noise. Secondly, we pinpoint the rank bottleneck of current solutions to feature corruption and propose a dimension-wise contrastive learning objective to address this issue. Both proposed methods are generic and can be applied to any contrastive learning based models for sentence embeddings. Experimental results on standard benchmarks demonstrate that combining both proposed methods leads to a gain of 1.8 points compared to the strong baseline SimCSE configured with BERT base. Furthermore, applying the proposed method to DiffCSE, another strong contrastive learning based baseline, results in a gain of 1.4 points.
翻訳日:2023-10-24 07:52:16 公開日:2023-10-20
# 抽象要約のための大規模言語モデルはまだ人間レベル評価器ではない

Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization ( http://arxiv.org/abs/2305.13091v2 )

ライセンス: Link先を確認
Chenhui Shen, Liying Cheng, Xuan-Phi Nguyen, Yang You, Lidong Bing(参考訳) 近年,ChatGPT や GPT-4 のような大規模言語モデル (LLM) における推論能力の進歩に伴い,様々なタスクで LLM を使用する傾向が高まっている。 llmが採用できる分野の1つは、複雑な生成タスクの代替評価指標であり、一般的には、高コストな人間の判断者に、流束や一貫性といった様々な評価次元の伝統的な自動測定基準を補完するよう要求する。 本研究では, 抽象要約のための自動評価器として, LLMの安定性と信頼性について広範な解析を行った。 その結果、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、大きな制限があるため、人間の代替には適していません。 すなわち、LLM評価器は各候補系を矛盾なく評価し、次元に依存している。 また、人間との相関を低くすることで、より高品質なサマリーよりも、より信頼できないものとなる。 言い換えれば、より優れた抽象的な要約システムが高速に導入されれば、LLMは誤解を招く可能性があり、信頼できない評価をもたらす。

With the recent undeniable advancement in reasoning abilities in large language models (LLMs) like ChatGPT and GPT-4, there is a growing trend for using LLMs on various tasks. One area where LLMs can be employed is as an alternative evaluation metric for complex generative tasks, which generally demands expensive human judges to complement the traditional automatic metrics for various evaluation dimensions such as fluency and consistency. In this work, we conduct extensive analysis to investigate the stability and reliability of LLMs as automatic evaluators for abstractive summarization. We found that while ChatGPT and GPT-4 outperform the commonly used automatic metrics, they are not ready as human replacements due to significant limitations. That is, LLM evaluators rate each candidate system inconsistently and are dimension-dependent. They also struggle to compare candidates with close performance and become more unreliable with higher-quality summaries by obtaining a lower correlation with humans. In other words, with better abstractive summarization systems being introduced at a fast pace, LLMs may result in misleading and unreliable evaluations.
翻訳日:2023-10-24 07:51:47 公開日:2023-10-20
# GPT4Table: 大規模言語モデルは構造化テーブルデータに耐えられるか? ベンチマークと実証的研究

GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study ( http://arxiv.org/abs/2305.13062v2 )

ライセンス: Link先を確認
Yuan Sui, Mengyu Zhou, Mingjie Zhou, Shi Han, Dongmei Zhang(参考訳) 大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になりつつある。 しかし、LLMがテーブルのような構造化データをどのように理解しているかは、まだ学ぶべきことがたくさんある。 表を直列化して LLM への入力として用いることは事実であるが、そのようなデータを真に理解できるかどうかを総合的に検討する研究は乏しい。 本稿では,LLMの構造理解能力(SUC)を評価するためのベンチマークを設計し,これを理解しようと試みる。 私たちが作成したベンチマークには7つのタスクが含まれており、それぞれに独自の課題、例えば、セルルックアップ、行検索、サイズ検出があります。 GPT-3.5とGPT-4について一連の評価を行った。 その結果、テーブル入力形式、コンテンツ順序、ロールプロンプト、パーティションマークなど、多数の入力選択によって性能が変化していることが判明した。 評価の結果から, LLMの内部知識を用いた効率的な構造的プロンプト, \eg, 臨界値/範囲識別のためのtextit{self-augmentation}を提案する。 注意深く選択された入力選択と組み合わせると、これらの構造的プロンプト手法は、様々な表型タスクにおけるllmパフォーマンスの有望な改善をもたらす: \eg, tabfact($\uparrow2.31\%$), hybridqa($\uparrow2.13\%$), sqa($\uparrow2.72\%$), feverous($\uparrow0.84\%$), totto($\uparrow5.68\%$)。 我々は,我々のベンチマークと提案手法が,将来の研究の単純かつ汎用的な選択に役立つと考えている。 コードとデータは \url{https://anonymous.4open.science/r/StructuredLLM-76F3} でリリースされる。

Large language models (LLMs) are becoming attractive as few-shot reasoners to solve Natural Language (NL)-related tasks. However, there is still much to learn about how well LLMs understand structured data, such as tables. While it is true that tables can be used as inputs to LLMs with serialization, there lack of comprehensive studies examining whether LLMs can truly comprehend such data. In this paper, we try to understand this by designing a benchmark to evaluate the structural understanding capabilities (SUC) of LLMs. The benchmark we create includes seven tasks, each with its own unique challenges, \eg, cell lookup, row retrieval, and size detection. We run a series of evaluations on GPT-3.5 and GPT-4. We discover that the performance varied depending on a number of input choices, including table input format, content order, role prompting, and partition marks. Drawing from the insights gained through the benchmark evaluations, we then propose \textit{self-augmentation} for effective structural prompting, \eg, critical value / range identification using LLMs' internal knowledge. When combined with carefully chosen input choices, these structural prompting methods lead to promising improvements in LLM performance on a variety of tabular tasks, \eg, TabFact($\uparrow2.31\%$), HybridQA($\uparrow2.13\%$), SQA($\uparrow2.72\%$), Feverous($\uparrow0.84\%$), and ToTTo($\uparrow5.68\%$). We believe that our benchmark and proposed prompting methods can serve as a simple yet generic selection for future research. The code and data are released in \url{https://anonymous.4open.science/r/StructuredLLM-76F3}.
翻訳日:2023-10-24 07:51:28 公開日:2023-10-20
# Newton-Cotes Graph Neural Networks: 動的システムの時間進化について

Newton-Cotes Graph Neural Networks: On the Time Evolution of Dynamic Systems ( http://arxiv.org/abs/2305.14642v3 )

ライセンス: Link先を確認
Lingbing Guo, Weiqing Wang, Zhuo Chen, Ningyu Zhang, Zequn Sun, Yixuan Lai, Qiang Zhang, and Huajun Chen(参考訳) 推論システムダイナミクスは、多くの科学研究において最も重要な分析的アプローチの一つである。 システムの初期状態が入力となると、最近のグラフニューラルネットワーク(gnns)ベースの手法は、時間内に遠く離れた将来の状態を高精度に予測することができる。 これらの手法は座標とシステムの相互作用力のモデル化において多種多様であるが,初期座標と終端座標の間隔における速度の積分を学習する共通パラダイムを実際に共有していることを示す。 しかし、それらの積分は定数 w.r.t. 時間である。 この観察に触発されて,ニュートン・コート公式を用いた複数の速度推定に基づく統合予測法を提案し,理論的に有効性を証明する。 いくつかのベンチマークでの大規模な実験は、最先端の手法と比較して、一貫性と顕著な改善を実証的に示す。

Reasoning system dynamics is one of the most important analytical approaches for many scientific studies. With the initial state of a system as input, the recent graph neural networks (GNNs)-based methods are capable of predicting the future state distant in time with high accuracy. Although these methods have diverse designs in modeling the coordinates and interacting forces of the system, we show that they actually share a common paradigm that learns the integration of the velocity over the interval between the initial and terminal coordinates. However, their integrand is constant w.r.t. time. Inspired by this observation, we propose a new approach to predict the integration based on several velocity estimations with Newton-Cotes formulas and prove its effectiveness theoretically. Extensive experiments on several benchmarks empirically demonstrate consistent and significant improvement compared with the state-of-the-art methods.
翻訳日:2023-10-24 07:41:56 公開日:2023-10-20
# Prompt-based data Augmentation を用いたブラックボックスFew-Shotテキスト分類の強化

Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data Augmentation ( http://arxiv.org/abs/2305.13785v2 )

ライセンス: Link先を確認
Danqing Luo, Chen Zhang, Jiahui Xu, Bin Wang, Yiming Chen, Yan Zhang, Haizhou Li(参考訳) GPT-3のような大規模言語モデル(LLM)の訓練や微調整には、かなりの計算資源が必要である。 1つの実践的な研究領域は、これらのモデルをブラックボックスとして扱い、推論APIを通じてそれらと対話することである。 本稿では,llmの勾配にアクセスせずにテキスト分類を最適化する方法について検討する。 これを実現するために,ブラックボックスモデルを特徴抽出器として扱い,拡張テキストデータを用いて分類器を訓練する。 データ拡張は、ブラックボックスモデルよりもはるかに小さいパラメータサイズで補助言語モデルのプロンプトベースの微調整によって実行される。 8つのテキスト分類データセットに関する広範な実験により、BT-Classifierと呼ばれる我々のアプローチは、最先端のブラックボックス数ショット学習者よりも優れ、フルモデルチューニングに依存した手法と同等に機能することを示した。

Training or finetuning large-scale language models (LLMs) such as GPT-3 requires substantial computation resources, motivating recent efforts to explore parameter-efficient adaptation to downstream tasks. One practical area of research is to treat these models as black boxes and interact with them through their inference APIs. In this paper, we investigate how to optimize few-shot text classification without accessing the gradients of the LLMs. To achieve this, we treat the black-box model as a feature extractor and train a classifier with the augmented text data. Data augmentation is performed using prompt-based finetuning on an auxiliary language model with a much smaller parameter size than the black-box model. Through extensive experiments on eight text classification datasets, we show that our approach, dubbed BT-Classifier, significantly outperforms state-of-the-art black-box few-shot learners and performs on par with methods that rely on full-model tuning.
翻訳日:2023-10-24 07:40:33 公開日:2023-10-20
# PIEClass: プロンプトとノイズロバスト反復アンサンブルトレーニングによる弱教師付きテキスト分類

PIEClass: Weakly-Supervised Text Classification with Prompting and Noise-Robust Iterative Ensemble Training ( http://arxiv.org/abs/2305.13723v2 )

ライセンス: Link先を確認
Yunyi Zhang, Minhao Jiang, Yu Meng, Yu Zhang, Jiawei Han(参考訳) 弱教師付きテキスト分類は、ターゲットクラスのラベル名を用いた分類器を唯一の監督として訓練する。 既存のほとんどのメソッドは、ラベル名を静的キーワードベースの機能として使用し、擬似ラベルを生成する。 1) キーワードは異なる文脈で異なる意味を持ち、一部のテキストはキーワードを持たない可能性があるため、キーワードマッチングはノイズや不適切な擬似ラベルを誘発する可能性がある。(2) 擬似ラベル生成段階におけるエラーは、修正される可能性なしに、直接分類子トレーニングステージに伝播する。 本稿では,(1)事前学習言語モデル(PLM)のゼロショットプロンプトを用いた擬似ラベル取得モジュールを用いて,静的キーワードマッチング以上の文脈的テキスト理解に基づく擬似ラベルを取得すること,および(2)互いに規則づけを行う2つのPLM微細チューニング手法を用いて,反復的に分類器を訓練し,擬似ラベルを更新するノイズローバスト反復型アンサンブル学習モジュールを提案する。 大規模な実験により、PIEClassは既存の7つのベンチマークデータセットの強いベースラインよりも全体的なパフォーマンスが向上し、また、感情分類タスクの完全な教師付き分類器と同様のパフォーマンスが達成された。

Weakly-supervised text classification trains a classifier using the label name of each target class as the only supervision, which largely reduces human annotation efforts. Most existing methods first use the label names as static keyword-based features to generate pseudo labels, which are then used for final classifier training. While reasonable, such a commonly adopted framework suffers from two limitations: (1) keywords can have different meanings in different contexts and some text may not have any keyword, so keyword matching can induce noisy and inadequate pseudo labels; (2) the errors made in the pseudo label generation stage will directly propagate to the classifier training stage without a chance of being corrected. In this paper, we propose a new method, PIEClass, consisting of two modules: (1) a pseudo label acquisition module that uses zero-shot prompting of pre-trained language models (PLM) to get pseudo labels based on contextualized text understanding beyond static keyword matching, and (2) a noise-robust iterative ensemble training module that iteratively trains classifiers and updates pseudo labels by utilizing two PLM fine-tuning methods that regularize each other. Extensive experiments show that PIEClass achieves overall better performance than existing strong baselines on seven benchmark datasets and even achieves similar performance to fully-supervised classifiers on sentiment classification tasks.
翻訳日:2023-10-24 07:40:13 公開日:2023-10-20
# 言語モデル推論エキスパートの混在からMoREを脱却する

Getting MoRE out of Mixture of Language Model Reasoning Experts ( http://arxiv.org/abs/2305.14628v2 )

ライセンス: Link先を確認
Chenglei Si, Weijia Shi, Chen Zhao, Luke Zettlemoyer, Jordan Boyd-Graber(参考訳) 近年の大規模言語モデル (LLM) では, 様々な質問応答(QA)データセットが改良されているが, 特定の推論能力を必要とする質問タイプを1つのモデルで一般化することは困難である。 我々は,最先端のLSMが,プロンプトで見られる以上の推論型に対する一般化性の低下を経験的証拠として提示する。 そこで本稿では,多様な特殊言語モデルを合奏する混合推論エキスパート(more)フレームワークを提案する。 実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。 私たちの重要な洞察は、専門家間の合意を活用して、各質問に最適な回答を選択したり、回答を控えることです。 これにより、MoREは4つの推論タイプの12のQAデータセットのコレクションにおいて、任意の特別なモデルよりも精度が高い。 一般化性以外にも、MoREの解釈可能な設計は、専門家間の合意を組み込まずに、ベースラインと比較して選択的な質問応答結果を改善する。 このフレームワークはより解釈可能で、QA出力の消費者にとって有用である。 人間の研究では、専門家の予測と回答の選択プロセスが、システムのアウトプットをいつ信頼するかをより正確に調整するのに役立ちます。 将来の作業を容易にするために、すべてのコードとデータをリリースします。

While recent large language models (LLMs) improve on various question answering (QA) datasets, it remains difficult for a single model to generalize across question types that require distinct reasoning abilities. We provide empirical evidence that state-of-the-art LLMs suffer from poor generalizability on reasoning types beyond those seen in the prompt. To remedy this, we propose a Mixture-of-Reasoning-Experts (MoRE) framework that ensembles diverse specialized language models. We specialize the backbone language model with prompts optimized for different reasoning categories, including factual, multihop, mathematical, and commonsense reasoning. Our key insight is to leverage agreement among the specialized experts to select the best answer for each question, or to abstain from answering. This gives MoRE higher accuracy than any single specialized model on a collection of 12 QA datasets from four reasoning types. Beyond generalizability, the interpretable design of MoRE improves selective question answering results compared to baselines without incorporating inter-expert agreement. This framework is also more interpretable and useful to human consumers of QA outputs. Our human study confirms that presenting expert predictions and the answer selection process helps annotators more accurately calibrate when to trust the system's output. We release all code and data to facilitate future work.
翻訳日:2023-10-24 05:57:43 公開日:2023-10-20
# 2dコレクションからのテキスト誘導型3d人間生成

Text-guided 3D Human Generation from 2D Collections ( http://arxiv.org/abs/2305.14312v2 )

ライセンス: Link先を確認
Tsu-Jui Fu and Wenhan Xiong and Yixin Nie and Jingyu Liu and Barlas O\u{g}uz and William Yang Wang(参考訳) 3d人間のモデリングはゲーム、映画、アニメーションの相互作用に広く使われている。 これらの文字のカスタマイズはクリエイティビティとスケーラビリティにとって不可欠であり、制御性の重要性を強調している。 本稿では,ファッション記述に導かれる3次元人間を生成するためのモデルとして,テキスト誘導3次元人間生成(\texttt{t3h})を導入する。 2つの目標があります 1) 3次元人間は、明瞭に描画し、 2) その衣服は所定のテキストによって制御される。 この課題に対処するため,我々はCCH(Compositional Cross-modal Human)を提案する。 CCHは、抽出されたファッションセマンティクスを用いたヒューズ合成ヒトのレンダリングに、クロスモーダルアテンションを採用する。 人体の各部位は、視覚パターンとして関連するテキストガイダンスを知覚する。 我々は,3次元形状変換ときめ細かな一貫性を強化するために,人間の先行的および意味的識別を取り入れ,データ効率のために2次元コレクションから学ぶことができる。 本研究は,上着と下着の形状,布地,色彩を包含する多様なファッション特性を有する深層ファシオンとshhqについて評価を行う。 大規模な実験により、CCH は高効率で \texttt{T3H} に対して優れた結果が得られることを示した。

3D human modeling has been widely used for engaging interaction in gaming, film, and animation. The customization of these characters is crucial for creativity and scalability, which highlights the importance of controllability. In this work, we introduce Text-guided 3D Human Generation (\texttt{T3H}), where a model is to generate a 3D human, guided by the fashion description. There are two goals: 1) the 3D human should render articulately, and 2) its outfit is controlled by the given text. To address this \texttt{T3H} task, we propose Compositional Cross-modal Human (CCH). CCH adopts cross-modal attention to fuse compositional human rendering with the extracted fashion semantics. Each human body part perceives relevant textual guidance as its visual patterns. We incorporate the human prior and semantic discrimination to enhance 3D geometry transformation and fine-grained consistency, enabling it to learn from 2D collections for data efficiency. We conduct evaluations on DeepFashion and SHHQ with diverse fashion attributes covering the shape, fabric, and color of upper and lower clothing. Extensive experiments demonstrate that CCH achieves superior results for \texttt{T3H} with high efficiency.
翻訳日:2023-10-24 05:56:30 公開日:2023-10-20
# 検索型大規模言語モデルのクエリ書き換え

Query Rewriting for Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2305.14283v2 )

ライセンス: Link先を確認
Xinbei Ma, Yeyun Gong, Pengcheng He, Hai Zhao, Nan Duan(参考訳) 大規模言語モデル(llm)は、検索-then-readパイプラインで強力でブラックボックスの読者を再生し、知識集約的なタスクにおいて著しく進歩する。 この作業では、クエリの書き直しの観点から、検索拡張 LLM に対する以前の検索-then-read の代わりに、新しいフレームワークである Rewrite-Retrieve-Read を導入している。 検索者や読者のいずれにも適応することに焦点を当てた先行研究とは異なり,本手法は検索クエリ自体の適応に注意を払っている。 まず LLM にクエリを生成し、次に Web 検索エンジンを使ってコンテキストを検索します。 さらに,クエリを凍結モジュールに整合させるため,パイプラインのトレーニング可能なスキームを提案する。 小さな言語モデルは、ブラックボックスのLPMリーダーに注意を向ける訓練可能なリライターとして採用されている。 リライトアは強化学習によりllmリーダのフィードバックを用いて訓練される。 下流タスク、オープンドメインQA、複数選択QAで評価を行う。 実験結果から,本フレームワークは有効かつスケーラブルであることが証明され,LLM検索のための新たなフレームワークが導入された。

Large Language Models (LLMs) play powerful, black-box readers in the retrieve-then-read pipeline, making remarkable progress in knowledge-intensive tasks. This work introduces a new framework, Rewrite-Retrieve-Read instead of the previous retrieve-then-read for the retrieval-augmented LLMs from the perspective of the query rewriting. Unlike prior studies focusing on adapting either the retriever or the reader, our approach pays attention to the adaptation of the search query itself, for there is inevitably a gap between the input text and the needed knowledge in retrieval. We first prompt an LLM to generate the query, then use a web search engine to retrieve contexts. Furthermore, to better align the query to the frozen modules, we propose a trainable scheme for our pipeline. A small language model is adopted as a trainable rewriter to cater to the black-box LLM reader. The rewriter is trained using the feedback of the LLM reader by reinforcement learning. Evaluation is conducted on downstream tasks, open-domain QA and multiple-choice QA. Experiments results show consistent performance improvement, indicating that our framework is proven effective and scalable, and brings a new framework for retrieval-augmented LLM.
翻訳日:2023-10-24 05:56:14 公開日:2023-10-20
# 時間に敏感な質問を解くためのプログラミングとしての質問答え

Question Answering as Programming for Solving Time-Sensitive Questions ( http://arxiv.org/abs/2305.14221v3 )

ライセンス: Link先を確認
Xinyu Zhu, Cheng Yang, Bei Chen, Siheng Li, Jian-Guang Lou, Yujiu Yang(参考訳) 質問応答は、世界に関する知識の獲得に関わるため、人間の日常生活において重要な役割を果たす。 しかし、実世界の事実の動的かつ絶え間なく変化する性質から、問題の時間的制約が変化すると答えは完全に異なる場合がある。 近年,Large Language Models (LLM) は疑問に答える上で顕著な知性を示したが,実験の結果,既存のLLMにはまだ大きな課題があることがわかった。 これはLLMが表面レベルのテキストセマンティクスに基づいて厳密な推論を行うことができないためである。 この制限を克服するために, LLM に直接答えるのではなく, $\textbf{Q}$uestion $\textbf{A}$nswering Task $\textbf{a}$s $\textbf{P}$rogramming $\textbf{QAaP}$を再構成する新しいアプローチを提案する。 具体的には、自然言語とプログラミング言語の両方を理解する上で、現代のLLMの優れた能力を生かして、多様に表現されたテキストとよく構造化されたコードを表現するためにLLMを活用し、プログラミングを通して複数の候補から最適な解を選択する。 当社のQAaPフレームワークを、いくつかの時間に敏感な質問応答データセットで評価し、強力なベースラインに対して最大14.5$%の改善を実現しました。 私たちのコードとデータはhttps://github.com/tianhongzxy/qaapで入手できます。

Question answering plays a pivotal role in human daily life because it involves our acquisition of knowledge about the world. However, due to the dynamic and ever-changing nature of real-world facts, the answer can be completely different when the time constraint in the question changes. Recently, Large Language Models (LLMs) have shown remarkable intelligence in question answering, while our experiments reveal that the aforementioned problems still pose a significant challenge to existing LLMs. This can be attributed to the LLMs' inability to perform rigorous reasoning based on surface-level text semantics. To overcome this limitation, rather than requiring LLMs to directly answer the question, we propose a novel approach where we reframe the $\textbf{Q}$uestion $\textbf{A}$nswering task $\textbf{a}$s $\textbf{P}$rogramming ($\textbf{QAaP}$). Concretely, by leveraging modern LLMs' superior capability in understanding both natural language and programming language, we endeavor to harness LLMs to represent diversely expressed text as well-structured code and select the best matching answer from multiple candidates through programming. We evaluate our QAaP framework on several time-sensitive question answering datasets and achieve decent improvement, up to $14.5$% over strong baselines. Our codes and data are available at https://github.com/TianHongZXY/qaap
翻訳日:2023-10-24 05:55:56 公開日:2023-10-20
# 言語モデルトケナイザが言語間の不公平を導入

Language Model Tokenizers Introduce Unfairness Between Languages ( http://arxiv.org/abs/2305.15425v2 )

ライセンス: Link先を確認
Aleksandar Petrov, Emanuele La Malfa, Philip H.S. Torr, Adel Bibi(参考訳) 最近の言語モデルは、明示的に訓練されていない場合でも、印象的な多言語性能を示している。 それにもかかわらず、異なる言語にわたるアウトプットの品質に関する懸念がある。 本稿では,モデルが呼び出されるずっと前に,トークン化段階において,異なる言語に対する処理の相違がいかに発生するかを示す。 同じテキストが異なる言語に翻訳された場合、トークン化の長さは大きく異なり、15回までの違いがある。 これらの格差は、多言語サポートのために意図的に訓練されたトークン処理者でさえ持続する。 文字レベルとバイトレベルのモデルは、いくつかの言語ペアのエンコーディング長の4倍以上の差を示す。 これは、商用言語サービスへのアクセスコスト、処理時間とレイテンシ、およびモデルにコンテキストとして提供可能なコンテンツの量に関して、一部の言語コミュニティにとって不公平な扱いを誘導します。 したがって,多言語で公平なサブワードトークン化器を用いて,将来の言語モデルを訓練すべきである。

Recent language models have shown impressive multilingual performance, even when not explicitly trained for it. Despite this, there are concerns about the quality of their outputs across different languages. In this paper, we show how disparity in the treatment of different languages arises at the tokenization stage, well before a model is even invoked. The same text translated into different languages can have drastically different tokenization lengths, with differences up to 15 times in some cases. These disparities persist even for tokenizers that are intentionally trained for multilingual support. Character-level and byte-level models also exhibit over 4 times the difference in the encoding length for some language pairs. This induces unfair treatment for some language communities in regard to the cost of accessing commercial language services, the processing time and latency, as well as the amount of content that can be provided as context to the models. Therefore, we make the case that we should train future language models using multilingually fair subword tokenizers.
翻訳日:2023-10-24 05:46:04 公開日:2023-10-20
# OOD例を用いた大規模言語モデルの一般推論能力の検証

Testing the General Deductive Reasoning Capacity of Large Language Models Using OOD Examples ( http://arxiv.org/abs/2305.15269v2 )

ライセンス: Link先を確認
Abulhair Saparov, Richard Yuanzhe Pang, Vishakh Padmakumar, Nitish Joshi, Seyed Mehran Kazemi, Najoung Kim, He He(参考訳) 証明の空間の難解な大きさを考えると、一般帰納的推論が可能なモデルは、より複雑な証明に一般化しなければならない。 近年の研究では、大規模言語モデル(llm)は、思考連鎖のプロンプトを与える抽象的推論能力を持っていることが示されている。 しかし、それらは主に、モーダスポネンまたは特定の大きさの証明、およびインコンテキストの例と同じ分布でテストされてきた。 LLMの一般的な推論能力を測定するために、我々は幅広い推論規則を検証し、より複雑な証明に一般化する能力を、複数の角度からより単純な演示(深さ、幅、組成の一般化)から測定する。 体系的な探索を容易にするために,推論規則と証明複雑性の制御を可能にする新しい合成およびプログラム可能な推論データセットを構築した。 様々なサイズと訓練目的の4つのllmについて実験した結果,合成証明に一般化できることがわかった。 しかし、それらはより長い証明への一般化が困難であり、特にケースによる証明と矛盾による証明において、仮説的な準防備を生成するために明示的なデモンストレーションを必要とする。

Given the intractably large size of the space of proofs, any model that is capable of general deductive reasoning must generalize to proofs of greater complexity. Recent studies have shown that large language models (LLMs) possess some abstract deductive reasoning ability given chain-of-thought prompts. However, they have primarily been tested on proofs using modus ponens or of a specific size, and from the same distribution as the in-context examples. To measure the general deductive reasoning ability of LLMs, we test on a broad set of deduction rules and measure their ability to generalize to more complex proofs from simpler demonstrations from multiple angles: depth-, width-, and compositional generalization. To facilitate systematic exploration, we construct a new synthetic and programmable reasoning dataset that enables control over deduction rules and proof complexity. Our experiments on four LLMs of various sizes and training objectives show that they are able to generalize to compositional proofs. However, they have difficulty generalizing to longer proofs, and they require explicit demonstrations to produce hypothetical subproofs, specifically in proof by cases and proof by contradiction.
翻訳日:2023-10-24 05:45:28 公開日:2023-10-20
# スペクトル駆動llmを用いた音声質問応答と音声継続

Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM ( http://arxiv.org/abs/2305.15255v3 )

ライセンス: Link先を確認
Eliya Nachmani, Alon Levkovitch, Roy Hirsch, Julian Salazar, Chulayuth Asawaroengchai, Soroosh Mariooryad, Ehud Rivlin, RJ Skerry-Ryan, Michelle Tadmor Ramanovich(参考訳) 本稿では,事前学習された大規模言語モデル(LLM)を用いて質問応答(QA)と音声継続を行う手法を提案する。 llmを事前学習した音声エンコーダで内挿することで,音声入力と音声出力を生成することができる。 システム全体がエンドツーエンドでトレーニングされ、直接スペクトログラム上で動作します。 提案手法の鍵となるのは, 音声認識, テキスト継続, 音声合成を, ペアの音声テキストペアのみを用いて共同で監督し, 単一の復号パス内での「クロスモーダル」連鎖を可能にする訓練目標である。 本手法は話者保存とセマンティックコヒーレンスにおいて既存の言語モデルを上回る。 さらに,提案モデルでは,音声QAデータセットを通じて示すように,元のLLMの知識を保ちながら直接初期化により改善する。 オーディオサンプルはhttps://michelleramanovich.github.io/spectron/spectronで見ることができる。

We present a novel approach to adapting pre-trained large language models (LLMs) to perform question answering (QA) and speech continuation. By endowing the LLM with a pre-trained speech encoder, our model becomes able to take speech inputs and generate speech outputs. The entire system is trained end-to-end and operates directly on spectrograms, simplifying our architecture. Key to our approach is a training objective that jointly supervises speech recognition, text continuation, and speech synthesis using only paired speech-text pairs, enabling a `cross-modal' chain-of-thought within a single decoding pass. Our method surpasses existing spoken language models in speaker preservation and semantic coherence. Furthermore, the proposed model improves upon direct initialization in retaining the knowledge of the original LLM as demonstrated through spoken QA datasets. Audio samples can be found at https://michelleramanovich.github.io/spectron/spectron
翻訳日:2023-10-24 05:45:09 公開日:2023-10-20
# 因果メディエーション分析を用いた言語モデルにおける算数推論の機械論的解釈

A Mechanistic Interpretation of Arithmetic Reasoning in Language Models using Causal Mediation Analysis ( http://arxiv.org/abs/2305.15054v2 )

ライセンス: Link先を確認
Alessandro Stolfo, Yonatan Belinkov, Mrinmaya Sachan(参考訳) 大規模言語モデル(lms)における数学的推論は、最近の研究で大きな注目を集めているが、これらのモデルがどのようにして算術タスクに関連する情報をアーキテクチャ内で処理し保存するかについての理解は限られている。 言語モデルにおけるこの側面の理解を深めるために, 因果的調停分析フレームワークを用いて, 算術問題に対する変圧器に基づくlmsの機械的解釈を提案する。 特定のモデルコンポーネントのアクティベーションに介入し、予測される確率の変化を測定することで、特定の予測に責任のあるパラメータのサブセットを識別する。 これにより、算術に関する情報がlsmによってどのように処理されるかに関する洞察が得られる。 実験の結果, lmsは, 問合せに関する情報を初期層から最終トークンにアテンション機構を用いて送信することで入力を処理できることが示されている。 そして、この情報を一連のMLPモジュールで処理し、残ストリームに組み込まれた結果関連情報を生成する。 観測されたアクティベーションダイナミクスの特異性を評価するために、異なるモデルコンポーネントが演算クエリに与える影響を、プロンプトからの数値検索や事実知識質問を含む他のタスクと比較する。

Mathematical reasoning in large language models (LMs) has garnered significant attention in recent work, but there is a limited understanding of how these models process and store information related to arithmetic tasks within their architecture. In order to improve our understanding of this aspect of language models, we present a mechanistic interpretation of Transformer-based LMs on arithmetic questions using a causal mediation analysis framework. By intervening on the activations of specific model components and measuring the resulting changes in predicted probabilities, we identify the subset of parameters responsible for specific predictions. This provides insights into how information related to arithmetic is processed by LMs. Our experimental results indicate that LMs process the input by transmitting the information relevant to the query from mid-sequence early layers to the final token using the attention mechanism. Then, this information is processed by a set of MLP modules, which generate result-related information that is incorporated into the residual stream. To assess the specificity of the observed activation dynamics, we compare the effects of different model components on arithmetic queries with other tasks, including number retrieval from prompts and factual knowledge questions.
翻訳日:2023-10-24 05:44:52 公開日:2023-10-20
# 車:概念化-ゼロショットコモンセンス質問応答のための推論

CAR: Conceptualization-Augmented Reasoner for Zero-Shot Commonsense Question Answering ( http://arxiv.org/abs/2305.14869v2 )

ライセンス: Link先を確認
Weiqi Wang, Tianqing Fang, Wenxuan Ding, Baixuan Xu, Xin Liu, Yangqiu Song, Antoine Bosselut(参考訳) zero-shot commonsense question answeringのタスクは、特定のデータセットに示される以上の一般的なシナリオを推論する能力のモデルを評価する。 このタスクに取り組むための既存のアプローチは、CSKBから構築された合成QAペアにモデルを事前学習することで、CSKB(CommonSense Knowledge Bases)からの外部知識を活用する。 これらのアプローチでは、負の例(ディストラクタ)は、かなり原始的なキーワード制約を用いてcskbからランダムにサンプリングすることで定式化される。 cskbの固有の不完全性は、合成qaペアの意味的カバレッジを制限し、人間のアノテーションの欠如は、サンプルされた否定的な例を潜在的に非形式的で矛盾する可能性がある。 上記の制限に対処するため,概念化のパワーをフル活用するゼロショットコモンセンス質問応答フレームワークである概念化拡張推論(CAR)を提案する。 特に、CARはコモンセンスの知識を多くの高レベルなインスタンスに抽象化し、CSKBのカバレッジを増大させ、基礎的な答え空間を拡大し、偽陰性なイントラクタを選択する可能性を減らす。 広範な実験により、gpt3.5やchatgptといった大規模言語モデルを含む既存の方法よりも、自動車はゼロショット・コモンセンスシナリオに関する質問に答えることにより堅牢に一般化できることが示されている。 私たちのコード、データ、モデルチェックポイントはhttps://github.com/HKUST-KnowComp/CAR.orgで公開されています。

The task of zero-shot commonsense question answering evaluates models on their capacity to reason about general scenarios beyond those presented in specific datasets. Existing approaches for tackling this task leverage external knowledge from CommonSense Knowledge Bases (CSKBs) by pretraining the model on synthetic QA pairs constructed from CSKBs. In these approaches, negative examples (distractors) are formulated by randomly sampling from CSKBs using fairly primitive keyword constraints. However, two bottlenecks limit these approaches: the inherent incompleteness of CSKBs limits the semantic coverage of synthetic QA pairs, and the lack of human annotations makes the sampled negative examples potentially uninformative and contradictory. To tackle these limitations above, we propose Conceptualization-Augmented Reasoner (CAR), a zero-shot commonsense question-answering framework that fully leverages the power of conceptualization. Specifically, CAR abstracts a commonsense knowledge triple to many higher-level instances, which increases the coverage of CSKB and expands the ground-truth answer space, reducing the likelihood of selecting false-negative distractors. Extensive experiments demonstrate that CAR more robustly generalizes to answering questions about zero-shot commonsense scenarios than existing methods, including large language models, such as GPT3.5 and ChatGPT. Our codes, data, and model checkpoints are available at https://github.com/HKUST-KnowComp/CAR.
翻訳日:2023-10-24 05:44:11 公開日:2023-10-20
# BERTテキスト分類における現実的ラベルノイズの扱い

Handling Realistic Label Noise in BERT Text Classification ( http://arxiv.org/abs/2305.16337v2 )

ライセンス: Link先を確認
Maha Tufail Agro, Hanan Aldarmaki(参考訳) ラベルノイズ(英語: labels noise)とは、webスクレイピングやクラウドソーシングといった安価なデータアノテーションメソッドによって引き起こされる、教師付き分類器のパフォーマンスを損なう可能性のあるラベルのトレーニングエラーを指す。 教師付き分類における無作為ラベルノイズの影響に対処するいくつかの手法が提案されており、いくつかの研究は、ベルトが既に無作為注入ラベルノイズの高率に対して頑健であることを証明している。 しかし、実際のラベルノイズはランダムではなく、入力特徴や他の注釈器特有の要因と関連付けられることが多い。 本稿では,特徴依存ラベルノイズとアノテータの不一致による合成ラベルノイズという,2種類の現実的なラベルノイズの存在下でのBERTの評価を行う。 これらのノイズの存在がBERT分類性能を著しく低下させることを示す。 頑健性を向上させるため,異なる種類のアンサンブルとノイズクリーニング法を評価し,異なるデータセット間のラベルノイズに対する効果を比較した。

Labels noise refers to errors in training labels caused by cheap data annotation methods, such as web scraping or crowd-sourcing, which can be detrimental to the performance of supervised classifiers. Several methods have been proposed to counteract the effect of random label noise in supervised classification, and some studies have shown that BERT is already robust against high rates of randomly injected label noise. However, real label noise is not random; rather, it is often correlated with input features or other annotator-specific factors. In this paper, we evaluate BERT in the presence of two types of realistic label noise: feature-dependent label noise, and synthetic label noise from annotator disagreements. We show that the presence of these types of noise significantly degrades BERT classification performance. To improve robustness, we evaluate different types of ensembles and noise-cleaning methods and compare their effectiveness against label noise across different datasets.
翻訳日:2023-10-24 05:37:23 公開日:2023-10-20
# 弱教師付き3次元セグメンテーションのためのエントロピー正規分布アライメント

All Points Matter: Entropy-Regularized Distribution Alignment for Weakly-supervised 3D Segmentation ( http://arxiv.org/abs/2305.15832v2 )

ライセンス: Link先を確認
Liyao Tang, Zhe Chen, Shanshan Zhao, Chaoyue Wang, Dacheng Tao(参考訳) 疑似ラベルは弱教師付き3dセグメンテーションタスクで広く使われており、そこではスパースな接地ラベルのみが学習に利用できる。 既存の手法では、モデルトレーニングに有用な擬似ラベルを生成するために、信頼しきい値などの経験的ラベル選択戦略に依存することが多い。 しかしこのアプローチは、ラベルなしのデータポイントの包括的な利用を妨げる可能性がある。 この選択的な使用は、ラベルのないデータで生成された擬似ラベルのノイズから生じると仮定する。 擬似ラベルのノイズは、擬似ラベルとモデル予測との間に有意な差異をもたらす可能性があるため、モデルのトレーニングに大きな混乱と影響をもたらす。 そこで本研究では,生成した擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭める学習手法を提案する。 より具体的には、3次元セグメンテーションタスクにおける弱教師付き学習のためのエントロピー正規化損失と分布アライメント損失を導入し、erda学習戦略を実現する。 興味深いことに、kl距離を用いて分布アライメント損失を定式化することにより、擬似ラベル生成ネットワークと3dセグメンテーションネットワークの両方を同時に最適化する、欺きながら単純なクロスエントロピーベース損失に還元される。 単純さにもかかわらず,本手法は性能を良好に向上させる。 各種ベースラインおよび大規模データセットに対する広範囲な実験により有効性を検証する。 その結果、ERDAは、ラベルのないすべてのデータポイントを学習に効果的に活用し、異なる環境下での最先端のパフォーマンスを実現する。 注目すべきことに,本手法は真のアノテーションの1%しか使用せず,完全教師付きベースラインよりも優れている。 コードとモデルはhttps://github.com/LiyaoTang/ERDA.comで公開される。

Pseudo-labels are widely employed in weakly supervised 3D segmentation tasks where only sparse ground-truth labels are available for learning. Existing methods often rely on empirical label selection strategies, such as confidence thresholding, to generate beneficial pseudo-labels for model training. This approach may, however, hinder the comprehensive exploitation of unlabeled data points. We hypothesize that this selective usage arises from the noise in pseudo-labels generated on unlabeled data. The noise in pseudo-labels may result in significant discrepancies between pseudo-labels and model predictions, thus confusing and affecting the model training greatly. To address this issue, we propose a novel learning strategy to regularize the generated pseudo-labels and effectively narrow the gaps between pseudo-labels and model predictions. More specifically, our method introduces an Entropy Regularization loss and a Distribution Alignment loss for weakly supervised learning in 3D segmentation tasks, resulting in an ERDA learning strategy. Interestingly, by using KL distance to formulate the distribution alignment loss, it reduces to a deceptively simple cross-entropy-based loss which optimizes both the pseudo-label generation network and the 3D segmentation network simultaneously. Despite the simplicity, our method promisingly improves the performance. We validate the effectiveness through extensive experiments on various baselines and large-scale datasets. Results show that ERDA effectively enables the effective usage of all unlabeled data points for learning and achieves state-of-the-art performance under different settings. Remarkably, our method can outperform fully-supervised baselines using only 1% of true annotations. Code and model will be made publicly available at https://github.com/LiyaoTang/ERDA.
翻訳日:2023-10-24 05:35:36 公開日:2023-10-20
# 抽象と洗練を伴う記述論理

Description Logics with Abstraction and Refinement ( http://arxiv.org/abs/2306.03717v3 )

ライセンス: Link先を確認
Carsten Lutz, Lukas Schulze(参考訳) オントロジは複数の抽象化レベルに関する知識表現を必要とすることが多いが、記述ロジック(DL)はそれをサポートするには不十分である。 本稿では,抽象レベルが第一級市民であり,複数の抽象レベルにまたがる概念や役割の抽象化と洗練のための明示的な演算子を提供するDLの拡張を提案する。 結果として生じるDLの系統の推論は決定可能であり、一見無害ないくつかのバリエーションは決定不可能であることが証明された。 また、論理の正確な複雑さといくつかの関連する断片を指摘します。

Ontologies often require knowledge representation on multiple levels of abstraction, but description logics (DLs) are not well-equipped for supporting this. We propose an extension of DLs in which abstraction levels are first-class citizens and which provides explicit operators for the abstraction and refinement of concepts and roles across multiple abstraction levels, based on conjunctive queries. We prove that reasoning in the resulting family of DLs is decidable while several seemingly harmless variations turn out to be undecidable. We also pinpoint the precise complexity of our logics and several relevant fragments.
翻訳日:2023-10-24 04:25:51 公開日:2023-10-20
# 推測時間干渉:言語モデルからの真理回答の除去

Inference-Time Intervention: Eliciting Truthful Answers from a Language Model ( http://arxiv.org/abs/2306.03341v5 )

ライセンス: Link先を確認
Kenneth Li, Oam Patel, Fernanda Vi\'egas, Hanspeter Pfister, Martin Wattenberg(参考訳) Inference-Time Intervention (ITI)は,大規模言語モデル(LLM)の「真実性」を高める技術である。 ITIは、推論中にモデルのアクティベーションをシフトし、限られた数の注意ヘッドにまたがる一連の方向に従う。 この介入により、TruthfulQAベンチマークにおけるLLaMAモデルの性能が大幅に向上する。 アルパカ (Alpaca) と呼ばれる命令を微調整したLLaMAでは、ITIは真実性を32.5%から65.1%に改善している。 真理と有益さのトレードオフを特定し,介入力の調整によってバランスをとる方法を示す。 ITIは最小限の侵襲性と計算コストがかかる。 さらに、この手法はデータ効率が良い: RLHFのようなアプローチは広範なアノテーションを必要とするが、ITIは数百の例を使って真正な方向を見つける。 以上の結果から, LLMは表面の虚偽を生じるとしても, 真実の可能性を内部的に表現できる可能性が示唆された。

We introduce Inference-Time Intervention (ITI), a technique designed to enhance the "truthfulness" of large language models (LLMs). ITI operates by shifting model activations during inference, following a set of directions across a limited number of attention heads. This intervention significantly improves the performance of LLaMA models on the TruthfulQA benchmark. On an instruction-finetuned LLaMA called Alpaca, ITI improves its truthfulness from 32.5% to 65.1%. We identify a tradeoff between truthfulness and helpfulness and demonstrate how to balance it by tuning the intervention strength. ITI is minimally invasive and computationally inexpensive. Moreover, the technique is data efficient: while approaches like RLHF require extensive annotations, ITI locates truthful directions using only few hundred examples. Our findings suggest that LLMs may have an internal representation of the likelihood of something being true, even as they produce falsehoods on the surface.
翻訳日:2023-10-24 04:24:38 公開日:2023-10-20
# 逆摂動に対するロバストNASの一般化軽量プロキシ

Generalizable Lightweight Proxy for Robust NAS against Diverse Perturbations ( http://arxiv.org/abs/2306.05031v2 )

ライセンス: Link先を確認
Hyeonjeong Ha, Minseon Kim, Sung Ju Hwang(参考訳) 最近のneural architecture search(nas)フレームワークは、与えられた条件(パフォーマンスやレイテンシなど)に対して最適なアーキテクチャを見つけることに成功している。 しかし、クリーンな画像でのみの性能という観点から最適なアーキテクチャを探索する一方で、様々なタイプの摂動や腐敗に対する堅牢性は、実際には不可欠である。 対人訓練をワンショットのNASに統合することで、この問題に対処する堅牢なNASフレームワークはいくつか存在するが、敵攻撃に対する堅牢性のみを考慮し、単一のタスクに最適なアーキテクチャを見つけるために重要な計算資源を必要とするため、現実のシナリオでは非現実的である。 これらの課題に対処するために,初期化状態におけるクリーン画像と摂動画像の両方の特徴,パラメータ,勾配の整合性を考慮した,軽量で堅牢なゼロコストプロキシを提案する。 提案手法は,多種多様な摂動にまたがる堅牢性を示す一般化可能な特徴を学習可能な,効率的かつ迅速なニューラルアーキテクチャの探索を容易にする。 実験の結果,提案するプロキシは,複数のベンチマークデータセットや多様な検索空間上の様々な摂動に対して一貫して堅牢なニューラルアーキテクチャを迅速かつ効率的に探索することが可能であり,既存のクリーンゼロショットNASやロバストNASよりも探索コストを低減できることがわかった。

Recent neural architecture search (NAS) frameworks have been successful in finding optimal architectures for given conditions (e.g., performance or latency). However, they search for optimal architectures in terms of their performance on clean images only, while robustness against various types of perturbations or corruptions is crucial in practice. Although there exist several robust NAS frameworks that tackle this issue by integrating adversarial training into one-shot NAS, however, they are limited in that they only consider robustness against adversarial attacks and require significant computational resources to discover optimal architectures for a single task, which makes them impractical in real-world scenarios. To address these challenges, we propose a novel lightweight robust zero-cost proxy that considers the consistency across features, parameters, and gradients of both clean and perturbed images at the initialization state. Our approach facilitates an efficient and rapid search for neural architectures capable of learning generalizable features that exhibit robustness across diverse perturbations. The experimental results demonstrate that our proxy can rapidly and efficiently search for neural architectures that are consistently robust against various perturbations on multiple benchmark datasets and diverse search spaces, largely outperforming existing clean zero-shot NAS and robust NAS with reduced search cost.
翻訳日:2023-10-24 04:16:50 公開日:2023-10-20
# 4出力トライアングルネットワークにおけるフィンナー不等式違反

Violation of the Finner inequality in the four-output triangle network ( http://arxiv.org/abs/2306.05922v2 )

ライセンス: Link先を確認
Antoine Girardin and Nicolas Gisin(参考訳) ネットワーク非局所性は、ランダムな測定設定なしに、固定されたジョイント測定値を持つネットワークにおける非古典性を示すことができる。 ループ内の最も単純なネットワークである三角形は、パーティーごとに4つの出力を持つ。 エレガント分布」(N. Gisin, Entropy 21, 325 (2019))は、多くの対称性にもかかわらず解析的な証明に抵抗する。 特に、この分布は任意の出力置換の下で不変である。 すべての局所分布と量子分布に対するフィンナー不等式は、独立なソース(nsi分布)を持つすべての無符号分布に対しても有効であると推測されている。 ここで、この予想は、フィンナーの不等式に違反し、全ての nsi インフレーションを enneagon まで満たす 4-アウトプットネットワークボックスを構築することで誤りであることを示す。 エレガントな分布の非局所性の証明への第一歩として、幾何学的引数を用いてフィンナーの不等式を飽和する分布の非局所性を証明する。

Network nonlocality allows one to demonstrate nonclassicality in networks with fixed joint measurements, that is without random measurement settings. The simplest network in a loop, the triangle, with 4 outputs per party is especially intriguing. The "elegant distribution" [N. Gisin, Entropy 21, 325 (2019)] still resists analytic proofs, despite its many symmetries. In particular, this distribution is invariant under any output permutation. The Finner inequality, which holds for all local and quantum distributions, has been conjectured to be also valid for all no-signalling distributions with independent sources (NSI distributions). Here we provide evidence that this conjecture is false by constructing a 4-output network box that violate the Finner inequality and prove that it satisfies all NSI inflations up to the enneagon. As a first step toward the proof of the nonlocality of the elegant distribution, we prove the nonlocality of the distributions that saturates the Finner inequality by using geometrical arguments.
翻訳日:2023-10-24 03:53:51 公開日:2023-10-20
# 有限時間熱力学における集合的利点

Collective advantages in finite-time thermodynamics ( http://arxiv.org/abs/2306.16534v3 )

ライセンス: Link先を確認
Alberto Rolandi, Paolo Abiuso, Mart\'i Perarnau-Llobet(参考訳) 有限時間熱力学における中心的な課題は、熱湯に浸漬されたシステムの状態を操作する際に、余剰あるいは散逸した作業を最小化することである。 このタスクは、プロセスの開始時と終了時に構成要素が同一で無相関である、$n$-bodyシステムについて考慮する。 遅いが有限時間プロセスの状態では、プロトコルに沿って対話が適切に作成される集合プロトコルを考えることで、$W_{\rm diss}$を劇的に削減できることを示す。 さらに$N$: $W_{\rm diss}\propto N^x$ with $x<1$; 期待されている$W_{\rm diss}\propto N$ in any non-interacting protocolとは対照的である。 このような集合的利点に対する基本的な限界を導出し、x=0$ が原理的に可能であることを示すが、長距離相互作用が必要である。 両体相互作用を特徴とするスピンモデルによる集合的プロセスの探索と,単純な相互作用アーキテクチャにおける現実的な制御レベル下での顕著な利得を実現する。 これらの結果の応用として,有限時間における情報の消去に着目し,ランドウアー境界へのより高速な収束を証明した。

A central task in finite-time thermodynamics is to minimize the excess or dissipated work $W_{\rm diss}$ when manipulating the state of a system immersed in a thermal bath. We consider this task for an $N$-body system whose constituents are identical and uncorrelated at the beginning and end of the process. In the regime of slow but finite-time processes, we show that $W_{\rm diss}$ can be dramatically reduced by considering collective protocols in which interactions are suitably created along the protocol. This can even lead to a sub-linear growth of $W_{\rm diss}$ with $N$: $W_{\rm diss}\propto N^x$ with $x<1$; to be contrasted to the expected $W_{\rm diss}\propto N$ satisfied in any non-interacting protocol. We derive the fundamental limits to such collective advantages and show that $x=0$ is in principle possible, however it requires long-range interactions. We explore collective processes with spin models featuring two-body interactions and achieve noticeable gains under realistic levels of control in simple interaction architectures. As an application of these results, we focus on the erasure of information in finite time and prove a faster convergence to Landauer's bound.
翻訳日:2023-10-24 03:44:18 公開日:2023-10-20
# 拡散モデルにおける言語結合:注意マップアライメントによる属性対応の強化

Linguistic Binding in Diffusion Models: Enhancing Attribute Correspondence through Attention Map Alignment ( http://arxiv.org/abs/2306.08877v2 )

ライセンス: Link先を確認
Royi Rassin, Eran Hirsch, Daniel Glickman, Shauli Ravfogel, Yoav Goldberg, Gal Chechik(参考訳) テキスト条件付き画像生成モデルは、エンティティとその視覚的属性間の誤った関連をしばしば生成する。 これは、生成画像中の対応する要素のプロンプトおよび視覚的結合における、エンティティと修飾子の言語的結合の障害マッピングを反映する。 一例として、「ピンクのひまわりと黄色のフラミンゴ」のようなクエリは、誤って黄色いひまわりとピンクのフラミンゴの画像を生成する可能性がある。 この問題を解決するために、まずエンティティとその修飾子を識別するためのプロンプトを構文解析し、その後、構文に反映される言語結合にクロス・アテンション・マップを推奨する新しい損失関数であるsyngenを提案する。 具体的には、エンティティのアテンションマップとその修飾子間の大きなオーバーラップと、他のエンティティや修飾子ワードとの小さなオーバーラップを推奨する。 損失はモデルの再トレーニングや微調整なしに、推論中に最適化される。 新たな1つの挑戦的セットを含む3つのデータセットに対する人間による評価は、現在の技術手法と比較して、SynGenの大幅な改善を示している。 本研究は,推論中の文構造の利用が,テキスト対画像生成の忠実さを効果的かつ効果的に向上することを示す。

Text-conditioned image generation models often generate incorrect associations between entities and their visual attributes. This reflects an impaired mapping between linguistic binding of entities and modifiers in the prompt and visual binding of the corresponding elements in the generated image. As one notable example, a query like "a pink sunflower and a yellow flamingo" may incorrectly produce an image of a yellow sunflower and a pink flamingo. To remedy this issue, we propose SynGen, an approach which first syntactically analyses the prompt to identify entities and their modifiers, and then uses a novel loss function that encourages the cross-attention maps to agree with the linguistic binding reflected by the syntax. Specifically, we encourage large overlap between attention maps of entities and their modifiers, and small overlap with other entities and modifier words. The loss is optimized during inference, without retraining or fine-tuning the model. Human evaluation on three datasets, including one new and challenging set, demonstrate significant improvements of SynGen compared with current state of the art methods. This work highlights how making use of sentence structure during inference can efficiently and substantially improve the faithfulness of text-to-image generation.
翻訳日:2023-10-24 03:43:53 公開日:2023-10-20
# 弾性決定変換器

Elastic Decision Transformer ( http://arxiv.org/abs/2307.02484v6 )

ライセンス: Link先を確認
Yueh-Hua Wu, Xiaolong Wang, Masashi Hamaya(参考訳) 本稿では,既存のDecision Transformer(DT)とその変種に対する大幅な進歩であるElastic Decision Transformer(EDT)を紹介する。 dtは最適軌道を生成することを主張するが、実験的な証拠は軌道縫いに苦しむことを示唆しており、これは一連の準最適軌道の最良の部分から最適軌道または至近軌道を生成する過程である。 提案するEMTは,DTに保持される履歴長を調整することにより,試験時間における動作推論時の軌跡縫合を容易にすることで,自分自身を識別する。 さらに、edtは、前回の軌道が最適であるときに長い履歴を保持し、副最適である場合にはより短い履歴を保持して軌道を最適化し、より最適な軌道で「固定」することができる。 広範な実験は、dtベースとqベースのアプローチのパフォーマンスギャップを橋渡しできるedtの能力を示している。 特に、EDTは、D4RLのローコモーションベンチマークとAtariゲームでマルチタスク方式でQ Learningベースの手法より優れている。 ビデオは、https://kristery.github.io/edt/で公開されている。

This paper introduces Elastic Decision Transformer (EDT), a significant advancement over the existing Decision Transformer (DT) and its variants. Although DT purports to generate an optimal trajectory, empirical evidence suggests it struggles with trajectory stitching, a process involving the generation of an optimal or near-optimal trajectory from the best parts of a set of sub-optimal trajectories. The proposed EDT differentiates itself by facilitating trajectory stitching during action inference at test time, achieved by adjusting the history length maintained in DT. Further, the EDT optimizes the trajectory by retaining a longer history when the previous trajectory is optimal and a shorter one when it is sub-optimal, enabling it to "stitch" with a more optimal trajectory. Extensive experimentation demonstrates EDT's ability to bridge the performance gap between DT-based and Q Learning-based approaches. In particular, the EDT outperforms Q Learning-based methods in a multi-task regime on the D4RL locomotion benchmark and Atari games. Videos are available at: https://kristery.github.io/edt/
翻訳日:2023-10-24 03:35:39 公開日:2023-10-20
# IIFL:不均質なヒューマンスーパーバイザによる対話型フリートラーニング

IIFL: Implicit Interactive Fleet Learning from Heterogeneous Human Supervisors ( http://arxiv.org/abs/2306.15228v2 )

ライセンス: Link先を確認
Gaurav Datta, Ryan Hoque, Anrui Gu, Eugen Solowjow, Ken Goldberg(参考訳) 模倣学習は、様々なロボットタスクに適用されてきたが、訓練データ(すなわち分布シフト)で表現されないエッジケースにロボットが遭遇すると、苦労することがある。 インタラクティブフリートラーニング(IFL)は、タスク実行中にロボットがリモートヒューマンスーパーバイザーにアクセスし、時間とともに学習することで、分散シフトを緩和するが、異なるスーパーバイザーが異なる方法でタスクを実証することができる。 最近の研究は、エネルギーベースモデル(EBM)を用いてマルチモーダルなデモンストレーションを表現できるIBC(Implicit Behavior Cloning)を提案する。 本研究では,複数の異種人監督者からのインタラクティブな模倣学習のためのIBCに基づくアルゴリズムであるImplicit Interactive Fleet Learning (IIFL)を提案する。 IIFLにおける重要な洞察は、ジェフリーズ分散を用いたESMの不確実性定量化の新しいアプローチである。 IIFLは明示的な手法よりも計算コストが高いが、その結果、IIFLはシミュレーション実験で2.8倍の成功率を獲得し、物理的ブロックプッシュタスク(Explicit)IFL、IBCなどのベースラインよりも4.5倍高いリターンを達成している。

Imitation learning has been applied to a range of robotic tasks, but can struggle when robots encounter edge cases that are not represented in the training data (i.e., distribution shift). Interactive fleet learning (IFL) mitigates distribution shift by allowing robots to access remote human supervisors during task execution and learn from them over time, but different supervisors may demonstrate the task in different ways. Recent work proposes Implicit Behavior Cloning (IBC), which is able to represent multimodal demonstrations using energy-based models (EBMs). In this work, we propose Implicit Interactive Fleet Learning (IIFL), an algorithm that builds on IBC for interactive imitation learning from multiple heterogeneous human supervisors. A key insight in IIFL is a novel approach for uncertainty quantification in EBMs using Jeffreys divergence. While IIFL is more computationally expensive than explicit methods, results suggest that IIFL achieves a 2.8x higher success rate in simulation experiments and a 4.5x higher return on human effort in a physical block pushing task over (Explicit) IFL, IBC, and other baselines.
翻訳日:2023-10-24 03:34:53 公開日:2023-10-20
# バナッハ代数における指数和と一般化リートラッター公式の鈴木型推定

Suzuki Type Estimates for Exponentiated Sums and Generalized Lie-Trotter Formulas in Banach Algebras ( http://arxiv.org/abs/2306.13791v3 )

ライセンス: Link先を確認
Zhenhua Wang(参考訳) 本稿では、バナッハ代数におけるジョルダン積を用いて、リー-トロッター積公式の2つの誤差推定を示す。 さらに, 2 つの一般化リー-トロッター公式を導入し, 2 つの明示的な推定式を提供する。 その結果、剰余和に対する有名なスズキの対称性近似は、我々の定理2.3から直接従う。 本稿では,ヨルダン・バナッハ代数におけるスズキ型推定に関する質問に対する部分的回答を提案する。

In this note, we employ Jordan product within Banach algebras to present two error estimates of Lie-Trotter product formulas. Additionally, we introduce two generalized Lie-Trotter formula and provide two explicit estimation formulas. Consequently, the renowned Suzuki symmetrized approximation for the exponentiated sums follows directly from our Theorem 2.3. To conclude our paper, we offer a partial answer to a question concerning the Suzuki type estimations in Jordan-Banach algebras.
翻訳日:2023-10-24 03:34:08 公開日:2023-10-20
# 音声感情ダイアリゼーション:どの感情がいつ現れるか?

Speech Emotion Diarization: Which Emotion Appears When? ( http://arxiv.org/abs/2306.12991v2 )

ライセンス: Link先を確認
Yingzhi Wang, Mirco Ravanelli, Alya Yacoubi(参考訳) 音声感情認識(ser)は通常、発話レベルのソリューションに依存する。 しかし, 発話を通して伝達される感情は, 発話全体の属性ではなく, 時間的境界が明確である個別の発話イベントとみなすべきである。 音声感情のきめ細かい性質を反映するため,音声感情ダイアリゼーション(SED)という新たな課題を提案する。 話者ダイアリゼーションが「誰がいつ話すか」という問いに答えるのと同じように、スピーチ感情ダイアリゼーションは「どの感情が現れるか」という問いに答える。 実生活環境下で記録された非活動感情と、発話中の感情セグメントを手動で注釈付けした境界を含む、オープンアクセス可能な音声感情データセットであるザイオン感情データセット(ZED)を導入する。 競争力のあるベースラインを提供し、コードと事前訓練されたモデルをオープンソース化します。

Speech Emotion Recognition (SER) typically relies on utterance-level solutions. However, emotions conveyed through speech should be considered as discrete speech events with definite temporal boundaries, rather than attributes of the entire utterance. To reflect the fine-grained nature of speech emotions, we propose a new task: Speech Emotion Diarization (SED). Just as Speaker Diarization answers the question of "Who speaks when?", Speech Emotion Diarization answers the question of "Which emotion appears when?". To facilitate the evaluation of the performance and establish a common benchmark for researchers, we introduce the Zaion Emotion Dataset (ZED), an openly accessible speech emotion dataset that includes non-acted emotions recorded in real-life conditions, along with manually-annotated boundaries of emotion segments within the utterance. We provide competitive baselines and open-source the code and the pre-trained models.
翻訳日:2023-10-24 03:34:00 公開日:2023-10-20
# FuXi:15日間の世界天気予報のためのカスケード機械学習予測システム

FuXi: A cascade machine learning forecasting system for 15-day global weather forecast ( http://arxiv.org/abs/2306.12873v3 )

ライセンス: Link先を確認
Lei Chen, Xiaohui Zhong, Feng Zhang, Yuan Cheng, Yinghui Xu, Yuan Qi, Hao Li(参考訳) 過去数年間、天気予報のための機械学習(ML)モデルの急速な発展により、最先端のMLモデルは、空間分解能0.25度の10日間の予測において、欧州中レージ気象予報センター(ECMWF)の高解像度予測(HRES)よりも優れた性能を示した。 しかし、この課題は15日間の予測においてECMWFアンサンブル平均値(EM)と同等に実行される。 従来の研究は、効果的な長期予測のための予測誤差の蓄積を緩和することの重要性を実証してきた。 自己回帰的多時間ステップ損失を含む累積誤差を削減する努力は数多くあったが、単一のモデルでは短時間と長時間の両方のリードタイムで最適な性能を達成するには不十分であることが判明した。 そこで本研究では,15日間の天気予報を時間分解能6時間,空間分解能0.25度で提供するカスケードml天気予報システムfuxiを提案する。 FuXiはECMWF ERA5の再分析データセットの39年間を使用して開発されている。 緯度重み付き根平均二乗誤差(rmse)と異常相関係数(acc)に基づく性能評価により、fuxiは15日間の予測においてecmwf emに匹敵する予測性能を示し、この達成を達成する最初のmlベースの気象予報システムとなった。

Over the past few years, due to the rapid development of machine learning (ML) models for weather forecasting, state-of-the-art ML models have shown superior performance compared to the European Centre for Medium-Range Weather Forecasts (ECMWF)'s high-resolution forecast (HRES) in 10-day forecasts at a spatial resolution of 0.25 degree. However, the challenge remains to perform comparably to the ECMWF ensemble mean (EM) in 15-day forecasts. Previous studies have demonstrated the importance of mitigating the accumulation of forecast errors for effective long-term forecasts. Despite numerous efforts to reduce accumulation errors, including autoregressive multi-time step loss, using a single model is found to be insufficient to achieve optimal performance in both short and long lead times. Therefore, we present FuXi, a cascaded ML weather forecasting system that provides 15-day global forecasts with a temporal resolution of 6 hours and a spatial resolution of 0.25 degree. FuXi is developed using 39 years of the ECMWF ERA5 reanalysis dataset. The performance evaluation, based on latitude-weighted root mean square error (RMSE) and anomaly correlation coefficient (ACC), demonstrates that FuXi has comparable forecast performance to ECMWF EM in 15-day forecasts, making FuXi the first ML-based weather forecasting system to accomplish this achievement.
翻訳日:2023-10-24 03:33:44 公開日:2023-10-20
# 経路付きトポロジカルグラフニューラルネットワークの一般化

Generalizing Topological Graph Neural Networks with Paths ( http://arxiv.org/abs/2308.06838v4 )

ライセンス: Link先を確認
Quang Truong and Peter Chin(参考訳) グラフニューラルネットワーク(GNN)は様々な分野で大きな進歩を遂げているが、1-Weisfeiler-Lehmanテストとして知られる理論的な制約によって妨げられている。 高次のGNNの最近の進歩は、この境界を克服することができるが、一般的には、傾きやサイクルのような特定のグラフコンポーネントを中心にしている。 しかし、我々の調査は別のルートで行われます。 すべてのグラフに固有のパスに重点を置いています。 我々はより一般的な位相的視点を構築し、他の位相的領域に関する確立された理論を橋渡しすることができる。 興味深いことに、グラフのサブ構造を仮定せずに、この分野での我々のアプローチは、いくつかのベンチマークで最先端のパフォーマンスを達成している。

While Graph Neural Networks (GNNs) have made significant strides in diverse areas, they are hindered by a theoretical constraint known as the 1-Weisfeiler-Lehman test. Even though latest advancements in higher-order GNNs can overcome this boundary, they typically center around certain graph components like cliques or cycles. However, our investigation goes a different route. We put emphasis on paths, which are inherent in every graph. We are able to construct a more general topological perspective and form a bridge to certain established theories about other topological domains. Interestingly, without any assumptions on graph sub-structures, our approach surpasses earlier techniques in this field, achieving state-of-the-art performance on several benchmarks.
翻訳日:2023-10-24 03:23:49 公開日:2023-10-20
# VPP:Voxel-Pointプログレッシブ表現による効率的な条件付き3D生成

VPP: Efficient Conditional 3D Generation via Voxel-Point Progressive Representation ( http://arxiv.org/abs/2307.16605v2 )

ライセンス: Link先を確認
Zekun Qi, Muzhou Yu, Runpei Dong, Kaisheng Ma(参考訳) 条件付き3D生成は大きな進歩を遂げており、テキストや2D画像などの入力から3Dコンテンツを自由に作成することができる。 しかし、従来のアプローチでは推論効率が低く、生成カテゴリが限られ、下流のアプリケーションに制限があった。 本研究では,異なる3次元表現が生成品質と効率に与える影響を再考する。 本稿では,Voxel-Point Progressive Representation (VPP)によるプログレッシブ生成手法を提案する。 VPPは提案したVoxel Semantic Generatorにおける構造化ボクセル表現とPoint Upsamplerにおける非構造化点表現の空間性を活用し、マルチカテゴリオブジェクトの効率的な生成を可能にする。 VPPは0.2秒で高品質の8K点雲を生成することができる。 さらに、マスク付きジェネレーショントランスフォーマーは、生成、編集、完了、事前トレーニングなど、様々な3D下流タスクを可能にする。 広汎な実験により、VPPは様々なカテゴリにまたがって高忠実で多様な3次元形状を効率よく生成し、表現伝達性能も優れていた。 コードは \url{https://github.com/qizekun/VPP} でリリースされる。

Conditional 3D generation is undergoing a significant advancement, enabling the free creation of 3D content from inputs such as text or 2D images. However, previous approaches have suffered from low inference efficiency, limited generation categories, and restricted downstream applications. In this work, we revisit the impact of different 3D representations on generation quality and efficiency. We propose a progressive generation method through Voxel-Point Progressive Representation (VPP). VPP leverages structured voxel representation in the proposed Voxel Semantic Generator and the sparsity of unstructured point representation in the Point Upsampler, enabling efficient generation of multi-category objects. VPP can generate high-quality 8K point clouds within 0.2 seconds. Additionally, the masked generation Transformer allows for various 3D downstream tasks, such as generation, editing, completion, and pre-training. Extensive experiments demonstrate that VPP efficiently generates high-fidelity and diverse 3D shapes across different categories, while also exhibiting excellent representation transfer performance. Codes will be released at \url{https://github.com/qizekun/VPP}.
翻訳日:2023-10-24 03:23:09 公開日:2023-10-20
# MiniDemographicABM.jlの仕様:英国における簡易型エージェントベースの人口統計モデル

Specification of MiniDemographicABM.jl: A simplified agent-based demographic model of the UK ( http://arxiv.org/abs/2307.16548v2 )

ライセンス: Link先を確認
Atiyah Elsheikh(参考訳) このドキュメンテーションは、[GostolilとSilverman 2020]で紹介されたローン親モデルを大幅に単純化した、UKの簡易な非校正的人口統計エージェントベースモデルを指定する。 提示されたモデルでは、初期人口の個人は、イギリスの町の簡単な地図を通して、老化、死亡、出生、離婚、結婚の対象となる。 仕様は[elsheikh 2023a]で示された形式的な用語を用いる。 モデルの主な目的は、人口統計モデルアプリケーションにおける最先端のgents.jl Juliaパッケージ[Datseris2022]の機能を調べ、活用することである。 実装はJuliaパッケージ MiniDemographicABM.jl [Elsheikh 2023b]を介して提供される。 特定のシミュレーションは、時間毎、日毎、週毎、月毎、あるいは任意のユーザ定義クロックレートで、ユーザ定義のシミュレーション固定ステップサイズで進行する。 このモデルは、他のエージェントベースのモデリングフレームワークやプログラミング言語で実装された場合の比較研究に役立つ。 さらに、このモデルは、主に人口統計学的文脈において、現実的な社会経済、パンデミック、移民研究に適応するための基礎的な実装として機能する。

This documentation specifies a simplified non-calibrated demographic agent-based model of the UK, a largely simplified version of the Lone Parent Model presented in [Gostolil and Silverman 2020]. In the presented model, individuals of an initial population are subject to ageing, deaths, births, divorces and marriages throughout a simplified map of towns of the UK. The specification employs the formal terminology presented in [Elsheikh 2023a]. The main purpose of the model is to explore and exploit capabilities of the state-of-the-art Agents.jl Julia package [Datseris2022] in the context of demographic modeling applications. Implementation is provided via the Julia package MiniDemographicABM.jl [Elsheikh 2023b]. A specific simulation is progressed with a user-defined simulation fixed step size on a hourly, daily, weekly, monthly basis or even an arbitrary user-defined clock rate. The model can serve for comparative studies if implemented in other agent-based modelling frameworks and programming languages. Moreover, the model serves as a base implementation to be adjusted to realistic large-scale socio-economics, pandemics or immigration studies mainly within a demographic context.
翻訳日:2023-10-24 03:22:49 公開日:2023-10-20
# 自己教師付き音声表現損失関数を用いた音声強調における音声言語の効果

The Effect of Spoken Language on Speech Enhancement using Self-Supervised Speech Representation Loss Functions ( http://arxiv.org/abs/2307.14502v2 )

ライセンス: Link先を確認
George Close, Thomas Hain and Stefan Goetze(参考訳) 音声強調(SE)の分野での最近の研究は、損失関数の特徴変換として自己教師付き音声表現(SSSR)の使用に関わっている。 しかし、先行研究では、自己監督表現の訓練に用いられる音声の言語とSEシステムの訓練に用いられる音声との関係にはほとんど注意が払われていない。 SEシステムのトレーニングに使用するノイズの多いデータの言語を正確に共有する自己教師付き表現を組み込んだ損失関数を用いてトレーニングされた強化モデルは、正確に一致しないものよりも優れた性能を示す。 これは、従来のスペクトログラムや時間領域損失関数を用いて訓練されたモデルとは異なり、言語固有の拡張システムとなり、見知らぬ言語にうまく一般化しない。 この研究では、SEモデルは様々な言語で訓練され、テストされ、それぞれが異なる言語の組み合わせを使って訓練された自己教師付き表現と、損失関数表現として異なるネットワーク構造を持つ。 これらのモデルは未知の言語でテストされ、パフォーマンスが分析される。 自己教師型表現の訓練言語は、特定の言語の訓練データの量である強化性能に小さな影響を与えているように見えるが、性能に大きな影響を及ぼす。

Recent work in the field of speech enhancement (SE) has involved the use of self-supervised speech representations (SSSRs) as feature transformations in loss functions. However, in prior work, very little attention has been paid to the relationship between the language of the audio used to train the self-supervised representation and that used to train the SE system. Enhancement models trained using a loss function which incorporates a self-supervised representation that shares exactly the language of the noisy data used to train the SE system show better performance than those which do not match exactly. This may lead to enhancement systems which are language specific and as such do not generalise well to unseen languages, unlike models trained using traditional spectrogram or time domain loss functions. In this work, SE models are trained and tested on a number of different languages, with self-supervised representations which themselves are trained using different language combinations and with differing network structures as loss function representations. These models are then tested across unseen languages and their performances are analysed. It is found that the training language of the self-supervised representation appears to have a minor effect on enhancement performance, the amount of training data of a particular language, however, greatly affects performance.
翻訳日:2023-10-24 03:22:29 公開日:2023-10-20
# 感情刺激の理解と拡張が可能な大規模言語モデル

Large Language Models Understand and Can be Enhanced by Emotional Stimuli ( http://arxiv.org/abs/2307.11760v5 )

ライセンス: Link先を確認
Cheng Li, Jindong Wang, Yixuan Zhang, Kaijie Zhu, Wenxin Hou, Jianxun Lian, Fang Luo, Qiang Yang, Xing Xie(参考訳) 感情の知性は日々の行動や相互作用に大きな影響を与えます。 大規模言語モデル(LLM)は、人工知能への取り組みとして、多くのタスクにおいて顕著なパフォーマンスを示すが、LLMが心的感情的な刺激を真に把握できるかどうかは不明である。 感情的な手がかりを理解して反応することは、問題解決において人間に明確な利点を与える。 本稿では,感情刺激を理解するためのllmの能力を探るための第一歩を踏み出す。 そこで我々はまず,Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, GPT-4 など,45のタスクを対象とした自動実験を行った。 我々のタスクは、包括的な評価シナリオを表す決定論的および生成的アプリケーションにまたがる。 私たちの自動実験では、llmは感情的知能を把握でき、そのパフォーマンスは感情的プロンプト(感情的プロンプトと感情的刺激を組み合わせたemotionprompt)によって改善できることが示されています。 既存の測定値を用いて自動的に評価できる決定論的タスクに加えて,106人の被験者を対象に,バニラと情緒の両方を用いて生成タスクの質を評価する。 人間の研究結果は、emotionpromptが生成的タスクのパフォーマンスを著しく向上させることを示している(パフォーマンス、真理、責任の指標の観点から平均10.9%改善)。 emotionpromptがllmで機能する理由と,そのパフォーマンスに影響する要因について,詳細な議論を行う。 我々は、EmotionPromptが人間とLLMの相互作用に関する学際的知識を探求するための新しい道筋であると仮定する。

Emotional intelligence significantly impacts our daily behaviors and interactions. Although Large Language Models (LLMs) are increasingly viewed as a stride toward artificial general intelligence, exhibiting impressive performance in numerous tasks, it is still uncertain if LLMs can genuinely grasp psychological emotional stimuli. Understanding and responding to emotional cues gives humans a distinct advantage in problem-solving. In this paper, we take the first step towards exploring the ability of LLMs to understand emotional stimuli. To this end, we first conduct automatic experiments on 45 tasks using various LLMs, including Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, and GPT-4. Our tasks span deterministic and generative applications that represent comprehensive evaluation scenarios. Our automatic experiments show that LLMs have a grasp of emotional intelligence, and their performance can be improved with emotional prompts (which we call "EmotionPrompt" that combines the original prompt with emotional stimuli), e.g., 8.00% relative performance improvement in Instruction Induction and 115% in BIG-Bench. In addition to those deterministic tasks that can be automatically evaluated using existing metrics, we conducted a human study with 106 participants to assess the quality of generative tasks using both vanilla and emotional prompts. Our human study results demonstrate that EmotionPrompt significantly boosts the performance of generative tasks (10.9% average improvement in terms of performance, truthfulness, and responsibility metrics). We provide an in-depth discussion regarding why EmotionPrompt works for LLMs and the factors that may influence its performance. We posit that EmotionPrompt heralds a novel avenue for exploring interdisciplinary knowledge for human-LLMs interaction.
翻訳日:2023-10-24 03:22:11 公開日:2023-10-20
# Jina Embeddings: 高性能な文埋め込みモデルの新しいセット

Jina Embeddings: A Novel Set of High-Performance Sentence Embedding Models ( http://arxiv.org/abs/2307.11224v3 )

ライセンス: Link先を確認
Michael G\"unther, Louis Milliken, Jonathan Geuter, Georgios Mastrapas, Bo Wang, Han Xiao(参考訳) Jina Embeddingsは、テキスト入力を数値表現に変換するのに有効な高性能な文埋め込みモデルである。 これらのモデルは、密集検索や意味的テキスト類似性のような応用において優れている。 本稿では、高品質なペアワイズおよびトリプルトデータセットの作成から始まった、jina埋め込みの開発について述べる。 データセット作成におけるデータクリーニングの重要な役割を強調し、モデルトレーニングプロセスに関する深い洞察を提供し、massive text embedded benchmark(mteb)を用いた包括的なパフォーマンス評価で締めくくっている。 さらに,文法的否定に対するモデルの認識を高めるために,否定的かつ非否定的文の新たな訓練・評価データセットを構築し,それをコミュニティに公開する。

Jina Embeddings constitutes a set of high-performance sentence embedding models adept at translating textual inputs into numerical representations, capturing the semantics of the text. These models excel in applications like dense retrieval and semantic textual similarity. This paper details the development of Jina Embeddings, starting with the creation of high-quality pairwise and triplet datasets. It underlines the crucial role of data cleaning in dataset preparation, offers in-depth insights into the model training process, and concludes with a comprehensive performance evaluation using the Massive Text Embedding Benchmark (MTEB). Furthermore, to increase the model's awareness of grammatical negation, we construct a novel training and evaluation dataset of negated and non-negated statements, which we make publicly available to the community.
翻訳日:2023-10-24 03:21:41 公開日:2023-10-20
# 老化データによる使用条件の変化による電池寿命予測

Predicting Battery Lifetime Under Varying Usage Conditions from Early Aging Data ( http://arxiv.org/abs/2307.08382v2 )

ライセンス: Link先を確認
Tingkai Li, Zihao Zhou, Adam Thelen, David Howey, Chao Hu(参考訳) 正確なバッテリー寿命予測は、予防メンテナンス、保証、電池設計および製造の改善に重要である。 しかし、製造のバラツキと使用に依存した劣化は寿命予測を困難にする。 そこで本稿では, 早期の容量電圧データから得られた新たな特徴を考察し, 充電速度, 放電速度, 放電深度で周期的に変化する細胞の寿命を予測する。 サイクリング中に定期的にスケジュールされた基準性能テスト(すなわち低レートフルサイクル)から特徴を抽出する。 初期の特徴は、細胞の健康状態とコンポーネントレベルの劣化モードの変化率を捉えており、その一部は細胞寿命と強く相関している。 225個のニッケル-マンガン-コバルト/グラファイトLiイオン細胞から生成した新しいデータセットを用いて、多くの細胞に対して15.1%の平均絶対パーセンテージ誤差を持つ分布内細胞の寿命を予測する。 階層ベイズ回帰モデルを用いたさらなるテストでは、アウトオブディストリビューションセルの絶対パーセンテージ誤差が21.8%に達した。 本手法は,リチウムイオン電池劣化モードのドメイン知識を機能工学に活用することの重要性を強調する。 さらに、我々はコミュニティに、評価容量の80%以上をセルが循環する、新しい利用可能なバッテリー老化データセットを提供する。

Accurate battery lifetime prediction is important for preventative maintenance, warranties, and improved cell design and manufacturing. However, manufacturing variability and usage-dependent degradation make life prediction challenging. Here, we investigate new features derived from capacity-voltage data in early life to predict the lifetime of cells cycled under widely varying charge rates, discharge rates, and depths of discharge. Features were extracted from regularly scheduled reference performance tests (i.e., low rate full cycles) during cycling. The early-life features capture a cell's state of health and the rate of change of component-level degradation modes, some of which correlate strongly with cell lifetime. Using a newly generated dataset from 225 nickel-manganese-cobalt/graphite Li-ion cells aged under a wide range of conditions, we demonstrate a lifetime prediction of in-distribution cells with 15.1% mean absolute percentage error using no more than the first 15% of data, for most cells. Further testing using a hierarchical Bayesian regression model shows improved performance on extrapolation, achieving 21.8% mean absolute percentage error for out-of-distribution cells. Our approach highlights the importance of using domain knowledge of lithium-ion battery degradation modes to inform feature engineering. Further, we provide the community with a new publicly available battery aging dataset with cells cycled beyond 80% of their rated capacity.
翻訳日:2023-10-24 03:21:26 公開日:2023-10-20
# 暗黙的モデルの再検討:視覚タスクのための重み付きモデルにおけるスパーシティトレードオフ能力

Revisiting Implicit Models: Sparsity Trade-offs Capability in Weight-tied Model for Vision Tasks ( http://arxiv.org/abs/2307.08013v2 )

ライセンス: Link先を確認
Haobo Song, Soumajit Majumder, Tao Lin(参考訳) 深層平衡モデル(deqs)のような暗黙のモデルは、エレガントな解探索手順と一定のメモリフットプリントで無限層モデルを訓練できる能力によって、コミュニティに大きな注目を集めてきた。 しかし、いくつかの試みにもかかわらず、これらの手法はモデルの非効率性と最適化の不安定性によって強く制約されている。 さらに、視覚タスクに関連するメソッドに対する公正なベンチマークが欠落している。 この研究では、暗黙のモデル列を再検討し、それらを元の重み付けモデルに遡る。 驚いたことに、重み付きモデルはdeqの変種と比較して、視覚タスクにおいてより効率的で安定であり、効率的である。 これらの単純イットクリーン重み付けモデルのレンズを通して、これらのモデルのモデル容量の基本的な限界について研究し、モデル容量を改善するために異なるスパースマスクの使用を提案する。 最後に,重み付きモデルの深さ,幅,スパーシティ選択に関する設計ガイドラインを提供し,他の学習パラダイムに対する洞察の一般化可能性を示す。

Implicit models such as Deep Equilibrium Models (DEQs) have garnered significant attention in the community for their ability to train infinite layer models with elegant solution-finding procedures and constant memory footprint. However, despite several attempts, these methods are heavily constrained by model inefficiency and optimization instability. Furthermore, fair benchmarking across relevant methods for vision tasks is missing. In this work, we revisit the line of implicit models and trace them back to the original weight-tied models. Surprisingly, we observe that weight-tied models are more effective, stable, as well as efficient on vision tasks, compared to the DEQ variants. Through the lens of these simple-yet-clean weight-tied models, we further study the fundamental limits in the model capacity of such models and propose the use of distinct sparse masks to improve the model capacity. Finally, for practitioners, we offer design guidelines regarding the depth, width, and sparsity selection for weight-tied models, and demonstrate the generalizability of our insights to other learning paradigms.
翻訳日:2023-10-24 03:21:01 公開日:2023-10-20
# モバイルデバイス上でのクラウドゲームにおけるリアルタイムニューラルリカバリの実現

Enabling Real-time Neural Recovery for Cloud Gaming on mobile devices ( http://arxiv.org/abs/2307.07847v3 )

ライセンス: Link先を確認
Zhaoyuan He, Yifan Yang, Shuozhe Li, Diyuan Dai, Lili Qiu, Yuqing Yang(参考訳) クラウドゲームは数十億ドルの産業だ。 クラウドゲームのクライアントは、その動きをインターネット上のゲームサーバに送信し、その結果のビデオのレンダリングと送信を行う。 優れたゲーム体験を提供するには、80ms未満のレイテンシが必要である。 これは、ビデオレンダリング、エンコーディング、トランスミッション、デコード、ディスプレイがその時間枠内で終了しなければならないことを意味しており、特にサーバの過負荷、ネットワークの混雑、損失のために達成が困難である。 本稿では,クラウドゲームにおいて,失われたビデオフレームを復元する新しい手法を提案する。 従来のビデオフレームリカバリとは異なり,本手法ではゲーム状態を用いて復元精度を大幅に向上し,部分復号化フレームを用いて失われた部分を復元する。 我々は、総合的なシステムを開発する。 (i)ゲーム状態の効率的な抽出 (ii)h.264ビデオデコーダを改造して、フレームのどの部分が回復を必要とするかを示すマスクを生成し、 (iii)完全または部分的な映像フレームを復元する新しいニューラルネットワークを設計すること。 提案手法は,iPhone 12およびラップトップ実装を用いて広範に評価され,ゲーム再生におけるゲーム状態の有用性と全体的な設計の有効性を実証する。

Cloud gaming is a multi-billion dollar industry. A client in cloud gaming sends its movement to the game server on the Internet, which renders and transmits the resulting video back. In order to provide a good gaming experience, a latency below 80 ms is required. This means that video rendering, encoding, transmission, decoding, and display have to finish within that time frame, which is especially challenging to achieve due to server overload, network congestion, and losses. In this paper, we propose a new method for recovering lost or corrupted video frames in cloud gaming. Unlike traditional video frame recovery, our approach uses game states to significantly enhance recovery accuracy and utilizes partially decoded frames to recover lost portions. We develop a holistic system that consists of (i) efficiently extracting game states, (ii) modifying H.264 video decoder to generate a mask to indicate which portions of video frames need recovery, and (iii) designing a novel neural network to recover either complete or partial video frames. Our approach is extensively evaluated using iPhone 12 and laptop implementations, and we demonstrate the utility of game states in the game video recovery and the effectiveness of our overall design.
翻訳日:2023-10-24 03:20:41 公開日:2023-10-20
# エージェントモデルに基づく固定ステップ単クロックシミュレーションの形式的仕様用語

Formal specification terminology for demographic agent-based models of fixed-step single-clocked simulations ( http://arxiv.org/abs/2308.13081v3 )

ライセンス: Link先を確認
Atiyah Elsheikh(参考訳) この文書は、デモグラフィの分野におけるエージェントベースモデル(abms)のサブセットの数学的仕様に対する適切な形式的用語を示している。 ABMのシミュレーションは固定ステップの単一クロックパターンに従う。 提案された用語はモデル理解をさらに改善し、仕様のスタンドアロンプロトコルとして機能し、オプションで重要な(デポジトリの)abmのドキュメントを作成できる。 しかし、この用語は、多くのモデル複製を妨げる曖昧さの源を減らし、大半が非形式的な広範に使われているモデル文書と通信O.D.プロトコル(Grimmら、2020年、Amourouxら、2010年)に更なる改善をもたらすと想像できる。 単独の親モデル [gostoli and silverman, 2020] の概略版である、公表された人口統計モデルのドキュメントは、ここで提示された正式な用語のイラストとして[elsheikh, 2023c]で別々に公開されている。 このモデルは、Agens.jl julia package [Datseris et al., 2022]に基づくユリア語[Elsheikh, 2023b]で実装された。

This document presents adequate formal terminology for the mathematical specification of a subset of Agent Based Models (ABMs) in the field of Demography. The simulation of the targeted ABMs follows a fixedstep single-clocked pattern. The proposed terminology further improves the model understanding and can act as a stand-alone protocol for the specification and optionally the documentation of a significant set of (demographic) ABMs. Nevertheless, it is imaginable the this terminology can serve as an inspiring basis for further improvement to the largely-informal widely-used model documentation and communication O.D.D. protocol [Grimm and et al., 2020, Amouroux et al., 2010] to reduce many sources of ambiguity which hinder model replications by other modelers. A published demographic model documentation, largely simplified version of the Lone Parent Model [Gostoli and Silverman, 2020] is separately published in [Elsheikh, 2023c] as illustration for the formal terminology presented here. The model was implemented in the Julia language [Elsheikh, 2023b] based on the Agents.jl julia package [Datseris et al., 2022].
翻訳日:2023-10-24 03:14:25 公開日:2023-10-20
# CONVERT:信頼性向上によるコントラストグラフクラスタリング

CONVERT:Contrastive Graph Clustering with Reliable Augmentation ( http://arxiv.org/abs/2308.08963v3 )

ライセンス: Link先を確認
Xihong Yang, Cheng Tan, Yue Liu, Ke Liang, Siwei Wang, Sihang Zhou, Jun Xia, Stan Z. Li, Xinwang Liu, En Zhu(参考訳) 学習可能なデータ拡張によるグラフノードクラスタリングは、教師なしグラフ学習の分野でホットな研究ポイントである。 既存の手法では,事前定義された拡張のサンプリング分布を学習し,データ駆動拡張を自動的に生成する。 有望なクラスタリング性能は達成されているが、これらの戦略は依然として事前定義された拡張に依存しており、グラフのセマンティクスは容易にドリフトできる。 コントラスト学習のための拡張ビューセマンティクスの信頼性は保証できないため、モデルの性能は制限される。 これらの問題に対処するために,信頼オーグメンテイション(CONVERT)を用いたContrastiVe Graph ClustEringネットワークを提案する。 具体的には,本手法では,データ拡張を可逆的パーターブ・リカバリネットワークによって処理する。 摂動埋め込みを回復することにより、信頼性の高い意味情報を蒸留する。 さらに、セマンティクスの信頼性をさらに保証するために、摂動と回復を定量化することでネットワークを制約する新たなセマンティクス損失を提案する。 最後に、セマンティックラベルと選択された高信頼クラスタリング擬似ラベルを整列することで、情報をクラスタリングすることでモデルを導くラベルマッチング機構を設計する。 7つのデータセットに関する広範な実験結果から,提案手法の有効性が示された。 https://github.com/xihongyang 1999/CONVERT on GitHubでCONVERTのコードと付録を公開しています。

Contrastive graph node clustering via learnable data augmentation is a hot research spot in the field of unsupervised graph learning. The existing methods learn the sampling distribution of a pre-defined augmentation to generate data-driven augmentations automatically. Although promising clustering performance has been achieved, we observe that these strategies still rely on pre-defined augmentations, the semantics of the augmented graph can easily drift. The reliability of the augmented view semantics for contrastive learning can not be guaranteed, thus limiting the model performance. To address these problems, we propose a novel CONtrastiVe Graph ClustEring network with Reliable AugmenTation (CONVERT). Specifically, in our method, the data augmentations are processed by the proposed reversible perturb-recover network. It distills reliable semantic information by recovering the perturbed latent embeddings. Moreover, to further guarantee the reliability of semantics, a novel semantic loss is presented to constrain the network via quantifying the perturbation and recovery. Lastly, a label-matching mechanism is designed to guide the model by clustering information through aligning the semantic labels and the selected high-confidence clustering pseudo labels. Extensive experimental results on seven datasets demonstrate the effectiveness of the proposed method. We release the code and appendix of CONVERT at https://github.com/xihongyang1999/CONVERT on GitHub.
翻訳日:2023-10-24 03:14:07 公開日:2023-10-20
# 共同予測と計画のためのゲーム理論フレームワーク

A Game-Theoretic Framework for Joint Forecasting and Planning ( http://arxiv.org/abs/2308.06137v2 )

ライセンス: Link先を確認
Kushal Kedia, Prithwish Dan, Sanjiban Choudhury(参考訳) 人間の存在下で安全なロボットの動きを計画するには、将来の人間の動きの信頼できる予測が必要である。 しかし、従来の相互作用から最も可能性の高い動きを予測するだけでは安全性は保証されない。 このような予測は、可能なイベントの長い尾をモデル化することができない。 一方、最悪の動きを計画することは、過度に保守的な行動と「凍ったロボット」につながる。 代わりに、人間が守っている反事実を予測する予測を学ぶことを目指している。 本稿では,実証者に対するプランナーのパフォーマンスを相殺しながら,共同計画と予測のための新たなゲーム理論フレームワークを提案し,エンド・ツー・エンド方式でモデルを訓練するための実践的アルゴリズムを提案する。 提案アルゴリズムは,歩行者行動の現実的なデータセットと群集ナビゲーションシミュレーターにおいて,より安全な計画をもたらすことを示す。 コードをhttps://github.com/portal-cornell/Game-Theoretic-Forecasting-Planningでリリースしています。

Planning safe robot motions in the presence of humans requires reliable forecasts of future human motion. However, simply predicting the most likely motion from prior interactions does not guarantee safety. Such forecasts fail to model the long tail of possible events, which are rarely observed in limited datasets. On the other hand, planning for worst-case motions leads to overtly conservative behavior and a "frozen robot". Instead, we aim to learn forecasts that predict counterfactuals that humans guard against. We propose a novel game-theoretic framework for joint planning and forecasting with the payoff being the performance of the planner against the demonstrator, and present practical algorithms to train models in an end-to-end fashion. We demonstrate that our proposed algorithm results in safer plans in a crowd navigation simulator and real-world datasets of pedestrian motion. We release our code at https://github.com/portal-cornell/Game-Theoretic-Forecasting-Planning.
翻訳日:2023-10-24 03:13:23 公開日:2023-10-20
# シーン認識のためのsemantic-embedded similarity prototype

Semantic-embedded Similarity Prototype for Scene Recognition ( http://arxiv.org/abs/2308.05896v2 )

ライセンス: Link先を確認
Chuanxin Song, Hanbo Wu, Xin Ma, Yibin Li(参考訳) 複雑な構成によって生じるクラス間類似度の高さと、シーン間の共存オブジェクトにより、多くの研究がシーン認識を改善するためにシーン内のオブジェクトの意味知識を探索してきた。 しかし、オブジェクト情報抽出技術では計算コストが重いため、ネットワークの負担が大きくなるため、結果として課題が生じる。 この制限は、実際のデプロイにおいて、エッジデバイスと互換性のないオブジェクトアシストアプローチをしばしば引き起こす。 そこで,本稿では,実際の計算コストを増加させることなく,シーン認識ネットワークが優れた精度を実現するための意味知識に基づく類似性プロトタイプを提案する。 シンプルで、既存のパイプラインにプラグイン&プレイできる。 より具体的には、シーンのセマンティックな知識をクラスレベルのセマンティックな表現として表現するための統計戦略が導入された。 これらの表現はシーンクラス間の相関を探索するために使われ、最終的に類似性のプロトタイプを構築する。 さらに,グラデーションラベルソフトニングとバッチレベルのコントラスト損失の観点から,ネットワークトレーニングを支援するために類似度プロトタイプを活用することを提案する。 複数のベンチマークにおける包括的評価は、我々の類似性プロトタイプが既存のネットワークの性能を高めていることを示している。 コードと統計的類似性のプロトタイプが近く公開される。

Due to the high inter-class similarity caused by the complex composition and the co-existing objects across scenes, numerous studies have explored object semantic knowledge within scenes to improve scene recognition. However, a resulting challenge emerges as object information extraction techniques require heavy computational costs, thereby burdening the network considerably. This limitation often renders object-assisted approaches incompatible with edge devices in practical deployment. In contrast, this paper proposes a semantic knowledge-based similarity prototype, which can help the scene recognition network achieve superior accuracy without increasing the computational cost in practice. It is simple and can be plug-and-played into existing pipelines. More specifically, a statistical strategy is introduced to depict semantic knowledge in scenes as class-level semantic representations. These representations are used to explore correlations between scene classes, ultimately constructing a similarity prototype. Furthermore, we propose to leverage the similarity prototype to support network training from the perspective of Gradient Label Softening and Batch-level Contrastive Loss, respectively. Comprehensive evaluations on multiple benchmarks show that our similarity prototype enhances the performance of existing networks, all while avoiding any additional computational burden in practical deployments. Code and the statistical similarity prototype will be available soon.
翻訳日:2023-10-24 03:13:08 公開日:2023-10-20
# VisAlign: 視覚知覚におけるAIと人間のアライメントの度合いを測定するデータセット

VisAlign: Dataset for Measuring the Degree of Alignment between AI and Humans in Visual Perception ( http://arxiv.org/abs/2308.01525v3 )

ライセンス: Link先を確認
Jiyoung Lee, Seungho Kim, Seunghyun Won, Joonseok Lee, Marzyeh Ghassemi, James Thorne, Jaeseok Choi, O-Kil Kwon, Edward Choi(参考訳) AIアライメント(AIアライメント)とは、人間の意図した目標、好み、倫理的原則に向くモデルを指す。 ほとんどの大規模ディープラーニングモデルはブラックボックスとして機能し、手動では制御できないため、モデルと人間の類似性を分析することは、AIの安全性を確保するための代替手段となる。 本稿では、モデルと人間の視覚知覚アライメント(さらにAIと人間の視覚アライメントと呼ばれる)に焦点を当てる。 具体的には、画像分類の観点からAIと人間の視覚的アライメントを測定するための新しいデータセットを提案する。 AIと人間の視覚的アライメントを評価するために、データセットは現実世界で発生し、金色の人間の知覚ラベルを持つ様々なシナリオのサンプルを含むべきである。 我々のデータセットは、画像中の視覚情報の量と明度に基づいて、Must-Act(Must-Classify)、Must-Abstain、Uncertainの3つのグループから構成され、さらに8つのカテゴリに分けられる。 すべてのサンプルには金色の人間の知覚ラベルがあり、不確定な(ぼやけた)サンプルラベルでさえ、クラウドソーシングによって得られる。 このデータセットの有効性は,サンプリング理論,調査設計に関する統計理論,関連分野の専門家によって検証される。 このデータセットを用いて,5つの視覚知覚モデルと7つの回避方法の視覚的アライメントと信頼性を解析した。 私たちのコードとデータはhttps://github.com/jiyounglee-0523/visalignで入手できます。

AI alignment refers to models acting towards human-intended goals, preferences, or ethical principles. Given that most large-scale deep learning models act as black boxes and cannot be manually controlled, analyzing the similarity between models and humans can be a proxy measure for ensuring AI safety. In this paper, we focus on the models' visual perception alignment with humans, further referred to as AI-human visual alignment. Specifically, we propose a new dataset for measuring AI-human visual alignment in terms of image classification, a fundamental task in machine perception. In order to evaluate AI-human visual alignment, a dataset should encompass samples with various scenarios that may arise in the real world and have gold human perception labels. Our dataset consists of three groups of samples, namely Must-Act (i.e., Must-Classify), Must-Abstain, and Uncertain, based on the quantity and clarity of visual information in an image and further divided into eight categories. All samples have a gold human perception label; even Uncertain (severely blurry) sample labels were obtained via crowd-sourcing. The validity of our dataset is verified by sampling theory, statistical theories related to survey design, and experts in the related fields. Using our dataset, we analyze the visual alignment and reliability of five popular visual perception models and seven abstention methods. Our code and data is available at https://github.com/jiyounglee-0523/VisAlign.
翻訳日:2023-10-24 03:12:22 公開日:2023-10-20
# ホログラフィック散乱によるbraneworld/cutoff holographyの因果性の検討

Exploring causality in braneworld/cutoff holography via holographic scattering ( http://arxiv.org/abs/2308.00739v2 )

ライセンス: Link先を確認
Takato Mori, Beni Yoshida(参考訳) ブレーンやカットオフ面を持つホログラフィーは、漸近的に反ド・ジッター時空を超える量子重力を研究するための有望なアプローチを示す。 しかし、この一般化されたホログラフィは、因果性の潜在的な違反や基本的なエントロピーの不等式を含むいくつかの矛盾に直面することが知られている。 本研究では,バルク散乱過程とそのホログラム化を解明し,これらの課題に対処する。 具体的には、ブレーン/カットオフ面の情報は、q$の点に由来する従来のものよりも、q$の背後にある架空の漸近的な境界に由来する誘導光円錐に従って伝播する。 さらに、誘導光円錐を用いた一般化ホログラフィーに対する連結ウェッジ定理の有効性を確立する。 また, 誘導因果ダイアモンド内ではエントロピー不等式が有効であることを実証した。 誘導光円錐は一見スーパールミナルシグナリングを許容するように見えるが、この因果的違反は、Q$の局所演算子励起ではなく、放射的に励起を伝播させる状態準備の成果であると主張する。

Holography with branes and/or cutoff surfaces presents a promising approach to studying quantum gravity beyond asymptotically anti-de Sitter spacetimes. However, this generalized holography is known to face several inconsistencies, including potential violations of causality and fundamental entropic inequalities. In this work, we address these challenges by investigating the bulk scattering process and its holographic realization. Specifically, we propose that the information on a brane/cutoff surface $Q$ propagates according to the induced light cones originating from a fictitious asymptotic boundary behind $Q$, rather than the conventional ones originating from a point on $Q$. Additionally, we establish the validity of the connected wedge theorem for generalized holography with induced light cones. We also demonstrate that entropic inequalities remain valid within the induced causal diamonds. While the induced light cone seemingly permits superluminal signaling, we argue that this causality violation can be an artifact of state preparation for radially propagating excitations, rather than local operator excitations on $Q$.
翻訳日:2023-10-24 03:11:53 公開日:2023-10-20
# コホモロジーによるベッチ数推定のための量子アルゴリズム

Quantum Algorithm for Estimating Betti Numbers Using a Cohomology Approach ( http://arxiv.org/abs/2309.10800v2 )

ライセンス: Link先を確認
Nhat A. Nghiem, Xianfeng David Gu and Tzu-Chieh Wei(参考訳) トポロジカルデータ分析は大規模データ分析の強力なツールとして登場した。 高次元データは抽象的単純複体を形成し、ホモロジーのツールを使うことで位相的特徴を識別できる。 単純性が与えられたとき、重要な特徴はいわゆるベッチ数である。 ベッチ数を古典的に計算することは、大量のデータとその高次元の可能性のために厄介な作業である。 ベッチ数を推定する既知の量子アルゴリズムはホモロジーに依存しているが、ここではホッジ理論とド・ラムコホモロジーにインスパイアされた「双対」アプローチと、近年の量子アルゴリズムの先進的手法を組み合わせて考える。 我々のコホモロジー法は、既知のホモロジーに基づく量子アルゴリズムと比較して指数的に少ない量子ビットを必要とする比較的単純だがより自然なフレームワークを提供する。 さらに、我々のアルゴリズムは、その$r$-th Betti number $\beta_r$を、実行時間$\mathcal{O}\big( \log(c_r) c_r^2 / (c_r - \beta_r)^2 \delta^2 \big)$で計算することができる。 したがって、与えられた三角多様体の $r$-simplex の数よりも、$r$-thベッチ数がかなり小さいときに最もよく機能する。

Topological data analysis has emerged as a powerful tool for analyzing large-scale data. High-dimensional data form an abstract simplicial complex, and by using tools from homology, topological features could be identified. Given a simplex, an important feature is so-called Betti numbers. Calculating Betti numbers classically is a daunting task due to the massive volume of data and its possible high-dimension. While most known quantum algorithms to estimate Betti numbers rely on homology, here we consider the `dual' approach, which is inspired by Hodge theory and de Rham cohomology, combined with recent advanced techniques in quantum algorithms. Our cohomology method offers a relatively simpler, yet more natural framework that requires exponentially less qubits, in comparison with the known homology-based quantum algorithms. Furthermore, our algorithm can calculate its $r$-th Betti number $\beta_r$ up to some multiplicative error $\delta$ with running time $\mathcal{O}\big( \log(c_r) c_r^2 / (c_r - \beta_r)^2 \delta^2 \big)$, where $c_r$ is the number of $r$-simplex. It thus works best when the $r$-th Betti number is considerably smaller than the number of the $r$-simplex in the given triangulated manifold.
翻訳日:2023-10-24 03:03:29 公開日:2023-10-20
# コントラスト知覚と概念処理を用いた視覚抽象推論のための認知的インスパイアニューラルアーキテクチャ

A Cognitively-Inspired Neural Architecture for Visual Abstract Reasoning Using Contrastive Perceptual and Conceptual Processing ( http://arxiv.org/abs/2309.10532v3 )

ライセンス: Link先を確認
Yuan Yang, Deepayan Sanyal, James Ainooson, Joel Michelson, Effat Farhana, Maithilee Kunda(参考訳) 特に,人間の抽象的推論は,柔軟で反復的でダイナミックな認知プロセスの一部として知覚的,概念的処理をしばしばインターリーブするという観察から,視覚的抽象的推論タスクを解決するための新しいニューラルアーキテクチャを導入する。 この原理に着想を得たアーキテクチャは、視覚刺激の知覚的処理と概念的処理の一貫性を追求する反復的自己コントラスト学習プロセスとして視覚的抽象的推論をモデル化する。 この新たなコントラスト知覚ネットワーク(CPCNet)は,有名なRavenのプログレッシブ・マトリクス・インテリジェンス・テスト(Progressive Matrices Intelligence Test)のスタイルで,行列推論問題を用いてどのように機能するかを説明する。 機械学習データセット RAVEN の実験では、CPCNet がこれまでに公開されたすべてのモデルよりも高い精度を達成し、最も弱い帰納バイアスを使用している。 我々はまた、元のRAVENデータセットにおいて、実質的で以前に言及されていないクラス不均衡を指摘し、抽象概念の観点からよりバランスのとれたRAVENの新たな変種であるAB-RAVENを提案する。

We introduce a new neural architecture for solving visual abstract reasoning tasks inspired by human cognition, specifically by observations that human abstract reasoning often interleaves perceptual and conceptual processing as part of a flexible, iterative, and dynamic cognitive process. Inspired by this principle, our architecture models visual abstract reasoning as an iterative, self-contrasting learning process that pursues consistency between perceptual and conceptual processing of visual stimuli. We explain how this new Contrastive Perceptual-Conceptual Network (CPCNet) works using matrix reasoning problems in the style of the well-known Raven's Progressive Matrices intelligence test. Experiments on the machine learning dataset RAVEN show that CPCNet achieves higher accuracy than all previously published models while also using the weakest inductive bias. We also point out a substantial and previously unremarked class imbalance in the original RAVEN dataset, and we propose a new variant of RAVEN -- AB-RAVEN -- that is more balanced in terms of abstract concepts.
翻訳日:2023-10-24 03:02:58 公開日:2023-10-20
# 超薄原子層における協調光学パターン形成

Cooperative optical pattern formation in an ultrathin atomic layer ( http://arxiv.org/abs/2309.10412v2 )

ライセンス: Link先を確認
C. D. Parmee, J. Ruostekoski(参考訳) 一様状態からの自発的パターン形成は、他の科学領域における非平衡パターン形成と類似性を共有する広く研究された非線形光学現象である。 ここでは、アレイ内の原子の1つの層が非線形に揺らぎを増幅し、複雑な光学パターンを形成する方法を示す。 パターンの起源は本質的に協調的であり、鏡や空洞の必要性は排除されるが、原子の近傍に鏡を導入することで散乱プロファイルが著しく変化する。 これらの光学パターンの出現は、光カー媒体やリングキャビティの非線形シュリンガー方程式と同様に、長波長近似によって定性的に記述できる双安定な集合応答と結びついている。 これらの集合励起は特異な欠陥を形成し、波状歪みによって原子位置のゆらぎを露呈する能力を持つ。

Spontaneous pattern formation from a uniform state is a widely studied nonlinear optical phenomenon that shares similarities with non-equilibrium pattern formation in other scientific domains. Here we show how a single layer of atoms in an array can undergo nonlinear amplification of fluctuations, leading to the formation of intricate optical patterns. The origin of the patterns is intrinsically cooperative, eliminating the necessity of mirrors or cavities, although introduction of a mirror in the vicinity of the atoms significantly modifies the scattering profiles. The emergence of these optical patterns is tied to a bistable collective response, which can be qualitatively described by a long-wavelength approximation, similar to a nonlinear Schr\"odinger equation of optical Kerr media or ring cavities. These collective excitations have the ability to form singular defects and unveil atomic position fluctuations through wave-like distortions.
翻訳日:2023-10-24 03:02:34 公開日:2023-10-20
# feddcsr: disentangled representation learningによるフェデレーションクロスドメインシーケンシャルレコメンデーション

FedDCSR: Federated Cross-domain Sequential Recommendation via Disentangled Representation Learning ( http://arxiv.org/abs/2309.08420v3 )

ライセンス: Link先を確認
Hongyu Zhang, Dongyi Zheng, Xu Yang, Jiyuan Feng, Qing Liao(参考訳) 近年,複数のドメインからのユーザシーケンスデータを活用するクロスドメインシーケンスレコメンデーション(CSR)が注目されている。 しかし、既存のCSRメソッドは、GDPR(General Data Protection Regulation)に違反しているドメイン間で元のユーザデータを共有する必要がある。 したがって、データプライバシを保ちながら、異なるドメインからの知識を完全に活用するために、連邦学習(FL)とCSRを組み合わせる必要がある。 それでも、異なる領域間での配列の不均一性はFLの全体的な性能に大きな影響を及ぼす。 本稿では,連接表現学習による新しいフェデレーションクロスドメイン逐次推奨フレームワークfederated cross-domainについて述べる。 具体的には、ドメイン間のシーケンス特徴の不均一性に対処するために、ユーザシーケンス機能をドメイン共有機能とドメイン専用機能に分解するinter-intra domain sequence representation disentanglement(srd)というアプローチを導入する。 さらに、ユーザシーケンス上でデータ拡張を行うことで、よりリッチなドメイン排他的特徴を学習するためのドメイン内コントラッシブインフォマックス(CIM)戦略を設計する。 3つの実世界のシナリオに関する大規模な実験は、FedDCSRが既存のベースラインよりも大幅に改善されていることを示している。

Cross-domain Sequential Recommendation (CSR) which leverages user sequence data from multiple domains has received extensive attention in recent years. However, the existing CSR methods require sharing origin user data across domains, which violates the General Data Protection Regulation (GDPR). Thus, it is necessary to combine federated learning (FL) and CSR to fully utilize knowledge from different domains while preserving data privacy. Nonetheless, the sequence feature heterogeneity across different domains significantly impacts the overall performance of FL. In this paper, we propose FedDCSR, a novel federated cross-domain sequential recommendation framework via disentangled representation learning. Specifically, to address the sequence feature heterogeneity across domains, we introduce an approach called inter-intra domain sequence representation disentanglement (SRD) to disentangle the user sequence features into domain-shared and domain-exclusive features. In addition, we design an intra domain contrastive infomax (CIM) strategy to learn richer domain-exclusive features of users by performing data augmentation on user sequences. Extensive experiments on three real-world scenarios demonstrate that FedDCSR achieves significant improvements over existing baselines.
翻訳日:2023-10-24 03:02:18 公開日:2023-10-20
# アクセス構造と不正識別を用いた量子マルチシークレット共有方式

Quantum multi-secret sharing scheme with access structures and cheat identification ( http://arxiv.org/abs/2309.06458v2 )

ライセンス: Link先を確認
Deepa Rathi, Sanjeev Kumar(参考訳) 本研究は,d$-dimensional quantum multi-secret sharing schemeとチート検出機構を提案する。 ディーラーは複数のシークレットを作成し、マルチアクセス構造とモノトーンスパンプログラムを使用してこれらのシークレットの共有を配布する。 ディーラーは、ブラックボックスのチート検出機構を用いて各参加者のチートを検出する。 参加者の偽を検知するために、ディーラーは、ブラックボックスに格納されたランダムに可逆なマトリックス$x$に由来する秘密共有の影を参加者に配布する。 ブラックボックスは、秘密回復フェーズ中の参加者の偽りの行動を識別する。 ブラックボックスによって認証された正直な参加者だけが秘密の株を取得し、複数の秘密を回復する。 ブラックボックスの不正検証の後、参加者はユニタリ演算と量子フーリエ変換を利用して秘密を再構築する。 提案プロトコルは,盗聴者や参加者による攻撃を防止できる。 このスキームの効率性は、ディットフリップノイズ、$d$相フリップノイズ、振幅減衰ノイズなど様々な雑音環境において示され、実用シナリオにおける頑健さを示している。 提案プロトコルは、より汎用性、セキュリティ、実用性を提供する。

This work proposes a $d$-dimensional quantum multi-secret sharing scheme with a cheat detection mechanism. The dealer creates multiple secrets and distributes the shares of these secrets using multi-access structures and a monotone span program. The dealer detects the cheating of each participant using the Black box's cheat detection mechanism. To detect the participants' deceit, the dealer distributes secret shares' shadows derived from a randomly invertible matrix $X$ to the participants, stored in the black box. The Black box identifies the participant's deceitful behavior during the secret recovery phase. Only honest participants authenticated by the Black box acquire their secret shares to recover the multiple secrets. After the Black box cheating verification, the participants reconstruct the secrets by utilizing the unitary operations and quantum Fourier transform. The proposed protocol is reliable in preventing attacks from eavesdroppers and participants. The scheme's efficiency is demonstrated in different noise environments: dit-flip noise, $d$-phase-flip noise, and amplitude-damping noise, indicating its robustness in practical scenarios. The proposed protocol provides greater versatility, security, and practicality.
翻訳日:2023-10-24 03:01:58 公開日:2023-10-20
# 公共交通システムにおける需給のモデル化

Modeling Supply and Demand in Public Transportation Systems ( http://arxiv.org/abs/2309.06299v2 )

ライセンス: Link先を確認
Miranda Bihler, Hala Nelson, Erin Okey, Noe Reyes Rivas, John Webb, Anna White(参考訳) 本稿では,ジェームス・マディソン大学(JMU)の本拠地であるバージニア州ハリソンバーグ市の公共交通局(HDPT)バスシステムにおいて,効率解析,サービスギャップの同定,需要予測のための2つのニューラルネットワークとデータ駆動型需給モデルを提案する。 1つの時間的および1つの空間的需要モデルには、バス停を取り巻く人口統計データ、HDPTが連邦政府に報告した指標、JMUのオン/オフ間における人口の劇的な変化など、多くの変数が考慮されている。 供給と需要を定量化し、サービスギャップを特定するこれらの直接およびデータ駆動モデルは、他の都市のバスシステムに一般化することができる。

We propose two neural network based and data-driven supply and demand models to analyze the efficiency, identify service gaps, and determine the significant predictors of demand, in the bus system for the Department of Public Transportation (HDPT) in Harrisonburg City, Virginia, which is the home to James Madison University (JMU). The supply and demand models, one temporal and one spatial, take many variables into account, including the demographic data surrounding the bus stops, the metrics that the HDPT reports to the federal government, and the drastic change in population between when JMU is on or off session. These direct and data-driven models to quantify supply and demand and identify service gaps can generalize to other cities' bus systems.
翻訳日:2023-10-24 03:01:39 公開日:2023-10-20
# タキー深さのランダム化近似の品質について

On the quality of randomized approximations of Tukey's depth ( http://arxiv.org/abs/2309.05657v2 )

ライセンス: Link先を確認
Simon Briend and G\'abor Lugosi and Roberto Imbuzeiro Oliveira(参考訳) テューキーの深さ (tukey's depth) は多変量データに対して広く使われる中心性の尺度である。 しかし、チューキーの深さの正確な計算は高次元では難しい問題であることが知られている。 治療として、ツキーの深さのランダム化近似が提案されている。 本稿では,そのようなランダム化アルゴリズムが,Tukeyの深さの近似値を返す方法を検討する。 ログコンケーブ等方性分布からデータがサンプリングされた場合について検討する。 アルゴリズムが次元において多項式時間で動く必要がある場合、ランダム化されたアルゴリズムは最大深さ1/2$と0に近い深さを正確に近似する。 一方、任意の中間深さの点に対して、良い近似は指数複雑性を必要とする。

Tukey's depth (or halfspace depth) is a widely used measure of centrality for multivariate data. However, exact computation of Tukey's depth is known to be a hard problem in high dimensions. As a remedy, randomized approximations of Tukey's depth have been proposed. In this paper we explore when such randomized algorithms return a good approximation of Tukey's depth. We study the case when the data are sampled from a log-concave isotropic distribution. We prove that, if one requires that the algorithm runs in polynomial time in the dimension, the randomized algorithm correctly approximates the maximal depth $1/2$ and depths close to zero. On the other hand, for any point of intermediate depth, any good approximation requires exponential complexity.
翻訳日:2023-10-24 03:01:26 公開日:2023-10-20
# ブレイド統計を超える: 1次元に固有の交換統計を持つ任意のオンに対する格子モデルの構築

Beyond braid statistics: Constructing a lattice model for anyons with exchange statistics intrinsic to one dimension ( http://arxiv.org/abs/2309.04358v2 )

ライセンス: Link先を確認
Sebastian Nagies, Botao Wang, A.C. Knapp, Andr\'e Eckardt, and N.L. Harshman(参考訳) 分数交換統計に従うものは2次元に自然に現れる: ハードコアの2体制約により、粒子の構成空間は単純に連結ではない。 ブレイド群は、位相的に同値な交換経路がアーベル素数の非自明な幾何学的位相にどのように関連付けられるかを記述する。 ブレイド・アニオン交換統計は1次元(1D)でも見られるが、2つのエノンが交換する異なる方法を区別するためには、ガリレオ不変性を欠く必要がある。 しかし近年、ハードコアの3体制約によって構成空間が単純に連結されないため、交換統計の代替形式が1Dで発生することが示されている。 ブレイド群の代わりに、交換経路の位相とその付随する非自明な幾何学的位相はトレイド群によって記述される。 本稿では、この交換統計の代替形式を実現する最初の具体的モデルを提案する。 数に依存したパイエルス位相を持つ所望の幾何学的位相を実装するボソニック格子モデルから始まり、ハミルトニアンがそれらに関して局所的かつ二次的になるように、エノニック作用素を定義する。 このtid-anyon-hubbardモデルの基底状態は、ボソンとフェルミオンの間の交換統計の中間のいくつかの兆候と、緊急に近似したハルダン排他統計の兆候を示している。 連続極限は、以前に構築されたトレイド・エノンの連続波動関数に対応する固有状態を持つガリレオ不変ハミルトニアンをもたらす。 これは格子モデルのa-posteriori正当性を提供するだけでなく、我々の構成がトライド・エノンに対する直感的なアプローチであることを示す。

Anyons obeying fractional exchange statistics arise naturally in two dimensions: hard-core two-body constraints make the configuration space of particles not simply-connected. The braid group describes how topologically-inequivalent exchange paths can be associated to non-trivial geometric phases for abelian anyons. Braid-anyon exchange statistics can also be found in one dimension (1D), but this requires broken Galilean invariance to distinguish different ways for two anyons to exchange. However, recently it was shown that an alternative form of exchange statistics can occur in 1D because hard-core three-body constraints also make the configuration space not simply-connected. Instead of the braid group, the topology of exchange paths and their associated non-trivial geometric phases are described by the traid group. In this article we propose a first concrete model realizing this alternative form of anyonic exchange statistics. Starting from a bosonic lattice model that implements the desired geometric phases with number-dependent Peierls phases, we then define anyonic operators so that the Hamiltonian becomes local and quadratic with respect to them. The ground-state of this traid-anyon-Hubbard model exhibits several indications of exchange statistics intermediate between bosons and fermions, as well as signs of emergent approximate Haldane exclusion statistics. The continuum limit results in a Galilean invariant Hamiltonian with eigenstates that correspond to previously constructed continuum wave functions for traid anyons. This provides not only an a-posteriori justification of our lattice model, but also shows that our construction serves as an intuitive approach to traid anyons, i.e.\ anyons intrinsic to~1D.
翻訳日:2023-10-24 03:01:15 公開日:2023-10-20
# 大きな分離可能なカーネルアテンション:CNNにおけるカーネルアテンション設計の再考

Large Separable Kernel Attention: Rethinking the Large Kernel Attention Design in CNN ( http://arxiv.org/abs/2309.01439v3 )

ライセンス: Link先を確認
Kin Wai Lau, Lai-Man Po, Yasar Abbas Ur Rehman(参考訳) 大型カーネル・アテンション(LKA)モジュールを備えたビジュアル・アテンション・ネットワーク(VAN)は、視覚ベースのタスクにおいてビジョン・トランスフォーマー(ViT)を超える優れたパフォーマンスを提供する。 しかし、これらのlkaモジュールの深さ方向の畳み込み層は畳み込みカーネルサイズの増加とともに計算量とメモリフットプリントの二次的な増加をもたらす。 これらの問題を緩和し,VANのアテンションモジュールにおいて極めて大きな畳み込みカーネルの使用を可能にするため,LSKAと呼ばれる大型分離カーネルアテンションモジュール群を提案する。 lskaは深さ方向の畳み込み層の2次元畳み込み核を水平および垂直な1次元核に分解する。 標準LKA設計とは対照的に、提案した分解により、余分なブロックを必要とせず、大きなカーネルをアテンションモジュールに配置した奥行きの畳み込み層を直接利用できる。 VANのLSKAモジュールは,標準LKAモジュールと同等の性能を示し,計算量やメモリフットプリントの低減を図っている。 また,提案したLSKA設計は,カーネルサイズの増加に伴うテクスチャよりも,VANを物体の形状に偏りがあることが判明した。 さらに、VAN、ViTs、最近のConvNeXtにおけるLKAとLSKAの堅牢さを、以前の研究でほとんど明らかにされていないImageNetデータセットの5つの破損バージョンについてベンチマークする。 広範な実験結果から,vanにおける提案するlskaモジュールは,vitsやconvnextよりもパフォーマンスが向上する一方で,カーネルサイズを増加させ,計算複雑性とメモリフットプリントを大幅に削減し,オブジェクト認識,オブジェクト検出,セマンティックセグメンテーション,ロバストネステストにおいてlkaモジュールと同等の性能を提供することが示された。

Visual Attention Networks (VAN) with Large Kernel Attention (LKA) modules have been shown to provide remarkable performance, that surpasses Vision Transformers (ViTs), on a range of vision-based tasks. However, the depth-wise convolutional layer in these LKA modules incurs a quadratic increase in the computational and memory footprints with increasing convolutional kernel size. To mitigate these problems and to enable the use of extremely large convolutional kernels in the attention modules of VAN, we propose a family of Large Separable Kernel Attention modules, termed LSKA. LSKA decomposes the 2D convolutional kernel of the depth-wise convolutional layer into cascaded horizontal and vertical 1-D kernels. In contrast to the standard LKA design, the proposed decomposition enables the direct use of the depth-wise convolutional layer with large kernels in the attention module, without requiring any extra blocks. We demonstrate that the proposed LSKA module in VAN can achieve comparable performance with the standard LKA module and incur lower computational complexity and memory footprints. We also find that the proposed LSKA design biases the VAN more toward the shape of the object than the texture with increasing kernel size. Additionally, we benchmark the robustness of the LKA and LSKA in VAN, ViTs, and the recent ConvNeXt on the five corrupted versions of the ImageNet dataset that are largely unexplored in the previous works. Our extensive experimental results show that the proposed LSKA module in VAN provides a significant reduction in computational complexity and memory footprints with increasing kernel size while outperforming ViTs, ConvNeXt, and providing similar performance compared to the LKA module in VAN on object recognition, object detection, semantic segmentation, and robustness tests.
翻訳日:2023-10-24 03:00:40 公開日:2023-10-20
# ローエンド32ビットIoTデバイス上での高速KyberのためのPlanard Arithmeticの改良

Yet another Improvement of Plantard Arithmetic for Faster Kyber on Low-end 32-bit IoT Devices ( http://arxiv.org/abs/2309.00440v2 )

ライセンス: Link先を確認
Junhao Huang, Haosong Zhao, Jipeng Zhang, Wangchen Dai, Lu Zhou, Ray C.C. Cheung, Cetin Kaya Koc, Donglong Chen(参考訳) 本稿では、SIMD拡張のない2つのローエンド32ビットIoTプラットフォーム(ARM Cortex-M3とRISC-V)上でKyberの実装を高速化するPlanard演算の別の改良版を提案する。 具体的には、計算ステップを変更することなく、Planard演算の入力範囲をさらに拡大する。 Kyber のモジュラーに対して、Planard 算術を調整した後、定数によるPlanard 乗算の入力範囲は、TCHES2022 の元の設計よりも少なくとも2.45倍大きいことを示す。 次に, Cortex-M3 と RISC-V の2つの最適化手法を提案する。 プランタード算術はローエンド32ビットプラットフォーム上でモンゴメリー算術とバレット算術の両方に取って代わることを示す。 これらのプラットフォーム上でのインプット範囲の拡大とPlanard演算の効率的な実装により,NTT/INTTの最適化手法を提案する。 ローエンド32ビットプラットフォーム上で提案したPlanard演算の入力範囲を大きくすることで,NTT/INTTにおける係数のモジュラー化を最小化あるいは完全に排除する。 さらに,2つのメモリ最適化手法を提案し,cortex-m4に比較して,速度変換kyber実装のスタック使用率を23.50%から28.31%に削減した。 提案した最適化により、ローエンドIoTデバイス上でのスピードバージョン実装がより実現可能になった。 上記の最適化のおかげで、NTT/INTTの実装は最先端の作業と比べてかなりスピードアップしている。 全体として、メモリ制限されたIoTプラットフォーム上での速度変換Kyberの実装の適用性を示し、これらのプラットフォーム上でKyberの新しい速度記録を設定します。

This paper presents another improved version of Plantard arithmetic that could speed up Kyber implementations on two low-end 32-bit IoT platforms (ARM Cortex-M3 and RISC-V) without SIMD extensions. Specifically, we further enlarge the input range of the Plantard arithmetic without modifying its computation steps. After tailoring the Plantard arithmetic for Kyber's modulus, we show that the input range of the Plantard multiplication by a constant is at least 2.45 times larger than the original design in TCHES2022. Then, two optimization techniques for efficient Plantard arithmetic on Cortex-M3 and RISC-V are presented. We show that the Plantard arithmetic supersedes both Montgomery and Barrett arithmetic on low-end 32-bit platforms. With the enlarged input range and the efficient implementation of the Plantard arithmetic on these platforms, we propose various optimization strategies for NTT/INTT. We minimize or entirely eliminate the modular reduction of coefficients in NTT/INTT by taking advantage of the larger input range of the proposed Plantard arithmetic on low-end 32-bit platforms. Furthermore, we propose two memory optimization strategies that reduce 23.50% to 28.31% stack usage for the speed-version Kyber implementation when compared to its counterpart on Cortex-M4. The proposed optimizations make the speed-version implementation more feasible on low-end IoT devices. Thanks to the aforementioned optimizations, our NTT/INTT implementation shows considerable speedups compared to the state-of-the-art work. Overall, we demonstrate the applicability of the speed-version Kyber implementation on memory-constrained IoT platforms and set new speed records for Kyber on these platforms.
翻訳日:2023-10-24 03:00:05 公開日:2023-10-20
# スコアソフトマックス分類器を用いた減算駆動検出のクロスデータセット性能向上

Enhancing Cross-Dataset Performance of Distracted Driving Detection With Score-Softmax Classifier ( http://arxiv.org/abs/2310.05202v3 )

ライセンス: Link先を確認
Cong Duan and Zixuan Liu and Jiahao Xia and Minghai Zhang and Jiacai Liao and Libo Cao(参考訳) ディープニューラルネットワークは車載運転者のリアルタイム監視を可能にし、邪魔、疲労、潜在的な危険のタイムリーな予測を容易にする。 この技術は現在、インテリジェント輸送システムに不可欠なものである。 最近の研究では、限られたデータサンプルから生じる「ショートカット学習」と呼ばれる過度な適合によって、信頼性の低いクロスデータセットのエンドツーエンドドライバの動作認識が明らかにされている。 本稿では,クラス間独立性とクラス内不確実性を高めることでこの問題に対処するScore-Softmax分類器を提案する。 人間の評価パターンに動機づけられ,分類器を訓練するために,限界ガウス分布に基づく2次元監視行列を設計した。 ガウス分布はクラス内の不確実性を増幅し、スコア・ソフトマックス分類器が正確な知識を確実に学習するのに役立つ。 さらに,独立したガウス分布確率変数の和を用いて,マルチチャネル情報融合方式を導入した。 この戦略はスコアソフトマックス分類器のマルチ情報融合課題を効果的に解決する。 同時に、転送学習とマルチデータセットの組み合わせの必要性を裏付ける。 sfd, aucdd-v1, 100ドライバのデータセットを用いたクロスデータセット実験を行い, score-softmaxがモデルアーキテクチャを変更せずにクロスデータセットのパフォーマンスを向上させることを実証した。 これは、ニューラルネットワークの一般化を強化する新しいアプローチを提供する。 さらに,情報融合手法は従来の手法よりも優れている。

Deep neural networks enable real-time monitoring of in-vehicle driver, facilitating the timely prediction of distractions, fatigue, and potential hazards. This technology is now integral to intelligent transportation systems. Recent research has exposed unreliable cross-dataset end-to-end driver behavior recognition due to overfitting, often referred to as ``shortcut learning", resulting from limited data samples. In this paper, we introduce the Score-Softmax classifier, which addresses this issue by enhancing inter-class independence and Intra-class uncertainty. Motivated by human rating patterns, we designed a two-dimensional supervisory matrix based on marginal Gaussian distributions to train the classifier. Gaussian distributions help amplify intra-class uncertainty while ensuring the Score-Softmax classifier learns accurate knowledge. Furthermore, leveraging the summation of independent Gaussian distributed random variables, we introduced a multi-channel information fusion method. This strategy effectively resolves the multi-information fusion challenge for the Score-Softmax classifier. Concurrently, we substantiate the necessity of transfer learning and multi-dataset combination. We conducted cross-dataset experiments using the SFD, AUCDD-V1, and 100-Driver datasets, demonstrating that Score-Softmax improves cross-dataset performance without modifying the model architecture. This provides a new approach for enhancing neural network generalization. Additionally, our information fusion approach outperforms traditional methods.
翻訳日:2023-10-24 02:54:51 公開日:2023-10-20
# SweetDreamer: テキストから3Dへの2次元拡散における幾何学的優先順位の調整

SweetDreamer: Aligning Geometric Priors in 2D Diffusion for Consistent Text-to-3D ( http://arxiv.org/abs/2310.02596v2 )

ライセンス: Link先を確認
Weiyu Li, Rui Chen, Xuelin Chen, Ping Tan(参考訳) 事前学習した拡散モデルからテキストから3D生成のための3次元世界へ2D結果を持ち上げることは本質的に曖昧である。 2次元拡散モデルは、視界に依存しない先行知識のみを学習し、リフト中に3次元知識が欠如し、多視点不整合問題を引き起こす。 この問題は主に幾何学的不整合に起因し、誤配置された幾何学的構造が最終出力の問題を実質的に緩和することを避ける。 そこで, 浮揚時の拡散モデルにおける2次元幾何学的先行と3次元形状との整合性を改善し, 問題の大部分に対処する。 これは、2次元拡散モデルを視点対応に微調整し、正準指向の3次元オブジェクトのビュー固有座標マップを作成することで達成される。 このプロセスでは、粗い3d情報のみを整列に使用する。 この「コアス」アライメントは、ジオメトリのマルチビューの不整合を解消するだけでなく、3dデータセットにない詳細かつ多様化した高品質なオブジェクトを生成する2d拡散モデルの能力も保持する。 さらに,アライメント幾何前駆体 (agp) は汎用的であり,様々な最先端パイプラインにシームレスに統合でき,マルチビュー不整合問題を大幅に緩和しながら,目立たない形状や視覚的な外観で高い一般化性を得ることができる。 提案手法は,人間による評価では85+%の一貫性率で,従来の手法では30%程度であった。 プロジェクトページはhttps://sweetdreamer3d.github.io/

It is inherently ambiguous to lift 2D results from pre-trained diffusion models to a 3D world for text-to-3D generation. 2D diffusion models solely learn view-agnostic priors and thus lack 3D knowledge during the lifting, leading to the multi-view inconsistency problem. We find that this problem primarily stems from geometric inconsistency, and avoiding misplaced geometric structures substantially mitigates the problem in the final outputs. Therefore, we improve the consistency by aligning the 2D geometric priors in diffusion models with well-defined 3D shapes during the lifting, addressing the vast majority of the problem. This is achieved by fine-tuning the 2D diffusion model to be viewpoint-aware and to produce view-specific coordinate maps of canonically oriented 3D objects. In our process, only coarse 3D information is used for aligning. This "coarse" alignment not only resolves the multi-view inconsistency in geometries but also retains the ability in 2D diffusion models to generate detailed and diversified high-quality objects unseen in the 3D datasets. Furthermore, our aligned geometric priors (AGP) are generic and can be seamlessly integrated into various state-of-the-art pipelines, obtaining high generalizability in terms of unseen shapes and visual appearance while greatly alleviating the multi-view inconsistency problem. Our method represents a new state-of-the-art performance with an 85+% consistency rate by human evaluation, while many previous methods are around 30%. Our project page is https://sweetdreamer3d.github.io/
翻訳日:2023-10-24 02:54:29 公開日:2023-10-20
# テキストから画像を生成するためのスワップサンプリング

Amazing Combinatorial Creation: Acceptable Swap-Sampling for Text-to-Image Generation ( http://arxiv.org/abs/2310.01819v2 )

ライセンス: Link先を確認
Jun Li, Zedong Zhang, Jian Yang(参考訳) 人間の創造性をエミュレートする、複数のテキスト記述から意味のある組合せオブジェクト画像を生成する機械学習システムを探索することは、人間が驚くべき組合せオブジェクトを構築することができるため、重要な課題である。 本稿では,異なるオブジェクトのテキスト概念を利用して,新奇さと驚きを示す合成対象画像を生成する,許容スワップサンプリングという,真正面かつ高効率な手法を開発する。 まず, 2 つのテキスト埋め込みのコラムベクトルを交換し, 最先端拡散モデルを用いて新たな組合せ画像を生成する, 新たな埋め込み機構を提案する。 さらに、新しい画像とオリジナルコンセプト世代間の適切なCLIP距離を管理し、高品質な組み合わせで新しい画像を受け入れる可能性を高めることにより、許容可能な領域を設計する。 この領域は、カラムベクトルをランダムに交換することで生成された新しいイメージプールから、小さなサブセットを効率的にサンプリングできる。 最後に、セグメント化手法を用いて、セグメント化コンポーネント間のCLIP距離を比較し、最終的にサンプリングされたサブセットから最も有望なオブジェクト画像を選択する。 実験では,imagenetのテキストペアに着目し,stable-diffusion2,dalle2,ernie-vilg2,bingといった最近の手法よりも,lionfish-abacusのような関連概念が目立たないような場合であっても,新規で驚くべきオブジェクト画像を生成する方法が優れていることを示す。 さらに, サンプリング過程において, トレーニングや人選好のないアプローチは, 人間の選好データセットを用いて訓練したPickScoreやHPSv2と同等である。

Exploring a machine learning system to generate meaningful combinatorial object images from multiple textual descriptions, emulating human creativity, is a significant challenge as humans are able to construct amazing combinatorial objects, but machines strive to emulate data distribution. In this paper, we develop a straight-forward yet highly effective technique called acceptable swap-sampling to generate a combinatorial object image that exhibits novelty and surprise, utilizing text concepts of different objects. Initially, we propose a swapping mechanism that constructs a novel embedding by exchanging column vectors of two text embeddings for generating a new combinatorial image through a cutting-edge diffusion model. Furthermore, we design an acceptable region by managing suitable CLIP distances between the new image and the original concept generations, increasing the likelihood of accepting the new image with a high-quality combination. This region allows us to efficiently sample a small subset from a new image pool generated by using randomly exchanging column vectors. Lastly, we employ a segmentation method to compare CLIP distances among the segmented components, ultimately selecting the most promising object image from the sampled subset. Our experiments focus on text pairs of objects from ImageNet, and our results demonstrate that our approach outperforms recent methods such as Stable-Diffusion2, DALLE2, ERNIE-ViLG2 and Bing in generating novel and surprising object images, even when the associated concepts appear to be implausible, such as lionfish-abacus. Moreover, during the sampling process, our approach without training and human preference is also comparable to PickScore and HPSv2 trained using human preference datasets.
翻訳日:2023-10-24 02:53:00 公開日:2023-10-20
# sterling: 制約のないロボット体験からの自己教師あり地形表現学習

STERLING: Self-Supervised Terrain Representation Learning from Unconstrained Robot Experience ( http://arxiv.org/abs/2309.15302v2 )

ライセンス: Link先を確認
Haresh Karnan, Elvin Yang, Daniel Farkash, Garrett Warnell, Joydeep Biswas, Peter Stone(参考訳) 地形認識、すなわち、異なる種類の地形を識別し識別する能力は、ロボットが自律的なオフロードナビゲーションで成功しなければならない重要な能力である。 この認識をロボットに提供する現在のアプローチは、収集に費用がかかるラベル付きデータ、一般化しないかもしれない機能やコスト関数、あるいは利用できないかもしれない人間のデモンストレーションに頼っている。 このような制約を伴わない地形認識型ロボットの実現に向けて,データ収集に制約を加えることなく,自由度・非拘束性・非拘束性にのみ依存する地形表現学習のための新たなアプローチである,自己教師型テレイン表現学習(STERling)を導入する。 STERlingは、地形認識ナビゲーションのための関連する地形表現を学習するために、非コントラスト表現学習を通じて、新しいマルチモーダルな自己超越目標を採用する。 オフロード環境における物理的ロボット実験を通じて,嗜好調整型視覚ナビゲーションの課題におけるスターリング特性を評価し,スターリング機能は完全な教師付きアプローチと同等の性能を持ち,嗜好調整に関して他の最先端手法を上回ることを見出した。 さらに,3マイルのトレイルを自律的にハイキングする大規模な実験を行い,STERlingは2つの手動介入で完遂し,現実世界のオフロード条件に対するロバスト性を実証した。

Terrain awareness, i.e., the ability to identify and distinguish different types of terrain, is a critical ability that robots must have to succeed at autonomous off-road navigation. Current approaches that provide robots with this awareness either rely on labeled data which is expensive to collect, engineered features and cost functions that may not generalize, or expert human demonstrations which may not be available. Towards endowing robots with terrain awareness without these limitations, we introduce Self-supervised TErrain Representation LearnING (STERLING), a novel approach for learning terrain representations that relies solely on easy-to-collect, unconstrained (e.g., non-expert), and unlabelled robot experience, with no additional constraints on data collection. STERLING employs a novel multi-modal self-supervision objective through non-contrastive representation learning to learn relevant terrain representations for terrain-aware navigation. Through physical robot experiments in off-road environments, we evaluate STERLING features on the task of preference-aligned visual navigation and find that STERLING features perform on par with fully supervised approaches and outperform other state-of-the-art methods with respect to preference alignment. Additionally, we perform a large-scale experiment of autonomously hiking a 3-mile long trail which STERLING completes successfully with only two manual interventions, demonstrating its robustness to real-world off-road conditions.
翻訳日:2023-10-24 02:51:54 公開日:2023-10-20
# 産業アプリケーションにおけるXAIのためのMLOpsアーキテクチャを目指して

Towards an MLOps Architecture for XAI in Industrial Applications ( http://arxiv.org/abs/2309.12756v2 )

ライセンス: Link先を確認
Leonhard Faubel, Thomas Woudsma, Leila Methnani, Amir Ghorbani Ghezeljhemeidan, Fabian Buelow, Klaus Schmid, Willem D. van Driel, Benjamin Kloepper, Andreas Theodorou, Mohsen Nosratinia, and Magnus B\r{a}ng(参考訳) 機械学習(ML)は、業務の改善、効率の向上、コスト削減を支援するため、産業分野で人気の高いツールとなっている。 しかし、本番環境におけるmlモデルのデプロイと管理は複雑である。 これが機械学習オペレーション(MLOps)の出番です。 MLOpsはこのデプロイメントと管理プロセスの合理化を目指している。 残りのMLOpsの課題のひとつは、説明の必要性だ。 これらの説明は、MLが理由をどうモデル化するかを理解するのに不可欠である。 エラーのより良い識別とモデルの精度の改善は、結果として生じる2つの利点にすぎない。 しばしば無視される事実は、デプロイされたモデルは、正確性、特に説明可能性がユーザの期待を満たさない場合に、実際にバイパスされる。 我々はMLOpsソフトウェアアーキテクチャを開発し、ML開発とデプロイメントプロセスに説明とフィードバック機能を統合するという課題に対処した。 プロジェクトEXPLAINでは、アーキテクチャを一連の産業ユースケースで実装しています。 提案されたmlopsソフトウェアアーキテクチャにはいくつかの利点がある。 プロダクション環境でMLモデルを効率的に管理する方法を提供する。 さらに、開発プロセスとデプロイメントプロセスに説明を統合することもできる。

Machine learning (ML) has become a popular tool in the industrial sector as it helps to improve operations, increase efficiency, and reduce costs. However, deploying and managing ML models in production environments can be complex. This is where Machine Learning Operations (MLOps) comes in. MLOps aims to streamline this deployment and management process. One of the remaining MLOps challenges is the need for explanations. These explanations are essential for understanding how ML models reason, which is key to trust and acceptance. Better identification of errors and improved model accuracy are only two resulting advantages. An often neglected fact is that deployed models are bypassed in practice when accuracy and especially explainability do not meet user expectations. We developed a novel MLOps software architecture to address the challenge of integrating explanations and feedback capabilities into the ML development and deployment processes. In the project EXPLAIN, our architecture is implemented in a series of industrial use cases. The proposed MLOps software architecture has several advantages. It provides an efficient way to manage ML models in production environments. Further, it allows for integrating explanations into the development and deployment processes.
翻訳日:2023-10-24 02:51:27 公開日:2023-10-20
# 適応型NLPモデル選択によるVTE識別の改善と専門的ルールに基づく分類法

Improving VTE Identification through Adaptive NLP Model Selection and Clinical Expert Rule-based Classifier from Radiology Reports ( http://arxiv.org/abs/2309.12273v2 )

ライセンス: Link先を確認
Jamie Deng, Yusen Wu, Hilary Hayssen, Brain Englum, Aman Kankaria, Minerva Mayorga-Carlin, Shalini Sahoo, John Sorkin, Brajesh Lal, Yelena Yesha, Phuong Nguyen(参考訳) 深部静脈血栓症 (DVT) や肺塞栓症 (PE) を含む重症心血管疾患である静脈血栓塞栓症 (VTE) の迅速かつ正確な診断が重要である。 放射線学報告における自然言語処理(NLP)を活用することで、自動化された手法は、振り返りデータコホートからVTEイベントを識別する、あるいは、放射線学レポートからVTEイベントを識別する臨床専門家を支援する、有望な進歩を示している。 しかし,医学テキストデータのラベル付けが限定されていること,放射線学報告の複雑さと不均一性,データ不均衡などにより,効果的にディープラーニング(DL)とNLPモデルを訓練することは困難である。 本研究では, DL法とデータ拡張, 適応型NLPモデル選択, 臨床専門家のNLPルールベース分類器を組み合わせることで, 非構造化(自由テキスト)ラジオグラフィーレポートにおけるVTE識別の精度を向上する手法を提案する。 実験の結果,DVT予測における精度97\%,F1スコア97\%,PE予測における精度98.3\%,F1スコア98.4\%が得られた。 これらの知見はモデルの頑健さとvte研究に大きく貢献する可能性を強調している。

Rapid and accurate identification of Venous thromboembolism (VTE), a severe cardiovascular condition including deep vein thrombosis (DVT) and pulmonary embolism (PE), is important for effective treatment. Leveraging Natural Language Processing (NLP) on radiology reports, automated methods have shown promising advancements in identifying VTE events from retrospective data cohorts or aiding clinical experts in identifying VTE events from radiology reports. However, effectively training Deep Learning (DL) and the NLP models is challenging due to limited labeled medical text data, the complexity and heterogeneity of radiology reports, and data imbalance. This study proposes novel method combinations of DL methods, along with data augmentation, adaptive pre-trained NLP model selection, and a clinical expert NLP rule-based classifier, to improve the accuracy of VTE identification in unstructured (free-text) radiology reports. Our experimental results demonstrate the model's efficacy, achieving an impressive 97\% accuracy and 97\% F1 score in predicting DVT, and an outstanding 98.3\% accuracy and 98.4\% F1 score in predicting PE. These findings emphasize the model's robustness and its potential to significantly contribute to VTE research.
翻訳日:2023-10-24 02:51:13 公開日:2023-10-20
# 等方的および近位探索によるきめ細かい会話復号

Fine-grained Conversational Decoding via Isotropic and Proximal Search ( http://arxiv.org/abs/2310.08130v2 )

ライセンス: Link先を確認
Yuxuan Yao, Han Wu, Qiling Xu, Linqi Song(参考訳) 汎用テキストデコード手法は通常対話応答生成に採用される。 対話固有の符号化法によって生成した応答の品質は向上するが、対話型復号法はまだ未検討である。 良好な対話的特徴空間は局所性と等方性の規則に従うべきだという \citet{wu2023learning} に触発されて、きめ細かな対話的復号法を \textit{isotropic and proximal search (ips)" と呼ぶ。 本手法は,文脈に対して情報性と識別性を維持しつつ,意味集中応答を生成するように設計されている。 実験により,提案手法は,自動評価指標と人間評価指標の両方において,対話分野における既存の復号戦略よりも優れていることが示された。 より詳細な分析は、このアプローチの有効性をさらに確認します。

General-purpose text decoding approaches are usually adopted for dialogue response generation. Although the quality of the generated responses can be improved with dialogue-specific encoding methods, conversational decoding methods are still under-explored. Inspired by \citet{wu2023learning} that a good dialogue feature space should follow the rules of locality and isotropy, we present a fine-grained conversational decoding method, termed \textit{isotropic and proximal search (IPS)}. Our method is designed to generate the semantic-concentrated response, while still maintaining informativeness and discrimination against the context. Experiments show that our approach outperforms existing decoding strategies in the dialogue field across both automatic and human evaluation metrics. More in-depth analyses further confirm the effectiveness of our approach.
翻訳日:2023-10-24 02:37:44 公開日:2023-10-20
# マルチモーダル電子健康記録の階層的事前学習

Hierarchical Pretraining on Multimodal Electronic Health Records ( http://arxiv.org/abs/2310.07871v2 )

ライセンス: Link先を確認
Xiaochen Wang, Junyu Luo, Jiaqi Wang, Ziyi Yin, Suhan Cui, Yuan Zhong, Yaqing Wang, Fenglong Ma(参考訳) プレトレーニングは自然言語処理(NLP)において強力な手法であることが証明され、様々なNLP下流タスクで顕著な成功を収めた。 しかし、医療分野では、電子健康記録(EHR)に関する既存の事前訓練モデルでは、EHRデータの階層的な性質を捉えることができず、単一の事前訓練モデルを使用して下流の様々なタスクにまたがる一般化能力を制限している。 そこで本研究では,階層的マルチモーダルEHRデータに特化して設計されたMEDHMPという,新規で汎用的で統一的な事前学習フレームワークを提案する。 提案したMEDHMPの有効性は,3つのレベルにまたがる8つの下流タスクの実験結果を通じて実証された。 18の基準との比較は、我々のアプローチの有効性をさらに強調する。

Pretraining has proven to be a powerful technique in natural language processing (NLP), exhibiting remarkable success in various NLP downstream tasks. However, in the medical domain, existing pretrained models on electronic health records (EHR) fail to capture the hierarchical nature of EHR data, limiting their generalization capability across diverse downstream tasks using a single pretrained model. To tackle this challenge, this paper introduces a novel, general, and unified pretraining framework called MEDHMP, specifically designed for hierarchically multimodal EHR data. The effectiveness of the proposed MEDHMP is demonstrated through experimental results on eight downstream tasks spanning three levels. Comparisons against eighteen baselines further highlight the efficacy of our approach.
翻訳日:2023-10-24 02:37:14 公開日:2023-10-20
# Well Begun is Half Done: Generator-Agnostic Knowledge Pre-Selection for Knowledge-Grounded Dialogue

Well Begun is Half Done: Generator-agnostic Knowledge Pre-Selection for Knowledge-Grounded Dialogue ( http://arxiv.org/abs/2310.07659v3 )

ライセンス: Link先を確認
Lang Qin, Yao Zhang, Hongru Liang, Jun Wang, Zhenglu Yang(参考訳) 正確な知識選択は知識接地対話システムにおいて不可欠である。 より深く見ていくために、私たちは既存の文学、すなわち知識の選択を、世代、後、前と組み合わせて組織化するための新しい視点を提供する。 本研究は,前もって知識を正確に選択できるだけでなく,後続の応答生成モデル,特にllmの学習,調整,解釈の負担を軽減することができる。 異なる知識構造と可変知識要求の中から文脈関連知識を選択することにより,後続の応答生成モデルに対する知識を作成できる,ジェネレータ非依存な知識選択手法であるgateを提案する。 実験の結果、GATEの優位性を示し、生成前の知識選択がLSM(例えばChatGPT)を促進し、より情報的な応答を生成するための軽量で効果的な方法であることを示す。

Accurate knowledge selection is critical in knowledge-grounded dialogue systems. Towards a closer look at it, we offer a novel perspective to organize existing literature, i.e., knowledge selection coupled with, after, and before generation. We focus on the third under-explored category of study, which can not only select knowledge accurately in advance, but has the advantage to reduce the learning, adjustment, and interpretation burden of subsequent response generation models, especially LLMs. We propose GATE, a generator-agnostic knowledge selection method, to prepare knowledge for subsequent response generation models by selecting context-related knowledge among different knowledge structures and variable knowledge requirements. Experimental results demonstrate the superiority of GATE, and indicate that knowledge selection before generation is a lightweight yet effective way to facilitate LLMs (e.g., ChatGPT) to generate more informative responses.
翻訳日:2023-10-24 02:37:00 公開日:2023-10-20
# 中国語のインストラクションチューニング大規模言語モデルに関する実証的研究

An Empirical Study of Instruction-tuning Large Language Models in Chinese ( http://arxiv.org/abs/2310.07328v2 )

ライセンス: Link先を確認
Qingyi Si, Tong Wang, Zheng Lin, Xu Zhang, Yanan Cao, Weiping Wang(参考訳) ChatGPTの成功は、人工知能(AGI)における大規模言語モデル(LLM)の可能性を検証する。 その後、LLMのリリースは、ChatGPTのレプリケーションプロセスを加速させると考えられる命令チューニングへのオープンソースコミュニティの関心を喚起した。 しかし、世界で最も多く話されている中国語の命令チューニングllmの研究はまだ初期段階にある。 そこで本論文では,中国語の命令学習 LLM について詳細な実証実験を行い,中国語の指示に応答し易い LLM を効果的にカスタマイズするための料理本として機能する。 具体的には,LLMベース,パラメータ効率のよい手法,命令データ型の影響を系統的に検討する。 また、連鎖データや人間価値アライメントなど、他の要因の影響を研究する実験も行なっている。 この実験的な研究が、中国版chatgptに控えめに貢献できることを願っている。 本稿では,ChatGLMに匹敵する強力な中国のLCMについて述べる。 コードとデータはhttps://github.com/phoebussi/alpaca-cotで入手できる。

The success of ChatGPT validates the potential of large language models (LLMs) in artificial general intelligence (AGI). Subsequently, the release of LLMs has sparked the open-source community's interest in instruction-tuning, which is deemed to accelerate ChatGPT's replication process. However, research on instruction-tuning LLMs in Chinese, the world's most spoken language, is still in its early stages. Therefore, this paper makes an in-depth empirical study of instruction-tuning LLMs in Chinese, which can serve as a cookbook that provides valuable findings for effectively customizing LLMs that can better respond to Chinese instructions. Specifically, we systematically explore the impact of LLM bases, parameter-efficient methods, instruction data types, which are the three most important elements for instruction-tuning. Besides, we also conduct experiment to study the impact of other factors, e.g., chain-of-thought data and human-value alignment. We hope that this empirical study can make a modest contribution to the open Chinese version of ChatGPT. This paper will release a powerful Chinese LLMs that is comparable to ChatGLM. The code and data are available at https://github.com/PhoebusSi/Alpaca-CoT.
翻訳日:2023-10-24 02:36:42 公開日:2023-10-20
# PICProp:不確実性量子化のための物理インフォームド信頼伝播

PICProp: Physics-Informed Confidence Propagation for Uncertainty Quantification ( http://arxiv.org/abs/2310.06923v2 )

ライセンス: Link先を確認
Qianli Shen, Wai Hoh Tang, Zhun Deng, Apostolos Psaros, Kenji Kawaguchi(参考訳) 深層学習における不確実性定量化の標準的アプローチは、永続的な限界を持っている。 例えば、データ可能性に関する強い仮定が必要であり、パフォーマンスは事前の選択に大きく依存しており、後方はおよそサンプリング可能であるため、関連する計算コストのために近似が不十分である。 本稿では、新しい問題として、決定論的偏微分方程式に対する信頼区間(CI)推定を導入する。 つまり、データロケーションからドメイン全体への信頼性を、確率的な保証を持って、CI形式で広めるのです。 そこで本研究では,bi-level optimization(bi-level optimization, bi-level optimization, bi-level optimization, bi-level optimization)に基づく物理不定信頼伝播(picprop, physics-informed confidence propagation)という手法を提案する。 本稿では,本手法の有効性に関する定理と,物理学的学習に焦点をあてた計算実験を提案する。

Standard approaches for uncertainty quantification in deep learning and physics-informed learning have persistent limitations. Indicatively, strong assumptions regarding the data likelihood are required, the performance highly depends on the selection of priors, and the posterior can be sampled only approximately, which leads to poor approximations because of the associated computational cost. This paper introduces and studies confidence interval (CI) estimation for deterministic partial differential equations as a novel problem. That is, to propagate confidence, in the form of CIs, from data locations to the entire domain with probabilistic guarantees. We propose a method, termed Physics-Informed Confidence Propagation (PICProp), based on bi-level optimization to compute a valid CI without making heavy assumptions. We provide a theorem regarding the validity of our method, and computational experiments, where the focus is on physics-informed learning.
翻訳日:2023-10-24 02:36:23 公開日:2023-10-20
# SEER : In-Context HybridQAにおける経験的選択のためのKnapsackアプローチ

SEER : A Knapsack approach to Exemplar Selection for In-Context HybridQA ( http://arxiv.org/abs/2310.06675v2 )

ライセンス: Link先を確認
Jonathan Tonglet, Manon Reusens, Philipp Borchert, Bart Baesens(参考訳) ハイブリッドコンテキストに対する質問応答は複雑なタスクであり、構造化されていないテキストから抽出された情報と構造化されたテーブルを組み合わせる必要がある。 最近、In-Context Learningは推論タスクの大幅なパフォーマンス向上を示した。 このパラダイムでは、大きな言語モデルは、少数のサポート例に基づいて予測を実行する。 In-Context Learningのパフォーマンスは、特にHybridQAの場合において、推論チェーンの多様性とハイブリッドコンテキストの大規模化を考慮し、支援対象者の選択手順に大きく依存する。 本稿では,代表的かつ多様である例題の組を選択する新しい方法であるハイブリッド推論(seer)のための例題の選定について述べる。 SEER の重要な特徴は、Knapsack Integer Linear Program として典型的な選択を定式化することである。 Knapsackフレームワークは、望ましい属性を優先する多様性制約と、提供されたキャパシティ予算を即時サイズで尊重することを保証するキャパシティ制約を組み込む柔軟性を提供する。 seerの有効性は、hybridqaの2つの実世界のベンチマークであるfinqaとtat-qaで実証されている。

Question answering over hybrid contexts is a complex task, which requires the combination of information extracted from unstructured texts and structured tables in various ways. Recently, In-Context Learning demonstrated significant performance advances for reasoning tasks. In this paradigm, a large language model performs predictions based on a small set of supporting exemplars. The performance of In-Context Learning depends heavily on the selection procedure of the supporting exemplars, particularly in the case of HybridQA, where considering the diversity of reasoning chains and the large size of the hybrid contexts becomes crucial. In this work, we present Selection of ExEmplars for hybrid Reasoning (SEER), a novel method for selecting a set of exemplars that is both representative and diverse. The key novelty of SEER is that it formulates exemplar selection as a Knapsack Integer Linear Program. The Knapsack framework provides the flexibility to incorporate diversity constraints that prioritize exemplars with desirable attributes, and capacity constraints that ensure that the prompt size respects the provided capacity budgets. The effectiveness of SEER is demonstrated on FinQA and TAT-QA, two real-world benchmarks for HybridQA, where it outperforms previous exemplar selection methods.
翻訳日:2023-10-24 02:36:08 公開日:2023-10-20
# LSTDとランダム特徴を用いた強化学習における二重明度について

On Double Descent in Reinforcement Learning with LSTD and Random Features ( http://arxiv.org/abs/2310.05518v2 )

ライセンス: Link先を確認
David Brellmann, Elo\"ise Berthier, David Filliat and Goran Frehse(参考訳) 時間差分法(TD)アルゴリズムは深層強化学習(RL)において広く用いられている。 その性能はニューラルネットワークのサイズに大きく影響されている。 教師付き学習では、過度パラメータ化の体制とその利点はよく理解されているが、RLの状況は明らかになっていない。 本稿では,ネットワークサイズと$l_2$-regularizationが性能に与える影響を理論的に分析する。 パラメータ数と訪問状態数との比率を重要な要因として同定し,1以上の場合の過剰パラメータ化をレジームとして定義する。 さらに,二重降下現象,すなわち1のパラメータ/状態比付近で突然性能が低下する現象を観測した。 ランダムな特徴と遅延学習体制を生かし、パラメータ数と状態が無限に近づき、一定比を維持するため、漸近的条件下でのLSTD(Last-Square Temporal difference)アルゴリズムについて検討する。 経験的および真の平均二乗ベルマン誤差 (MSBE) の定式化限界を導出し, 二重発色の原因となる補正項を特徴付ける。 補正項は、$l_2$-レギュライゼーションが増加したり、見返りのない状態がゼロになったときに消滅する。 合成環境と小さな実環境における数値実験は、理論的な予測と密接に一致する。

Temporal Difference (TD) algorithms are widely used in Deep Reinforcement Learning (RL). Their performance is heavily influenced by the size of the neural network. While in supervised learning, the regime of over-parameterization and its benefits are well understood, the situation in RL is much less clear. In this paper, we present a theoretical analysis of the influence of network size and $l_2$-regularization on performance. We identify the ratio between the number of parameters and the number of visited states as a crucial factor and define over-parameterization as the regime when it is larger than one. Furthermore, we observe a double descent phenomenon, i.e., a sudden drop in performance around the parameter/state ratio of one. Leveraging random features and the lazy training regime, we study the regularized Least-Square Temporal Difference (LSTD) algorithm in an asymptotic regime, as both the number of parameters and states go to infinity, maintaining a constant ratio. We derive deterministic limits of both the empirical and the true Mean-Square Bellman Error (MSBE) that feature correction terms responsible for the double-descent. Correction terms vanish when the $l_2$-regularization is increased or the number of unvisited states goes to zero. Numerical experiments with synthetic and small real-world environments closely match the theoretical predictions.
翻訳日:2023-10-24 02:35:47 公開日:2023-10-20
# 大規模言語モデルを用いた知識付き推論による説明可能なクレーム検証

Explainable Claim Verification via Knowledge-Grounded Reasoning with Large Language Models ( http://arxiv.org/abs/2310.05253v2 )

ライセンス: Link先を確認
Haoran Wang, Kai Shu(参考訳) クレーム検証は誤報と戦う上で重要な役割を果たす。 クレーム検証に関する既存の研究は有望な結果を示しているが、未解決のままのパズルの重要なピースは、大規模な作成に費用がかかる人手によるデータに頼ることなくクレームを検証する方法を理解することである。 さらに、モデルが決定を正当化し、人間のファクトチェックを支援する包括的な説明を提供することも重要である。 本稿では,Large Language Models (LLMs) を用いた注釈付きエビデンスを必要とせず,複雑なクレームを検証し,説明を生成できる一階述語論理型知識収集(FOLK)推論を提案する。 FOLKは、LLMの文脈内学習能力を活用して、検証が必要なサブステートメントに対応する述語からなる一階述語論理(FOL)節に変換する。 次に、FOLKは、知識に基づく質問と回答のペアのセットに対してFOL-Guided推論を行い、正確性予測を行い、その意思決定プロセスを正当化するための説明を生成する。 このプロセスは我々のモデルを非常に説明しやすくし、その推論過程を人間の読みやすい形で明確に説明する。 実験の結果,FOLKは,様々なクレーム検証課題を含む3つのデータセットに対して高いベースラインを達成できた。 私たちのコードとデータは利用可能です。

Claim verification plays a crucial role in combating misinformation. While existing works on claim verification have shown promising results, a crucial piece of the puzzle that remains unsolved is to understand how to verify claims without relying on human-annotated data, which is expensive to create at a large scale. Additionally, it is important for models to provide comprehensive explanations that can justify their decisions and assist human fact-checkers. This paper presents First-Order-Logic-Guided Knowledge-Grounded (FOLK) Reasoning that can verify complex claims and generate explanations without the need for annotated evidence using Large Language Models (LLMs). FOLK leverages the in-context learning ability of LLMs to translate the claim into a First-Order-Logic (FOL) clause consisting of predicates, each corresponding to a sub-claim that needs to be verified. Then, FOLK performs FOL-Guided reasoning over a set of knowledge-grounded question-and-answer pairs to make veracity predictions and generate explanations to justify its decision-making process. This process makes our model highly explanatory, providing clear explanations of its reasoning process in human-readable form. Our experiment results indicate that FOLK outperforms strong baselines on three datasets encompassing various claim verification challenges. Our code and data are available.
翻訳日:2023-10-24 02:35:25 公開日:2023-10-20
# 物理を意識した機械学習は、機械学習とプロセスベースの水文学のための科学パラダイムに革命をもたらす

Physics-aware Machine Learning Revolutionizes Scientific Paradigm for Machine Learning and Process-based Hydrology ( http://arxiv.org/abs/2310.05227v2 )

ライセンス: Link先を確認
Qingsong Xu, Yilei Shi, Jonathan Bamber, Ye Tuo, Ralf Ludwig, Xiao Xiang Zhu(参考訳) 正確な水文理解と水循環予測は、特に人為的気候変動のダイナミックな影響の下で、水資源の管理に関わる科学的および社会的な課題に対処するために重要である。 既存のレビューは、この分野における機械学習(ML)の開発に重点を置いているが、異なるパラダイムとして、水文学とMLを明確に区別している。 本稿では,この障壁を克服し,両分野に革命を起こすための転換的アプローチとして,物理認識mlを導入する。 具体的には,先行物理知識や物理ベースモデリングをmlに統合した既存の方法論の構造化コミュニティ(paml)を構築することで,物理対応ml手法の包括的レビューを行う。 これらのpaml方法論を,物理データ誘導ml,物理インフォームml,物理埋め込みml,物理アウェアハイブリッド学習の4つの側面から体系的に解析した。 PaMLはML支援仮説を促進し、ビッグデータからの洞察を加速し、科学的発見を促進する。 まず,降雨流出水文過程や水力学過程を含む,pamlにおける水文学の系統的考察を行い,異なる目的やpaml手法に対する最も有望で挑戦的な方向性を強調する。 最後に、新しいPaMLベースの水文学プラットフォームであるHydroPMLが、水学応用の基礎としてリリースされた。 HydroPMLはMLの説明可能性と因果性を高め、デジタル水循環の実現の基礎となる。 HydroPMLプラットフォームはhttps://hydropml.github.io/で公開されている。

Accurate hydrological understanding and water cycle prediction are crucial for addressing scientific and societal challenges associated with the management of water resources, particularly under the dynamic influence of anthropogenic climate change. Existing reviews predominantly concentrate on the development of machine learning (ML) in this field, yet there is a clear distinction between hydrology and ML as separate paradigms. Here, we introduce physics-aware ML as a transformative approach to overcome the perceived barrier and revolutionize both fields. Specifically, we present a comprehensive review of the physics-aware ML methods, building a structured community (PaML) of existing methodologies that integrate prior physical knowledge or physics-based modeling into ML. We systematically analyze these PaML methodologies with respect to four aspects: physical data-guided ML, physics-informed ML, physics-embedded ML, and physics-aware hybrid learning. PaML facilitates ML-aided hypotheses, accelerating insights from big data and fostering scientific discoveries. We first conduct a systematic review of hydrology in PaML, including rainfall-runoff hydrological processes and hydrodynamic processes, and highlight the most promising and challenging directions for different objectives and PaML methods. Finally, a new PaML-based hydrology platform, termed HydroPML, is released as a foundation for hydrological applications. HydroPML enhances the explainability and causality of ML and lays the groundwork for the digital water cycle's realization. The HydroPML platform is publicly available at https://hydropml.github.io/.
翻訳日:2023-10-24 02:34:58 公開日:2023-10-20
# 時系列と時空間データのための大規模モデル:調査と展望

Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook ( http://arxiv.org/abs/2310.10196v2 )

ライセンス: Link先を確認
Ming Jin, Qingsong Wen, Yuxuan Liang, Chaoli Zhang, Siqiao Xue, Xue Wang, James Zhang, Yi Wang, Haifeng Chen, Xiaoli Li, Shirui Pan, Vincent S. Tseng, Yu Zheng, Lei Chen, Hui Xiong(参考訳) 時系列データ(特に時系列データと時空間データ)は現実世界で広く使われている。 動的システムの測定をキャプチャし、物理センサーと仮想センサーの両方で大量に生成される。 これらのデータ型を分析することは、それらが含む豊富な情報を活用する上で不可欠である。 大規模言語やその他の基礎モデルの最近の進歩は、時系列や時空間データマイニングにおけるこれらのモデルの利用を加速させてきた。 このような手法は、パターン認識の強化と様々な領域にわたる推論を可能にするだけでなく、一般的な時間データの理解と処理が可能な人工知能の基礎となる。 本研究では,時系列データと時空間データに対応する大規模モデルについて,データ型,モデルカテゴリ,モデルスコープ,アプリケーション領域/タスクという4つの重要なファセットにまたがる包括的かつ最新のレビューを行う。 我々の目的は、この未調査領域における応用とさらなる研究の知識を実践者に与えることである。 本稿では,既存の文献を時系列解析のための大規模モデル (LM4TS) と時空間データマイニング (LM4STD) の2つの主要なクラスタに分類する。 そこで本研究では、モデルスコープ(一般対ドメイン固有)とアプリケーション領域/タスクに基づく研究をさらに分類する。 また、主要なアプリケーションによって分類されたデータセット、モデル資産、有用なツールを含む、関連するリソースの包括的なコレクションも提供します。 この調査は、時系列と時空間データに関する大規模なモデル中心の研究において、基盤、現在の進歩、実践的応用、豊富な資源、そして将来の研究機会を浮き彫りにしている。

Temporal data, notably time series and spatio-temporal data, are prevalent in real-world applications. They capture dynamic system measurements and are produced in vast quantities by both physical and virtual sensors. Analyzing these data types is vital to harnessing the rich information they encompass and thus benefits a wide range of downstream tasks. Recent advances in large language and other foundational models have spurred increased use of these models in time series and spatio-temporal data mining. Such methodologies not only enable enhanced pattern recognition and reasoning across diverse domains but also lay the groundwork for artificial general intelligence capable of comprehending and processing common temporal data. In this survey, we offer a comprehensive and up-to-date review of large models tailored (or adapted) for time series and spatio-temporal data, spanning four key facets: data types, model categories, model scopes, and application areas/tasks. Our objective is to equip practitioners with the knowledge to develop applications and further research in this underexplored domain. We primarily categorize the existing literature into two major clusters: large models for time series analysis (LM4TS) and spatio-temporal data mining (LM4STD). On this basis, we further classify research based on model scopes (i.e., general vs. domain-specific) and application areas/tasks. We also provide a comprehensive collection of pertinent resources, including datasets, model assets, and useful tools, categorized by mainstream applications. This survey coalesces the latest strides in large model-centric research on time series and spatio-temporal data, underscoring the solid foundations, current advances, practical applications, abundant resources, and future research opportunities.
翻訳日:2023-10-24 02:30:48 公開日:2023-10-20
# アグリゲーションによるラベル差分プライバシー

Label Differential Privacy via Aggregation ( http://arxiv.org/abs/2310.10092v2 )

ライセンス: Link先を確認
Anand Brahmbhatt, Rishi Saket, Shreyas Havaldar, Anshul Nasery and Aravindan Raghuveer(参考訳) 多くの現実世界のアプリケーション、特に最近のプライバシーの状況の進展により、センシティブなトレーニングラベルのプライバシーを維持するためにトレーニングデータを集約することができる。 ラベルパーセンテージ(LLP)フレームワークからの学習では、データセットは機能ベクタのバッグに分割され、バッグごとのラベルの合計でのみ利用できる。 バッグアグリゲーション(LBA)から学習するさらなる制限は、個々の特徴ベクトルの代わりに、バッグ毎の特徴ベクトルの(おそらく重み付けされた)和のみが利用できることである。 本研究では,ラベル差分プライバシー(ラベルDP)という概念の下で,そのようなアグリゲーション技術が,例えば[Chaudhuri-Hsu'11, Ghazi et al.'21, Esfandiari et al.'22]で研究されているように,プライバシー保証を提供できるかどうかを検討する。 ナイーブな LBA と LLP はラベルDP を提供していないことが容易に分かる。 しかし, この結果から, iid Gaussian 重み付き LBA を$m$で無作為にサンプリングした $k$ サイズのバッグは, 実際に$(\varepsilon, \delta)$-label-DP for any $\varepsilon > 0$ with $\delta \approx \exp(-\Omega(\sqrt{k})$ で, 線形mse回帰損失の低い境界を仮定する。 さらに、これは有界ノルムの線型mse-回帰子上の最適値が、$(1 \pm o(1))$-factor w.p.$\approx 1 - \exp(-\Omega(m))$ の範囲内で保持される。 付加的なラベルノイズは不要であることを強調する。 類似の重み付きLLPは、ラベルDPを認めない。 それにもかかわらず、もし付加的な$N(0, 1)$ノイズがインスタンスラベルの任意の定数に付加できるなら、ノイズ重み付きLLPは、Lipschitz-bounded neural mse-regressionタスクの有効性を保ちながら、データセットに仮定せずに同様のラベル-DPを保証する。 我々の研究は、回帰タスクに対するランダムに重み付けされたアグリゲーションによってラベルDPが達成できることを示す最初のものである。

In many real-world applications, in particular due to recent developments in the privacy landscape, training data may be aggregated to preserve the privacy of sensitive training labels. In the learning from label proportions (LLP) framework, the dataset is partitioned into bags of feature-vectors which are available only with the sum of the labels per bag. A further restriction, which we call learning from bag aggregates (LBA) is where instead of individual feature-vectors, only the (possibly weighted) sum of the feature-vectors per bag is available. We study whether such aggregation techniques can provide privacy guarantees under the notion of label differential privacy (label-DP) previously studied in for e.g. [Chaudhuri-Hsu'11, Ghazi et al.'21, Esfandiari et al.'22]. It is easily seen that naive LBA and LLP do not provide label-DP. Our main result however, shows that weighted LBA using iid Gaussian weights with $m$ randomly sampled disjoint $k$-sized bags is in fact $(\varepsilon, \delta)$-label-DP for any $\varepsilon > 0$ with $\delta \approx \exp(-\Omega(\sqrt{k}))$ assuming a lower bound on the linear-mse regression loss. Further, this preserves the optimum over linear mse-regressors of bounded norm to within $(1 \pm o(1))$-factor w.p. $\approx 1 - \exp(-\Omega(m))$. We emphasize that no additive label noise is required. The analogous weighted-LLP does not however admit label-DP. Nevertheless, we show that if additive $N(0, 1)$ noise can be added to any constant fraction of the instance labels, then the noisy weighted-LLP admits similar label-DP guarantees without assumptions on the dataset, while preserving the utility of Lipschitz-bounded neural mse-regression tasks. Our work is the first to demonstrate that label-DP can be achieved by randomly weighted aggregation for regression tasks, using no or little additive noise.
翻訳日:2023-10-24 02:30:19 公開日:2023-10-20
# 動的モジュール展開と適応による生涯シーケンス生成

Lifelong Sequence Generation with Dynamic Module Expansion and Adaptation ( http://arxiv.org/abs/2310.09886v2 )

ライセンス: Link先を確認
Chengwei Qin, Chen Chen, Shafiq Joty(参考訳) 連続学習の課題である生涯シーケンス生成(LSG)は、連続的なタスクのシーケンス上でモデルを継続的に訓練し、過去の知識の忘れを回避しつつ、常に新しい世代パターンを学習することを目的としている。 既存のLSG手法は主に、タスク間の知識伝達にほとんど注意を払わずに、古い知識を維持することに焦点を当てている。 対照的に、人間は以前に獲得した類似のタスクからの知識を活用することで、新しいタスクをよりよく学べる。 ヒトの学習パラダイムにインスパイアされた動的モジュール拡張・適応(DMEA)を提案し,タスク相関に基づく新しい知識獲得のためのアーキテクチャを動的に決定し,最も類似したタスクを選択し,新しいタスクへの適応を容易にする。 さらに,学習プロセスが現在のタスクに偏りやすく,学習前の知識をより厳しく忘れてしまう可能性があることから,現在のタスクと再生タスクの学習のバランスをとるために,動的勾配スケーリングを提案する。 大規模な実験により、DMEAはLSG設定の異なる既存手法より一貫して優れていることを示す。

Lifelong sequence generation (LSG), a problem in continual learning, aims to continually train a model on a sequence of generation tasks to learn constantly emerging new generation patterns while avoiding the forgetting of previous knowledge. Existing LSG methods mainly focus on maintaining old knowledge while paying little attention to knowledge transfer across tasks. In contrast, humans can better learn new tasks by leveraging previously acquired knowledge from similar tasks. Inspired by the learning paradigm of humans, we propose Dynamic Module Expansion and Adaptation (DMEA), which enables the model to dynamically determine the architecture for acquiring new knowledge based on task correlation and select the most similar previous tasks to facilitate adaptation to new tasks. In addition, as the learning process can easily be biased towards the current task which might cause more severe forgetting of previously learned knowledge, we propose dynamic gradient scaling to balance the learning of the current task and replayed tasks. With extensive experiments, we demonstrate that DMEA can consistently outperform existing methods in different LSG settings.
翻訳日:2023-10-24 02:29:21 公開日:2023-10-20
# JM3DとJM3D-LLM:ジョイントマルチモーダルキューによる3次元表現の向上

JM3D & JM3D-LLM: Elevating 3D Representation with Joint Multi-modal Cues ( http://arxiv.org/abs/2310.09503v2 )

ライセンス: Link先を確認
Jiayi Ji, Haowei Wang, Changli Wu, Yiwei Ma, Xiaoshuai Sun, Rongrong Ji(参考訳) コンピュータビジョン、自動運転、ロボット工学において重要な3d表現学習の重要性が高まっていることは明らかだ。 しかし,2次元のアライメント戦略を3次元領域へ直接移行する傾向は,(1)情報劣化:これは単に1次元の2次元画像と一般的なテキストとのアライメントから生じるものであり,マルチビュー画像や詳細なサブカテゴリテキストの必要性を無視している。 2) 不十分なシナジー: これらの戦略は3次元モデル全体の最適化を妨げ、画像とテキストの特徴を個別に3次元表現に整合させる。 3) 活用不足: 学習表現に内在する細かな情報は、しばしば十分に活用されず、詳細が失われる可能性がある。 これらの問題に対処するために、ポイントクラウド、テキスト、イメージを統合する包括的なアプローチであるJM3Dを紹介します。 SMO(Structured Multimodal Organizer)、複数のビューと階層的なテキストによる視覚言語表現の充実、および言語理解と視覚表現を組み合わせたJMA(Joint Multi-modal Alignment)などである。 我々の高度なモデルであるJM3D-LLMは、効率的な微調整により、大規模言語モデルと3D表現を結合する。 ModelNet40とScanObjectNNの評価はJM3Dの優位性を確立する。 JM3D-LLMの優れた性能は、表現伝達手法の有効性をさらに強調する。 私たちのコードとモデルはhttps://github.com/mr-neko/jm3dで利用可能です。

The rising importance of 3D representation learning, pivotal in computer vision, autonomous driving, and robotics, is evident. However, a prevailing trend, which straightforwardly resorted to transferring 2D alignment strategies to the 3D domain, encounters three distinct challenges: (1) Information Degradation: This arises from the alignment of 3D data with mere single-view 2D images and generic texts, neglecting the need for multi-view images and detailed subcategory texts. (2) Insufficient Synergy: These strategies align 3D representations to image and text features individually, hampering the overall optimization for 3D models. (3) Underutilization: The fine-grained information inherent in the learned representations is often not fully exploited, indicating a potential loss in detail. To address these issues, we introduce JM3D, a comprehensive approach integrating point cloud, text, and image. Key contributions include the Structured Multimodal Organizer (SMO), enriching vision-language representation with multiple views and hierarchical text, and the Joint Multi-modal Alignment (JMA), combining language understanding with visual representation. Our advanced model, JM3D-LLM, marries 3D representation with large language models via efficient fine-tuning. Evaluations on ModelNet40 and ScanObjectNN establish JM3D's superiority. The superior performance of JM3D-LLM further underscores the effectiveness of our representation transfer approach. Our code and models are available at https://github.com/Mr-Neko/JM3D.
翻訳日:2023-10-24 02:28:48 公開日:2023-10-20
# HierarchicalContrast: クロスドメインゼロショットスロット充足のための粗大な相互比較学習フレームワーク

HierarchicalContrast: A Coarse-to-Fine Contrastive Learning Framework for Cross-Domain Zero-Shot Slot Filling ( http://arxiv.org/abs/2310.09135v2 )

ライセンス: Link先を確認
Junwen Zhang and Yin Zhang(参考訳) タスク指向の対話シナリオでは、アノテートされたデータが利用できない未知のターゲットドメインにおいて、ソースドメイン知識を活用する上で、クロスドメインゼロショットスロットフィリングが重要な役割を果たす。 しかし、既存のゼロショットスロットフィリング手法はターゲット領域での一般化能力が限られており、参照スロット上では効果的な知識伝達しか示さず、未確認スロットでは性能が悪い。 そこで本研究では,ゼロショットスロット充填のための階層型コントラスト学習フレームワーク(hicl)を提案する。 具体的には,ガウス分布埋め込みに基づく粗粒度コントラスト学習を提案し,声道間および声道内分布距離を最適化することにより,発話音間の一般化した深い意味関係を学習する。 これにより、HiCLはトレーニング段階で見えないスロットタイプに一般化する。 さらに,前回のゼロショットスロット充填評価法において,対応するスロットタイプ(つまりスロットタイプ)と絡み合った未検出スロット型の性能を偏りなく別々に評価する,新しい反復ラベルセット意味論推定法を提案する。 4つのデータセットに対する広範な実験実験により、提案手法は現在の最先端ゼロショットスロットフィリング手法と同等あるいはそれ以上の性能を達成することを示した。

In task-oriented dialogue scenarios, cross-domain zero-shot slot filling plays a vital role in leveraging source domain knowledge to learn a model with high generalization ability in unknown target domain where annotated data is unavailable. However, the existing state-of-the-art zero-shot slot filling methods have limited generalization ability in target domain, they only show effective knowledge transfer on seen slots and perform poorly on unseen slots. To alleviate this issue, we present a novel Hierarchical Contrastive Learning Framework (HiCL) for zero-shot slot filling. Specifically, we propose a coarse- to fine-grained contrastive learning based on Gaussian-distributed embedding to learn the generalized deep semantic relations between utterance-tokens, by optimizing inter- and intra-token distribution distance. This encourages HiCL to generalize to the slot types unseen at training phase. Furthermore, we present a new iterative label set semantics inference method to unbiasedly and separately evaluate the performance of unseen slot types which entangled with their counterparts (i.e., seen slot types) in the previous zero-shot slot filling evaluation methods. The extensive empirical experiments on four datasets demonstrate that the proposed method achieves comparable or even better performance than the current state-of-the-art zero-shot slot filling approaches.
翻訳日:2023-10-24 02:27:56 公開日:2023-10-20
# DevSecOpsにおけるIEC 62443-4-2要件の質的検証

Qualitative Analysis for Validating IEC 62443-4-2 Requirements in DevSecOps ( http://arxiv.org/abs/2310.08996v2 )

ライセンス: Link先を確認
Christian G\"ottel, Ma\"elle Kabir-Querrec, David Kozhaya, Thanikesavan Sivanthi, Ognjen Vukovi\'c(参考訳) 産業オートメーションと制御システムのサイバーセキュリティ標準に準拠した検証は、市場投入時間を遅らせるコストと時間を要するプロセスである。 したがって、製品の継続的インテグレーション/継続的デリバリパイプラインに適合性検証ステージを導入することが重要です。 しかしながら、そのような適合性検証を自動で設計することは、専門家の知識を必要とし、利用可能なセキュリティツール、DevOpsパイプラインへの統合の容易性、ITとOTインターフェースとプロトコルのサポートに依存する、非常に簡単な作業である。 本稿では、ISA/IEC 62443-4-2の標準コンポーネント要件の自動検証に焦点をあてる。 我々は、検証を行うための標準要件と現在のツーリングの展望を広範囲に定性的に分析する。 我々の分析は、現在利用可能なツールによって確立されたカバレッジを示し、完全な自動化とカバレッジを達成するための現在のギャップを浮き彫りにする。 さらに、CI/CDパイプラインの段階でテストすることが推奨されるすべてのコンポーネント要件と、それを行うツールを紹介します。

Validation of conformance to cybersecurity standards for industrial automation and control systems is an expensive and time consuming process which can delay the time to market. It is therefore crucial to introduce conformance validation stages into the continuous integration/continuous delivery pipeline of products. However, designing such conformance validation in an automated fashion is a highly non-trivial task that requires expert knowledge and depends upon the available security tools, ease of integration into the DevOps pipeline, as well as support for IT and OT interfaces and protocols. This paper addresses the aforementioned problem focusing on the automated validation of ISA/IEC 62443-4-2 standard component requirements. We present an extensive qualitative analysis of the standard requirements and the current tooling landscape to perform validation. Our analysis demonstrates the coverage established by the currently available tools and sheds light on current gaps to achieve full automation and coverage. Furthermore, we showcase for every component requirement where in the CI/CD pipeline stage it is recommended to test it and the tools to do so.
翻訳日:2023-10-24 02:27:31 公開日:2023-10-20
# エンドツーエンドタスク指向対話システムのための検索・生成アライメント

Retrieval-Generation Alignment for End-to-End Task-Oriented Dialogue System ( http://arxiv.org/abs/2310.08877v2 )

ライセンス: Link先を確認
Weizhou Shen, Yingqi Gao, Canbin Huang, Fanqi Wan, Xiaojun Quan, Wei Bi(参考訳) タスク指向対話システムにおいて,大規模知識ベース(kb)から知識を取り出す効率的な検索器の開発は,局所的および専門的なタスクを効果的に処理するために重要である。 しかし、T5やChatGPTのような広く使われている生成モデルは、応答を生成する際に取得したKBレコード間の微妙な差異を区別するのに苦労することが多く、結果として生成した応答の最適下品質が生じる。 本稿では,応答生成からの信号を監督に利用し,知覚的レトリバーを訓練するための最大限界確率の応用を提案する。 さらに,本手法は,検索対象のみを考慮し,様々なメタ知識を取り入れて生成元を誘導し,知識の利用性を向上させる。 バックボーンモデルとしてt5とchatgptを用いた3つのタスク指向対話データセットに対するアプローチを評価した。 その結果, 応答生成装置は, メタ知識と組み合わせることで, 検索者からの高品質な知識記録を効果的に活用し, 生成した応答の質を高めることができることがわかった。 本論文のコードとモデルは、https://github.com/shenwzh3/mk-todで利用可能である。

Developing an efficient retriever to retrieve knowledge from a large-scale knowledge base (KB) is critical for task-oriented dialogue systems to effectively handle localized and specialized tasks. However, widely used generative models such as T5 and ChatGPT often struggle to differentiate subtle differences among the retrieved KB records when generating responses, resulting in suboptimal quality of generated responses. In this paper, we propose the application of maximal marginal likelihood to train a perceptive retriever by utilizing signals from response generation for supervision. In addition, our approach goes beyond considering solely retrieved entities and incorporates various meta knowledge to guide the generator, thus improving the utilization of knowledge. We evaluate our approach on three task-oriented dialogue datasets using T5 and ChatGPT as the backbone models. The results demonstrate that when combined with meta knowledge, the response generator can effectively leverage high-quality knowledge records from the retriever and enhance the quality of generated responses. The codes and models of this paper are available at https://github.com/shenwzh3/MK-TOD.
翻訳日:2023-10-24 02:26:56 公開日:2023-10-20
# 任意に小さい非局所性からの非有界デバイス非依存量子鍵レート

Unbounded device-independent quantum key rates from arbitrarily small non-locality ( http://arxiv.org/abs/2310.08635v3 )

ライセンス: Link先を確認
M\'at\'e Farkas(参考訳) デバイス非依存の量子キー分散は、潜在的に信頼できない2つのデバイス間で共有暗号キーのセキュリティを証明することができる。 セキュリティ証明はベル実験の測定結果統計(相関)に基づいており、セキュリティは量子理論の法則によって保証されている。 観測された相関はセキュリティを証明するためにベル非局所でなければならないことが知られているが、最近の結果はベル非局所性は一般に標準のデバイス非依存量子鍵分布には不十分であることを示している。 本研究では,デバイス非依存の量子鍵分布に十分である非局所性量に対する低い境界は存在しないことを示す。 さらに、任意に小さな非局所性を示す特定の相関から、非有界なデバイス非依存鍵レートを抽出できることを示す。 したがって、デバイス非依存の鍵レートとベル非局所性の間の定量的な関係は一般には引けない。 本手法は,最近発見されたベル不等式群に適用された,自己検査とデバイス非依存の量子鍵分布の厳密な接続から構成する。

Device-independent quantum key distribution allows for proving the security of a shared cryptographic key between two distant parties with potentially untrusted devices. The security proof is based on the measurement outcome statistics (correlation) of a Bell experiment, and security is guaranteed by the laws of quantum theory. While it is known that the observed correlation must be Bell non-local in order to prove security, recent results show that Bell non-locality is in general not sufficient for standard device-independent quantum key distribution. In this work, we show that conversely, there is no lower bound on the amount of non-locality that is sufficient for device-independent quantum key distribution. Even more so, we show that from certain correlations that exhibit arbitrarily small non-locality, one can still extract unbounded device-independent key rates. Therefore, a quantitative relation between device-independent key rates and Bell non-locality cannot be drawn in general. Our main technique comprises a rigorous connection between self-testing and device-independent quantum key distribution, applied to a recently discovered family of Bell inequalities with arbitrarily many measurement outcomes.
翻訳日:2023-10-24 02:26:18 公開日:2023-10-20
# 指導追従のより良い評価に向けて:要約の事例研究

Towards Better Evaluation of Instruction-Following: A Case-Study in Summarization ( http://arxiv.org/abs/2310.08394v2 )

ライセンス: Link先を確認
Ondrej Skopek, Rahul Aralikatte, Sian Gooding, Victor Carbune(参考訳) 最近の進歩にもかかわらず、大きな言語モデル(LLM)がいかにユーザ命令に従うかを評価することは未解決の問題である。 言語モデルの評価手法は、プロンプトベースアプローチが増加傾向にあるが、これらの手法の正確性に関する作業は限られている。 本研究では,LLMの指示追従能力の計測精度を定量化するために,様々な指標のメタ評価を行う。 本研究は,3つの回答を持つ300の文書命令対を含む,新しい短文実世界のデータセットriSumを収集し,検索に基づく要約を行った。 900の回答は3人のアノテータによって評価される。 riSumを用いて評価方法と人的判断の一致を分析した。 最後に,確立された基準線を改良し,高品質な要約を必要とするコストの高い基準ベースの指標と同等に動作するLCMベースの参照フリー評価手法を提案する。

Despite recent advances, evaluating how well large language models (LLMs) follow user instructions remains an open problem. While evaluation methods of language models have seen a rise in prompt-based approaches, limited work on the correctness of these methods has been conducted. In this work, we perform a meta-evaluation of a variety of metrics to quantify how accurately they measure the instruction-following abilities of LLMs. Our investigation is performed on grounded query-based summarization by collecting a new short-form, real-world dataset riSum, containing 300 document-instruction pairs with 3 answers each. All 900 answers are rated by 3 human annotators. Using riSum, we analyze the agreement between evaluation methods and human judgment. Finally, we propose new LLM-based reference-free evaluation methods that improve upon established baselines and perform on par with costly reference-based metrics that require high-quality summaries.
翻訳日:2023-10-24 02:25:57 公開日:2023-10-20
# Tor を用いたフランスにおける小児ポルノの実態調査

Unveiling Local Patterns of Child Pornography Consumption in France using Tor ( http://arxiv.org/abs/2310.11099v2 )

ライセンス: Link先を確認
Till Koebe, Zinnya del Villar, Brahmani Nutakki, Nursulu Sagimbayeva, Ingmar Weber(参考訳) 児童ポルノは子供の搾取と被害者化の深刻な形態を表しており、被害者は感情的および身体的なトラウマを負っている。 本研究では,torネットワーク関連webサービスのきめ細かなモバイルトラフィックデータを用いて,フランスの20大都市圏における児童ポルノ消費の地域パターンを分析することを目的とする。 私たちはそのおよそを見積もる。 フランスで見られたtorモバイルダウンロードトラフィックの3.3 %は、児童性的虐待の教材を、現地レベルのポルノの消費パターンと関連付けることで消費している。 これは、グローバルtorトラフィックにおける児童ポルノコンテンツのシェアを控えめに見積もるものの0.2%と比較するものです。 In line with existing literature on the link between sexual child abuse and the consumption of image-based content thereof, we observe a positive and statistically significant effect of our child pornography consumption estimates on the reported number of victims of sexual violence and vice versa across 1341 French communes, which validates our findings, after controlling for a set of spatial and non-spatial features including socio-demographic characteristics, voting behaviour, nearby points of interest and Google Trends queries. これは、空間疫学的な角度から児童ポルノを探索する最初の試みであるが、この研究は公衆衛生当局に、公衆の認知キャンペーンのターゲットエリアを優先順位付けし、その領域における将来の研究の道筋を知らせる貴重な情報を提供すると信じている。

Child pornography represents a severe form of exploitation and victimization of children, leaving the victims with emotional and physical trauma. In this study, we aim to analyze local patterns of child pornography consumption in 20 metropolitan regions of France using fine-grained mobile traffic data of Tor network-related web services. We estimate that approx. 3.3 % of Tor mobile download traffic observed in France is linked to the consumption of child sexual abuse materials by correlating it with local-level temporal porn consumption patterns. This compares to 0.2 % of what we conservatively estimate to be the share of child pornographic content in global Tor traffic. In line with existing literature on the link between sexual child abuse and the consumption of image-based content thereof, we observe a positive and statistically significant effect of our child pornography consumption estimates on the reported number of victims of sexual violence and vice versa across 1341 French communes, which validates our findings, after controlling for a set of spatial and non-spatial features including socio-demographic characteristics, voting behaviour, nearby points of interest and Google Trends queries. While this is a first, exploratory attempt to look at child pornography from a spatial epidemiological angle, we believe this research provides public health officials with valuable information to prioritize target areas for public awareness campaigns and hopefully inform future paths of research in that area.
翻訳日:2023-10-24 02:15:27 公開日:2023-10-20
# セットバックから知恵を得る - ミス分析による大規模言語モデルの整合

Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis ( http://arxiv.org/abs/2310.10477v2 )

ライセンス: Link先を確認
Kai Chen, Chunwei Wang, Kuo Yang, Jianhua Han, Lanqing Hong, Fei Mi, Hang Xu, Zhengying Liu, Wenyong Huang, Zhenguo Li, Dit-Yan Yeung, Lifeng Shang, Xin Jiang, Qun Liu(参考訳) 大規模言語モデル(llm)の急速な発展は、特に有害かつ有害な反応の意図しない発生に関して、機会と課題の両方を提示する。 従来のアライメント手法は, LLMを所望のパフォーマンスに向けて操り, 悪意のあるコンテンツから守ることを目的としているが, 本研究では, LLMを欠陥出力に故意に露呈し, 自然言語解析による内部的理由を完全に理解するための徹底的な評価を行うことにより, 誤り解析に根ざした新たなアライメント戦略を提案する。 したがって、毒性応答はモデルアライメントのための命令チューニングコーパスに変換することができ、LSMは欠陥のある応答の発生を抑えるだけでなく、自己批判の訓練も行え、有害なコンテンツを識別する能力を活用している。 実験結果から,提案手法は従来のアライメント手法よりも優れた性能を保ちつつ,安全性指導に優れた性能を発揮することが示された。

The rapid advancement of large language models (LLMs) presents both opportunities and challenges, particularly concerning unintentional generation of harmful and toxic responses. While the traditional alignment methods strive to steer LLMs towards desired performance and shield them from malicious content, this study proposes a novel alignment strategy rooted in mistake analysis by exposing LLMs to flawed outputs purposefully and then conducting a thorough assessment to fully comprehend internal reasons via natural language analysis. Thus, toxic responses can be transformed into instruction tuning corpus for model alignment, and LLMs can not only be deterred from generating flawed responses but also trained to self-criticize, leveraging its innate ability to discriminate toxic content. Experimental results demonstrate that the proposed method outperforms conventional alignment techniques for safety instruction following, while maintaining superior efficiency.
翻訳日:2023-10-24 02:15:03 公開日:2023-10-20
# ハミングエンコーダ:離散シーケンス分類のためのマイニング判別k-mer

Hamming Encoder: Mining Discriminative k-mers for Discrete Sequence Classification ( http://arxiv.org/abs/2310.10321v2 )

ライセンス: Link先を確認
Junjie Dong, Mudi Jiang, Lianyu Hu, Zengyou He(参考訳) シーケンス分類は様々な分野に応用されている。 過去数十年にわたる広範な研究にもかかわらず、特にパターンベースの手法では、多くの課題が残っている。 既存のパターンベースの手法では、マイニングの過程で個々の特徴の識別能力を測定し、特徴と識別力の組み合わせを欠く結果となる。 さらに、シーケンスを特徴ベクトルに変換した後、全体的な識別性能を確保することは困難である。 これらの課題に対処するために,二元化1次元畳み込みニューラルネットワーク(1dcnn)アーキテクチャを用いて識別k-mer集合をマイニングするhamming encoderと呼ばれる新しい手法を提案する。 特に,ハミング距離に基づく類似度尺度を採用し,特徴採鉱・分類手順の整合性を確保する。 本手法は,シーケンシャルデータのための解釈可能なcnnエンコーダを訓練し,識別k-mer組合せの勾配に基づく探索を行う。 実験により,本論文で提案するハミングエンコーダ法は,従来の最先端の手法よりも分類精度が優れていることを示した。

Sequence classification has numerous applications in various fields. Despite extensive studies in the last decades, many challenges still exist, particularly in pattern-based methods. Existing pattern-based methods measure the discriminative power of each feature individually during the mining process, leading to the result of missing some combinations of features with discriminative power. Furthermore, it is difficult to ensure the overall discriminative performance after converting sequences into feature vectors. To address these challenges, we propose a novel approach called Hamming Encoder, which utilizes a binarized 1D-convolutional neural network (1DCNN) architecture to mine discriminative k-mer sets. In particular, we adopt a Hamming distance-based similarity measure to ensure consistency in the feature mining and classification procedure. Our method involves training an interpretable CNN encoder for sequential data and performing a gradient-based search for discriminative k-mer combinations. Experiments show that the Hamming Encoder method proposed in this paper outperforms existing state-of-the-art methods in terms of classification accuracy.
翻訳日:2023-10-24 02:14:42 公開日:2023-10-20
# 進化する有限状態機械の適合性向上に関する研究

A Study of Fitness Gains in Evolving Finite State Machines ( http://arxiv.org/abs/2310.13203v1 )

ライセンス: Link先を確認
Gabor Zoltai, Yue Xie, and Frank Neumann(参考訳) 様々な進化的コンピューティングモデルの中で、有限状態機械(FSM)は基礎研究にいくつかの魅力を持っている。 概念的には容易に理解でき、単純なケースではっきりと視覚化できる。 彼らは通常の言語との関係を通じてフィットネスの基準を満たしている。 それらは、特定のシナリオにおけるオープンエンド進化の証拠を示すことさえも、容易に進化可能であることが示されている。 理論的アトラクションに加えて、自動化とユーザ主導制御の両方のパラダイムとして、産業的な応用がある。 FSMの進化に影響を与える要因の理解を改善することは、コンピュータ科学と制御の実践的最適化の両方に関係している。 正・負のサンプルを分類することで、正規言語の一つの認識に適応するFSMの進化シナリオを考察するとともに、少ない状態を好む選択圧の反作用下でも検討する。 その結果, 一定の数のサンプルストリングに対して適合度を測定すると, 試料として提供される長いストリングが適合速度を低下させることがわかった。 より長い文字列からの付加情報は、正および負のサンプル文字列の組合せ空間のスペーサーカバレッジを補うのに十分でないと推測する。

Among the wide variety of evolutionary computing models, Finite State Machines (FSMs) have several attractions for fundamental research. They are easy to understand in concept and can be visualised clearly in simple cases. They have a ready fitness criterion through their relationship with Regular Languages. They have also been shown to be tractably evolvable, even up to exhibiting evidence of open-ended evolution in specific scenarios. In addition to theoretical attraction, they also have industrial applications, as a paradigm of both automated and user-initiated control. Improving the understanding of the factors affecting FSM evolution has relevance to both computer science and practical optimisation of control. We investigate an evolutionary scenario of FSMs adapting to recognise one of a family of Regular Languages by categorising positive and negative samples, while also being under a counteracting selection pressure that favours fewer states. The results appear to indicate that longer strings provided as samples reduce the speed of fitness gain, when fitness is measured against a fixed number of sample strings. We draw the inference that additional information from longer strings is not sufficient to compensate for sparser coverage of the combinatorial space of positive and negative sample strings.
翻訳日:2023-10-24 01:07:52 公開日:2023-10-20
# 深層学習手法を用いたUAV画像からのトウモロコシの異常の同定

Identification of Abnormality in Maize Plants From UAV Images Using Deep Learning Approaches ( http://arxiv.org/abs/2310.13201v1 )

ライセンス: Link先を確認
Aminul Huq, Dimitris Zermas, George Bebis(参考訳) 植物における異常の早期同定は、適切な成長と作物からの高収率を達成する上で重要な課題である。 精密農業は、これらの問題に対処する農業戦略を効率的かつ効果的にするために、現代のコンピュータビジョンツールから大きな恩恵を受けることができる。 農地は通常非常に大きいため、農家は手動で広大な地域をチェックして植物の状態を確認し、適切な処置を施さなければならない。 本研究では,UAVが捉えた画像からトウモロコシの異常領域を自動的に同定する問題を考察する。 本研究では, トウモロコシの生育段階とは独立に, 異なるレベルの異常(低・中・高・高・無異常)を検出する手法を開発した。 主な目的は、潜在的な治療の有効性を最大化するために、最も早い段階で異常を識別することである。 同時に,提案するシステムは,より小さな画像集合にのみ注意を向けることによって,人間に価値ある情報を提供することができる。 まず, 分類問題として異常検出を, 回帰問題として検討した。 どちらのアプローチも異なる種類の異常に一般化することができ、植物が小さくて分離しやすいことから検出しやすい初期の植物成長段階で発生する異常について仮定することができない。 ケーススタディとして, 種々の成長段階のトウモロコシ植物において, 主に窒素欠乏を示す公開データセットを検討した。 本報告では, 診断精度88.89 %, 検出精度100 %, 診断精度100 %, 予測予備結果について報告する。

Early identification of abnormalities in plants is an important task for ensuring proper growth and achieving high yields from crops. Precision agriculture can significantly benefit from modern computer vision tools to make farming strategies addressing these issues efficient and effective. As farming lands are typically quite large, farmers have to manually check vast areas to determine the status of the plants and apply proper treatments. In this work, we consider the problem of automatically identifying abnormal regions in maize plants from images captured by a UAV. Using deep learning techniques, we have developed a methodology which can detect different levels of abnormality (i.e., low, medium, high or no abnormality) in maize plants independently of their growth stage. The primary goal is to identify anomalies at the earliest possible stage in order to maximize the effectiveness of potential treatments. At the same time, the proposed system can provide valuable information to human annotators for ground truth data collection by helping them to focus their attention on a much smaller set of images only. We have experimented with two different but complimentary approaches, the first considering abnormality detection as a classification problem and the second considering it as a regression problem. Both approaches can be generalized to different types of abnormalities and do not make any assumption about the abnormality occurring at an early plant growth stage which might be easier to detect due to the plants being smaller and easier to separate. As a case study, we have considered a publicly available data set which exhibits mostly Nitrogen deficiency in maize plants of various growth stages. We are reporting promising preliminary results with an 88.89\% detection accuracy of low abnormality and 100\% detection accuracy of no abnormality.
翻訳日:2023-10-24 01:07:33 公開日:2023-10-20
# 微調整言語モデルとプロンプトエンジニアリングによるゼロショット暗号感情の強化

Enhancing Zero-Shot Crypto Sentiment with Fine-tuned Language Model and Prompt Engineering ( http://arxiv.org/abs/2310.13226v1 )

ライセンス: Link先を確認
Rahman S M Wahidur, Ishmam Tashdeed, Manjit Kaur, Heung-No-Lee(参考訳) ブロックチェーン技術は金融界に革命をもたらし、暗号通貨は分散的で透明な性質で広く採用されている。 ソーシャルメディアプラットフォーム上で表現される感情が暗号通貨の議論や市場の動きに大きく影響を与えるため、世論の理解と市場のトレンドを予測するための重要なツールとして感情分析が登場した。 本稿では,暗号通貨領域における感情分析の精度向上を目的として,大規模言語モデルの微調整手法について検討する。 本稿では,大規模言語モデルにおける教師付き微調整と命令に基づく微調整の有効性についても検討する。 実験結果から、微調整後の平均ゼロショット性能は40%向上し、事前学習した言語モデルの効率を最適化する上で、この手法の可能性を強調した。 さらに、様々なスケールのモデルに対する命令チューニングの影響について検討し、より大きなモデルが命令チューニングの恩恵を受け、最高平均精度スコア75.16%に達したことを明らかにした。 対照的に、小型モデルはモデルキャパシティの完全利用による一般化の低減を経験することができる。 本稿では,これらの言語モデルで命令がどのように機能するかを深く把握するために,異なる命令チューニング設定下での命令ベースモデルの応答について実験的に検討する。 このモデルは、短い命令と単純な命令で72.38%の平均精度スコアを達成している。 この性能は、長い命令と複雑な命令の精度を12%以上上回り、モデル性能の最大化における命令特性の意義を効果的に強調する。

Blockchain technology has revolutionized the financial landscape, with cryptocurrencies gaining widespread adoption for their decentralized and transparent nature. As the sentiment expressed on social media platforms can significantly influence cryptocurrency discussions and market movements, sentiment analysis has emerged as a crucial tool for understanding public opinion and predicting market trends. Motivated by the aim to enhance sentiment analysis accuracy in the cryptocurrency domain, this paper investigates fine-tuning techniques on large language models. This paper also investigates the efficacy of supervised fine-tuning and instruction-based fine-tuning on large language models for unseen tasks. Experimental results demonstrate a significant average zero-shot performance gain of 40% after fine-tuning, highlighting the potential of this technique in optimizing pre-trained language model efficiency. Additionally, the impact of instruction tuning on models of varying scales is examined, revealing that larger models benefit from instruction tuning, achieving the highest average accuracy score of 75.16%. In contrast, smaller-scale models may experience reduced generalization due to the complete utilization of model capacity. To gain deeper insight about how instruction works with these language models, this paper presents an experimental investigation into the response of an instruction-based model under different instruction tuning setups. The investigation demonstrates that the model achieves an average accuracy score of 72.38% for short and simple instructions. This performance significantly outperforms its accuracy under long and complex instructions by over 12%, thereby effectively highlighting the profound significance of instruction characteristics in maximizing model performance.
翻訳日:2023-10-24 00:56:44 公開日:2023-10-20
# スケーラブルニューラルネットワークカーネル

Scalable Neural Network Kernels ( http://arxiv.org/abs/2310.13225v1 )

ライセンス: Link先を確認
Arijit Sehanobish, Krzysztof Choromanski, Yunfan Zhao, Avinava Dubey, Valerii Likhosherstov(参考訳) 本稿では,スケーラブルニューラルネットワークカーネル (snnk) の概念を紹介する。これは正規フィードフォワード層 (ffls) の置き換えであり,後者を近似することができるが,計算特性は良好である。 SNNKは、FFL内のニューラルネットワークのパラメータから入力を効果的に切り離し、ドット生成カーネルを介して最終的な計算でそれらを接続する。 それらはさらに厳密な表現であり、パラメータ入力ベクトルのドット積の関数以外の複雑な関係をモデル化することができる。 また、深層ニューラルネットワークアーキテクチャのコンパクト化にSNNKを適用するニューラルネットワークバンドルプロセスを導入し、さらなる圧縮ゲインをもたらす。 極端なバージョンでは、最適パラメータがいくつかの損失関数(例えば平均二乗誤差)の明示式を通じて表現され、バックプロパゲーションをバイパスする可能性を開く完全バンドルネットワークへと導かれる。 解析の副産物として,複数のSNNK変種をインスタンス化するために応用されたユニバーサルランダム特徴(URF)のメカニズムを導入し,拡張性のあるカーネル手法の文脈で興味深い。 我々は,これらすべての概念の厳密な理論解析と,snnkにインスパイアされた新しいアダプタ層を用いた,ポイントワイズ・カーネル推定からトランスフォーマーの微調整まで,広範な経験的評価を提供する。 我々のメカニズムは、競争精度を維持しながら、トレーニング可能なパラメータの最大5倍の削減を可能にする。

We introduce the concept of scalable neural network kernels (SNNKs), the replacements of regular feedforward layers (FFLs), capable of approximating the latter, but with favorable computational properties. SNNKs effectively disentangle the inputs from the parameters of the neural network in the FFL, only to connect them in the final computation via the dot-product kernel. They are also strictly more expressive, as allowing to model complicated relationships beyond the functions of the dot-products of parameter-input vectors. We also introduce the neural network bundling process that applies SNNKs to compactify deep neural network architectures, resulting in additional compression gains. In its extreme version, it leads to the fully bundled network whose optimal parameters can be expressed via explicit formulae for several loss functions (e.g. mean squared error), opening a possibility to bypass backpropagation. As a by-product of our analysis, we introduce the mechanism of the universal random features (or URFs), applied to instantiate several SNNK variants, and interesting on its own in the context of scalable kernel methods. We provide rigorous theoretical analysis of all these concepts as well as an extensive empirical evaluation, ranging from point-wise kernel estimation to Transformers' fine-tuning with novel adapter layers inspired by SNNKs. Our mechanism provides up to 5x reduction in the number of trainable parameters, while maintaining competitive accuracy.
翻訳日:2023-10-24 00:56:17 公開日:2023-10-20
# 等変変変圧器は 必要なだけ

Equivariant Transformer is all you need ( http://arxiv.org/abs/2310.13222v1 )

ライセンス: Link先を確認
Akio Tomiya, Yuki Nagai(参考訳) 機械学習、ディープラーニングは、格子上のシステムをシミュレートするために使われてきた計算物理学を加速してきた。 等分散は、機械学習モデルで記述された確率分布に対して強い帰納バイアスを課すため、物理系をシミュレートするために不可欠である。 これにより、データ対称性や物理法則から逸脱する誤った外挿のリスクが低減される。 しかし、モデルに対称性を与えると、自己学習モンテカルロ(SLMC)の受け入れ率が低下することがある。 一方、gptのような変圧器で使われる注意は大きなモデル容量を実現する。 SLMCに対称同変注意を導入する。 本研究では,2次元格子上のスピンフェルミオンモデルを用いた新しいアーキテクチャに適用する。 線形モデルに対する受け入れ率の低さを克服し,トランスフォーマを用いた大規模言語モデルのように受け入れ率のスケーリング則を遵守できることを見出した。

Machine learning, deep learning, has been accelerating computational physics, which has been used to simulate systems on a lattice. Equivariance is essential to simulate a physical system because it imposes a strong induction bias for the probability distribution described by a machine learning model. This reduces the risk of erroneous extrapolation that deviates from data symmetries and physical laws. However, imposing symmetry on the model sometimes occur a poor acceptance rate in self-learning Monte-Carlo (SLMC). On the other hand, Attention used in Transformers like GPT realizes a large model capacity. We introduce symmetry equivariant attention to SLMC. To evaluate our architecture, we apply it to our proposed new architecture on a spin-fermion model on a two-dimensional lattice. We find that it overcomes poor acceptance rates for linear models and observe the scaling law of the acceptance rate as in the large language models with Transformers.
翻訳日:2023-10-24 00:55:51 公開日:2023-10-20
# トランスフォーマーによるコンテキスト内学習は、コントラスト学習パターンと本当に同等です

In-context Learning with Transformer Is Really Equivalent to a Contrastive Learning Pattern ( http://arxiv.org/abs/2310.13220v1 )

ライセンス: Link先を確認
Ruifeng Ren and Yong Liu(参考訳) トランスフォーマーをベースとした事前訓練された大規模言語モデルは、驚くべきインコンテキスト学習(ICL)能力を示した。 いくつかのデモ例が与えられると、モデルはパラメータ更新なしに新しいタスクを実装できる。 しかし、iclのメカニズムを理解することはまだ未解決の問題である。 本稿では,iclの推論過程を,対照学習パターンにおける勾配降下過程として解釈する。 まず,カーネル法を活用し,線形注意設定ではなく,一般に使用されるソフトマックス注意設定下での勾配降下とセルフアテンション機構の関係性を確立する。 そして, 負のサンプルを伴わない比較学習の観点からICLの勾配降下過程を解析し, 自己認識層をさらに修正可能な対比学習パターンの改善の可能性について考察する。 最後に、私たちの意見をサポートする実験をデザインします。 私たちの知識を最大限に活用するために、我々の研究は、コントラスト学習の観点からiclの理解を提供する最初の試みであり、コントラスト学習に関する関連作品を参照して、将来のモデル設計を促進する可能性を秘めています。

Pre-trained large language models based on Transformers have demonstrated amazing in-context learning (ICL) abilities. Given several demonstration examples, the models can implement new tasks without any parameter updates. However, it is still an open question to understand the mechanism of ICL. In this paper, we interpret the inference process of ICL as a gradient descent process in a contrastive learning pattern. Firstly, leveraging kernel methods, we establish the relationship between gradient descent and self-attention mechanism under generally used softmax attention setting instead of linear attention setting. Then, we analyze the corresponding gradient descent process of ICL from the perspective of contrastive learning without negative samples and discuss possible improvements of this contrastive learning pattern, based on which the self-attention layer can be further modified. Finally, we design experiments to support our opinions. To the best of our knowledge, our work is the first to provide the understanding of ICL from the perspective of contrastive learning and has the potential to facilitate future model design by referring to related works on contrastive learning.
翻訳日:2023-10-24 00:55:35 公開日:2023-10-20
# HierCas: 情報カスケードにおける人気予測のための階層型時間グラフ注意ネットワーク

HierCas: Hierarchical Temporal Graph Attention Networks for Popularity Prediction in Information Cascades ( http://arxiv.org/abs/2310.13219v1 )

ライセンス: Link先を確認
Zhizhen Zhang, Xiaohui Xie, Yishuo Zhang, Lanshan Zhang, Yong Jiang(参考訳) 情報カスケードの人気予測は、偽ニュースの特定や正確なレコメンデーションなど、多くのアプリケーションにとって重要である。 従来の機能ベースのメソッドは、ドメイン固有であり、新しいドメインへの一般化性に欠ける手作りの機能に大きく依存している。 この問題に対処するため、研究者らはニューラルネットワークベースのアプローチに転換した。 しかし、既存の手法はサンプリングベースのモデリングアプローチに従い、情報拡散プロセス中に発生する連続的な動的情報と構造-時間依存を失う可能性がある。 本稿では,階層型時間グラフアテンションネットワークと呼ばれるカスケード人気予測(hiercas)のための新しい枠組みを提案する。 既存の方法とは異なり、HierCasは動的グラフモデリングアプローチによってカスケードグラフ全体で動作し、連続的な動的情報の完全な範囲を捉え、構造的要因と時間的要因の間の相互作用を明示的にモデル化することができる。 タイムアウェアノードの埋め込み、グラフアテンション機構、階層的なプール構造を活用することで、HierCasは複雑なカスケードで暗黙的な人気傾向を効果的に捉えます。 異なるシナリオにおける2つの実世界のデータセットで実施された大規模な実験は、我々のHierCasが最先端のアプローチを大きく上回っていることを示している。

Information cascade popularity prediction is critical for many applications, including but not limited to identifying fake news and accurate recommendations. Traditional feature-based methods heavily rely on handcrafted features, which are domain-specific and lack generalizability to new domains. To address this problem, researchers have turned to neural network-based approaches. However, existing methods follow a sampling-based modeling approach, potentially losing continuous dynamic information and structural-temporal dependencies that emerge during the information diffusion process. In this paper, we propose a novel framework called Hierarchical Temporal Graph Attention Networks for cascade popularity prediction (HierCas). Unlike existing methods, HierCas operates on the entire cascade graph by a dynamic graph modeling approach, enabling it to capture the full range of continuous dynamic information and explicitly model the interplay between structural and temporal factors. By leveraging time-aware node embedding, graph attention mechanisms and hierarchical pooling structures, HierCas effectively captures the popularity trend implicit in the complex cascade. Extensive experiments conducted on two real-world datasets in different scenarios demonstrate that our HierCas significantly outperforms the state-of-the-art approaches.
翻訳日:2023-10-24 00:55:19 公開日:2023-10-20
# 位相制御コヒーレント光子による遅延チョイス量子消去法における量子相関

Phase-controlled coherent photons for the quantum correlations in a delayed-choice quantum eraser scheme ( http://arxiv.org/abs/2310.13217v1 )

ライセンス: Link先を確認
Byoung S. Ham(参考訳) 遅延量子消去器は、過去数十年間、干渉計系における単一光子の波動粒子双対性について集中的に研究されてきた。 量子消去器間の一致の測定は、ベルの不等式違反を満たす非局所量子特性にも適用されている。 しかし、これらの量子的特徴はまだ明確には分かっておらず、量子ミステリーに繋がる。 近年、量子消去器が量子ミステリーを公開するためのコヒーレンスアプローチが試みられている。 ここでは、一光子の直交偏光基底間の四分波板誘起位相シフトを用いて、コヒーレントに制御された量子消去器間の高次強度積の位相量子化を示す。 量子力学のさらなる議論のために、フォトニック・ド・ブロゴリー波のような量子特徴と非局所量子相関の理論的解を示す。

The delayed-choice quantum eraser has been intensively studied for the wave-particle duality of a single photon in an interferometric system over the last decades. Coincidence measurements between quantum erasers have also been applied for the nonlocal quantum feature, satisfying the Bell inequality violation. However, those quantum features have not been clearly understood yet, resulting in the quantum mystery. Recently a coherence approach has been tried for the quantum eraser to unveil the quantum mystery. Here, a phase quantization of higher-order intensity products between coherently controlled quantum erasers is presented using a quarter wave plate-induced phase shift between orthogonal polarization bases of a single photon. Theoretical solutions of both photonic-de-Broglie-wave-like quantum features and nonlocal quantum correlations are presented for further discussions of quantum mechanics.
翻訳日:2023-10-24 00:54:57 公開日:2023-10-20
# PTSR:画像超解像のためのパッチトランスレータ

PTSR: Patch Translator for Image Super-Resolution ( http://arxiv.org/abs/2310.13216v1 )

ライセンス: Link先を確認
Neeraj Baghel, Shiv Ram Dubey, Satish Kumar Singh(参考訳) 画像超解像度生成はその低解像度画像から高解像度画像を生成することを目的としている。 しかし、より複雑なニューラルネットワークは高い計算コストとメモリストレージをもたらす。 多くのアプリケーションで解決の限界を克服する約束を提供するための活発な領域である。 近年、トランスフォーマーはロバストな自己着脱機構としてコンピュータビジョンタスクにおいて大きな進歩を遂げている。 しかし、イメージスーパーレゾリューション用トランスフォーマーの最近の仕事は畳み込み操作も含んでいる。 画像超解像(PTSR)のためのパッチトランスレータを提案し,この問題に対処する。 提案するPTSRは、畳み込み動作のないトランスフォーマーベースGANネットワークである。 マルチヘッドアテンションを利用した改良パッチを再生するための新しいパッチトランスレータモジュールを導入し、2xおよび4xの超高解像度画像を生成するためにジェネレータによりさらに活用する。 実験は、div2k、set5、set14、bsd100を含むベンチマークデータセットを用いて行われる。 提案モデルの結果は,PNSRスコアが21.66%,SSIMスコアが11.59%,最高競争モデルが4\times$スーパーレゾリューション平均で改善された。 また,提案手法の有効性を示すため,提案する損失・給与マップの解析を行った。

Image super-resolution generation aims to generate a high-resolution image from its low-resolution image. However, more complex neural networks bring high computational costs and memory storage. It is still an active area for offering the promise of overcoming resolution limitations in many applications. In recent years, transformers have made significant progress in computer vision tasks as their robust self-attention mechanism. However, recent works on the transformer for image super-resolution also contain convolution operations. We propose a patch translator for image super-resolution (PTSR) to address this problem. The proposed PTSR is a transformer-based GAN network with no convolution operation. We introduce a novel patch translator module for regenerating the improved patches utilising multi-head attention, which is further utilised by the generator to generate the 2x and 4x super-resolution images. The experiments are performed using benchmark datasets, including DIV2K, Set5, Set14, and BSD100. The results of the proposed model is improved on an average for $4\times$ super-resolution by 21.66% in PNSR score and 11.59% in SSIM score, as compared to the best competitive models. We also analyse the proposed loss and saliency map to show the effectiveness of the proposed method.
翻訳日:2023-10-24 00:54:44 公開日:2023-10-20
# ゾーン評価:物体検出における空間バイアスの解明

Zone Evaluation: Revealing Spatial Bias in Object Detection ( http://arxiv.org/abs/2310.13215v1 )

ライセンス: Link先を確認
Zhaohui Zheng, Yuming Chen, Qibin Hou, Xiang Li, Ping Wang, Ming-Ming Cheng(参考訳) 物体検出器の基本的な制限は、それらは「空間バイアス」に悩まされ、特に画像境界付近の物体を検出する場合、満足度が低いことである。 長い間、空間バイアスを計測し識別するための効果的な方法が欠如しており、それがどこから来るのか、その程度についてはほとんど分かっていない。 この目的のために,従来の評価からより一般化した評価へ拡張し,ゾーン上の検出性能を測定し,一連のゾーン精度(ZPs)を出力するゾーン評価プロトコルを提案する。 初めて数値的な結果が得られ、対象検出器がゾーンにわたって不均一に動作することを示す。 驚くべきことに、画像の96\%境界領域における検出器の性能はAP値に達しない(平均精度は画像領域全体の平均検出性能と見なされる)。 空間バイアスをよりよく理解するために、一連のヒューリスティックな実験が行われる。 対象物の大きさと絶対位置が空間バイアスにほとんど影響を与えないという2つの直感的な空間バイアス予想を除外した。 キーとなるのは、異なるゾーン内のオブジェクト間のデータパターンのヒューマン・インセプタブルな発散であり、結果として、ゾーン間のパフォーマンスギャップが顕在化する。 そこで本研究では,対象物検出の今後の方向性,すなわち空間的不均衡問題について検討し,画像領域全体にわたるバランスのとれた検出能力を追求する。 10個の人気物体検出器と5個の検出データセットを広く評価することにより、物体検出器の空間バイアスに光を当てた。 この取り組みが、ロバスト性の検出に焦点を合わせることを願っている。 ソースコード、評価プロトコル、チュートリアルは \url{https://github.com/Zzh-tju/ZoneEval} で公開されている。

A fundamental limitation of object detectors is that they suffer from "spatial bias", and in particular perform less satisfactorily when detecting objects near image borders. For a long time, there has been a lack of effective ways to measure and identify spatial bias, and little is known about where it comes from and what degree it is. To this end, we present a new zone evaluation protocol, extending from the traditional evaluation to a more generalized one, which measures the detection performance over zones, yielding a series of Zone Precisions (ZPs). For the first time, we provide numerical results, showing that the object detectors perform quite unevenly across the zones. Surprisingly, the detector's performance in the 96\% border zone of the image does not reach the AP value (Average Precision, commonly regarded as the average detection performance in the entire image zone). To better understand spatial bias, a series of heuristic experiments are conducted. Our investigation excludes two intuitive conjectures about spatial bias that the object scale and the absolute positions of objects barely influence the spatial bias. We find that the key lies in the human-imperceptible divergence in data patterns between objects in different zones, thus eventually forming a visible performance gap between the zones. With these findings, we finally discuss a future direction for object detection, namely, spatial disequilibrium problem, aiming at pursuing a balanced detection ability over the entire image zone. By broadly evaluating 10 popular object detectors and 5 detection datasets, we shed light on the spatial bias of object detectors. We hope this work could raise a focus on detection robustness. The source codes, evaluation protocols, and tutorials are publicly available at \url{https://github.com/Zzh-tju/ZoneEval}.
翻訳日:2023-10-24 00:54:26 公開日:2023-10-20
# MultiCoNER v2: 微細でノイズの多いエンティティ認識のための大規模多言語データセット

MultiCoNER v2: a Large Multilingual dataset for Fine-grained and Noisy Named Entity Recognition ( http://arxiv.org/abs/2310.13213v1 )

ライセンス: Link先を確認
Besnik Fetahu, Zhiyu Chen, Sudipta Kar, Oleg Rokhlenko, Shervin Malmasi(参考訳) 我々は12言語にまたがる33のエンティティクラスをカバーする,詳細な名前付きエンティティ認識のためのデータセットであるmulticoner v2を提案する。 このデータセットは、NERにおける以下の実践的な課題に取り組むことを目的としている。 (i)映画タイトル等の複雑な実体を含む細粒度クラスの効果的な取扱い (2)入力ミスやOCRエラーによるノイズによる性能劣化。 データセットはWikipediaやWikidataなどのオープンリソースからコンパイルされ、公開されている。 XLM-RoBERTaベースラインに基づく評価は、 MultiCONER V2 による固有の課題を強調している。 (i)細粒度分類は、マクロf1=0.63(すべての言語にまたがる)のスコアが低いため、難しい。 (II) 汚職戦略は性能を著しく損なうが, エンティティの汚職は全ての言語で不当な汚職と比較して9%低い結果となった。 これはコンテキストノイズと対照的にエンティティノイズの影響が大きいことを強調する。

We present MULTICONER V2, a dataset for fine-grained Named Entity Recognition covering 33 entity classes across 12 languages, in both monolingual and multilingual settings. This dataset aims to tackle the following practical challenges in NER: (i) effective handling of fine-grained classes that include complex entities like movie titles, and (ii) performance degradation due to noise generated from typing mistakes or OCR errors. The dataset is compiled from open resources like Wikipedia and Wikidata, and is publicly available. Evaluation based on the XLM-RoBERTa baseline highlights the unique challenges posed by MULTICONER V2: (i) the fine-grained taxonomy is challenging, where the scores are low with macro-F1=0.63 (across all languages), and (ii) the corruption strategy significantly impairs performance, with entity corruption resulting in 9% lower performance relative to non-entity corruptions across all languages. This highlights the greater impact of entity noise in contrast to context noise.
翻訳日:2023-10-24 00:53:58 公開日:2023-10-20
# ChatGPTのプライマリー効果

Primacy Effect of ChatGPT ( http://arxiv.org/abs/2310.13206v1 )

ライセンス: Link先を確認
Yiwei Wang, Yujun Cai, Muhao Chen, Yuxuan Liang, Bryan Hooi(参考訳) ChatGPTのような命令調整型大規模言語モデル(LLM)は、差別的自然言語理解(NLU)タスクにおいてゼロショット性能を約束している。 これには、質問を含むプロンプトと候補ラベルを選択してLLMに問い合わせることが含まれる。 ChatGPTの質問応答能力は、大量の人文テキストの事前学習と、その後の人間の嗜好の微調整から生まれる。 本稿では,ChatGPTの優越効果について考察する。 主な発見は2つあります i) chatgptの決定は,プロンプトにおけるラベルの順序に敏感である。 二 チャットGPTは、より早い位置のラベルを解答として選択する機会が明らかに高い。 実験と分析により、より信頼性の高いChatGPTベースのソリューションの構築に関する洞察が得られればと思っています。 ソースコードはhttps://github.com/wangywUST/PrimacyEffectGPTで公開しています。

Instruction-tuned large language models (LLMs), such as ChatGPT, have led to promising zero-shot performance in discriminative natural language understanding (NLU) tasks. This involves querying the LLM using a prompt containing the question, and the candidate labels to choose from. The question-answering capabilities of ChatGPT arise from its pre-training on large amounts of human-written text, as well as its subsequent fine-tuning on human preferences, which motivates us to ask: Does ChatGPT also inherits humans' cognitive biases? In this paper, we study the primacy effect of ChatGPT: the tendency of selecting the labels at earlier positions as the answer. We have two main findings: i) ChatGPT's decision is sensitive to the order of labels in the prompt; ii) ChatGPT has a clearly higher chance to select the labels at earlier positions as the answer. We hope that our experiments and analyses provide additional insights into building more reliable ChatGPT-based solutions. We release the source code at https://github.com/wangywUST/PrimacyEffectGPT.
翻訳日:2023-10-24 00:53:42 公開日:2023-10-20
# 因果機械学習による政策評価における透明性の課題 -- ユーザビリティと説明責任の向上

Transparency challenges in policy evaluation with causal machine learning -- improving usability and accountability ( http://arxiv.org/abs/2310.13240v1 )

ライセンス: Link先を確認
Patrick Rehill and Nicholas Biddle(参考訳) 因果機械学習ツールは、現実の政策評価タスクで治療効果を柔軟に見積もるために使われ始めている。 これらの手法の1つの問題は、使用される機械学習モデルが一般的にブラックボックスである、すなわち、モデルがどのように見積を行うかを理解するグローバルに解釈可能な方法がないことである。 これは政策評価アプリケーション、特に政府において明らかな問題であり、そのようなモデルが公正な方法で機能しているかを理解するのが困難であり、証拠の正しい解釈と、物事がうまくいかなかった場合に説明責任を負うのに十分透明である。 しかし、因果的機械学習文学における透明性の問題とこれらが克服される可能性についてはほとんど議論されていない。 本稿では、公開政策評価アプリケーションにおいて、透明性の問題が因果機械学習の問題である理由を考察し、これらの問題に説明可能なAIツールや、解釈可能なAI原則に従ってモデルを簡単にすることで対処する方法を検討する。 オーストラリアにおける学校退学年齢の仮定的変化に対する条件付き平均治療効果を推定するために、因果的森林モデルを用いたケーススタディに適用する。 これは、ブラックボックス予測モデルを理解する既存のツールが因果的機械学習にはあまり適していないこと、モデルを単純化して解釈可能にすることが、(このアプリケーションでは)許容できないエラーの増加につながることを示している。 因果的機械学習モデルとそれらに適合するアルゴリズムを適切に理解するためには、新しいツールが必要である、と結論付けている。

Causal machine learning tools are beginning to see use in real-world policy evaluation tasks to flexibly estimate treatment effects. One issue with these methods is that the machine learning models used are generally black boxes, i.e., there is no globally interpretable way to understand how a model makes estimates. This is a clear problem in policy evaluation applications, particularly in government, because it is difficult to understand whether such models are functioning in ways that are fair, based on the correct interpretation of evidence and transparent enough to allow for accountability if things go wrong. However, there has been little discussion of transparency problems in the causal machine learning literature and how these might be overcome. This paper explores why transparency issues are a problem for causal machine learning in public policy evaluation applications and considers ways these problems might be addressed through explainable AI tools and by simplifying models in line with interpretable AI principles. It then applies these ideas to a case-study using a causal forest model to estimate conditional average treatment effects for a hypothetical change in the school leaving age in Australia. It shows that existing tools for understanding black-box predictive models are poorly suited to causal machine learning and that simplifying the model to make it interpretable leads to an unacceptable increase in error (in this application). It concludes that new tools are needed to properly understand causal machine learning models and the algorithms that fit them.
翻訳日:2023-10-24 00:48:36 公開日:2023-10-20
# 連合学習を用いた意味コミュニケーションシステムの学習

Training A Semantic Communication System with Federated Learning ( http://arxiv.org/abs/2310.13236v1 )

ライセンス: Link先を確認
Loc X. Nguyen, Huy Q. Le, Ye Lin Tun, Pyae Sone Aung, Yan Kyaw Tun, Zhu Han, Choong Seon Hong(参考訳) データ冗長性を緩和する能力により,次世代通信システムの柱としてセマンティック通信が出現している。 ほとんどのセマンティック通信システムは、データ可用性に大きく依存する高度なディープラーニングモデルを使って構築されている。 これらの研究は、大量のトレーニングデータが利用可能であり、非現実的であると仮定する。 実際には、データは主にユーザ側で作成されます。 プライバシーやセキュリティ上の懸念から、データの送信は制限されており、これは従来の集中型トレーニングスキームに必要である。 この課題に対処するために,プライバシを漏らすことなくユーザデータを利用する連合学習(fl)設定における意味コミュニケーションについて検討する。 さらに,グローバルラウンド毎に配信される情報量を削減することで,通信オーバーヘッドに対処するシステムを設計する。 このように、リソース制限されたデバイスに対してかなりの帯域幅を節約し、ネットワーク全体のトラフィックを削減できる。 最後に、フェドルと呼ばれるグローバルモデルをクライアントから集約するメカニズムを提案する。 シミュレーションの結果,提案手法の有効性をベースライン法と比較した。

Semantic communication has emerged as a pillar for the next generation of communication systems due to its capabilities in alleviating data redundancy. Most semantic communication systems are built using advanced deep learning models whose performance heavily depends on data availability. These studies assume that an abundance of training data is available, which is unrealistic. In practice, data is mainly created on the user side. Due to privacy and security concerns, the transmission of data is restricted, which is necessary for conventional centralized training schemes. To address this challenge, we explore semantic communication in federated learning (FL) setting that utilizes user data without leaking privacy. Additionally, we design our system to tackle the communication overhead by reducing the quantity of information delivered in each global round. In this way, we can save significant bandwidth for resource-limited devices and reduce overall network traffic. Finally, we propose a mechanism to aggregate the global model from the clients, called FedLol. Extensive simulation results demonstrate the efficacy of our proposed technique compared to baseline methods.
翻訳日:2023-10-24 00:48:11 公開日:2023-10-20
# モンテカルロレンダリングのための補助機能付きスーパーレゾリューション

Auxiliary Features-Guided Super Resolution for Monte Carlo Rendering ( http://arxiv.org/abs/2310.13235v1 )

ライセンス: Link先を確認
Qiqi Hou, Feng Liu(参考訳) 本稿では,超解像度を用いてレンダリングする画素数を削減し,モンテカルロレンダリングアルゴリズムを高速化する。 超高解像度技術には大きな進歩があったが、本質的には不適切な問題であり、レンダリングにおける高周波の詳細を回復できない。 この問題に対処するために,高分解能補助機能を活用し,低解像度レンダリングの超解像度化を導く。 これらの高解像度補助機能はレンダリングエンジンによって素早くレンダリングできると同時に、スーパーレゾリューションを支援するために貴重な高周波の詳細を提供する。 そこで本研究では,補助特徴分枝と低解像度レンダリング分枝からなるクロスモダリティ変換ネットワークを開発した。 これらの2つの枝は、対応する低解像度レンダリングで高解像度の補助特徴を融合するように設計されている。 さらに,高品位な超解像を実現する代表的特徴を抽出することを学ぶために,残差の密結合したスウィントランスグループを設計する。 提案手法は,高画質レンダリングにおいて,超解像法とモンテカルロ除音法の両方に勝ることを示す。

This paper investigates super resolution to reduce the number of pixels to render and thus speed up Monte Carlo rendering algorithms. While great progress has been made to super resolution technologies, it is essentially an ill-posed problem and cannot recover high-frequency details in renderings. To address this problem, we exploit high-resolution auxiliary features to guide super resolution of low-resolution renderings. These high-resolution auxiliary features can be quickly rendered by a rendering engine and at the same time provide valuable high-frequency details to assist super resolution. To this end, we develop a cross-modality Transformer network that consists of an auxiliary feature branch and a low-resolution rendering branch. These two branches are designed to fuse high-resolution auxiliary features with the corresponding low-resolution rendering. Furthermore, we design residual densely-connected Swin Transformer groups to learn to extract representative features to enable high-quality super-resolution. Our experiments show that our auxiliary features-guided super-resolution method outperforms both super-resolution methods and Monte Carlo denoising methods in producing high-quality renderings.
翻訳日:2023-10-24 00:47:56 公開日:2023-10-20
# クーパーペア飛行キュービットのアンドレエフ探査

Andreev probing of Cooper-pair flying qubit ( http://arxiv.org/abs/2310.13233v1 )

ライセンス: Link先を確認
S. Park, L. Y. Gorelik, S.I.Kulinich, H. C. Park, C.Kim, and R. I. Shekhter(参考訳) 本稿では,長距離での量子情報伝達を容易にするために,空飛ぶ量子ビットを動作・探究できるナノメカニカルデバイスを提案する。 空飛ぶキュービットは、超電導ドットとバルク超電導体からなる可動クーパーペアボックス(cpb)により形成され、静電トンネルトンネルのクーパーペアのクーロン閉塞を除去して絡み合う。 可動CPB上に形成された飛行量子ビット状態は、アンドレーフ反射による通常の電極への電子輸送において観察可能であることを示唆する。 cpbの周期的な機械的運動による電荷移動はゼロ電圧の非零電流につながり、そのコヒーレンスはゲート電圧の電流の振動依存性によって同定できる。

We propose a nanomechanical device which can actuate and probe a flying qubit that can be used to facilitate quantum information transfer over a long distance. The flying qubit is formed by a movable Cooper pair box (CPB) consisting of a superconducting dot and a bulk superconductor which are entangled by removing the Coulomb blockade of Cooper pair tunneling electrostatically. We suggest that flying qubit states formed on movable CPB can be observed in electron transport to a normal electrode via Andreev reflections. The charge transfer due to periodic mechanical motion of CPB leads to nonzero current at zero voltage and its coherence can be identified through oscillatory dependence of the current on a gate voltage.
翻訳日:2023-10-24 00:47:38 公開日:2023-10-20
# イジングモデルにおけるテンソル学習のためのインタラクションスクリーニングと疑似相似アプローチ

Interaction Screening and Pseudolikelihood Approaches for Tensor Learning in Ising Models ( http://arxiv.org/abs/2310.13232v1 )

ライセンス: Link先を確認
Tianyu Liu and Somabha Mukherjee(参考訳) 本稿では,$k$-spinイジングモデルにおけるテンソル回復の文脈において,擬似類似化アプローチと相互作用スクリーニングアプローチという,よく知られた2つの構造学習手法について検討する。 これら2つのアプローチは,適切な正規化とともに,ネットワークノード数におけるサンプルサイズ対数と最大相互作用強度と最大ノード次数の指数関数を用いて,基盤となるハイパーネットワーク構造を検索する。 また、両方のアプローチで、サンプル数とノード数で成長することができる相互作用順序 $k$ に対するテンソル回復率の正確な依存性を追跡する。 最後に, 最大結合強度に対するテンソル回復率の指数関数的依存性を示すシミュレーション研究に基づく2つの手法の性能の比較検討を行った。

In this paper, we study two well known methods of Ising structure learning, namely the pseudolikelihood approach and the interaction screening approach, in the context of tensor recovery in $k$-spin Ising models. We show that both these approaches, with proper regularization, retrieve the underlying hypernetwork structure using a sample size logarithmic in the number of network nodes, and exponential in the maximum interaction strength and maximum node-degree. We also track down the exact dependence of the rate of tensor recovery on the interaction order $k$, that is allowed to grow with the number of samples and nodes, for both the approaches. Finally, we provide a comparative discussion of the performance of the two approaches based on simulation studies, which also demonstrate the exponential dependence of the tensor recovery rate on the maximum coupling strength.
翻訳日:2023-10-24 00:47:24 公開日:2023-10-20
# 文字理解のための多レベルコントラスト学習

Multi-level Contrastive Learning for Script-based Character Understanding ( http://arxiv.org/abs/2310.13231v1 )

ライセンス: Link先を確認
Dawei Li, Hengyuan Zhang, Yanran Li, Shiping Yang(参考訳) 本研究では,文字の個人性やアイデンティティを発話から学習することを目的とした,スクリプト中の文字理解のシナリオに取り組む。 まず,このシナリオにおける課題を分析し,文字のグローバル情報をきめ細かな方法で捉えるためのマルチレベルコントラスト学習フレームワークを提案する。 提案手法を検証するため,SpanBERT,Longformer,BigBird,ChatGPT-3.5など,学習済みの強力な言語モデルと比較し,3つの文字理解サブタスクについて広範な実験を行った。 実験の結果,本手法は性能をかなり改善できることが判明した。 さらに詳細な分析を通じて,課題に対処するための手法の有効性を示し,文字理解のシナリオについてさらなるヒントを提供する。 私たちはgithubに関する作業をhttps://github.com/David-Li0406/ScriptベースのCharacter-Understandingでオープンソース化します。

In this work, we tackle the scenario of understanding characters in scripts, which aims to learn the characters' personalities and identities from their utterances. We begin by analyzing several challenges in this scenario, and then propose a multi-level contrastive learning framework to capture characters' global information in a fine-grained manner. To validate the proposed framework, we conduct extensive experiments on three character understanding sub-tasks by comparing with strong pre-trained language models, including SpanBERT, Longformer, BigBird and ChatGPT-3.5. Experimental results demonstrate that our method improves the performances by a considerable margin. Through further in-depth analysis, we show the effectiveness of our method in addressing the challenges and provide more hints on the scenario of character understanding. We will open-source our work on github at https://github.com/David-Li0406/Script-based-Character-Understanding.
翻訳日:2023-10-24 00:47:09 公開日:2023-10-20
# 絶対政策最適化

Absolute Policy Optimization ( http://arxiv.org/abs/2310.13230v1 )

ライセンス: Link先を確認
Weiye Zhao, Feihan Li, Yifan Sun, Rui Chen, Tianhao Wei, Changliu Liu(参考訳) 近年,信頼領域の政治強化学習は,複雑な制御タスクやゲームシナリオに対処する上で,目覚ましい成果を上げている。 しかし、このカテゴリの現代の最先端のアルゴリズムは、期待されるパフォーマンスの改善を強調し、最悪のパフォーマンス結果を制御する能力が欠如している。 この制限に対処するため、我々は新しい目的関数を導入し、その最適化により、ほぼ全ての性能サンプル(絶対性能)の下限における単調な改善が保証される。 この画期的な理論の進歩を考えると、我々はこの理論的に基礎付けられたアルゴリズムを一連の近似によって洗練し、絶対政策最適化 (apo) と呼ばれる実用的な解法を生み出した。 本実験は,継続制御ベンチマークタスクに挑戦する手法の有効性を実証し,atariゲームのマスタリングへの適用性を拡張する。 以上の結果から,APOは最先端のポリシー勾配アルゴリズムよりも大幅に優れており,期待される性能と最悪の性能の両方が大幅に向上することがわかった。

In recent years, trust region on-policy reinforcement learning has achieved impressive results in addressing complex control tasks and gaming scenarios. However, contemporary state-of-the-art algorithms within this category primarily emphasize improvement in expected performance, lacking the ability to control over the worst-case performance outcomes. To address this limitation, we introduce a novel objective function; by optimizing which, it will lead to guaranteed monotonic improvement in the lower bound of near-total performance samples (absolute performance). Considering this groundbreaking theoretical advancement, we then refine this theoretically grounded algorithm through a series of approximations, resulting in a practical solution called Absolute Policy Optimization (APO). Our experiments demonstrate the effectiveness of our approach across challenging continuous control benchmark tasks and extend its applicability to mastering Atari games. Our findings reveal that APO significantly outperforms state-of-the-art policy gradient algorithms, resulting in substantial improvements in both expected performance and worst-case performance.
翻訳日:2023-10-24 00:46:52 公開日:2023-10-20
# LLMベースのデバッグアプリケーションを評価するGitHubの最新バグデータセット

The GitHub Recent Bugs Dataset for Evaluating LLM-based Debugging Applications ( http://arxiv.org/abs/2310.13229v1 )

ライセンス: Link先を確認
Jae Yong Lee, Sungmin Kang, Juyeon Yoon, Shin Yoo(参考訳) 大規模言語モデル(LLM)は、強力な自然言語処理とコード合成能力を示しており、ソフトウェア工学アプリケーションに急速に採用されている。 しかし、LSMのトレーニングデータの詳細は公開されていないことが多く、既存のバグベンチマークが含まれているかどうかが懸念されている。 一般的なGPTモデルのトレーニングデータの代わりに、オープンソースのLLM StarCoderのトレーニングデータを調べ、広く使用されているDefects4Jベンチマークのデータが含まれている可能性を確認し、GPTトレーニングデータに含める可能性も高めている。 このことは、欠陥4JのLLMベースの結果がどの程度一般化されるかを知るのが困難であり、どんな結果であっても、その技術の性能がLLMの一般化か記憶によるかは明らかではない。 この問題を修正し、LLMベースのSEに関する継続的な研究を促進するために、GitHub recent Bugs (GHRB)データセットを紹介します。

Large Language Models (LLMs) have demonstrated strong natural language processing and code synthesis capabilities, which has led to their rapid adoption in software engineering applications. However, details about LLM training data are often not made public, which has caused concern as to whether existing bug benchmarks are included. In lieu of the training data for the popular GPT models, we examine the training data of the open-source LLM StarCoder, and find it likely that data from the widely used Defects4J benchmark was included, raising the possibility of its inclusion in GPT training data as well. This makes it difficult to tell how well LLM-based results on Defects4J would generalize, as for any results it would be unclear whether a technique's performance is due to LLM generalization or memorization. To remedy this issue and facilitate continued research on LLM-based SE, we present the GitHub Recent Bugs (GHRB) dataset, which includes 76 real-world Java bugs that were gathered after the OpenAI data cut-off point.
翻訳日:2023-10-24 00:46:22 公開日:2023-10-20
# メリーアーが減るほど? 多言語モデルにおける言語表現の検討

The Less the Merrier? Investigating Language Representation in Multilingual Models ( http://arxiv.org/abs/2310.13228v1 )

ライセンス: Link先を確認
Hellina Hailu Nigatu, Atnafu Lambebo Tonja, Jugal Kalita(参考訳) 多言語言語モデルは、複数の言語を1つのモデルに統合し、言語間変換学習を利用して異なる自然言語処理(NLP)タスクのパフォーマンスを改善する方法を提供する。 多言語モデルの進歩にもかかわらず、特に低リソース設定では、すべての言語がサポートされているわけではない。 本研究では,多言語モデルにおける言語表現について検討する。 まず、人気のある多言語モデルでどの言語がサポートされているか、どの言語が残されているか、という質問から始めます。 次に、対象言語について、言語族と方言に基づくモデルの学習表現を見て、-(1) におけるモデルの学習表現と~(2) 未認識言語がどのように異なる言語群にまたがっているかを理解しようとする。 さらに、テキスト生成や名前付きエンティティ認識といった下流タスクのパフォーマンスをテストおよび分析する。 私たちは実験から、コミュニティ中心のモデル -- 特定の家族や地理的な場所の言語にフォーカスし、それを話すコミュニティによって構築されたモデル -- が、低リソース言語のために同じ家族内の言語を区別するのに優れていることを観察します。 本稿では,多言語モデルとその欠点の理解に関する文献に寄与し,その改善の可能性について考察する。

Multilingual Language Models offer a way to incorporate multiple languages in one model and utilize cross-language transfer learning to improve performance for different Natural Language Processing (NLP) tasks. Despite progress in multilingual models, not all languages are supported as well, particularly in low-resource settings. In this work, we investigate the linguistic representation of different languages in multilingual models. We start by asking the question which languages are supported in popular multilingual models and which languages are left behind. Then, for included languages, we look at models' learned representations based on language family and dialect and try to understand how models' learned representations for~(1) seen and~(2) unseen languages vary across different language groups. In addition, we test and analyze performance on downstream tasks such as text generation and Named Entity Recognition. We observe from our experiments that community-centered models -- models that focus on languages of a given family or geographical location and are built by communities who speak them -- perform better at distinguishing between languages in the same family for low-resource languages. Our paper contributes to the literature in understanding multilingual models and their shortcomings and offers insights on potential ways to improve them.
翻訳日:2023-10-24 00:45:50 公開日:2023-10-20
# ToolChain*: A*検索付き大規模言語モデルにおける効率的な行動空間ナビゲーション

ToolChain*: Efficient Action Space Navigation in Large Language Models with A* Search ( http://arxiv.org/abs/2310.13227v1 )

ライセンス: Link先を確認
Yuchen Zhuang, Xiang Chen, Tong Yu, Saayan Mitra, Victor Bursztyn, Ryan A. Rossi, Somdeb Sarkhel, Chao Zhang(参考訳) 大規模言語モデル(llm)は、複雑な現実世界の問題を解決する上で強力な意思決定と計画能力を示している。 LLMベースの自律エージェントは、さまざまなツール(例えば関数型API)と対話し、ステップバイステップで一連のAPI関数呼び出しを実行するソリューションプランを生成することができる。 多数の候補api関数呼び出しは、アクションスペースを大きく拡大し、効率的なアクションスペースナビゲーションの必要性を増大させる。 しかし、既存の手法は、一方向の行動空間の探索に苦しむか、局所的な最適解に閉じ込められるか、または全ての潜在的な行動の徹底的なトラバースに苦しむか、非効率なナビゲーションを引き起こす。 これらの問題に対処するため,LLMエージェントのための効率的な木探索型計画アルゴリズムであるToolChain*を提案する。 アクション空間全体を決定木として定式化し、各ノードはソリューション計画に関わる可能性のあるAPI関数呼び出しを表す。 A*探索アルゴリズムをタスク固有のコスト関数設計に組み込むことで、不正な動作を伴う可能性のある高コストブランチを効率的に作成し、最も低コストで有効なパスをソリューションとして特定する。 複数のツールの使用と推論タスクに関する大規模な実験は、ToolChain*が拡張可能なアクション空間内での探索とエクスプロイトを効率的にバランスしていることを示しています。 計画作業や推論作業における最先端のベースラインを平均で3.1%、平均で3.5%上回り、7.35倍と2.31倍の時間を要する。

Large language models (LLMs) have demonstrated powerful decision-making and planning capabilities in solving complicated real-world problems. LLM-based autonomous agents can interact with diverse tools (e.g., functional APIs) and generate solution plans that execute a series of API function calls in a step-by-step manner. The multitude of candidate API function calls significantly expands the action space, amplifying the critical need for efficient action space navigation. However, existing methods either struggle with unidirectional exploration in expansive action spaces, trapped into a locally optimal solution, or suffer from exhaustively traversing all potential actions, causing inefficient navigation. To address these issues, we propose ToolChain*, an efficient tree search-based planning algorithm for LLM-based agents. It formulates the entire action space as a decision tree, where each node represents a possible API function call involved in a solution plan. By incorporating the A* search algorithm with task-specific cost function design, it efficiently prunes high-cost branches that may involve incorrect actions, identifying the most low-cost valid path as the solution. Extensive experiments on multiple tool-use and reasoning tasks demonstrate that ToolChain* efficiently balances exploration and exploitation within an expansive action space. It outperforms state-of-the-art baselines on planning and reasoning tasks by 3.1% and 3.5% on average while requiring 7.35x and 2.31x less time, respectively.
翻訳日:2023-10-24 00:45:07 公開日:2023-10-20
# 低データ環境における単語の意味学習を支援するビジュアルグラウンドニング

Visual Grounding Helps Learn Word Meanings in Low-Data Regimes ( http://arxiv.org/abs/2310.13257v1 )

ライセンス: Link先を確認
Chengxu Zhuang, Evelina Fedorenko, Jacob Andreas(参考訳) 現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールであり、その内部表現は人間の脳内の言語表現と著しく整合している。 しかし、これらの結果を達成するためには、LMは明らかに非人間的な方法で訓練されなければならない -- 子どもが発達中に受ける言語データよりも桁違いに多くの命令が必要であり、それに付随する知覚、行動、社会的行動の基盤がない。 本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。 我々は,様々なスケールのデータセット上で,画像キャプションタスクから補助的な監督を受けることなく,多様なlmアーキテクチャを訓練する。 次に、これらのモデルを、モデルによる構文カテゴリーの学習、語彙関係、意味的特徴、意味的類似性、人間の神経表現との整合性を特徴付ける幅広いベンチマークで評価する。 視覚的監督は、実際に単語学習の効率を向上させることができる。 しかし、これらの改善は制限されており、ほとんどは低データ体制に存在し、時にはテキストからの豊富な分散信号を含めることでキャンセルされる。 テキストや画像によって伝達される情報は冗長ではなく、視覚情報によって駆動されるモデルは、主に単語の共起によって駆動されるものと質的に異なる。 しかし,この結果から,従来のマルチモーダルモデリング手法では視覚情報を効果的に活用できないことが示唆された。

Modern neural language models (LMs) are powerful tools for modeling human sentence production and comprehension, and their internal representations are remarkably well-aligned with representations of language in the human brain. But to achieve these results, LMs must be trained in distinctly un-human-like ways -- requiring orders of magnitude more language data than children receive during development, and without any of the accompanying grounding in perception, action, or social behavior. Do models trained more naturalistically -- with grounded supervision -- exhibit more human-like language learning? We investigate this question in the context of word learning, a key sub-task in language acquisition. We train a diverse set of LM architectures, with and without auxiliary supervision from image captioning tasks, on datasets of varying scales. We then evaluate these models on a broad set of benchmarks characterizing models' learning of syntactic categories, lexical relations, semantic features, semantic similarity, and alignment with human neural representations. We find that visual supervision can indeed improve the efficiency of word learning. However, these improvements are limited: they are present almost exclusively in the low-data regime, and sometimes canceled out by the inclusion of rich distributional signals from text. The information conveyed by text and images is not redundant -- we find that models mainly driven by visual information yield qualitatively different from those mainly driven by word co-occurrences. However, our results suggest that current multi-modal modeling approaches fail to effectively leverage visual information to build more human-like word representations from human-sized datasets.
翻訳日:2023-10-24 00:37:13 公開日:2023-10-20
# steve-eye: オープンワールドにおける llm ベースの体現エージェントと視覚知覚

Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in Open Worlds ( http://arxiv.org/abs/2310.13255v1 )

ライセンス: Link先を確認
Sipeng Zheng, Jiazheng Liu, Yicheng Feng, Zongqing Lu(参考訳) 近年の研究では、大型言語モデル(LLM)が、世界と対話する自己駆動能力を持つエンボディエージェントを装備できるという、説得力のある証拠が提示されている。 しかし、これらの取り組みはオープンワールドの視覚的な豊かさを見落とし、「目隠しされたテキストベースのゲーム」のようなインタラクティブなプロセス全体を作り上げる傾向がある。 その結果, LLMをベースとしたエージェントは, 環境を直感的に理解し, 理解しやすい応答を生み出すという課題にしばしば遭遇する。 本稿では,この制限に対処するために,エンドツーエンドで訓練された大規模マルチモーダルモデルであるSteve-Eyeを提案する。 Steve-Eye は LLM とビジュアルエンコーダを統合し、視覚テキスト入力を処理し、マルチモーダルフィードバックを生成する。 さらに,マルチモーダル認識,基礎知識ベース,スキル予測と計画という,エージェントに不可欠な3つの機能を含む,850Kのオープンワールド命令ペアからなる広範なデータセットを半自動で収集する。 最後に、我々は3つのオープンワールド評価ベンチマークを開発し、戦略的な行動と計画の能力を検証するため、幅広い視点から広範な実験を行う。 コードとデータセットがリリースされる。

Recent studies have presented compelling evidence that large language models (LLMs) can equip embodied agents with the self-driven capability to interact with the world, which marks an initial step toward versatile robotics. However, these efforts tend to overlook the visual richness of open worlds, rendering the entire interactive process akin to "a blindfolded text-based game." Consequently, LLM-based agents frequently encounter challenges in intuitively comprehending their surroundings and producing responses that are easy to understand. In this paper, we propose Steve-Eye, an end-to-end trained large multimodal model designed to address this limitation. Steve-Eye integrates the LLM with a visual encoder which enables it to process visual-text inputs and generate multimodal feedback. In addition, we use a semi-automatic strategy to collect an extensive dataset comprising 850K open-world instruction pairs, empowering our model to encompass three essential functions for an agent: multimodal perception, foundational knowledge base, and skill prediction and planning. Lastly, we develop three open-world evaluation benchmarks, then carry out extensive experiments from a wide range of perspectives to validate our model's capability to strategically act and plan. Codes and datasets will be released.
翻訳日:2023-10-24 00:36:46 公開日:2023-10-20
# 知識グラフコンテキストエンハンスド多角化推薦

Knowledge Graph Context-Enhanced Diversified Recommendation ( http://arxiv.org/abs/2310.13253v1 )

ライセンス: Link先を確認
Xiaolong Liu, Liangwei Yang, Zhiwei Liu, Mingdai Yang, Chen Wang, Hao Peng, Philip S. Yu(参考訳) Recommender Systems(RecSys)の分野は、ユーザの過去のインタラクションを活用して精度を高めるために広く研究されている。 それでも、精度の持続的な追求は多様性を減少させ、よく認識される「エコーチェンバー」現象を極めた。 多様化されたRecSysは、正確さに匹敵する多様性を配置し、学術界や業界関係者から注目を浴びている。 本研究は知識グラフ(KG)の複雑な文脈における多角化RecSysの領域について考察する。 これらのKGは、エンティティやアイテムに関する相互接続された情報のリポジトリとして機能し、洞察に富んだコンテキスト情報の導入を通じて、推薦の多様性を増幅する提案的な手段を提供する。 当社のコントリビューションには、革新的なメトリック、エンティティカバレッジ、およびkgドメイン内の多様性を効果的に定量化する関係カバレッジの導入が含まれています。 さらに,多様性を自発的に認識するユーザ表現を定式化するために細心の注意を払って設計された多角的組込み学習(del)モジュールについても紹介する。 これに対応して,条件アライメントと統一性(CAU)という新しい手法を導入する。 文脈整合性を維持しながら、KG項目の埋め込みを十分にエンコードする。 総合的に、我々の貢献は、KGインフォームドRecSysパラダイムの領域におけるレコメンデーションの多様性のパノラマを増大させるための大きな一歩を示している。

The field of Recommender Systems (RecSys) has been extensively studied to enhance accuracy by leveraging users' historical interactions. Nonetheless, this persistent pursuit of accuracy frequently engenders diminished diversity, culminating in the well-recognized "echo chamber" phenomenon. Diversified RecSys has emerged as a countermeasure, placing diversity on par with accuracy and garnering noteworthy attention from academic circles and industry practitioners. This research explores the realm of diversified RecSys within the intricate context of knowledge graphs (KG). These KGs act as repositories of interconnected information concerning entities and items, offering a propitious avenue to amplify recommendation diversity through the incorporation of insightful contextual information. Our contributions include introducing an innovative metric, Entity Coverage, and Relation Coverage, which effectively quantifies diversity within the KG domain. Additionally, we introduce the Diversified Embedding Learning (DEL) module, meticulously designed to formulate user representations that possess an innate awareness of diversity. In tandem with this, we introduce a novel technique named Conditional Alignment and Uniformity (CAU). It adeptly encodes KG item embeddings while preserving contextual integrity. Collectively, our contributions signify a substantial stride towards augmenting the panorama of recommendation diversity within the realm of KG-informed RecSys paradigms.
翻訳日:2023-10-24 00:36:23 公開日:2023-10-20
# 効率的な転送学習による診断指向医用画像圧縮

Diagnosis-oriented Medical Image Compression with Efficient Transfer Learning ( http://arxiv.org/abs/2310.13250v1 )

ライセンス: Link先を確認
Guangqi Xie, Xin Li, Xiaohan Pan, Zhibo Chen(参考訳) 遠隔医療診断は,専門医や知的診断装置による診断のために,医療データを効率よく圧縮し,伝達する必要がある医療システムにおいて,重要かつ必要不可欠な技術として現れてきた。 この過程では、診断と無関係な大量の冗長コンテンツが高忠実な符号化を受け、不要な伝送コストが発生する。 そこで本研究では,医療シナリオを想定した特別な意味的圧縮タスクである診断指向の医用画像圧縮を提案し,診断精度を損なうことなく圧縮コストを低減させる。 しかし,このような圧縮システムを最適化するための十分な医療データ収集は,プライバシの問題や専門的アノテーションの欠如により非常に高価で困難である。 本研究では,従来の強化学習型タスク駆動型セマンティックコーディングフレームワークであるHRLVSC [1] の知識を再利用することにより,診断指向の医用画像圧縮のための第1の効率的なトランスファーラーニングベースコーデックであるDMICを提案する。 具体的には、HRLVSC内のビット割り当てのためのポリシーネットワークの部分パラメータのみをチューニングすることに集中し、医療画像への適応を可能にする。 本研究は,典型的な医療課題である冠動脈セグメンテーションによるDMICの検証である。 政策ネットワークのA2Cモジュール(2.7%のパラメータ)のみを1つの医療サンプルで調整することで、HEVCアンカーと比較して、我々のDMICは47.594%BD-Rate節約を達成できることを示した。

Remote medical diagnosis has emerged as a critical and indispensable technique in practical medical systems, where medical data are required to be efficiently compressed and transmitted for diagnosis by either professional doctors or intelligent diagnosis devices. In this process, a large amount of redundant content irrelevant to the diagnosis is subjected to high-fidelity coding, leading to unnecessary transmission costs. To mitigate this, we propose diagnosis-oriented medical image compression, a special semantic compression task designed for medical scenarios, targeting to reduce the compression cost without compromising the diagnosis accuracy. However, collecting sufficient medical data to optimize such a compression system is significantly expensive and challenging due to privacy issues and the lack of professional annotation. In this study, we propose DMIC, the first efficient transfer learning-based codec, for diagnosis-oriented medical image compression, which can be effectively optimized with only few-shot annotated medical examples, by reusing the knowledge in the existing reinforcement learning-based task-driven semantic coding framework, i.e., HRLVSC [1]. Concretely, we focus on tuning only the partial parameters of the policy network for bit allocation within HRLVSC, which enables it to adapt to the medical images. In this work, we validate our DMIC with the typical medical task, Coronary Artery Segmentation. Extensive experiments have demonstrated that our DMIC can achieve 47.594%BD-Rate savings compared to the HEVC anchor, by tuning only the A2C module (2.7% parameters) of the policy network with only 1 medical sample.
翻訳日:2023-10-24 00:35:58 公開日:2023-10-20
# TempGNN:動的セッションベースレコメンデーションのための時間グラフニューラルネットワーク

TempGNN: Temporal Graph Neural Networks for Dynamic Session-Based Recommendations ( http://arxiv.org/abs/2310.13249v1 )

ライセンス: Link先を確認
Eunkyu Oh and Taehun Kim(参考訳) セッションベースのリコメンデーションは,比較的短期間のセッションにおいて,ユーザのアイテムとのインタラクション行動を理解することで,次のアクションを予測する。 これまでの研究は、繰り返し発生するニューラルネットワーク、セルフアテンションモデル、最近ではグラフニューラルネットワークによって、複雑なアイテム遷移からシーケンシャルな依存関係のダイナミクスを捉えることに重点を置いてきた。 セッション中の項目の順序に依存するモデルが多々存在するにもかかわらず、相互作用間の時間的影響に対処するためのアプローチがいくつか提案されている。 時間的イベント列として表現される動的セッショングラフ上のノードとエッジ上の時間的埋め込み演算子を利用して、複雑なアイテム遷移における構造的および時間的ダイナミクスをキャプチャする汎用フレームワークtempgnnを提案する。 提案手法の有効性と適応性は,既存の最先端モデルに組み込むことで検証した。 最後にTempGNNは、2つの現実世界のEコマースデータセットで最先端のパフォーマンスを達成した。

Session-based recommendations which predict the next action by understanding a user's interaction behavior with items within a relatively short ongoing session have recently gained increasing popularity. Previous research has focused on capturing the dynamics of sequential dependencies from complicated item transitions in a session by means of recurrent neural networks, self-attention models, and recently, mostly graph neural networks. Despite the plethora of different models relying on the order of items in a session, few approaches have been proposed for dealing better with the temporal implications between interactions. We present Temporal Graph Neural Networks (TempGNN), a generic framework for capturing the structural and temporal dynamics in complex item transitions utilizing temporal embedding operators on nodes and edges on dynamic session graphs, represented as sequences of timed events. Extensive experimental results show the effectiveness and adaptability of the proposed method by plugging it into existing state-of-the-art models. Finally, TempGNN achieved state-of-the-art performance on two real-world e-commerce datasets.
翻訳日:2023-10-24 00:35:29 公開日:2023-10-20
# FLEE-GNN:多成分食品流の空間抵抗性解析のためのエッジ強化グラフニューラルネットワークのフェデレーション学習システム

FLEE-GNN: A Federated Learning System for Edge-Enhanced Graph Neural Network in Analyzing Geospatial Resilience of Multicommodity Food Flows ( http://arxiv.org/abs/2310.13248v1 )

ライセンス: Link先を確認
Yuxiao Qu, Jinmeng Rao, Song Gao, Qianheng Zhang, Wei-Lun Chao, Yu Su, Michelle Miller, Alfonso Morales, Patrick Huber(参考訳) 食糧供給ネットワークのレジリエンスの理解と測定は、食品の安全性向上に取り組むための世界的な義務である。 しかし、これらのネットワークの複雑さは多次元の相互作用と決定によって大きな課題を呈している。 本稿では,エッジエンハンスグラフニューラルネットワークのための新しい連合学習システムであるfleet-gnnを提案し,これらの課題を克服し,空間ネットワークの一種であるマルチコモディティフードフローネットワークの地理空間弾性解析を強化する。 FLEE-GNNは、一般化可能性、スケーラビリティ、データプライバシーの観点から、エントロピーベースのメソッドのような現在の方法論の限界に対処する。 グラフニューラルネットワークの堅牢性と適応性と、地理的領域にわたる食品供給ネットワークのレジリエンス分析におけるフェデレーション学習のプライバシー意識と分散化の側面を組み合わせる。 本稿では,FLEE-GNNの革新的なデータ生成技術,実験設計,改善に向けた今後の方向性についても論じる。 その結果、多商品食品流網のレジリエンスを定量化するためのこのアプローチの進歩が示され、AI手法によるグローバルな食品安全確保への取り組みに寄与した。 FLEE-GNNは空間的に不均一なサブネットワーク分布を持つ他の空間ネットワークに適用できる可能性を持っている。

Understanding and measuring the resilience of food supply networks is a global imperative to tackle increasing food insecurity. However, the complexity of these networks, with their multidimensional interactions and decisions, presents significant challenges. This paper proposes FLEE-GNN, a novel Federated Learning System for Edge-Enhanced Graph Neural Network, designed to overcome these challenges and enhance the analysis of geospatial resilience of multicommodity food flow network, which is one type of spatial networks. FLEE-GNN addresses the limitations of current methodologies, such as entropy-based methods, in terms of generalizability, scalability, and data privacy. It combines the robustness and adaptability of graph neural networks with the privacy-conscious and decentralized aspects of federated learning on food supply network resilience analysis across geographical regions. This paper also discusses FLEE-GNN's innovative data generation techniques, experimental designs, and future directions for improvement. The results show the advancements of this approach to quantifying the resilience of multicommodity food flow networks, contributing to efforts towards ensuring global food security using AI methods. The developed FLEE-GNN has the potential to be applied in other spatial networks with spatially heterogeneous sub-network distributions.
翻訳日:2023-10-24 00:35:11 公開日:2023-10-20
# DistilBERTに基づくコマンドシェルセッションの異常検出:教師なしおよび監視されたアプローチ

Anomaly Detection of Command Shell Sessions based on DistilBERT: Unsupervised and Supervised Approaches ( http://arxiv.org/abs/2310.13247v1 )

ライセンス: Link先を確認
Zefang Liu, John Buford(参考訳) コマンドシェルセッションにおける異常検出は、コンピュータセキュリティの重要な側面である。 近年のディープラーニングと自然言語処理の進歩、特にトランスフォーマーベースのモデルは、複雑なセキュリティ問題に対処する上で大きな可能性を秘めている。 本稿では,Unixシェルセッションにおける異常検出を事前訓練したDistilBERTモデルを用いて包括的に実施し,教師なし学習と教師なし学習の両手法を用いて,データラベリングを最小化しながら異常を識別する手法を提案する。 unsupervisedメソッドはunixシェルコマンドの構造と構文をキャプチャし、通常の動作からセッションの逸脱を検出することができる。 生産システムから収集した大規模エンタープライズデータセットの実験は、Unixシェルセッションにおける異常な振る舞いを検出する方法の有効性を示す。 この研究は、トランスフォーマーの最近の進歩を活用して重要なコンピュータセキュリティ問題に対処する可能性を強調している。

Anomaly detection in command shell sessions is a critical aspect of computer security. Recent advances in deep learning and natural language processing, particularly transformer-based models, have shown great promise for addressing complex security challenges. In this paper, we implement a comprehensive approach to detect anomalies in Unix shell sessions using a pretrained DistilBERT model, leveraging both unsupervised and supervised learning techniques to identify anomalous activity while minimizing data labeling. The unsupervised method captures the underlying structure and syntax of Unix shell commands, enabling the detection of session deviations from normal behavior. Experiments on a large-scale enterprise dataset collected from production systems demonstrate the effectiveness of our approach in detecting anomalous behavior in Unix shell sessions. This work highlights the potential of leveraging recent advances in transformers to address important computer security challenges.
翻訳日:2023-10-24 00:34:49 公開日:2023-10-20
# 超高速レーザーパルスによる電子輸送:スピン輸送への応用

Electron transport under an ultrafast laser pulse: Implication for spin transport ( http://arxiv.org/abs/2310.13246v1 )

ライセンス: Link先を確認
Robert Meadows, Y. Xue, Nicholas Allbritton and G. P. Zhang(参考訳) 試料をレーザーで駆動する電子輸送は、スピントロニクスのスピン輸送を制御できる可能性があり、数十年にわたって大きな注目を集めてきた。 しかし、光は逆の電磁波であり、電子が長手速度を得る方法は非常に混乱している。 本稿では,一般的なメカニズムが機能していることを示す。 光伝播方向に沿って移動する電子を操縦する磁場 {\bf B} であり、その強い横運動は局所励起をもたらす。 varga と toroke は形式論を用いて、もし {\bf e} だけを含むならば、電子は大きな速度で横方向にのみ動くことを示した。 {\bf B} と {\bf E} を両方含み、実際の実験的レーザーパラメータを用いて、レーザーパルスが電子を軸方向に沿って20~262$\rm \AA$で駆動できることを実証することができる。 重要な洞察は、bf B} が電子の方向を変え、電子が光のポインティングベクトルに沿って動くことを可能にすることである。 私たちの発見は重要な結果をもたらす。 非零な {\bf b} は空間依存ベクトルポテンシャル ${\bf a} (\br,t)$, ${\bf b}=\nabla \times {\bf a}(\br,t)$ を意味するので、coulombゲージ、すなわち${\bf a}(\br,t)$ を空間独立な${\bf a}(t)$ で置き換えると、レーザー励起下で電子とスピン輸送を記述することができない。 我々の発見は、レーザー駆動スピン輸送の現在進行中の調査に潜在的に影響を及ぼすことが期待されている。

Laser-driven electron transport across a sample has garnered enormous attentions over several decades, because it potentially allows one to control spin transports in spintronics. But light is a transverse electromagnetic wave, how an electron acquires a longitudinal velocity has been very puzzling. In this paper, we show a general mechanism is working. It is the magnetic field {\bf B} that steers the electron moving along the light propagation direction, while its strong transverse motion leads to local excitation. We employ the formalism put forth by Varga and Toroke to show that if we only include {\bf E}, the electron only moves transversely with a large velocity. Including both {\bf B} and {\bf E} and using real experimental laser parameters, we are able to demonstrate that a laser pulse can drive the electron along the axial direction by 20 to 262 $\rm \AA$, consistent with the experiments. The key insight is that {\bf B} changes the direction of the electron and allows the electron to move along the Poynting vector of light. Our finding has an important consequence. Because a nonzero {\bf B} means a spatially dependent vector potential ${\bf A} (\br,t)$, ${\bf B}=\nabla \times {\bf A}(\br,t)$, this points out that the Coulomb gauge, that is, replacing ${\bf A}(\br,t)$ by a spatial independent ${\bf A}(t)$, is unable to describe electron and spin transport under laser excitation. Our finding is expected to have a potential impact on the ongoing investigation of laser-driven spin transport.
翻訳日:2023-10-24 00:34:34 公開日:2023-10-20
# オープンソースの大規模言語モデルは、文書のランク付けのための強力なゼロショットクエリ度モデルである

Open-source Large Language Models are Strong Zero-shot Query Likelihood Models for Document Ranking ( http://arxiv.org/abs/2310.13243v1 )

ライセンス: Link先を確認
Shengyao Zhuang and Bing Liu and Bevan Koopman and Guido Zuccon(参考訳) 情報検索の分野では、Query Likelihood Models (QLMs) はドキュメントの内容が与えられたクエリを生成する確率に基づいてドキュメントをランク付けする。 近年,高度な大規模言語モデル (LLM) が有効なQLMとして登場し,有望なランキング機能を示している。 本稿では,非構造化テキストデータのみを教師なしの微調整で事前学習した最近のLCMのゼロショットランキングの有効性について検討する。 本研究は,このようなllmのロバストなゼロショットランキング能力を明らかにし,質問生成タスクが微調整データセットに存在しない限り,追加の命令の微調整が有効性を阻害する可能性を強調した。 さらに,llmベースのqlmsとハイブリッドゼロショットレトリバーを統合し,ゼロショットシナリオと少数ショットシナリオの両方において極めて有効性を示す,最先端のランキングシステムを提案する。 コードベースをhttps://github.com/ielab/llm-qlmで公開しています。

In the field of information retrieval, Query Likelihood Models (QLMs) rank documents based on the probability of generating the query given the content of a document. Recently, advanced large language models (LLMs) have emerged as effective QLMs, showcasing promising ranking capabilities. This paper focuses on investigating the genuine zero-shot ranking effectiveness of recent LLMs, which are solely pre-trained on unstructured text data without supervised instruction fine-tuning. Our findings reveal the robust zero-shot ranking ability of such LLMs, highlighting that additional instruction fine-tuning may hinder effectiveness unless a question generation task is present in the fine-tuning dataset. Furthermore, we introduce a novel state-of-the-art ranking system that integrates LLM-based QLMs with a hybrid zero-shot retriever, demonstrating exceptional effectiveness in both zero-shot and few-shot scenarios. We make our codebase publicly available at https://github.com/ielab/llm-qlm.
翻訳日:2023-10-24 00:33:55 公開日:2023-10-20
# 分子系における物理領域の量子状態:三状態モデルアプローチ

Quantum states of physical domains in molecular systems: A three-state model approach ( http://arxiv.org/abs/2310.13241v1 )

ライセンス: Link先を確認
Roberto Bochicchio and Boris Maul\'en(参考訳) 分子構造内の物理領域(ドメインまたは盆地)は、電荷を交換し、結果として電子(ネット電荷)の分数を含むオープンシステムである。 これらの領域の量子状態を記述する自然な枠組みは、その大カノニカルバージョンにおける密度行列 (dm) であり、これは整数数の電子の基底状態の集合への凸展開に対応する。 本報告では, 粒子数の異なる3つの状態, 中性および2つの(エッジ)イオン状態へのDM膨張によって, これらの量の解が支持されることを示した。 領域内の粒子数と粒子数(フラクタル占有人口)は、量子アクセス可能な状態が議論される領域のドナー/アクセプタ特性を示す基本転移の大きさの観点で拡大係数によって決定される。

The physical regions (domains or basins) within the molecular structure are open systems that exchange charge between them and consequently house a fractional number of electrons (net charge). The natural framework describing the quantum states for these domains is the density matrix (DM) in its grand-canonical version which corresponds to a convex expansion into a set of basis states of an integer number of electrons. In this report, it is shown that the solution for these quantities is supported by the DM expansion into three states of different number of particles, the neutral and two (edge) ionic states. The states and the average number of particles in the domains (fractional occupation population) are determined by the coefficients of the expansion in terms of the fundamental transference magnitudes revealing the donor/acceptor character of the domains by which the quantum accessible states are discussed.
翻訳日:2023-10-24 00:33:38 公開日:2023-10-20
# 物理インフォームドニューラルネットワークのメタラーニングによる新しいPDEの解法

Meta-learning of Physics-informed Neural Networks for Efficiently Solving Newly Given PDEs ( http://arxiv.org/abs/2310.13270v1 )

ライセンス: Link先を確認
Tomoharu Iwata, Yusuke Tanaka, Naonori Ueda(参考訳) 本稿では、偏微分方程式(PDE)問題を効率的に解くニューラルネットワークに基づくメタラーニング手法を提案する。 提案手法は多種多様なPDE問題の解法をメタラーニングし,その知識を新たに与えられたPDE問題の解法に用いる。 そこで, pde問題をニューラルネットワークを用いた問題表現に符号化し, 支配方程式を偏微分多項式関数の係数で表現し, 境界条件を点条件対で表現する。 問題表現をニューラルネットワークの入力として予測し、モデルパラメータを更新せずに、ニューラルネットワークのフォワーディングプロセスによって問題固有のソリューションを効率的に予測できる。 このモデルをトレーニングするために、物理インフォームドニューラルネットワークフレームワークに基づくPDE問題に適用した場合の予測誤差を最小限に抑え、解が未知であっても誤差を評価できる。 提案手法はPDE問題の解を予測するために既存の手法よりも優れていることを示す。

We propose a neural network-based meta-learning method to efficiently solve partial differential equation (PDE) problems. The proposed method is designed to meta-learn how to solve a wide variety of PDE problems, and uses the knowledge for solving newly given PDE problems. We encode a PDE problem into a problem representation using neural networks, where governing equations are represented by coefficients of a polynomial function of partial derivatives, and boundary conditions are represented by a set of point-condition pairs. We use the problem representation as an input of a neural network for predicting solutions, which enables us to efficiently predict problem-specific solutions by the forwarding process of the neural network without updating model parameters. To train our model, we minimize the expected error when adapted to a PDE problem based on the physics-informed neural network framework, by which we can evaluate the error even when solutions are unknown. We demonstrate that our proposed method outperforms existing methods in predicting solutions of PDE problems.
翻訳日:2023-10-24 00:27:55 公開日:2023-10-20
# ラーニング・トゥ・ランドにおける特徴選択のための模擬アニーリングに関する探索的研究

An Exploratory Study on Simulated Annealing for Feature Selection in Learning-to-Rank ( http://arxiv.org/abs/2310.13269v1 )

ライセンス: Link先を確認
Mohd. Sayemul Haque, Md. Fahim, Muhammad Ibrahim(参考訳) Learning-to-rankは教師付き機械学習の応用分野である。 一般の学習モデルの精度向上には特徴選択が有効であることが判明しており、この学習-ランクドメインのプロセスについて検討することが興味深い。 本研究では,本課題に対するシミュレート・アニーリングと呼ばれるメタヒューリスティックな手法の利用について検討する。 模擬アニーリングの一般的な枠組みの下で, 地域選択戦略と温度冷却方式について検討する。 さらに,探索空間のトラバースに効果的に使用できるプログレスパラメータと呼ばれる新しいハイパーパラメータを導入する。 アルゴリズムは5つの公開ベンチマークデータセットで評価される。 さらに,シミュレーションによるアニーリングに基づく特徴選択アルゴリズムと,他の効果的なメタヒューリスティックアルゴリズムである局所ビーム探索との比較を行った。 実験の結果,提案モデルの有効性が示された。

Learning-to-rank is an applied domain of supervised machine learning. As feature selection has been found to be effective for improving the accuracy of learning models in general, it is intriguing to investigate this process for learning-to-rank domain. In this study, we investigate the use of a popular meta-heuristic approach called simulated annealing for this task. Under the general framework of simulated annealing, we explore various neighborhood selection strategies and temperature cooling schemes. We further introduce a new hyper-parameter called the progress parameter that can effectively be used to traverse the search space. Our algorithms are evaluated on five publicly benchmark datasets of learning-to-rank. For a better validation, we also compare the simulated annealing-based feature selection algorithm with another effective meta-heuristic algorithm, namely local beam search. Extensive experimental results shows the efficacy of our proposed models.
翻訳日:2023-10-24 00:27:38 公開日:2023-10-20
# dpm-solver-v3:経験モデル統計を用いた拡散 ode ソルバの改良

DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model Statistics ( http://arxiv.org/abs/2310.13268v1 )

ライセンス: Link先を確認
Kaiwen Zheng, Cheng Lu, Jianfei Chen, Jun Zhu(参考訳) 拡散確率モデル(DPM)は、非効率サンプリングに悩まされながら高忠実度画像生成に優れた性能を示した。 最近の研究は、DPMの特定のODE形式を利用する高速ODEソルバを提案することでサンプリング手順を加速している。 しかし、それらは推論中の特定のパラメータ化(ノイズ/データ予測など)に大きく依存しており、最適な選択ではないかもしれない。 本研究では,ode溶液の1次離散化誤差を最小化するサンプリング時の最適パラメータ化に関する新しい定式化を提案する。 このような定式化に基づいて、事前学習モデル上で効率的に計算された数係数を導入し、DPMのための新しい高速ODE解法である \textit{DPM-Solver-v3} を提案する。 さらに,マルチステップ法と予測子補正フレームワークを取り入れ,少数の機能評価(nfe)や大規模指導尺度でサンプル品質を改善する手法を提案する。 実験により、DPM-Solver-v3は、特に5$\sim$10 NFEにおいて、画素空間と潜在空間の両方のDPMを用いて、条件なしサンプリングと条件付きサンプリングの両方において、一貫した性能または同等の性能を達成することが示された。 非条件のCIFAR10では12.21 (5 NFE), 2.51 (10 NFE), 安定拡散では0.55 (5 NFE, 7.5ガイダンススケール) のFIDを達成し, 従来の最先端のトレーニングフリー手法に比べて15\%$\sim$30\%の高速化を実現した。 コードは \url{https://github.com/thu-ml/dpm-solver-v3} で入手できる。

Diffusion probabilistic models (DPMs) have exhibited excellent performance for high-fidelity image generation while suffering from inefficient sampling. Recent works accelerate the sampling procedure by proposing fast ODE solvers that leverage the specific ODE form of DPMs. However, they highly rely on specific parameterization during inference (such as noise/data prediction), which might not be the optimal choice. In this work, we propose a novel formulation towards the optimal parameterization during sampling that minimizes the first-order discretization error of the ODE solution. Based on such formulation, we propose \textit{DPM-Solver-v3}, a new fast ODE solver for DPMs by introducing several coefficients efficiently computed on the pretrained model, which we call \textit{empirical model statistics}. We further incorporate multistep methods and a predictor-corrector framework, and propose some techniques for improving sample quality at small numbers of function evaluations (NFE) or large guidance scales. Experiments show that DPM-Solver-v3 achieves consistently better or comparable performance in both unconditional and conditional sampling with both pixel-space and latent-space DPMs, especially in 5$\sim$10 NFEs. We achieve FIDs of 12.21 (5 NFE), 2.51 (10 NFE) on unconditional CIFAR10, and MSE of 0.55 (5 NFE, 7.5 guidance scale) on Stable Diffusion, bringing a speed-up of 15\%$\sim$30\% compared to previous state-of-the-art training-free methods. Code is available at \url{https://github.com/thu-ml/DPM-Solver-v3}.
翻訳日:2023-10-24 00:27:25 公開日:2023-10-20
# コントラストクロスモーダルモデルの言語エンコーダについて

On the Language Encoder of Contrastive Cross-modal Models ( http://arxiv.org/abs/2310.13267v1 )

ライセンス: Link先を確認
Mengjie Zhao, Junya Ono, Zhi Zhong, Chieh-Hsin Lai, Yuhta Takida, Naoki Murata, Wei-Hsiang Liao, Takashi Shibuya, Hiromi Wakaki, Yuki Mitsufuji(参考訳) CLIPやCLAPのような対照的なクロスモーダルモデルは、様々な視覚言語(VL)や音声言語(AL)タスクを支援する。 しかし、画像/音声の自然言語記述をベクトル表現にエンコードする中心的な構成要素である言語エンコーダに関する調査と改善は限られている。 教師なしおよび教師なしの文埋め込み訓練が言語エンコーダの品質とモーダル間タスク性能に与える影響を広範囲に評価した。 VL事前学習において、文埋め込み訓練言語エンコーダの品質と、CyCLIPのような対照的なVLモデルを改善したクロスモーダルなタスクを支援することを発見した。 対照的に、alプリトレーニングは、限られた量のプリトレーニングデータによって引き起こされる文埋め込みトレーニングのメリットが少なくなる。 文埋め込み学習の強みを理解するために表現空間を解析し,クロスモーダルアライメントのコストを低減し,テキスト空間の均一性を向上させることを見出した。

Contrastive cross-modal models such as CLIP and CLAP aid various vision-language (VL) and audio-language (AL) tasks. However, there has been limited investigation of and improvement in their language encoder, which is the central component of encoding natural language descriptions of image/audio into vector representations. We extensively evaluate how unsupervised and supervised sentence embedding training affect language encoder quality and cross-modal task performance. In VL pretraining, we found that sentence embedding training language encoder quality and aids in cross-modal tasks, improving contrastive VL models such as CyCLIP. In contrast, AL pretraining benefits less from sentence embedding training, which may result from the limited amount of pretraining data. We analyze the representation spaces to understand the strengths of sentence embedding training, and find that it improves text-space uniformity, at the cost of decreased cross-modal alignment.
翻訳日:2023-10-24 00:26:52 公開日:2023-10-20
# MoqaGPT : 大規模言語モデルを用いたゼロショットマルチモーダルオープンドメイン質問応答

MoqaGPT : Zero-Shot Multi-modal Open-domain Question Answering with Large Language Model ( http://arxiv.org/abs/2310.13265v1 )

ライセンス: Link先を確認
Le Zhang, Yihong Wu, Fengran Mo, Jian-Yun Nie, Aishwarya Agrawal(参考訳) マルチモーダルなオープンドメイン質問応答は通常、画像、テーブル、パッセージなど、さまざまなモダリティにわたるデータベースからの証拠検索を必要とする。 GPT-4のような大規模言語モデル(LLM)でさえ、このタスクでは不足している。 LLMがゼロショットでタスクに対処できるようにするため、単純で柔軟なフレームワークであるMoqaGPTを導入する。 複雑なマルチモダリティランキングをバイパスする分割・結合戦略を用いることで、新しいモダリティに対応し、タスクの新しいモデルにシームレスに移行できる。 LLM上に構築されたMoqaGPTは、各モードから回答を分離して抽出し、LLMを使用してこのマルチモーダル情報を融合して最終的な回答を生成する。 我々の手法はMMCoQAデータセットの性能を高め、F1を+37.91点、EMを+34.07点改善する。 MultiModalQAデータセットでは、MoqaGPTはゼロショットベースラインを超え、F1を9.5ポイント、EMを10.1ポイント改善し、教師付きメソッドとのギャップを大幅に埋める。 私たちのコードベースはhttps://github.com/lezhang7/moqagptで利用可能です。

Multi-modal open-domain question answering typically requires evidence retrieval from databases across diverse modalities, such as images, tables, passages, etc. Even Large Language Models (LLMs) like GPT-4 fall short in this task. To enable LLMs to tackle the task in a zero-shot manner, we introduce MoqaGPT, a straightforward and flexible framework. Using a divide-and-conquer strategy that bypasses intricate multi-modality ranking, our framework can accommodate new modalities and seamlessly transition to new models for the task. Built upon LLMs, MoqaGPT retrieves and extracts answers from each modality separately, then fuses this multi-modal information using LLMs to produce a final answer. Our methodology boosts performance on the MMCoQA dataset, improving F1 by +37.91 points and EM by +34.07 points over the supervised baseline. On the MultiModalQA dataset, MoqaGPT surpasses the zero-shot baseline, improving F1 by 9.5 points and EM by 10.1 points, and significantly closes the gap with supervised methods. Our codebase is available at https://github.com/lezhang7/MOQAGPT.
翻訳日:2023-10-24 00:26:33 公開日:2023-10-20
# UE4-NeRF:大規模シーンのリアルタイムレンダリングのためのニューラル放射場

UE4-NeRF:Neural Radiance Field for Real-Time Rendering of Large-Scale Scene ( http://arxiv.org/abs/2310.13263v1 )

ライセンス: Link先を確認
Jiaming Gu, Minchao Jiang, Hongsheng Li, Xiaoyuan Lu, Guangming Zhu, Syed Afaq Ali Shah, Liang Zhang, Mohammed Bennamoun(参考訳) neural radiance fields (nerf) は、大きなポテンシャルを示し、注目を集めている新しい暗黙の3次元再構成法である。 これは、写真のみから3Dシーンを再構築することを可能にする。 しかし、リアルタイムレンダリング機能、特に大規模シーンのインタラクティブリアルタイムレンダリングには、依然として大きな制限がある。 本稿では,大規模シーンのリアルタイムレンダリングに特化して設計されたUE4-NeRFと呼ばれるニューラルレンダリングシステムを提案する。 各大きなシーンを異なるサブナーフに分割しました。 分割された独立シーンを表現するために、シーン内に複数の正規オクタヘドラを構築してポリゴンメッシュを初期化し、トレーニングプロセス中に多角形面の頂点を連続的に最適化する。 レベル・オブ・ディテール(lod)のテクニックからインスピレーションを得て、さまざまなディテールのメッシュをさまざまな観察レベルに訓練しました。 提案手法は,Unreal Engine 4 (UE4) のラスタライズパイプラインと組み合わせ,最大43FPSのフレームレートで4K解像度で大規模シーンのリアルタイムレンダリングを実現する。 UE4内のレンダリングは、その後のステージでのシーン編集を容易にする。 さらに,実験により,本手法が最先端手法に匹敵するレンダリング品質を実現することを示した。 プロジェクトページ:https://jamchaos.github.io/UE4-NeRF/。

Neural Radiance Fields (NeRF) is a novel implicit 3D reconstruction method that shows immense potential and has been gaining increasing attention. It enables the reconstruction of 3D scenes solely from a set of photographs. However, its real-time rendering capability, especially for interactive real-time rendering of large-scale scenes, still has significant limitations. To address these challenges, in this paper, we propose a novel neural rendering system called UE4-NeRF, specifically designed for real-time rendering of large-scale scenes. We partitioned each large scene into different sub-NeRFs. In order to represent the partitioned independent scene, we initialize polygonal meshes by constructing multiple regular octahedra within the scene and the vertices of the polygonal faces are continuously optimized during the training process. Drawing inspiration from Level of Detail (LOD) techniques, we trained meshes of varying levels of detail for different observation levels. Our approach combines with the rasterization pipeline in Unreal Engine 4 (UE4), achieving real-time rendering of large-scale scenes at 4K resolution with a frame rate of up to 43 FPS. Rendering within UE4 also facilitates scene editing in subsequent stages. Furthermore, through experiments, we have demonstrated that our method achieves rendering quality comparable to state-of-the-art approaches. Project page: https://jamchaos.github.io/UE4-NeRF/.
翻訳日:2023-10-24 00:26:10 公開日:2023-10-20
# 構文制御パラフラーゼ生成のための品質ベース構文テンプレートレトリバー

A Quality-based Syntactic Template Retriever for Syntactically-controlled Paraphrase Generation ( http://arxiv.org/abs/2310.13262v1 )

ライセンス: Link先を確認
Xue Zhang, Songming Zhang, Yunlong Liang, Yufeng Chen, Jian Liu, Wenjuan Han, Jinan Xu(参考訳) 既存の構文制御パラフレーズ生成モデル(SPG)は、人間のアノテーションや構文テンプレートで有望に機能する。 しかし、そのようなテンプレートを得ることの難しさは、実際にSPGモデルの実用性を妨げている。 ひとつは、禁止費用によって、ソース文ごとに適切なテンプレートを手作業で設計することは不可能です。 別の例では、現在のヒューリスティックな手法で自動的に取得されるテンプレートは通常、SPGモデルが修飾パラフレーズを生成するために信頼できない。 このジレンマから逃れるために、我々は新しいQSTR(Quality-based Syntactic Template Retriever)を提案し、生成するパラフレーズの品質に基づいてテンプレートを検索する。 さらに,各文に対して複数のパラフレーズを必要とする状況に対して,品質を犠牲にすることなくパラフレーズ間の多様性を高める多彩なテンプレート検索(dts)アルゴリズムを設計する。 実験により、QSTRは高品質なパラフレーズを生成する際に既存の検索手法をはるかに上回り、参照不要なメトリクスで人間の注釈付きテンプレートと互換性のある性能を発揮できることが示された。 さらに、データ拡張のための生成パラフレーズを用いた下流タスクにおける人的評価と性能は、実践シナリオにおける我々のQSTRおよびDTSアルゴリズムの可能性を示している。

Existing syntactically-controlled paraphrase generation (SPG) models perform promisingly with human-annotated or well-chosen syntactic templates. However, the difficulty of obtaining such templates actually hinders the practical application of SPG models. For one thing, the prohibitive cost makes it unfeasible to manually design decent templates for every source sentence. For another, the templates automatically retrieved by current heuristic methods are usually unreliable for SPG models to generate qualified paraphrases. To escape this dilemma, we propose a novel Quality-based Syntactic Template Retriever (QSTR) to retrieve templates based on the quality of the to-be-generated paraphrases. Furthermore, for situations requiring multiple paraphrases for each source sentence, we design a Diverse Templates Search (DTS) algorithm, which can enhance the diversity between paraphrases without sacrificing quality. Experiments demonstrate that QSTR can significantly surpass existing retrieval methods in generating high-quality paraphrases and even perform comparably with human-annotated templates in terms of reference-free metrics. Additionally, human evaluation and the performance on downstream tasks using our generated paraphrases for data augmentation showcase the potential of our QSTR and DTS algorithm in practical scenarios.
翻訳日:2023-10-24 00:25:46 公開日:2023-10-20
# DIG-MILP:実現可能性保証付き混合整数線形計画用ディープインスタンスジェネレータ

DIG-MILP: a Deep Instance Generator for Mixed-Integer Linear Programming with Feasibility Guarantee ( http://arxiv.org/abs/2310.13261v1 )

ライセンス: Link先を確認
Haoyu Wang, Jialin Liu, Xiaohan Chen, Xinshang Wang, Pan Li, Wotao Yin(参考訳) 混合整数線形プログラミング(MILP)は、多くの重要な産業アプリケーションにとって重要なNPハード問題である。 効率的なアルゴリズムの開発、解法のチューニング、MILP解像度のための機械学習モデルのトレーニングは、広範で多様で代表的なデータにアクセスする上でのヒンジである。 しかし、画像やテキスト領域における豊富な自然発生データと比較すると、MILPは明らかにデータ不足であり、合成MILP生成の重要な役割を担っている。 本稿では,可変オートエンコーダ(varuational auto-encoder, vae)に基づく深層生成フレームワークであるdig-milpを提案する。 特に、MILP双対性を活用することで、DIG-MILPは正しい、完全な生成空間を保証し、生成されたインスタンスの境界性と実現可能性を保証する。 Our empirical study highlights the novelty and quality of the instances generated by DIG-MILP through two distinct downstream tasks: (S1) Data sharing, where solver solution times correlate highly positive between original and DIG-MILP-generated instances, allowing data sharing for solver tuning without publishing the original data; (S2) Data Augmentation, wherein the DIG-MILP-generated instances bolster the generalization performance of machine learning models tasked with resolving MILP problems.

Mixed-integer linear programming (MILP) stands as a notable NP-hard problem pivotal to numerous crucial industrial applications. The development of effective algorithms, the tuning of solvers, and the training of machine learning models for MILP resolution all hinge on access to extensive, diverse, and representative data. Yet compared to the abundant naturally occurring data in image and text realms, MILP is markedly data deficient, underscoring the vital role of synthetic MILP generation. We present DIG-MILP, a deep generative framework based on variational auto-encoder (VAE), adept at extracting deep-level structural features from highly limited MILP data and producing instances that closely mirror the target data. Notably, by leveraging the MILP duality, DIG-MILP guarantees a correct and complete generation space as well as ensures the boundedness and feasibility of the generated instances. Our empirical study highlights the novelty and quality of the instances generated by DIG-MILP through two distinct downstream tasks: (S1) Data sharing, where solver solution times correlate highly positive between original and DIG-MILP-generated instances, allowing data sharing for solver tuning without publishing the original data; (S2) Data Augmentation, wherein the DIG-MILP-generated instances bolster the generalization performance of machine learning models tasked with resolving MILP problems.
翻訳日:2023-10-24 00:25:28 公開日:2023-10-20
# 病理組織学におけるドメイン固有最適化と自己監督モデルの評価

Domain-specific optimization and diverse evaluation of self-supervised models for histopathology ( http://arxiv.org/abs/2310.13259v1 )

ライセンス: Link先を確認
Jeremy Lai, Faruk Ahmed, Supriya Vijay, Tiam Jaroensri, Jessica Loo, Saurabh Vyawahare, Saloni Agarwal, Fayaz Jamil, Yossi Matias, Greg S. Corrado, Dale R. Webster, Jonathan Krause, Yun Liu, Po-Hsuan Cameron Chen, Ellery Wulczyn, David F. Steiner(参考訳) 病理学におけるタスク固有の深層学習モデルは、診断、臨床研究、精密医療の改善に有望な機会を提供する。 しかし、そのようなモデルの開発は、しばしば高品質なデータの可用性によって制限される。 組織病学の基盤となるモデルは、組織の種類、診断、拡大など広範囲にわたる一般的な表現を学習し、必要なレベルのモデル性能を持つタスク固有のディープラーニングモデルを開発するために必要なデータ、計算、技術的専門知識を削減できる可能性がある。 本稿では,自己教師付き学習(SSL)による病理組織学の基礎モデルの開発と評価について述べる。 まず17種類の組織型と12種類のがん型と、異なる最適な倍率とタスク型にまたがる多様なベンチマークタスクのセットを確立する。 次に,本ベンチマークを用いて病理組織学的SSL手法の探索と評価を行い,パッチレベルと弱教師付きタスクに関するさらなる評価を行った。 われわれは,標準SSL手法を組織像に慎重に適用することは,我々のベンチマークタスクにまたがって有効であり,ドメイン固有の方法論的改善によりパフォーマンスがさらに向上することを発見した。 以上より,病理学におけるドメイン特化ssl法の利用価値が強調され,多様なアプリケーションを対象としたさらなる研究を可能にする高品質基礎モデルが確立された。

Task-specific deep learning models in histopathology offer promising opportunities for improving diagnosis, clinical research, and precision medicine. However, development of such models is often limited by availability of high-quality data. Foundation models in histopathology that learn general representations across a wide range of tissue types, diagnoses, and magnifications offer the potential to reduce the data, compute, and technical expertise necessary to develop task-specific deep learning models with the required level of model performance. In this work, we describe the development and evaluation of foundation models for histopathology via self-supervised learning (SSL). We first establish a diverse set of benchmark tasks involving 17 unique tissue types and 12 unique cancer types and spanning different optimal magnifications and task types. Next, we use this benchmark to explore and evaluate histopathology-specific SSL methods followed by further evaluation on held out patch-level and weakly supervised tasks. We found that standard SSL methods thoughtfully applied to histopathology images are performant across our benchmark tasks and that domain-specific methodological improvements can further increase performance. Our findings reinforce the value of using domain-specific SSL methods in pathology, and establish a set of high quality foundation models to enable further research across diverse applications.
翻訳日:2023-10-24 00:25:06 公開日:2023-10-20
# manicast:コスト対応型ヒューマン予測による協調操作

ManiCast: Collaborative Manipulation with Cost-Aware Human Forecasting ( http://arxiv.org/abs/2310.13258v1 )

ライセンス: Link先を確認
Kushal Kedia, Prithwish Dan, Atiksh Bhardwaj, Sanjiban Choudhury(参考訳) 近距離でのシームレスな人間ロボット操作は、人間の動きの正確な予測に依存する。 大規模予測モデルの学習には大きな進歩があったが、操作タスクに適用すると、これらのモデルはクリティカルトランジションポイントで高いエラーが発生し、ダウンストリームの計画性能が低下する。 私たちの重要な洞察は、人間の動きを予測するのではなく、将来の人間の動きがロボットの計画のコストにどのように影響するかを捉えるのに十分であるということです。 ManiCastはコストを意識した人的予測を学習し、それらをモデル予測制御プランナーに供給し、協調的な操作タスクを実行する新しいフレームワークである。 本フレームワークは, ロボットアームとロボットアームとの流動的リアルタイムインタラクションを, 反応的かき混ぜ, オブジェクトハンドオーバ, 協調テーブル設定など, 現実的なタスクで実現している。 動き予測とエンド・ツー・エンドの予測・プランナ・システムの両方を学習的・ヒューリスティックなベースラインに対して評価し,新たなデータセットに寄与する。 コードとデータセットはhttps://portal-cornell.github.io/manicast/でリリースします。

Seamless human-robot manipulation in close proximity relies on accurate forecasts of human motion. While there has been significant progress in learning forecast models at scale, when applied to manipulation tasks, these models accrue high errors at critical transition points leading to degradation in downstream planning performance. Our key insight is that instead of predicting the most likely human motion, it is sufficient to produce forecasts that capture how future human motion would affect the cost of a robot's plan. We present ManiCast, a novel framework that learns cost-aware human forecasts and feeds them to a model predictive control planner to execute collaborative manipulation tasks. Our framework enables fluid, real-time interactions between a human and a 7-DoF robot arm across a number of real-world tasks such as reactive stirring, object handovers, and collaborative table setting. We evaluate both the motion forecasts and the end-to-end forecaster-planner system against a range of learned and heuristic baselines while additionally contributing new datasets. We release our code and datasets at https://portal-cornell.github.io/manicast/.
翻訳日:2023-10-24 00:24:44 公開日:2023-10-20
# CXR-CLIP:大規模胸部X線言語画像事前学習に向けて

CXR-CLIP: Toward Large Scale Chest X-ray Language-Image Pre-training ( http://arxiv.org/abs/2310.13292v1 )

ライセンス: Link先を確認
Kihyun You, Jawook Gu, Jiyeon Ham, Beomhee Park, Jiho Kim, Eun Kyoung Hong, Woonhyunk Baek, Byungseok Roh(参考訳) 大規模な画像テキストペアデータセットは視覚言語事前学習(vlp)モデルの開発に大きく貢献しており、コストのかかるアノテーションなしでゼロショットまたは少数ショットの分類を可能にする。 しかし、医療分野では、強力なVLPモデルを開発する上で、データの不足は依然として大きな課題である。 本稿では,胸部X線における画像テキストデータの欠如に対処するため,画像ラベルペアを一般的なプロンプトを介して画像テキストペアとして拡張し,複数の画像と複数のセクションをラジオグラフィーレポートで活用する。 また,医療画像と報告の学習レベルの特性を学習するために,iclとtclという2つの対照損失をデザインした。 我々のモデルは、同じ条件下で訓練された最先端モデルよりも優れています。 また,事前学習した分類モデルの識別能力を向上させるとともに,限界検索性能を犠牲にする。 コードはhttps://github.com/kakaobrain/cxr-clipで入手できる。

A large-scale image-text pair dataset has greatly contributed to the development of vision-language pre-training (VLP) models, which enable zero-shot or few-shot classification without costly annotation. However, in the medical domain, the scarcity of data remains a significant challenge for developing a powerful VLP model. In this paper, we tackle the lack of image-text data in chest X-ray by expanding image-label pair as image-text pair via general prompt and utilizing multiple images and multiple sections in a radiologic report. We also design two contrastive losses, named ICL and TCL, for learning study-level characteristics of medical images and reports, respectively. Our model outperforms the state-of-the-art models trained under the same conditions. Also, enlarged dataset improve the discriminative power of our pre-trained model for classification, while sacrificing marginal retrieval performance. Code is available at https://github.com/kakaobrain/cxr-clip.
翻訳日:2023-10-24 00:17:07 公開日:2023-10-20
# 言語モデルにおけるプライバシーリスクの評価:要約課題を事例として

Assessing Privacy Risks in Language Models: A Case Study on Summarization Tasks ( http://arxiv.org/abs/2310.13291v1 )

ライセンス: Link先を確認
Ruixiang Tang, Gord Lueck, Rodolfo Quispe, Huseyin A Inan, Janardhan Kulkarni, Xia Hu(参考訳) 大規模言語モデルは様々なタスクで最先端のパフォーマンスを達成し、nlpの分野に革命をもたらした。 しかし、これらのモデルがトレーニングデータの情報を開示する可能性があるという懸念がある。 本研究では,要約タスクに注目し,mi攻撃について検討する。 サンプルとブラックボックスによるモデルのapiへのアクセスが与えられた場合,サンプルがトレーニングデータの一部であったかどうかを判断することができる。 テキストの類似性と文書修正に対するモデルの抵抗性をMI信号として利用し、広く使われているデータセット上での有効性を評価する。 その結果,参照要約が利用できない場合であっても,要約モデルがデータメンバシップを公開するリスクがあることが示された。 さらに,mi攻撃から保護するための要約モデルの訓練のための保護策について検討し,プライバシとユーティリティの固有のトレードオフについて論じる。

Large language models have revolutionized the field of NLP by achieving state-of-the-art performance on various tasks. However, there is a concern that these models may disclose information in the training data. In this study, we focus on the summarization task and investigate the membership inference (MI) attack: given a sample and black-box access to a model's API, it is possible to determine if the sample was part of the training data. We exploit text similarity and the model's resistance to document modifications as potential MI signals and evaluate their effectiveness on widely used datasets. Our results demonstrate that summarization models are at risk of exposing data membership, even in cases where the reference summary is not available. Furthermore, we discuss several safeguards for training summarization models to protect against MI attacks and discuss the inherent trade-off between privacy and utility.
翻訳日:2023-10-24 00:16:26 公開日:2023-10-20
# 複数の言語におけるイエスノー質問に対する間接回答の解釈

Interpreting Indirect Answers to Yes-No Questions in Multiple Languages ( http://arxiv.org/abs/2310.13290v1 )

ライセンス: Link先を確認
Zijie Wang, Md Mosharaf Hossain, Shivam Mathur, Terry Cruz Melo, Kadir Bulut Ozler, Keun Hee Park, Jacob Quintero, MohammadHossein Rezaei, Shreya Nupur Shakya, Md Nayem Uddin, Eduardo Blanco(参考訳) 答えにはイエスかノーを期待する質問はないが、人々はしばしば極性のキーワードをスキップする。 その代わりに、解釈しなければならない長い説明で答える。 本稿では,この問題に焦点をあて,8言語で新しいベンチマークをリリースする。 トレーニングデータ収集のための遠隔監視手法を提案する。 また,直接解答(極性キーワードを含む)は,間接解答を解釈するモデル(極性キーワードなし)の訓練に有用であることを示す。 実験の結果,利害関係言語(5言語)の遠隔監視により学習データが得られる場合,単言語の微調整が有効であることが示された。 さらに、言語間の微調整は常に有益である(8言語)。

Yes-no questions expect a yes or no for an answer, but people often skip polar keywords. Instead, they answer with long explanations that must be interpreted. In this paper, we focus on this challenging problem and release new benchmarks in eight languages. We present a distant supervision approach to collect training data. We also demonstrate that direct answers (i.e., with polar keywords) are useful to train models to interpret indirect answers (i.e., without polar keywords). Experimental results demonstrate that monolingual fine-tuning is beneficial if training data can be obtained via distant supervision for the language of interest (5 languages). Additionally, we show that cross-lingual fine-tuning is always beneficial (8 languages).
翻訳日:2023-10-24 00:16:09 公開日:2023-10-20
# SALMONN:大規模言語モデルのためのジェネリック聴覚能力を目指して

SALMONN: Towards Generic Hearing Abilities for Large Language Models ( http://arxiv.org/abs/2310.13289v1 )

ライセンス: Link先を確認
Changli Tang and Wenyi Yu and Guangzhi Sun and Xianzhao Chen and Tian Tan and Wei Li and Lu Lu and Zejun Ma and Chao Zhang(参考訳) 聴覚は、少なくとも3種類の音(音声、音声イベント、音楽)からなる一般的な聴覚情報の知覚と理解を意味する、物理世界における人工知能(ai)エージェントの本質的な能力であることは間違いない。 本稿では,事前訓練されたテキストベース大言語モデル(LLM)と音声および音声エンコーダを単一のマルチモーダルモデルに統合して構築した,音声音声言語音楽オープンニューラルネットワークSALMONNを提案する。 SALMONNは、LLMが一般的な音声入力を直接処理し理解し、自動音声認識や翻訳、聴覚情報に基づく質問応答、感情認識、話者の検証、音楽と音声のキャプションなど、訓練で使用される多くの音声および音声タスクで競合的なパフォーマンスを達成することを可能にする。 SALMONNはまた、訓練中に見つからない多様な創発能力を備えており、訓練されていない言語への音声翻訳、音声ベースのスロットフィリング、音声による問合せ、音声によるストーリーテリング、音声による共同推論などに限定されない。 クロスモーダル創発能力の存在について検討し、SALMONNのこのような能力を活性化するために、新しい数発のアクティベーションチューニング手法を提案する。 我々の知る限り、SALMONNはそのタイプの最初のモデルであり、汎用的な聴覚能力を持つAIへの一歩と見なすことができる。 SALMONNのインタラクティブなデモは、texttt{\url{https://github.com/bytedance/SALMONN}}で公開されている。

Hearing is arguably an essential ability of artificial intelligence (AI) agents in the physical world, which refers to the perception and understanding of general auditory information consisting of at least three types of sounds: speech, audio events, and music. In this paper, we propose SALMONN, a speech audio language music open neural network, built by integrating a pre-trained text-based large language model (LLM) with speech and audio encoders into a single multimodal model. SALMONN enables the LLM to directly process and understand general audio inputs and achieve competitive performances on a number of speech and audio tasks used in training, such as automatic speech recognition and translation, auditory-information-based question answering, emotion recognition, speaker verification, and music and audio captioning \textit{etc.} SALMONN also has a diverse set of emergent abilities unseen in the training, which includes but is not limited to speech translation to untrained languages, speech-based slot filling, spoken-query-based question answering, audio-based storytelling, and speech audio co-reasoning \textit{etc}. The presence of the cross-modal emergent abilities is studied, and a novel few-shot activation tuning approach is proposed to activate such abilities of SALMONN. To our knowledge, SALMONN is the first model of its type and can be regarded as a step towards AI with generic hearing abilities. An interactive demo of SALMONN is available at \texttt{\url{https://github.com/bytedance/SALMONN}}, and the training code and model checkpoints will be released upon acceptance.
翻訳日:2023-10-24 00:15:54 公開日:2023-10-20
# タスクハイパーグラフによる推薦のための統一事前訓練

Unified Pretraining for Recommendation via Task Hypergraphs ( http://arxiv.org/abs/2310.13286v1 )

ライセンス: Link先を確認
Mingdai Yang, Zhiwei Liu, Liangwei Yang, Xiaolong Liu, Chen Wang, Hao Peng, Philip S. Yu(参考訳) 近年、事前学習は注目と人気を集めているが、グラフベースの推薦システムへの応用は比較的限られている。 広く使われているid依存データセットで事前トレーニングすることで、事前知識を活用することは困難である。 一方、あるデータセットにおけるユーザ-テーマ間のインタラクション履歴は、idが異なるプリトレーニングによって、他のデータセットにはほとんど転送できない。 一方、同じデータセットで事前トレーニングと微調整を行うと、オーバーフィッティングのリスクが高くなる。 本稿では,タスクハイパーグラフによるレコメンデーションのために,unified pretrainingという,新しいマルチタスクプリトレーニングフレームワークを提案する。 様々な前文タスクの多様な要求やニュアンスを処理する統一学習パターンのために、前文タスクをハイパーエッジ予測に一般化するタスクハイパーグラフを設計する。 各テキストタスクとレコメンデーションの関連性を判別的に学習するために、新しい遷移注意層が考案される。 3つのベンチマークデータセットの実験結果は、UPRTHの優位性を検証する。 提案手法の有効性を実証するため,さらに詳細な調査を行った。

Although pretraining has garnered significant attention and popularity in recent years, its application in graph-based recommender systems is relatively limited. It is challenging to exploit prior knowledge by pretraining in widely used ID-dependent datasets. On one hand, user-item interaction history in one dataset can hardly be transferred to other datasets through pretraining, where IDs are different. On the other hand, pretraining and finetuning on the same dataset leads to a high risk of overfitting. In this paper, we propose a novel multitask pretraining framework named Unified Pretraining for Recommendation via Task Hypergraphs. For a unified learning pattern to handle diverse requirements and nuances of various pretext tasks, we design task hypergraphs to generalize pretext tasks to hyperedge prediction. A novel transitional attention layer is devised to discriminatively learn the relevance between each pretext task and recommendation. Experimental results on three benchmark datasets verify the superiority of UPRTH. Additional detailed investigations are conducted to demonstrate the effectiveness of the proposed framework.
翻訳日:2023-10-24 00:15:20 公開日:2023-10-20
# 時間的局所ルールを用いたリカレントモデル学習

Learning Recurrent Models with Temporally Local Rules ( http://arxiv.org/abs/2310.13284v1 )

ライセンス: Link先を確認
Azwar Abdulsalam and Joseph G. Makin(参考訳) 逐次データへの生成モデルへの適合は通常、時間を通して2つの再帰的な計算を伴う。 後者は損失勾配の計算(時間によるバックプロパゲーションのように)や推論アルゴリズム(rts/kalman smootherのように)である。 特に後方パスは計算コストが高く(本質的にシリアルでGPUを活用できないため)、生物学的プロセスへのマッピングが困難である。 ここでは、生成モデルが、単に遷移確率ではなく、現在の状態と以前の状態のジョイント分布を学習することを要求するという、非常に異なる方法を検討する。 この原則を取り入れたさまざまなアーキテクチャが、一般的に後方通過を必要とするデータの側面を学習できることを示します。

Fitting generative models to sequential data typically involves two recursive computations through time, one forward and one backward. The latter could be a computation of the loss gradient (as in backpropagation through time), or an inference algorithm (as in the RTS/Kalman smoother). The backward pass in particular is computationally expensive (since it is inherently serial and cannot exploit GPUs), and difficult to map onto biological processes. Work-arounds have been proposed; here we explore a very different one: requiring the generative model to learn the joint distribution over current and previous states, rather than merely the transition probabilities. We show on toy datasets that different architectures employing this principle can learn aspects of the data typically requiring the backward pass.
翻訳日:2023-10-24 00:15:05 公開日:2023-10-20
# FedLoRA: LoRAチューニングによるモデル不均一な個人化フェデレーション学習

FedLoRA: Model-Heterogeneous Personalized Federated Learning with LoRA Tuning ( http://arxiv.org/abs/2310.13283v1 )

ライセンス: Link先を確認
Liping Yi, Han Yu, Gang Wang, Xiaoguang Liu(参考訳) フェデレーション学習(federated learning, fl)は、中央サーバが複数の参加者(すなわちflクライアント)を調整して、プライバシ保護を備えた分散データ上で協調的にモデルをトレーニングする、新たなマシンラーニングパラダイムである。 このパラダイムは、すべてのクライアントが同じ構造(均質)を持つモデルをトレーニングしなければならないことを制約します。 実際には、flは統計的不均質性、システム不均質性、モデル不均質性の問題に直面することが多い。 これらの課題は、各FLクライアントに対してパーソナライズされた異種ローカルモデルをトレーニングすることを目的としたMHPFL(Model-Heterogeneous Personalized Federated Learning)の分野を刺激する。 既存のMHPFLアプローチは、良好なモデル性能、許容計算オーバーヘッド、効率的な通信を同時に達成できない。 このギャップを埋めるために,loraチューニング(fedlora)に基づく,新しい計算効率と通信効率のよいモデルヘテロジェンスパーソナライズ学習フレームワークを提案する。 各クライアントの異種ローカルモデルに同質の小型アダプタを組み込むように設計されている。 どちらのモデルも、グローバルローカルな知識交換のための反復的なトレーニングの後に訓練される。 均質な小さなローカルアダプタはflサーバに送信され、グローバルアダプタに集約される。 このようにして、flクライアントは高い計算と通信コストを伴わずに異種ローカルモデルをトレーニングできる。 理論的には、FedLoRAの非凸収束率を証明する。 2つの実世界のデータセットに対する大規模な実験により、FedLoRAは6つの最先端ベースラインを上回り、テスト精度で1.35%、計算オーバーヘッドを11.81倍、通信コストを7.41倍削減した。

Federated learning (FL) is an emerging machine learning paradigm in which a central server coordinates multiple participants (a.k.a. FL clients) to train a model collaboratively on decentralized data with privacy protection. This paradigm constrains that all clients have to train models with the same structures (homogeneous). In practice, FL often faces statistical heterogeneity, system heterogeneity and model heterogeneity challenges. These challenging issues inspire the field of Model-Heterogeneous Personalized Federated Learning (MHPFL) which aims to train a personalized and heterogeneous local model for each FL client. Existing MHPFL approaches cannot achieve satisfactory model performance, acceptable computational overhead and efficient communication simultaneously. To bridge this gap, we propose a novel computation- and communication-efficient model-heterogeneous personalized Federated learning framework based on LoRA tuning (FedLoRA). It is designed to incorporate a homogeneous small adapter for each client's heterogeneous local model. Both models are trained following the proposed iterative training for global-local knowledge exchange. The homogeneous small local adapters are sent to the FL server to be aggregated into a global adapter. In this way, FL clients can train heterogeneous local models without incurring high computation and communication costs. We theoretically prove the non-convex convergence rate of FedLoRA. Extensive experiments on two real-world datasets demonstrate that FedLoRA outperforms six state-of-the-art baselines, beating the best approach by 1.35% in terms of test accuracy, 11.81 times computation overhead reduction and 7.41 times communication cost saving.
翻訳日:2023-10-24 00:14:51 公開日:2023-10-20
# 高速多重超電導量子ビット読み出し用小型広帯域パーセルフィルタの特性評価

Characterization of Broadband Purcell Filters with Compact Footprint for Fast Multiplexed Superconducting Qubit Readout ( http://arxiv.org/abs/2310.13282v1 )

ライセンス: Link先を確認
Seong Hyeon Park, Gahyun Choi, Gyunghun Kim, Jaehyeong Jo, Bumsung Lee, Geonyoung Kim, Kibog Park, Yong-Ho Lee, Seungyong Hahn(参考訳) 超伝導量子ビットに接続する外部環境の存在感は、測定速度の増大が超伝導量子ビットに自然放出損失をもたらすため、必要不可欠である。 本稿では, 高速な計測速度を失うことなく, パーセル損失を効果的に抑制できる広帯域Purcellフィルタの設計について報告する。 我々は, フィルタの周波数応答を4.3 Kで評価し, 提案したフィルタ設計による超伝導平面回路レイアウトの有限要素法シミュレーションによりパーセル損失抑制を推定する。 測定帯域幅は 0.29 mm$^2$ で 790 MHz 以上であり、推定寿命延長は複数のパーセルフィルタで 5000 倍を超える。 提案したフィルタ設計は、既存の超伝導量子回路に容易に統合でき、高速かつ多重化された読み出しが可能であり、フットプリントが大きい。

Engineering the admittance of external environments connected to superconducting qubits is essential, as increasing the measurement speed introduces spontaneous emission loss to superconducting qubits, known as Purcell loss. Here, we report a broad bandwidth Purcell filter design within a small footprint, which effectively suppresses Purcell loss without losing the fast measurement speed. We characterize the filter's frequency response at 4.3 K and also estimate Purcell loss suppression by finite-element-method simulations of superconducting planar circuit layouts with the proposed filter design. The measured bandwidth is over 790 MHz within 0.29 mm$^2$ while the estimated lifetime enhancement can be over 5000 times with multiple Purcell filters. The presented filter design is expected to be easily integrated on existing superconducting quantum circuits for fast and multiplexed readout without occupying large footprint.
翻訳日:2023-10-24 00:14:18 公開日:2023-10-20
# 病理学者的な説明: 白血球分類のための説明可能な深層学習システム

Pathologist-Like Explanations Unveiled: an Explainable Deep Learning System for White Blood Cell Classification ( http://arxiv.org/abs/2310.13279v1 )

ライセンス: Link先を確認
Aditya Shankar Pal, Debojyoti Biswas, Joy Mahapatra, Debasis Banerjee, Prantar Chakrabarti and Utpal Garain(参考訳) 白血球(WBC)は人体を病原体や異物から保護する上で重要な役割を担っている。 WBC画像データの豊富さとディープラーニングアルゴリズムのパワーを活用して、自動化されたWBC分析は、驚くべき精度の可能性がある。 しかし、WBC分類を説明する深層学習モデルの能力はほとんど探索されていない。 本研究では, 細胞質, 細胞質色, 核形状, 赤血球に対するサイズ, 細胞質比 (N:C) の5つの属性と, 細胞分類, 局在化, セグメンテーションの5つの属性を用いて, 病理学的な説明を生成する, 説明可能なディープニューラルネットワークベースモデルであるHemaXを紹介する。 HemaXは10 (10) WBC型を含む467個の血液スミア画像からなる新しいデータセットLeukoXで訓練され評価されている。 提案モデルでは, 平均分類精度81.08%, Jaccard index89.16%をセルローカライゼーションに適用した。 さらに、HemaX は N:C 比で 0.0317 の正規化平均平方誤差と他の 4 つの属性で 80% 以上の精度で 5 つの説明を生成するのによく機能する。 複数の最先端モデルと比較した総合的な実験は、HemaXの分類精度が説明を提供する能力の影響を受けていないことを示した。 さらに,本モデルにより予測された説明の忠実さを,専門家の血液学者による実証分析と検証により確認した。

White blood cells (WBCs) play a crucial role in safeguarding the human body against pathogens and foreign substances. Leveraging the abundance of WBC imaging data and the power of deep learning algorithms, automated WBC analysis has the potential for remarkable accuracy. However, the capability of deep learning models to explain their WBC classification remains largely unexplored. In this study, we introduce HemaX, an explainable deep neural network-based model that produces pathologist-like explanations using five attributes: granularity, cytoplasm color, nucleus shape, size relative to red blood cells, and nucleus to cytoplasm ratio (N:C), along with cell classification, localization, and segmentation. HemaX is trained and evaluated on a novel dataset, LeukoX, comprising 467 blood smear images encompassing ten (10) WBC types. The proposed model achieves impressive results, with an average classification accuracy of 81.08% and a Jaccard index of 89.16% for cell localization. Additionally, HemaX performs well in generating the five explanations with a normalized mean square error of 0.0317 for N:C ratio and over 80% accuracy for the other four attributes. Comprehensive experiments comparing against multiple state-of-the-art models demonstrate that HemaX's classification accuracy remains unaffected by its ability to provide explanations. Moreover, empirical analyses and validation by expert hematologists confirm the faithfulness of explanations predicted by our proposed model.
翻訳日:2023-10-24 00:14:02 公開日:2023-10-20
# InvGC: 逆グラフ畳み込みによるロバストなクロスモーダル検索

InvGC: Robust Cross-Modal Retrieval by Inverse Graph Convolution ( http://arxiv.org/abs/2310.13276v1 )

ライセンス: Link先を確認
Xiangru Jian, Yimu Wang(参考訳) 近年、クロスモーダル検索の大幅な進歩は、主に視覚と言語モデリングのブレークスルーによってもたらされている。 しかし、近年の研究では、マルチモーダルデータ表現は(表現退化問題として)限られた凸円錐内に集結する傾向にあり、これらの表現の分離性による検索性能の低下が示唆されている。 本研究ではまず,複数のベンチマークと手法を用いた表現退化問題の存在を実証的に検証した。 次に,グラフの畳み込みと平均プールにインスパイアされた後処理技術であるInvGCを提案する。 具体的には、InvGCはデータセット内のグラフトポロジーを定義し、次に減算的にグラフ畳み込みを適用する。 この方法はデータポイント間の距離を増加させることで表現を効果的に分離する。 InvGCの効率性と有効性を向上させるため,各データ点と近接する近傍の距離を拡大することのみを目的とした高度なグラフトポロジであるLocalAdjを提案する。 InvGCの動作理由を理解するため,InvGCの展開後,リコールの低限界が改善されることを証明した,詳細な理論的解析を行った。 その結果, InvGC と InvGC w/LocalAdj が表現退化問題を著しく軽減し,検索性能が向上した。 私たちのコードはhttps://github.com/yimuwangcs/Better_Cross_Modal_Retrievalで利用可能です。

Over recent decades, significant advancements in cross-modal retrieval are mainly driven by breakthroughs in visual and linguistic modeling. However, a recent study shows that multi-modal data representations tend to cluster within a limited convex cone (as representation degeneration problem), which hinders retrieval performance due to the inseparability of these representations. In our study, we first empirically validate the presence of the representation degeneration problem across multiple cross-modal benchmarks and methods. Next, to address it, we introduce a novel method, called InvGC, a post-processing technique inspired by graph convolution and average pooling. Specifically, InvGC defines the graph topology within the datasets and then applies graph convolution in a subtractive manner. This method effectively separates representations by increasing the distances between data points. To improve the efficiency and effectiveness of InvGC, we propose an advanced graph topology, LocalAdj, which only aims to increase the distances between each data point and its nearest neighbors. To understand why InvGC works, we present a detailed theoretical analysis, proving that the lower bound of recall will be improved after deploying InvGC. Extensive empirical results show that InvGC and InvGC w/LocalAdj significantly mitigate the representation degeneration problem, thereby enhancing retrieval performance. Our code is available at https://github.com/yimuwangcs/Better_Cross_Modal_Retrieval
翻訳日:2023-10-24 00:13:34 公開日:2023-10-20
# CylinderTag:射影不変量に基づくCylinder-Shape Objects Pose Estimationのための正確で柔軟なマーカ

CylinderTag: An Accurate and Flexible Marker for Cylinder-Shape Objects Pose Estimation Based on Projective Invariants ( http://arxiv.org/abs/2310.13320v1 )

ライセンス: Link先を確認
Shaoan Wang, Mingzhu Zhu, Yaoqing Hu, Dongyue Li, Fusong Yuan, Junzhi Yu(参考訳) 視覚マーカーに基づく高精度ポーズ推定はコンピュータビジョンの分野で盛んに行われている研究課題である。 しかし,曲線面の形状が多様であることから,曲線面上の従来の平坦なマーカーの適合性は限定的であり,曲線面に対する高精度ポーズ推定の開発を妨げている。 そこで本論文では,円筒面などの曲面の発達を目的とした,CylinderTagと呼ばれる新しい視覚マーカーを提案する。 シリンダータグ(CylinderTag)は、円筒形の物体にしっかりと取り付けられる環状マーカーである。 多様体の仮定を利用すると、射影不変量の交叉比は、曲面上のゼロ曲率方向の符号化に利用される。 さらに,CylinderTagの使用を容易にするために,ヒューリスティックな検索型マーカー生成器と高性能認識器を提案する。 さらに,シリンダタグ特性の全面的評価を,検出速度,検出速度,辞書サイズ,ローカライゼーションジッタ,ポーズ推定精度をカバーする広範な実験により行う。 CylinderTagは、従来の視覚マーカーと比較して、様々な角度からの優れた検出性能を示し、位置決め精度が高い。 さらに、CylinderTagはリアルタイム検出機能と広範なマーカー辞書を備え、幅広いアプリケーションで汎用性と実用性を高めている。 実験の結果,シリンダータグはシリンダー状表面での使用に非常に有望な視覚マーカーであり,シリンダー状物体の高精度視定位に関する今後の研究において重要なガイダンスとなる。 コードは、https://github.com/wsakobe/CylinderTag.comで入手できる。

High-precision pose estimation based on visual markers has been a thriving research topic in the field of computer vision. However, the suitability of traditional flat markers on curved objects is limited due to the diverse shapes of curved surfaces, which hinders the development of high-precision pose estimation for curved objects. Therefore, this paper proposes a novel visual marker called CylinderTag, which is designed for developable curved surfaces such as cylindrical surfaces. CylinderTag is a cyclic marker that can be firmly attached to objects with a cylindrical shape. Leveraging the manifold assumption, the cross-ratio in projective invariance is utilized for encoding in the direction of zero curvature on the surface. Additionally, to facilitate the usage of CylinderTag, we propose a heuristic search-based marker generator and a high-performance recognizer as well. Moreover, an all-encompassing evaluation of CylinderTag properties is conducted by means of extensive experimentation, covering detection rate, detection speed, dictionary size, localization jitter, and pose estimation accuracy. CylinderTag showcases superior detection performance from varying view angles in comparison to traditional visual markers, accompanied by higher localization accuracy. Furthermore, CylinderTag boasts real-time detection capability and an extensive marker dictionary, offering enhanced versatility and practicality in a wide range of applications. Experimental results demonstrate that the CylinderTag is a highly promising visual marker for use on cylindrical-like surfaces, thus offering important guidance for future research on high-precision visual localization of cylinder-shaped objects. The code is available at: https://github.com/wsakobe/CylinderTag.
翻訳日:2023-10-24 00:07:38 公開日:2023-10-20
# フレーム識別学習者のための粗対有限デュアルエンコーダ

Coarse-to-Fine Dual Encoders are Better Frame Identification Learners ( http://arxiv.org/abs/2310.13316v1 )

ライセンス: Link先を確認
Kaikai An, Ce Zheng, Bofei Gao, Haozhe Zhao, Baobao Chang(参考訳) フレーム識別は、文中のターゲット語に関連する意味的フレームを見つけることを目的としている。 最近の研究では、フレーム定義のモデル化により、ターゲットと候補フレームの類似度や一致度を測定している。 しかし、1000以上の候補フレームから最適なフレームを効率的に選択する上で、定義の十分な表現学習や課題に直面している。 さらに、ターゲットの候補フレームを取得するために一般的に使用されるレキシコンフィルタ(lf$)は、語彙外ターゲットを無視し、不適切なフレームモデリングを引き起こす可能性がある。 本稿では、CoFFTEA, a $\underline{Co}$arse-to-$\underline{F}$ine $\underline{F}$rame and $\underline{T}$arget $\underline{E}$ncoders $\underline{A}$rchitectureを提案する。 対照的な学習と二重エンコーダにより、CoFFTEAはフレームとターゲットのアライメントを効率的かつ効果的にモデル化する。 粗大なカリキュラム学習手法を用いることで、CoFFTEAは徐々に類似度の異なるフレームを区別するように学習する。 実験の結果、CoFFTEAは0.93のスコアと1.53のR@1を$lf$で上回った。 さらに分析した結果、CoFFTEAはフレームとフレームの関係をより良くモデル化し、ターゲットとターゲットをモデル化できることが示唆された。 私たちのアプローチのコードはhttps://github.com/pkunlp-icler/coffteaで利用可能です。

Frame identification aims to find semantic frames associated with target words in a sentence. Recent researches measure the similarity or matching score between targets and candidate frames by modeling frame definitions. However, they either lack sufficient representation learning of the definitions or face challenges in efficiently selecting the most suitable frame from over 1000 candidate frames. Moreover, commonly used lexicon filtering ($lf$) to obtain candidate frames for the target may ignore out-of-vocabulary targets and cause inadequate frame modeling. In this paper, we propose CoFFTEA, a $\underline{Co}$arse-to-$\underline{F}$ine $\underline{F}$rame and $\underline{T}$arget $\underline{E}$ncoders $\underline{A}$rchitecture. With contrastive learning and dual encoders, CoFFTEA efficiently and effectively models the alignment between frames and targets. By employing a coarse-to-fine curriculum learning procedure, CoFFTEA gradually learns to differentiate frames with varying degrees of similarity. Experimental results demonstrate that CoFFTEA outperforms previous models by 0.93 overall scores and 1.53 R@1 without $lf$. Further analysis suggests that CoFFTEA can better model the relationships between frame and frame, as well as target and target. The code for our approach is available at https://github.com/pkunlp-icler/COFFTEA.
翻訳日:2023-10-24 00:07:10 公開日:2023-10-20
# 事前学習言語モデルのゼロショットシャープネスを考慮した量子化

Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models ( http://arxiv.org/abs/2310.13315v1 )

ライセンス: Link先を確認
Miaoxi Zhu, Qihuang Zhong, Li Shen, Liang Ding, Juhua Liu, Bo Du, Dacheng Tao(参考訳) 量子化は、特に大規模事前学習言語モデル(plm)シナリオにおいて、メモリオーバヘッドの削減と推論の高速化に有望なアプローチである。 セキュリティとプライバシに関する懸念から、オリジナルのトレーニングデータにアクセスできないが、ゼロショット量子化の需要が浮上している。 最先端ゼロショット量子化法のほとんどが主に 1)コンピュータビジョンタスクに適用し、 2) 生成的逆学習過程における過剰フィッティング問題の無視は, 下位最適性能に繋がる。 そこで本研究では,様々なplmのゼロショット量子化のための新しいゼロショットシャープネスアウェア量子化(zsaq)フレームワークを提案する。 ZSAQの鍵となるアルゴリズムはSAM-SGA最適化であり、ミニマックス問題を最適化することで量子化精度とモデルの一般化を改善することを目的としている。 理論上、ミニマックス最適化問題の収束率を証明し、この結果は他の非凸plミニマックス最適化フレームワークに適用できる。 11のタスクに対する大規模な実験により、我々の手法は差別的PLMと生成的PLMの両方、すなわち+6.98の平均スコアに対して、一貫性と顕著なパフォーマンス向上をもたらすことを示した。 さらに,本手法がモデル一般化を効果的に改善できることを実証的に検証した。

Quantization is a promising approach for reducing memory overhead and accelerating inference, especially in large pre-trained language model (PLM) scenarios. While having no access to original training data due to security and privacy concerns has emerged the demand for zero-shot quantization. Most of the cutting-edge zero-shot quantization methods primarily 1) apply to computer vision tasks, and 2) neglect of overfitting problem in the generative adversarial learning process, leading to sub-optimal performance. Motivated by this, we propose a novel zero-shot sharpness-aware quantization (ZSAQ) framework for the zero-shot quantization of various PLMs. The key algorithm in solving ZSAQ is the SAM-SGA optimization, which aims to improve the quantization accuracy and model generalization via optimizing a minimax problem. We theoretically prove the convergence rate for the minimax optimization problem and this result can be applied to other nonconvex-PL minimax optimization frameworks. Extensive experiments on 11 tasks demonstrate that our method brings consistent and significant performance gains on both discriminative and generative PLMs, i.e., up to +6.98 average score. Furthermore, we empirically validate that our method can effectively improve the model generalization.
翻訳日:2023-10-24 00:06:45 公開日:2023-10-20
# コーパス多様性が金融事前訓練言語モデルに及ぼす影響を探る

Exploring the Impact of Corpus Diversity on Financial Pretrained Language Models ( http://arxiv.org/abs/2310.13312v1 )

ライセンス: Link先を確認
Jaeyoung Choe, Keonwoong Noh, Nayeon Kim, Seyun Ahn, Woohwan Jung(参考訳) 過去数年間、様々なドメイン固有事前訓練言語モデル(PLM)が提案され、生物医学、科学、臨床などの専門分野において一般ドメインPLMよりも優れてきた。 また、金融データ分析の経済的影響が大きいため、金融PLMの研究も行われている。 しかし、金融plmが十分に多様な金融データに事前訓練されていないことが判明した。 この多様なトレーニングデータの欠如により、サブパー一般化性能が向上し、BERTを含む汎用PLMは、多くの下流タスクにおいて財務PLMを上回っている。 この問題に対処するため、我々は幅広い金融コーパスを収集し、これらの多様なデータセット上で金融言語モデル(film)を訓練した。 実験の結果,FiLMは既存の金融PLMだけでなく一般ドメインPLMよりも優れていたことが確認された。 さらに,この改善が未発見のコーパス群においても達成可能であることを示す実証的証拠を提供する。

Over the past few years, various domain-specific pretrained language models (PLMs) have been proposed and have outperformed general-domain PLMs in specialized areas such as biomedical, scientific, and clinical domains. In addition, financial PLMs have been studied because of the high economic impact of financial data analysis. However, we found that financial PLMs were not pretrained on sufficiently diverse financial data. This lack of diverse training data leads to a subpar generalization performance, resulting in general-purpose PLMs, including BERT, often outperforming financial PLMs on many downstream tasks. To address this issue, we collected a broad range of financial corpus and trained the Financial Language Model (FiLM) on these diverse datasets. Our experimental results confirm that FiLM outperforms not only existing financial PLMs but also general domain PLMs. Furthermore, we provide empirical evidence that this improvement can be achieved even for unseen corpus groups.
翻訳日:2023-10-24 00:06:22 公開日:2023-10-20
# 宇宙自由マルチマッチングとクラスタリングのための非負球面緩和

Non-Negative Spherical Relaxations for Universe-Free Multi-Matching and Clustering ( http://arxiv.org/abs/2310.13311v1 )

ライセンス: Link先を確認
Johan Thunberg, Florian Bernard(参考訳) 単射性制約を持つ二元行列上での最適化問題に対する新しい非負の球面緩和法を提案し、特にマルチマッチングやクラスタリングに応用する。 各二元行列の制約を(高次元)非負球面に緩和する。 緩和された問題を最適化するために、条件付きパワー反復法を用いて目的関数を反復的に改善すると同時に、宇宙サイズ(またはクラスタ数)に関連する(間接的に)連続スカラーパラメータを掃く。 最適化前に整数宇宙のサイズを固定する既存の手順に対して,本手法は類似した連続パラメータを自動的に調整する。 さらに,提案手法はスペクトル多重マッチングやスペクトルクラスタリングと類似性を持つが,バイナリ結果を得るためには処理後処理を余分に必要としないという利点がある。 本手法は,基底真理宇宙サイズ(あるいはクラスタ数)を用いた手法と比較しても,複数マッチングとクラスタリングの設定において有望な結果を示す。

We propose a novel non-negative spherical relaxation for optimization problems over binary matrices with injectivity constraints, which in particular has applications in multi-matching and clustering. We relax respective binary matrix constraints to the (high-dimensional) non-negative sphere. To optimize our relaxed problem, we use a conditional power iteration method to iteratively improve the objective function, while at same time sweeping over a continuous scalar parameter that is (indirectly) related to the universe size (or number of clusters). Opposed to existing procedures that require to fix the integer universe size before optimization, our method automatically adjusts the analogous continuous parameter. Furthermore, while our approach shares similarities with spectral multi-matching and spectral clustering, our formulation has the strong advantage that we do not rely on additional post-processing procedures to obtain binary results. Our method shows compelling results in various multi-matching and clustering settings, even when compared to methods that use the ground truth universe size (or number of clusters).
翻訳日:2023-10-24 00:06:07 公開日:2023-10-20
# 質問応答のためのテスト時間自己適応小言語モデル

Test-Time Self-Adaptive Small Language Models for Question Answering ( http://arxiv.org/abs/2310.13307v1 )

ライセンス: Link先を確認
Soyeong Jeong, Jinheon Baek, Sukmin Cho, Sung Ju Hwang, Jong C. Park(参考訳) 近年の命令精細大言語モデル (LM) は質問応答 (QA) など,様々なタスクにおいて顕著な性能を発揮している。 しかしながら、様々なタスクにまたがる膨大な一般知識を記憶する能力があるにもかかわらず、ターゲットタスクに知識を移し適応する能力が限られているため、特定のタスクに最適ではないかもしれない。 さらに、ラベル付きデータセットによるさらなる微調整は、それらがないためにしばしば実現できないが、ラベル付きテストデータだけで限られた知識を持つ小さなLMを転送できるかどうかも疑問である。 本研究では,ラベルのないテストデータのみを用いて,より小さな自己適応型LMの能力を示す。 特に,まず複数の回答を確率的に生成し,低品質なサンプルをフィルタリングし,不正確なラベルからノイズを除去する。 提案した自己適応戦略は,様々なプロンプトにまたがる高いロバスト性を有するベンチマークQAデータセットの性能向上を示す。 コードは、https://github.com/starsuzi/T-SAS.comで入手できる。

Recent instruction-finetuned large language models (LMs) have achieved notable performances in various tasks, such as question-answering (QA). However, despite their ability to memorize a vast amount of general knowledge across diverse tasks, they might be suboptimal on specific tasks due to their limited capacity to transfer and adapt knowledge to target tasks. Moreover, further finetuning LMs with labeled datasets is often infeasible due to their absence, but it is also questionable if we can transfer smaller LMs having limited knowledge only with unlabeled test data. In this work, we show and investigate the capabilities of smaller self-adaptive LMs, only with unlabeled test data. In particular, we first stochastically generate multiple answers, and then ensemble them while filtering out low-quality samples to mitigate noise from inaccurate labels. Our proposed self-adaption strategy demonstrates significant performance improvements on benchmark QA datasets with higher robustness across diverse prompts, enabling LMs to stay stable. Code is available at: https://github.com/starsuzi/T-SAS.
翻訳日:2023-10-24 00:05:48 公開日:2023-10-20
# サイレントマジョリティのデコード:応答予測のための大規模言語モデルによる信念拡張ソーシャルグラフの誘導

Decoding the Silent Majority: Inducing Belief Augmented Social Graph with Large Language Model for Response Forecasting ( http://arxiv.org/abs/2310.13297v1 )

ライセンス: Link先を確認
Chenkai Sun, Jinning Li, Yi R. Fung, Hou Pong Chan, Tarek Abdelzaher, ChengXiang Zhai, Heng Ji(参考訳) ニュースメディアの自動反応予測は、コンテンツ制作者がニュースリリースの影響を効率的に予測し、社会的対立や道徳的負傷などの予期せぬネガティブな結果を防ぐ上で重要な役割を担っている。 応答を効果的に予測するためには、特にユーザの明示的なプロファイルや歴史的な行動が限定されている場合(ルーカー参照)、個人を取り巻く社会的ダイナミクスや文脈情報を活用する尺度を開発することが不可欠である。 前回の調査で示されたように、全ツイートの97%は、最もアクティブな25%しか生成していない。 しかし、既存のアプローチでは、これらの重要な機能を最もよく処理し活用する方法の探求が限られている。 このギャップに対処するために,既存のソーシャルネットワーク上に,信念中心のグラフを誘導するために,大きな言語モデルを活用するSocialSenseという新しいフレームワークと,ソーシャルダイナミクスを捉えるグラフベースの伝搬を提案する。 類似の信念を共有する遠方のユーザ間のギャップを橋渡しする誘導グラフは、モデルが効果的に応答パターンを捉えることができると仮定する。 提案手法は,ゼロショットと教師付きセッティングの両方の実験評価において既存の最先端技術を超え,応答予測の有効性を示す。 さらに,この分析により,未解決のユーザシナリオとlurkerシナリオを効果的に処理できるフレームワークの能力が明らかにされ,その堅牢性と実用的適用性がさらに強調された。

Automatic response forecasting for news media plays a crucial role in enabling content producers to efficiently predict the impact of news releases and prevent unexpected negative outcomes such as social conflict and moral injury. To effectively forecast responses, it is essential to develop measures that leverage the social dynamics and contextual information surrounding individuals, especially in cases where explicit profiles or historical actions of the users are limited (referred to as lurkers). As shown in a previous study, 97% of all tweets are produced by only the most active 25% of users. However, existing approaches have limited exploration of how to best process and utilize these important features. To address this gap, we propose a novel framework, named SocialSense, that leverages a large language model to induce a belief-centered graph on top of an existent social network, along with graph-based propagation to capture social dynamics. We hypothesize that the induced graph that bridges the gap between distant users who share similar beliefs allows the model to effectively capture the response patterns. Our method surpasses existing state-of-the-art in experimental evaluations for both zero-shot and supervised settings, demonstrating its effectiveness in response forecasting. Moreover, the analysis reveals the framework's capability to effectively handle unseen user and lurker scenarios, further highlighting its robustness and practical applicability.
翻訳日:2023-10-24 00:05:29 公開日:2023-10-20
# 量子論におけるトロッタライゼーション

Trotterization in Quantum Theory ( http://arxiv.org/abs/2310.13296v1 )

ライセンス: Link先を確認
Grant Kluber(参考訳) 量子力学におけるトロッター化は非可換作用素の指数を扱う上で重要な理論概念である。 このコミュニケーションでは、トロッター積の公式を数学的に定式化し、トロッター化の有用性が明らかな基本的な例に適用する。 当初、この論文はテキサス大学オースティン数学指導読解プログラム(DRP)のエステバン・チャルデナス(Esteban C'ardenas)の指導の下、2020年12月に完成した。 しかし、量子回路の複雑さを減らすためのトロッター化の関連性は、オリジナルの改訂版とより正式なバージョンのリリースを保証している。 そこで我々は, トロッター生成公式の形式的証明の詳細なスケッチを含む, トロッター化に関する数学的視点を示す。

Trotterization in quantum mechanics is an important theoretical concept in handling the exponential of noncommutative operators. In this communication, we give a mathematical formulation of the Trotter Product Formula, and apply it to basic examples in which the utility of Trotterization is evident. Originally, this article was completed in December 2020 as a report under the mentorship of Esteban C\'ardenas for the University of Texas at Austin Mathematics Directed Reading Program (DRP). However, the relevance of Trotterization in reducing quantum circuit complexity has warranted the release of a revised and more formal version of the original. Thus, we present a mathematical perspective on Trotterization, including a detailed sketch of a formal proof of the Trotter Product Formula.
翻訳日:2023-10-24 00:05:02 公開日:2023-10-20
# PathRL: 深層強化学習による衝突回避のための終端経路生成手法

PathRL: An End-to-End Path Generation Method for Collision Avoidance via Deep Reinforcement Learning ( http://arxiv.org/abs/2310.13295v1 )

ライセンス: Link先を確認
Wenhao Yu, Jie Peng, Quecheng Qiu, Hanyu Wang, Lu Zhang and Jianmin Ji(参考訳) 深層強化学習(drl)を用いたロボットナビゲーションは,モバイルロボットの性能向上に大きな可能性がある。 それにもかかわらず、既存のDRLベースのナビゲーション手法のほとんどは、リニアや角速度などの低レベルの制御でロボットを直接指揮するポリシーのトレーニングに重点を置いている。 別の方法は、ナビゲーションパスを直接出力するDRLポリシーのトレーニングである。 しかし、経路を出力するdrlポリシーを訓練するために2つの障害が生じる: 1) 潜在経路の動作空間は、低いレベルのコマンドと比較して高い次元を伴い、トレーニングの困難さを増大させる; (2) 単一の時間ステップではなく経路を追跡するのに複数の時間を要する; ロボットw.r.t.の動的環境を複数の時間ステップで予測する経路を必要とする。 これにより、トレーニングに関連する課題が増幅される。 これらの課題に対応するために,ロボットのナビゲーション経路を生成するためのポリシーをトレーニングする新しいDRL手法であるPathRLを提案する。 具体的には,特定の行動空間の離散化手法と,関連する課題に対処するための状態空間表現手法を用いる。 実験では, 他のDRLナビゲーション法と比較して, PathRLは良好な成功率を実現し, 角回転変動を低減し, 安定かつスムーズなロボット運動を容易にする。 実世界のシナリオと複数の困難なシミュレーション環境の両方において、PathRLの競合するエッジを実証する。

Robot navigation using deep reinforcement learning (DRL) has shown great potential in improving the performance of mobile robots. Nevertheless, most existing DRL-based navigation methods primarily focus on training a policy that directly commands the robot with low-level controls, like linear and angular velocities, which leads to unstable speeds and unsmooth trajectories of the robot during the long-term execution. An alternative method is to train a DRL policy that outputs the navigation path directly. However, two roadblocks arise for training a DRL policy that outputs paths: (1) The action space for potential paths often involves higher dimensions comparing to low-level commands, which increases the difficulties of training; (2) It takes multiple time steps to track a path instead of a single time step, which requires the path to predicate the interactions of the robot w.r.t. the dynamic environment in multiple time steps. This, in turn, amplifies the challenges associated with training. In response to these challenges, we propose PathRL, a novel DRL method that trains the policy to generate the navigation path for the robot. Specifically, we employ specific action space discretization techniques and tailored state space representation methods to address the associated challenges. In our experiments, PathRL achieves better success rates and reduces angular rotation variability compared to other DRL navigation methods, facilitating stable and smooth robot movement. We demonstrate the competitive edge of PathRL in both real-world scenarios and multiple challenging simulation environments.
翻訳日:2023-10-24 00:04:52 公開日:2023-10-20
# 捕捉イオン平面ロータによる回転非干渉の系統的研究

Systematic study of rotational decoherence with a trapped-ion planar rotor ( http://arxiv.org/abs/2310.13293v1 )

ライセンス: Link先を確認
Neil Glikin, Benjamin A. Stickler, Ryan Tollefsen, Sara Mouradian, Neha Yadav, Erik Urban, Klaus Hornberger, Hartmut Haeffner(参考訳) 量子ローターは量子センシング、量子シミュレーション、量子情報処理の独特な利点を約束する。 現在、ナノ粒子から単一分子、閉じ込められたイオンまで、様々な系が量子構造内および近傍での回転運動の検出と制御を実証している。 将来の量子ローターの応用には、周囲環境や非コヒーレンスの存在下でのそれらのダイナミクスの理解が不可欠である。 調和振動子のような他のモデル量子系はデコヒーレンスダイナミクスの実験的な研究を行っているが、そのような実験は剛体ロータの公的な課題である。 本稿では, 量子平面ロータのデコヒーレンスに対する基本的なスケーリング関係の測定を行い, 最近の理論的研究とよく一致していることを示す。

Quantum rotors promise unique advantages for quantum sensing, quantum simulation, and quantum information processing. At present, a variety of systems ranging from nanoparticles to single molecules and trapped ions have demonstrated detection and control of rotational motion in and near the quantum regime. For future applications of quantum rotors, understanding their dynamics in the presence of ambient environments and decoherence will be critical. While other model quantum systems such as the harmonic oscillator have seen extensive experimental study of their decoherence dynamics, such experiments remain an open task for the rigid rotor. We present measurements of fundamental scaling relationships for decoherence of a quantum planar rotor realized with two trapped ions, and find excellent agreement with recent theoretical work.
翻訳日:2023-10-24 00:04:24 公開日:2023-10-20
# DeepFDR:ニューロイメージングデータのための深層学習に基づく偽発見率制御手法

DeepFDR: A Deep Learning-based False Discovery Rate Control Method for Neuroimaging Data ( http://arxiv.org/abs/2310.13349v1 )

ライセンス: Link先を確認
Taehyo Kim, Hai Shu, Qiran Jia, Mony de Leon(参考訳) ボクセルベースの多重テストは神経画像データ解析に広く用いられている。 従来の偽発見率(FDR)制御法は、しばしばボクセルベースのテストの空間的依存を無視し、テストパワーのかなりの損失を被る。 近年の空間的fdr制御法が出現しているが、脳の複雑な空間的依存性を扱う場合、その妥当性と最適性は疑わしいままである。 同時に、深層学習手法は、ボクセルベースの多重テストと密接に関連するタスクであるイメージセグメンテーションに革命をもたらした。 本稿では,教師なしの深層学習に基づく画像分割を利用した空間的FDR制御手法であるDeepFDRを提案する。 総合シミュレーションやアルツハイマー病のFDG-PET画像解析を含む数値的研究は、DeepFDRが既存の方法よりも優れていることを示している。 DeepFDRはFDR制御に優れ、偽の非発見率を効果的に低下させるだけでなく、大規模な神経画像データを扱うのに適した計算効率も高い。

Voxel-based multiple testing is widely used in neuroimaging data analysis. Traditional false discovery rate (FDR) control methods often ignore the spatial dependence among the voxel-based tests and thus suffer from substantial loss of testing power. While recent spatial FDR control methods have emerged, their validity and optimality remain questionable when handling the complex spatial dependencies of the brain. Concurrently, deep learning methods have revolutionized image segmentation, a task closely related to voxel-based multiple testing. In this paper, we propose DeepFDR, a novel spatial FDR control method that leverages unsupervised deep learning-based image segmentation to address the voxel-based multiple testing problem. Numerical studies, including comprehensive simulations and Alzheimer's disease FDG-PET image analysis, demonstrate DeepFDR's superiority over existing methods. DeepFDR not only excels in FDR control and effectively diminishes the false nondiscovery rate, but also boasts exceptional computational efficiency highly suited for tackling large-scale neuroimaging data.
翻訳日:2023-10-23 23:56:06 公開日:2023-10-20
# サブワードトークン化の認知的可能性の解析

Analyzing Cognitive Plausibility of Subword Tokenization ( http://arxiv.org/abs/2310.13348v1 )

ライセンス: Link先を確認
Lisa Beinborn and Yuval Pinter(参考訳) サブワードのトークン化はトークン化のデファクトスタンダードとなっているが、サブワードの語彙品質の比較評価は少ない。 既存の評価研究では、トークン化アルゴリズムが下流タスクの性能や圧縮率などの工学的基準に及ぼす影響に焦点を当てている。 本稿では,サブワードトークン化の認知的可能性に着目した新しい評価パラダイムを提案する。 語彙決定タスクにおいて,トークン化器出力と人的性能の応答時間と精度の相関関係を解析した。 複数の言語と語彙サイズにまたがる3つのトークン化アルゴリズムを比較した。 以上の結果から,UnigramLMアルゴリズムは,従来の研究と対照的に,認知学的に妥当なトークン化挙動が低く,導出形態が悪くなることが示唆された。

Subword tokenization has become the de-facto standard for tokenization, although comparative evaluations of subword vocabulary quality across languages are scarce. Existing evaluation studies focus on the effect of a tokenization algorithm on the performance in downstream tasks, or on engineering criteria such as the compression rate. We present a new evaluation paradigm that focuses on the cognitive plausibility of subword tokenization. We analyze the correlation of the tokenizer output with the response time and accuracy of human performance on a lexical decision task. We compare three tokenization algorithms across several languages and vocabulary sizes. Our results indicate that the UnigramLM algorithm yields less cognitively plausible tokenization behavior and a worse coverage of derivational morphemes, in contrast with prior work.
翻訳日:2023-10-23 23:55:49 公開日:2023-10-20
# NurViD:看護手順活動理解のための大規模エキスパートレベルビデオデータベース

NurViD: A Large Expert-Level Video Database for Nursing Procedure Activity Understanding ( http://arxiv.org/abs/2310.13347v1 )

ライセンス: Link先を確認
Ming Hu, Lin Wang, Siyuan Yan, Don Ma, Qingli Ren, Peng Xia, Wei Feng, Peibo Duan, Lie Ju, Zongyuan Ge(参考訳) 看護処置活動理解への深層学習の適用は、看護師と患者の相互作用の質と安全性を大幅に向上させる可能性がある。 この技術を利用することで、トレーニングと教育を容易にし、品質管理を改善し、運用コンプライアンス監視を可能にする。 しかし、この分野における自動認識システムの開発は、適切なラベル付きデータセットの不足によって現在妨げられている。 既存のビデオデータセットにはいくつかの制限がある。 1)これらのデータセットは,看護活動の包括的調査を支援するため,小規模である。 2 主に単一手続に焦点を合わせ、各種看護処置及び行動手順に関する専門家レベルの注釈を欠いている。 3) 時間的局所化アノテーションは欠如しており, より長いビデオシーケンス内での標的行動の効果的な局所化を防止する。 これらの制限を緩和するために,看護作業活動理解のための専門家レベルのアノテーションを備えた大規模ビデオデータセットであるNurViDを提案する。 NurViDは、合計144時間の1.5kビデオで構成されており、既存の最大の看護活動データセットの約4倍の長さである。 特筆すべきは、51の異なる看護手順と177のアクションステップを含み、主に限られた手順に焦点を当てた既存のデータセットよりもはるかに包括的なカバレッジを提供する。 看護活動理解における現在のディープラーニング手法の有効性を評価するため,NurViDの3つの評価基準を構築した: トリミングビデオのプロシージャ認識,トリミングビデオのプロシージャ認識,アクション検出である。 私たちのベンチマークとコードは、 \url{https://github.com/minghu0830/nurvid-benchmark}で利用可能です。

The application of deep learning to nursing procedure activity understanding has the potential to greatly enhance the quality and safety of nurse-patient interactions. By utilizing the technique, we can facilitate training and education, improve quality control, and enable operational compliance monitoring. However, the development of automatic recognition systems in this field is currently hindered by the scarcity of appropriately labeled datasets. The existing video datasets pose several limitations: 1) these datasets are small-scale in size to support comprehensive investigations of nursing activity; 2) they primarily focus on single procedures, lacking expert-level annotations for various nursing procedures and action steps; and 3) they lack temporally localized annotations, which prevents the effective localization of targeted actions within longer video sequences. To mitigate these limitations, we propose NurViD, a large video dataset with expert-level annotation for nursing procedure activity understanding. NurViD consists of over 1.5k videos totaling 144 hours, making it approximately four times longer than the existing largest nursing activity datasets. Notably, it encompasses 51 distinct nursing procedures and 177 action steps, providing a much more comprehensive coverage compared to existing datasets that primarily focus on limited procedures. To evaluate the efficacy of current deep learning methods on nursing activity understanding, we establish three benchmarks on NurViD: procedure recognition on untrimmed videos, procedure and action recognition on trimmed videos, and action detection. Our benchmark and code will be available at \url{https://github.com/minghu0830/NurViD-benchmark}.
翻訳日:2023-10-23 23:55:38 公開日:2023-10-20
# DeepFracture: 脆性骨折の予測のための生成的アプローチ

DeepFracture: A Generative Approach for Predicting Brittle Fractures ( http://arxiv.org/abs/2310.13344v1 )

ライセンス: Link先を確認
Yuhang Huang, Takashi Kanai(参考訳) 脆性破壊アニメーションの領域では、物理シミュレーション技術による現実的な破壊アニメーションの生成は計算的に高価である。 ボロノイ図やプレフラクチャードパターンを用いた手法はリアルタイム応用に有効であるが、脆性骨折を描写する現実性に欠けることが多い。 本稿では, 剛体シミュレーションによる脆性破壊アニメーションをシームレスに融合する学習に基づく新しい手法を提案する。 本手法は,bem脆性破壊シミュレーションを用いて所定の形状の破壊パターンと衝突条件を作成し,学習過程のトレーニングデータとして利用する。 衝突条件と破断形状をディープラーニングフレームワークに効果的に統合するために,潜時インパルス表現と幾何分割符号距離関数(GS-SDF)の概念を導入する。 潜在インパルス表現は入力として働き、形状の表面の衝撃力に関する情報をキャプチャする。 同時に、破面形状の出力表現としてGS−SDFを用いる。 一つの潜在コードで複数の破壊パターンターゲットを最適化するという課題に対処するため,我々は潜在インパルス表現設計における正規分布コードに基づく8次元潜在空間を提案する。 この適応は、ニューラルネットワークを効果的に生成型に変換する。 実験結果から, 本手法は既存の手法に比べて脆性破壊を著しく低減し, 実行時の計算効率を維持できることを示した。

In the realm of brittle fracture animation, generating realistic destruction animations with physics simulation techniques can be computationally expensive. Although methods using Voronoi diagrams or pre-fractured patterns work for real-time applications, they often lack realism in portraying brittle fractures. This paper introduces a novel learning-based approach for seamlessly merging realistic brittle fracture animations with rigid-body simulations. Our method utilizes BEM brittle fracture simulations to create fractured patterns and collision conditions for a given shape, which serve as training data for the learning process. To effectively integrate collision conditions and fractured shapes into a deep learning framework, we introduce the concept of latent impulse representation and geometrically-segmented signed distance function (GS-SDF). The latent impulse representation serves as input, capturing information about impact forces on the shape's surface. Simultaneously, a GS-SDF is used as the output representation of the fractured shape. To address the challenge of optimizing multiple fractured pattern targets with a single latent code, we propose an eight-dimensional latent space based on a normal distribution code within our latent impulse representation design. This adaptation effectively transforms our neural network into a generative one. Our experimental results demonstrate that our approach can generate significantly more detailed brittle fractures compared to existing techniques, all while maintaining commendable computational efficiency during run-time.
翻訳日:2023-10-23 23:55:16 公開日:2023-10-20
# 大規模言語モデル(LLM)の活用における課題と貢献要因

Challenges and Contributing Factors in the Utilization of Large Language Models (LLMs) ( http://arxiv.org/abs/2310.13343v1 )

ライセンス: Link先を確認
Xiaoliang Chen, Liangbin Li, Le Chang, Yunhe Huang, Yuxuan Zhao, Yuxiao Zhang, Dinuo Li(参考訳) GPTシリーズのような大規模言語モデル(LLM)の開発により、様々なアプリケーションシナリオで広く利用されていることが、数多くの課題を呈している。 このレビューはまずドメイン特化の問題を探求し、llmはニッチな分野における専門的な質問に対する正確な答えを提供するのに苦労するかもしれない。 知識を忘れることの問題は、これらのLSMが古い情報と新しい情報のバランスをとるのが難しいためである。 知識反復現象は、LLMが過度に機械化された応答を与え、深さと独創性を欠くことがあることを示している。 さらに、知識錯視は、llmが洞察に富むように見えるが実際に表面的であるような答えを提示し、知識毒性は有害または偏った情報出力に焦点を当てている状況を記述する。 これらの課題は、LLMのトレーニングデータとアルゴリズム設計において問題となる。 これらの問題に対処するため、トレーニングデータ、微調整モデル、透明性と解釈可能性の向上、倫理と公正トレーニングの取り入れが提案されている。 今後の技術動向は、反復的方法論、マルチモーダル学習、モデルパーソナライゼーションとカスタマイズ、リアルタイム学習とフィードバックメカニズムに傾くかもしれない。 結論として、将来のLLMは公正性、透明性、倫理を優先し、人類に仕える際の高い倫理的・倫理的基準を守らなければならない。

With the development of large language models (LLMs) like the GPT series, their widespread use across various application scenarios presents a myriad of challenges. This review initially explores the issue of domain specificity, where LLMs may struggle to provide precise answers to specialized questions within niche fields. The problem of knowledge forgetting arises as these LLMs might find it hard to balance old and new information. The knowledge repetition phenomenon reveals that sometimes LLMs might deliver overly mechanized responses, lacking depth and originality. Furthermore, knowledge illusion describes situations where LLMs might provide answers that seem insightful but are actually superficial, while knowledge toxicity focuses on harmful or biased information outputs. These challenges underscore problems in the training data and algorithmic design of LLMs. To address these issues, it's suggested to diversify training data, fine-tune models, enhance transparency and interpretability, and incorporate ethics and fairness training. Future technological trends might lean towards iterative methodologies, multimodal learning, model personalization and customization, and real-time learning and feedback mechanisms. In conclusion, future LLMs should prioritize fairness, transparency, and ethics, ensuring they uphold high moral and ethical standards when serving humanity.
翻訳日:2023-10-23 23:54:50 公開日:2023-10-20
# 横レビューサブセットを用いた大規模・多視点オピニオン要約

Large-Scale and Multi-Perspective Opinion Summarization with Diverse Review Subsets ( http://arxiv.org/abs/2310.13340v1 )

ライセンス: Link先を確認
Han Jiang, Rui Wang, Zhihua Wei, Yu Li, Xinpeng Wang(参考訳) 意見要約は、より大きなレビューセットを消化し、異なる視点から要約を提供することが期待されている。 しかし、既存のソリューションのほとんどは、情報選択のための設計の欠如により、広範囲なレビューやさまざまな角度からの意見要約の提供に不足している。 そこで本稿では,大規模複数意見要約のための教師付き要約フレームワークであるsubsummを提案する。 SUBSUMMは、レビューサンプリング戦略セットと2段階のトレーニングスキームから構成される。 サンプリング戦略は感情指向と対照的な情報価値を考慮に入れ、異なる視点と品質レベルからのレビューサブセットを選択することができる。 その後、サブ最適部分集合と最適部分集合から学習し、大容量入力に乗じて学習することを推奨する。 AmaSumとRotten Tomatoesのデータセットによる実験結果から、SUBSUMMは数百のインプットレビューからpros, cons, and verdict summariesを生成するのに適していることが示された。 さらに,詳細な分析により,レビュー部分集合の高度選択と2段階学習が要約性能の向上に不可欠であることを検証した。

Opinion summarization is expected to digest larger review sets and provide summaries from different perspectives. However, most existing solutions are deficient in epitomizing extensive reviews and offering opinion summaries from various angles due to the lack of designs for information selection. To this end, we propose SUBSUMM, a supervised summarization framework for large-scale multi-perspective opinion summarization. SUBSUMM consists of a review sampling strategy set and a two-stage training scheme. The sampling strategies take sentiment orientation and contrastive information value into consideration, with which the review subsets from different perspectives and quality levels can be selected. Subsequently, the summarizer is encouraged to learn from the sub-optimal and optimal subsets successively in order to capitalize on the massive input. Experimental results on AmaSum and Rotten Tomatoes datasets demonstrate that SUBSUMM is adept at generating pros, cons, and verdict summaries from hundreds of input reviews. Furthermore, our in-depth analysis verifies that the advanced selection of review subsets and the two-stage training scheme are vital to boosting the summarization performance.
翻訳日:2023-10-23 23:54:27 公開日:2023-10-20
# ノイズクエンチ後の動的量子相転移

Dynamical quantum phase transitions following a noisy quench ( http://arxiv.org/abs/2310.13337v1 )

ライセンス: Link先を確認
R. Jafari, A. Langari, S. Eggert, and Henrik Johannesson(参考訳) 量子イジングチェーンにおける横磁場のノイズの増大に伴う動的量子相転移(dqpts)に時間依存的なエネルギーゆらぎが与える影響について検討した。 モード分解フェルミオンハミルトニアンの確率シュル=オディンガー方程式を数値的に解くことにより、ノイズの振幅とランプの速度によって、ノイズのないdqptの予測される周期列は時間的に一様に変化するか、あるいは近接したdqptのずれに置き換えられるかの2つの一般的なシナリオを同定する。 厳密なノイズマスター方程式によって導かれるこの現象は、クエンチ中に蓄積するノイズ誘起励起と、システムの大規模モードの近接断熱ダイナミクスとの相互作用にさかのぼる。 本解析は, 1次元フェルミオン二バンドモデルに対して, ノイズクエンチを受けることを一般化する。

We study how time-dependent energy fluctuations impact the dynamical quantum phase transitions (DQPTs) following a noisy ramped quench of the transverse magnetic field in a quantum Ising chain. By numerically solving the stochastic Schr\"odinger equation of the mode-decoupled fermionic Hamiltonian of the problem, we identify two generic scenarios: Depending on the amplitude of the noise and the rate of the ramp, the expected periodic sequence of noiseless DQPTs may either be uniformly shifted in time or else replaced by a disarray of closely spaced DQPTs. Guided by an exact noise master equation, we trace the phenomenon to the interplay between noise-induced excitations which accumulate during the quench and the near-adiabatic dynamics of the massive modes of the system. Our analysis generalizes to any 1D fermionic two-band model subject to a noisy quench.
翻訳日:2023-10-23 23:54:08 公開日:2023-10-20
# flair:多元光学画像を用いた国別土地被覆意味セグメンテーションデータセット

FLAIR: a Country-Scale Land Cover Semantic Segmentation Dataset From Multi-Source Optical Imagery ( http://arxiv.org/abs/2310.13336v1 )

ライセンス: Link先を確認
Anatol Garioud, Nicolas Gonthier, Loic Landrieu, Apolline De Wit, Marion Valette, Marc Poup\'ee, S\'ebastien Giordano, Boris Wattrelos(参考訳) 本稿では,フランス国立地理学林情報研究所(ign)による大規模地理空間解析のための一意かつ豊富な資源を提供する大規模データセットである,エアロスペース・ピクチャーズ(flair)によるフランス土地被覆について紹介する。 FLAIRは、地上サンプル距離20cmの高解像度空中画像と、正確な土地被覆分類のための200億以上の個別ラベル付きピクセルを含んでいる。 このデータセットは、光学衛星時系列からの時間およびスペクトルデータも統合する。 これによりFLAIRは、フランス全地形の多様性を表す817km2以上の取得の様々な空間、スペクトル、時間分解能とデータを組み合わせる。 この多様性により、FLAIRは大規模土地被覆セマンティックセグメンテーションのための新しい手法の開発と評価のための貴重な資源となり、コンピュータビジョン、データ融合、地理空間解析の点で大きな課題を提起する。 また,アルゴリズムの性能評価や下流アプリケーションに適用可能な,強力な一センサおよび多センサベースラインモデルを提供する。 FLAIRは、その範囲とアノテーションの質を通じて、都市の成長、森林伐採、土壌の人工化などの人為的発達指標のモニタリングと理解の改善を促進することを目的としている。 データセットとコードはhttps://ignf.github.io/FLAIR/でアクセスできる。

We introduce the French Land cover from Aerospace ImageRy (FLAIR), an extensive dataset from the French National Institute of Geographical and Forest Information (IGN) that provides a unique and rich resource for large-scale geospatial analysis. FLAIR contains high-resolution aerial imagery with a ground sample distance of 20 cm and over 20 billion individually labeled pixels for precise land-cover classification. The dataset also integrates temporal and spectral data from optical satellite time series. FLAIR thus combines data with varying spatial, spectral, and temporal resolutions across over 817 km2 of acquisitions representing the full landscape diversity of France. This diversity makes FLAIR a valuable resource for the development and evaluation of novel methods for large-scale land-cover semantic segmentation and raises significant challenges in terms of computer vision, data fusion, and geospatial analysis. We also provide powerful uni- and multi-sensor baseline models that can be employed to assess algorithm's performance and for downstream applications. Through its extent and the quality of its annotation, FLAIR aims to spur improvements in monitoring and understanding key anthropogenic development indicators such as urban growth, deforestation, and soil artificialization. Dataset and codes can be accessed at https://ignf.github.io/FLAIR/
翻訳日:2023-10-23 23:53:51 公開日:2023-10-20
# 民主化推論能力:大規模言語モデルから学ぶ

Democratizing Reasoning Ability: Tailored Learning from Large Language Model ( http://arxiv.org/abs/2310.13332v1 )

ライセンス: Link先を確認
Zhaoyang Wang, Shaohan Huang, Yuxuan Liu, Jiahai Wang, Minghui Song, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang(参考訳) 大規模言語モデル(llm)は自然言語処理において目覚ましい能力を発揮するが、その民主化は巨大な計算要件とクローズドソースの性質のために妨げられている。 ブラックボックスLSMの知識を蒸留してオープンソースの小型LMを前進させる最近の研究は、命令追従能力の有望な結果を得た。 しかし、それを育むのが難しい理由付け能力は比較的まれである。 本稿では,これらの推論能力を小さいLMに蒸留し,排他的推論能力の民主化を促進するための学習手法を提案する。 LLMをデータアノテータとしてのみ使用するのとは対照的に、対話型マルチラウンド学習パラダイムを構築することにより、LCMを推論教師としての可能性を利用する。 このパラダイムにより、生徒はその欠陥をブラックボックスの教師に公開し、その代わりにカスタマイズされたトレーニングデータを提供できる。 さらに,より小さいlmの推論能力を活用するために,自発的誤りから学習する動機づけとなる自己回帰学習を提案する。 自己回帰とLDMからの学習は、多ラウンド学習パラダイムとのシームレスな統合により、生徒の学習状況に合わせて調整される。 数学的および常識的推論タスクに関する総合的な実験と分析は,本手法の有効性を実証する。 コードはhttps://github.com/Raibows/Learn-to-Reason.comから入手できる。

Large language models (LLMs) exhibit impressive emergent abilities in natural language processing, but their democratization is hindered due to huge computation requirements and closed-source nature. Recent research on advancing open-source smaller LMs by distilling knowledge from black-box LLMs has obtained promising results in the instruction-following ability. However, the reasoning ability which is more challenging to foster, is relatively rarely explored. In this paper, we propose a tailored learning approach to distill such reasoning ability to smaller LMs to facilitate the democratization of the exclusive reasoning ability. In contrast to merely employing LLM as a data annotator, we exploit the potential of LLM as a reasoning teacher by building an interactive multi-round learning paradigm. This paradigm enables the student to expose its deficiencies to the black-box teacher who then can provide customized training data in return. Further, to exploit the reasoning potential of the smaller LM, we propose self-reflection learning to motivate the student to learn from self-made mistakes. The learning from self-reflection and LLM are all tailored to the student's learning status, thanks to the seamless integration with the multi-round learning paradigm. Comprehensive experiments and analysis on mathematical and commonsense reasoning tasks demonstrate the effectiveness of our method. The code will be available at https://github.com/Raibows/Learn-to-Reason.
翻訳日:2023-10-23 23:53:30 公開日:2023-10-20
# ハードサンプルを超えて: サイクル自己拡張によるロバストで効果的な文法的誤り訂正

Beyond Hard Samples: Robust and Effective Grammatical Error Correction with Cycle Self-Augmenting ( http://arxiv.org/abs/2310.13321v1 )

ライセンス: Link先を確認
Zecheng Tang, Kaifeng Qi, Juntao Li, Min Zhang(参考訳) 近年,シーケンシャル・ツー・シーケンス・パラダイムにおける文法的誤り訂正手法は敵意攻撃に対して脆弱であり,事前訓練や後訓練過程における敵意の例を単純に利用すれば,クリーンなデータに対するパフォーマンス損失に苦しむことなく,gecモデルのロバスト性を大幅に向上させることができることが明らかになった。 本稿では,4種類の敵攻撃に対する最先端gec法の徹底的なロバスト性評価を行い,それに応じて単純かつ極めて効果的なサイクル・セルフ・エイジメント(csa)法を提案する。 本提案手法は,サイクルトレーニングのための正規化データを導入し,学習後過程におけるGECモデル自体の強化データを活用することにより,学習期間を短縮し,モデルロバスト性を向上する。 より具体的には、正規化データに関するさらなるトレーニングは、GECモデルが容易に学習できるサンプルに過度に適合することを防ぎ、不明瞭なデータ(逆ノイズ/サンプル)に対する一般化能力と堅牢性を向上させることができる。 一方、自己拡張データにより、より高品質な擬似ペアが提供され、元のテストデータのモデル性能が向上する。 4つのベンチマークデータセットと7つの強力なモデルを用いた実験から,提案手法は,意図的に構築した攻撃例を使わずに,4種類の攻撃のロバスト性を大幅に向上できることが示唆された。 クリーンデータによる評価結果は,提案手法が4つのベースラインの性能を著しく向上し,他の最先端モデルとほぼ同等な結果が得られることを示す。 私たちのコードはhttps://github.com/ZetangForward/CSA-GECで利用可能です。

Recent studies have revealed that grammatical error correction methods in the sequence-to-sequence paradigm are vulnerable to adversarial attack, and simply utilizing adversarial examples in the pre-training or post-training process can significantly enhance the robustness of GEC models to certain types of attack without suffering too much performance loss on clean data. In this paper, we further conduct a thorough robustness evaluation of cutting-edge GEC methods for four different types of adversarial attacks and propose a simple yet very effective Cycle Self-Augmenting (CSA) method accordingly. By leveraging the augmenting data from the GEC models themselves in the post-training process and introducing regularization data for cycle training, our proposed method can effectively improve the model robustness of well-trained GEC models with only a few more training epochs as an extra cost. More concretely, further training on the regularization data can prevent the GEC models from over-fitting on easy-to-learn samples and thus can improve the generalization capability and robustness towards unseen data (adversarial noise/samples). Meanwhile, the self-augmented data can provide more high-quality pseudo pairs to improve model performance on the original testing data. Experiments on four benchmark datasets and seven strong models indicate that our proposed training method can significantly enhance the robustness of four types of attacks without using purposely built adversarial examples in training. Evaluation results on clean data further confirm that our proposed CSA method significantly improves the performance of four baselines and yields nearly comparable results with other state-of-the-art models. Our code is available at https://github.com/ZetangForward/CSA-GEC.
翻訳日:2023-10-23 23:53:09 公開日:2023-10-20
# SigFormer:ディープヘッジ用の署名変換器

SigFormer: Signature Transformers for Deep Hedging ( http://arxiv.org/abs/2310.13369v1 )

ライセンス: Link先を確認
Anh Tong and Thanh Nguyen-Tang and Dongeun Lee and Toan Tran and Jaesik Choi(参考訳) 深層ヘッジは定量的ファイナンスにおいて有望な方向であり、深層学習研究のモデルとテクニックを取り入れている。 優れたヘッジ戦略を提供する一方で、モデルは本質的にニューラルネットワークのアーキテクチャを設計する際に慎重に扱う必要がある。 このような問題を緩和するために、パスシグネチャとトランスフォーマーのパワーを組み合わせて、特に不規則な場合のシーケンシャルデータを処理する新しいディープラーニングモデルであるSigFormerを導入する。 パスシグネチャは複雑なデータパターンを効果的にキャプチャし、トランスフォーマはシーケンシャルに注意を向ける。 提案手法は, 既存の合成データ手法と比較し, 学習の高速化と頑健性の向上, 特に不規則な価格データの存在下でのロバスト性を示す。 さらに,SP500指数の重み付けによる実世界のバックテストによるモデル性能の検証を行い,肯定的な結果を示した。

Deep hedging is a promising direction in quantitative finance, incorporating models and techniques from deep learning research. While giving excellent hedging strategies, models inherently requires careful treatment in designing architectures for neural networks. To mitigate such difficulties, we introduce SigFormer, a novel deep learning model that combines the power of path signatures and transformers to handle sequential data, particularly in cases with irregularities. Path signatures effectively capture complex data patterns, while transformers provide superior sequential attention. Our proposed model is empirically compared to existing methods on synthetic data, showcasing faster learning and enhanced robustness, especially in the presence of irregular underlying price data. Additionally, we validate our model performance through a real-world backtest on hedging the SP 500 index, demonstrating positive outcomes.
翻訳日:2023-10-23 23:47:04 公開日:2023-10-20
# VFedMH:多人数不均一モデルの訓練のための垂直的フェデレーション学習

VFedMH: Vertical Federated Learning for Training Multi-party Heterogeneous Models ( http://arxiv.org/abs/2310.13367v1 )

ライセンス: Link先を確認
Shuo Wang and Keke Gai and Jing Yu and Liehuang Zhu(参考訳) Vertical Federated Learning (VFL)は、サンプルアライメントとフィーチャーユニオンを統合する新しいトレーニングパラダイムとして注目を集めている。 しかしながら、既存のVFL法は、最適化収束と一般化に影響を与える参加者間の異種局所モデルを扱う際に、課題に直面している。 この問題に対処するため,本稿では,VFedMH(Vertical Federated Learning for Training Multi-Parties Heterogeneous Model)を提案する。 VFedMHは、前方伝播中の中間結果ではなく、各参加者の知識の埋め込みを集約することに焦点を当てている。 VFedMHでは、サンプルのラベルと特徴を持つアクティブパーティが、グローバルな知識埋め込みを得るために、ローカル埋め込みを安全に集約し、受動的当事者に送信する。 サンプルの特徴しか持たない受動的参加者は、グローバルな埋め込みを利用して、局所的な異種ネットワークを前進させる。 しかし、受動的パーティはラベルを所有しないので、局所的なモデルの勾配を局所的に計算することはできない。 この制限を克服するために、アクティブパーティは、局所的不均質なモデルの勾配を計算する受動的パーティを支援する。 そして、各参加者は異種モデル勾配を用いて局所モデルを訓練する。 目的は各局所異種モデルの損失値を最小限にすることである。 さらに,VFedMHの収束性能に関する理論的解析を行った。 VFedMHは、不均一な最適化で複数の異種モデルを同時に訓練し、モデル性能の最近の手法より優れることを示した。

Vertical Federated Learning (VFL) has gained increasing attention as a novel training paradigm that integrates sample alignment and feature union. However, existing VFL methods face challenges when dealing with heterogeneous local models among participants, which affects optimization convergence and generalization. To address this issue, this paper proposes a novel approach called Vertical Federated learning for training Multi-parties Heterogeneous models (VFedMH). VFedMH focuses on aggregating the embeddings of each participant's knowledge instead of intermediate results during forward propagation. The active party, who possesses labels and features of the sample, in VFedMH securely aggregates local embeddings to obtain global knowledge embeddings, and sends them to passive parties. The passive parties, who own only features of the sample, then utilize the global embeddings to propagate forward on their local heterogeneous networks. However, the passive party does not own the labels, so the local model gradient cannot be calculated locally. To overcome this limitation, the active party assists the passive party in computing its local heterogeneous model gradients. Then, each participant trains their local model using the heterogeneous model gradients. The objective is to minimize the loss value of their respective local heterogeneous models. Additionally, the paper provides a theoretical analysis of VFedMH's convergence performance. Extensive experiments are conducted to demonstrate that VFedMH can simultaneously train multiple heterogeneous models with heterogeneous optimization and outperform some recent methods in model performance.
翻訳日:2023-10-23 23:46:51 公開日:2023-10-20
# psgtext:pspモジュールによるストローク誘導シーンテキスト編集

PSGText: Stroke-Guided Scene Text Editing with PSP Module ( http://arxiv.org/abs/2310.13366v1 )

ライセンス: Link先を確認
Felix Liawi, Yun-Da Tsai, Guan-Lun Lu, Shou-De Lin(参考訳) STE(Scene Text Editing)は、画像中のテキストを、元のテキストの背景とスタイルを保存しながら、新しい所望のテキストに置き換えることを目的としている。 しかし,本手法は,高い明瞭度と妥当性を示す編集テキスト画像の生成において,顕著な課題を呈している。 この課題は主に、様々なテキストタイプや複雑な背景の複雑なテクスチャに見られる固有の多様性に由来する。 そこで本稿では,テキスト画像間のテキスト転送のための3段階フレームワークを提案する。 まず,テキストスワッピングネットワークを導入して,テキストの置き換えをシームレスに行う。 その後、我々のフレームワークに背景塗装ネットワークを組み込む。 この特化ネットワークは、背景画像の再構築を巧みに行い、原文削除後の空白を効果的に解決する。 このプロセスは、背景の視覚的調和とコヒーレンスを注意深く保存する。 最終的に、テキストスワッピングネットワークと背景塗装ネットワークの結果の合成は、融合ネットワークを介して達成され、微妙に編集された最終画像の作成が完了する。 補足資料にはデモビデオが含まれている。

Scene Text Editing (STE) aims to substitute text in an image with new desired text while preserving the background and styles of the original text. However, present techniques present a notable challenge in the generation of edited text images that exhibit a high degree of clarity and legibility. This challenge primarily stems from the inherent diversity found within various text types and the intricate textures of complex backgrounds. To address this challenge, this paper introduces a three-stage framework for transferring texts across text images. Initially, we introduce a text-swapping network that seamlessly substitutes the original text with the desired replacement. Subsequently, we incorporate a background inpainting network into our framework. This specialized network is designed to skillfully reconstruct background images, effectively addressing the voids left after the removal of the original text. This process meticulously preserves visual harmony and coherence in the background. Ultimately, the synthesis of outcomes from the text-swapping network and the background inpainting network is achieved through a fusion network, culminating in the creation of the meticulously edited final image. A demo video is included in the supplementary material.
翻訳日:2023-10-23 23:46:26 公開日:2023-10-20
# 因果バイアスを解剖する

Dissecting Causal Biases ( http://arxiv.org/abs/2310.13364v1 )

ライセンス: Link先を確認
R\=uta Binkyt\.e, Sami Zhioua, Yassine Turki(参考訳) 機械学習に基づく自動意思決定システムにおける識別の正確な測定は、サブポピュレーションと個人間の公平性の欠如に対処するために必要である。 識別を測定するバイアスは、真の識別値の増幅または過小評価につながる可能性がある。 本稿では,トレーニングデータの生成や収集方法に起因したバイアスのクラスに焦点を当てる。 このような分類因果バイアス(class causal biases)と呼び、因果バイアスを正式に定義し分析するために因果関係の分野からツールを使用する。 バイアスの4つの源、すなわち結合、選択、測定、相互作用が考えられる。 本論文の主な貢献は,各バイアス源に対して,モデルパラメータの観点からの閉形式表現を提供することである。 これにより、それぞれのバイアス源の挙動、特に、それらが欠落しているケースや、他のケースが最大化されている場合を分析することができる。 提供される特性は、機械学習アプリケーションにおけるバイアスの源をコミュニティがより深く理解するのに役立つことを願っている。

Accurately measuring discrimination in machine learning-based automated decision systems is required to address the vital issue of fairness between subpopulations and/or individuals. Any bias in measuring discrimination can lead to either amplification or underestimation of the true value of discrimination. This paper focuses on a class of bias originating in the way training data is generated and/or collected. We call such class causal biases and use tools from the field of causality to formally define and analyze such biases. Four sources of bias are considered, namely, confounding, selection, measurement, and interaction. The main contribution of this paper is to provide, for each source of bias, a closed-form expression in terms of the model parameters. This makes it possible to analyze the behavior of each source of bias, in particular, in which cases they are absent and in which other cases they are maximized. We hope that the provided characterizations help the community better understand the sources of bias in machine learning applications.
翻訳日:2023-10-23 23:46:07 公開日:2023-10-20
# 機械翻訳における行動検査による一般誤り診断に向けて

Towards General Error Diagnosis via Behavioral Testing in Machine Translation ( http://arxiv.org/abs/2310.13362v1 )

ライセンス: Link先を確認
Junjie Wu, Lemao Liu, Dit-Yan Yeung(参考訳) 行動テストは、言語エラーの診断とnlpモデルの能力評価に重要な手段を提供する。 しかし, 機械翻訳(MT)システムへの動作テストの適用は, 一般的には, 新たに生成されたテストケースにおいて, それらのシステムの翻訳品質を評価するための基準を作成することが必要なため, 困難である。 mtシステムの動作テストにおける既存の作業は、参照無しで翻訳品質を評価することでこれを回避しているが、単一の数値や通貨の単語の誤訳のような特定の種類のエラーに対する診断を制限している。 本稿では,一般的な誤りを診断するために,MTシステムの動作テストを行うためのバイリンガル翻訳ペア生成に基づく振る舞いテスト(BTPGBT)フレームワークを提案する。 BTPGBTの中核となる考え方は、高品質なテストケースとそれらの擬似参照の構築を自動化する、新しいバイリンガル翻訳ペア生成(BTPG)アプローチを採用することである。 様々なmtシステムにおける実験結果は、btpgbtが一般的な誤り診断のために包括的かつ正確な行動検査結果を提供できることを示した。 私たちのコードとデータはhttps: //github.com/wujunjie1998/btpgbtで入手できます。

Behavioral testing offers a crucial means of diagnosing linguistic errors and assessing capabilities of NLP models. However, applying behavioral testing to machine translation (MT) systems is challenging as it generally requires human efforts to craft references for evaluating the translation quality of such systems on newly generated test cases. Existing works in behavioral testing of MT systems circumvent this by evaluating translation quality without references, but this restricts diagnosis to specific types of errors, such as incorrect translation of single numeric or currency words. In order to diagnose general errors, this paper proposes a new Bilingual Translation Pair Generation based Behavior Testing (BTPGBT) framework for conducting behavioral testing of MT systems. The core idea of BTPGBT is to employ a novel bilingual translation pair generation (BTPG) approach that automates the construction of high-quality test cases and their pseudoreferences. Experimental results on various MT systems demonstrate that BTPGBT could provide comprehensive and accurate behavioral testing results for general error diagnosis, which further leads to several insightful findings. Our code and data are available at https: //github.com/wujunjie1998/BTPGBT.
翻訳日:2023-10-23 23:45:53 公開日:2023-10-20
# マルチモーダル機械翻訳のための合成画像と本物画像のギャップの橋渡し

Bridging the Gap between Synthetic and Authentic Images for Multimodal Machine Translation ( http://arxiv.org/abs/2310.13361v1 )

ライセンス: Link先を確認
Wenyu Guo, Qingkai Fang, Dong Yu, Yang Feng(参考訳) マルチモーダル機械翻訳(MMT)は、ソース文と関連する画像を同時に翻訳の入力とする。 入力文にペア画像が存在しない場合が多いため,近年の研究では,強力なテキスト・画像生成モデルを用いて画像入力を行う方法が提案されている。 しかしながら、これらのモデルによって生成された合成画像は、実際の画像と比較して異なる分布に従うことが多い。 これにより、トレーニング用認証画像と推論用合成画像を使用することで、分布シフトを導入でき、推論時の性能劣化が生じる。 この課題に対処するため,本稿では,MMTモデルに合成画像と認証画像をそれぞれ供給する。 次に、変換器エンコーダの入力画像表現と変換器デコーダの出力分布を閉じることで、合成画像と認証画像のギャップを最小化する。 そこで,我々は,合成画像が推論中に導入した分布格差を緩和し,実際の画像から推論プロセスから解放する。実験結果から,提案手法は,推論中の画像から独立しながら,Multi30K En-DeおよびEn-Frデータセット上での最先端性能を実現することを示す。

Multimodal machine translation (MMT) simultaneously takes the source sentence and a relevant image as input for translation. Since there is no paired image available for the input sentence in most cases, recent studies suggest utilizing powerful text-to-image generation models to provide image inputs. Nevertheless, synthetic images generated by these models often follow different distributions compared to authentic images. Consequently, using authentic images for training and synthetic images for inference can introduce a distribution shift, resulting in performance degradation during inference. To tackle this challenge, in this paper, we feed synthetic and authentic images to the MMT model, respectively. Then we minimize the gap between the synthetic and authentic images by drawing close the input image representations of the Transformer Encoder and the output distributions of the Transformer Decoder. Therefore, we mitigate the distribution disparity introduced by the synthetic images during inference, thereby freeing the authentic images from the inference process.Experimental results show that our approach achieves state-of-the-art performance on the Multi30K En-De and En-Fr datasets, while remaining independent of authentic images during inference.
翻訳日:2023-10-23 23:45:34 公開日:2023-10-20
# 光子共振による分子電気化学振動子の同期

Synchronization of molecular electrochemical oscillators by photon-assisted entanglement ( http://arxiv.org/abs/2310.13360v1 )

ライセンス: Link先を確認
Serge Kernbach(参考訳) 水溶液中でのCO2からのヒドロニウムと炭酸イオンの生成は可逆的なプロセスであり、イオンを生成・消費することができる。 これらの平衡反応はカオス力学を持つ分子電気化学振動子を表す。 以前の研究で示されているように、水のパラ異性体とオルト異性体は異なる反応性を持ち、磁場の弱い変化は異性体間の低エネルギースピン変換過程を誘導し、いくつかの化学的および物理的パラメータに影響を及ぼす。 特に、スピン制御されたイオン反応性は微視的電気化学発振器の巨視的同期をもたらすことが期待されている。 本研究は、電気化学インピーダンス分光法を用いて独立流体細胞の高分解能イオンダイナミクスと温度を観察することによって、この仮説を探求する。 同期の発生は、1つまたは複数の非透明容器にグループ化された4-16細胞で研究され、約2000万のサンプルが分析される。 同期効果は, 主に3~10分間の二酸化炭素溶解シナリオにおいて生じる。 CO2アクセスがなければ、相互同期は存在しないか無視できない。 r>0.9の最大相関は、8000サンプルあたり1回の同期イベントを持つ4-6細胞と、3000サンプルあたり1回の同期イベントを持つ8-10細胞の間で達成される。 反相相関は相内相関よりも頻繁に起こる。 非透明なコンテナ間で細胞が分離された場合、同期イベントの数はおよそ5倍少ない。 また, 独立した細胞間で高い同期性を示す相内および相内温度依存性波の発生を指摘した。 このような結果を説明するために、水異性体のスピン変換で動作する分子量子ネットワークを考える。 独立細胞の発振器間の弱結合は、磁場のわずかな変化によって引き起こされる光子支援絡み合いによって引き起こされる。

Formation of hydronium and carbonate ions from CO2 in the aqueous phase is a reversible process and can produce and consume ions. These equilibrium reactions represent molecular electrochemical oscillators with chaotic dynamics. As demonstrated in previous works, para- and ortho- isomers of water have different reactivity; weak variations of magnetic fields induce a low-energy spin conversion process between isomers and affect several chemical and physical parameters. In particular, it is expected that spin-controlled ionic reactivity can lead to macroscopic synchronization of microscopic electrochemical oscillators. This work explores this hypothesis by monitoring the high-resolution ionic dynamics and temperature of independent fluidic cells with electrochemical impedance spectroscopy. The occurrence of synchronization is studied in 4-16 cells grouped in one or several non-transparent containers; about 20 million of samples are analyzed. Synchronization effects are shown to occur primarily in the CO2 dissolving scenario on 3-10 minute scale. Without CO2 access, mutual synchronization is either non-existent or negligible. Maximal correlations with r>0.9 are achieved between 4-6 cells with one synchronization event per 8000 samples; with r>0.7, in up to 8-10 cells with one event per 3000 samples. Anti-phase correlations occur more frequently than in-phase correlations. The number of synchronization events is about five times lower when cells are separated between non-transparent containers. We also noted a generation of in-phase and anti-phase temperature-impedance waves highly synchronized between independent cells. To explain such results, we consider molecular quantum networks that operate with spin conversion of water isomers. Weak coupling between oscillators in independent cells can be introduced by photon-assisted entanglement triggered by slight variations of magnetic fields.
翻訳日:2023-10-23 23:45:06 公開日:2023-10-20
# Sync-NeRF: 動的NeRFを非同期ビデオに一般化する

Sync-NeRF: Generalizing Dynamic NeRFs to Unsynchronized Videos ( http://arxiv.org/abs/2310.13356v1 )

ライセンス: Link先を確認
Seoha Kim, Jeongmin Bae, Youngsik Yun, Hahyun Lee, Gun Bang, Youngjung Uh(参考訳) ニューラルレイディアンスフィールド(NeRF)を用いた4次元シーン再構成の最近の進歩は、マルチビュービデオから動的シーンを表現できることを実証している。 しかし、動的シーンの再構築に失敗し、トレーニングビューでさえ同期しない設定に収まるのに苦労する。 これは、フレームのマルチビューイメージが実際には異なる瞬間にキャプチャされた間、フレームに1つの潜伏埋め込みを使用するためである。 この制限に対処するために,個々の非同期ビデオに対してタイムオフセットを導入し,nerfと共同でオフセットを最適化する。 設計上,本手法は様々なベースラインに適用可能であり,大きなマージンで改善できる。 さらに、オフセットを見つけることは、手動で動画を同期させるのに自然に役立ちます。 plenopticビデオデータセットと新たに構築した非同期動的ブレンダデータセットを用いて,提案手法の性能を検証する実験を行った。 プロジェクトページ: https://seoha-kim.github.io/sync-nerf

Recent advancements in 4D scene reconstruction using neural radiance fields (NeRF) have demonstrated the ability to represent dynamic scenes from multi-view videos. However, they fail to reconstruct the dynamic scenes and struggle to fit even the training views in unsynchronized settings. It happens because they employ a single latent embedding for a frame while the multi-view images at the frame were actually captured at different moments. To address this limitation, we introduce time offsets for individual unsynchronized videos and jointly optimize the offsets with NeRF. By design, our method is applicable for various baselines and improves them with large margins. Furthermore, finding the offsets naturally works as synchronizing the videos without manual effort. Experiments are conducted on the common Plenoptic Video Dataset and a newly built Unsynchronized Dynamic Blender Dataset to verify the performance of our method. Project page: https://seoha-kim.github.io/sync-nerf
翻訳日:2023-10-23 23:44:37 公開日:2023-10-20
# SILC:自己蒸留による視覚言語訓練の改善

SILC: Improving Vision Language Pretraining with Self-Distillation ( http://arxiv.org/abs/2310.13355v1 )

ライセンス: Link先を確認
Muhammad Ferjad Naeem, Yongqin Xian, Xiaohua Zhai, Lukas Hoyer, Luc Van Gool, Federico Tombari(参考訳) Webスケールの画像キャプションデータセットによる画像テキスト事前トレーニングは、CLIPとその変種の成功により、オープン語彙分類と検索モデルのデフォルトレシピとなった。 いくつかの研究では、複雑な予測タスクにCLIP機能を使用し、オープンセット能力の出現を示している。 しかし、対照的な目的は、画像テキストアライメントのみに焦点を合わせ、密集した予測タスクに対して画像特徴学習を動機付けない。 本研究では, 自己蒸留による局所-グローバル対応学習の簡易付加を, コントラスト事前学習のための追加目的として提案する。 指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,分類,検索,特にセグメンテーションなどのコンピュータビジョンタスクにおけるモデル性能が著しく向上することを示す。 さらに,silcはベースラインと同等のトレーニング期間でスケール性が向上することを示した。 我々のモデルsilcは,ゼロショット分類,ショット分類,画像とテキスト検索,ゼロショットセグメンテーション,オープン語彙セグメンテーションのための新しい状態を設定する。

Image-Text pretraining on web-scale image caption dataset has become the default recipe for open vocabulary classification and retrieval models thanks to the success of CLIP and its variants. Several works have also used CLIP features for dense prediction tasks and have shown the emergence of open-set abilities. However, the contrastive objective only focuses on image-text alignment and does not incentivise image feature learning for dense prediction tasks. In this work, we propose the simple addition of local-to-global correspondence learning by self-distillation as an additional objective for contrastive pre-training to propose SILC. We show that distilling local image features from an exponential moving average (EMA) teacher model significantly improves model performance on several computer vision tasks including classification, retrieval, and especially segmentation. We further show that SILC scales better with the same training duration compared to the baselines. Our model SILC sets a new state of the art for zero-shot classification, few shot classification, image and text retrieval, zero-shot segmentation, and open vocabulary segmentation.
翻訳日:2023-10-23 23:44:21 公開日:2023-10-20
# EarlyBird: 鳥の視界におけるマルチビュートラッキングの早期融合

EarlyBird: Early-Fusion for Multi-View Tracking in the Bird's Eye View ( http://arxiv.org/abs/2310.13350v1 )

ライセンス: Link先を確認
Torben Teepe, Philipp Wolters, Johannes Gilg, Fabian Herzog, Gerhard Rigoll(参考訳) マルチビューアグリゲーションは、マルチオブジェクトの検出とトラッキングにおいて、閉塞と検出の欠如を克服することを約束する。 近年の多視点検出と3次元物体検出のアプローチは、すべてのビューを地上面に投影し、バードアイビュー(BEV)で検出を行うことで、大きな性能向上を実現した。 本稿では,BEVにおけるトラッキングがマルチターゲットマルチカメラ(MTMC)トラッキングにおける次のパフォーマンスブレークスルーをもたらすかどうかを検討する。 マルチビュートラッキングにおける現在のほとんどのアプローチは、各ビューにおける検出および追跡タスクを実行し、グラフベースのアプローチを使用して、各ビューにおける歩行者の関連付けを行う。 この空間的関連は、BEVで1度だけ歩行者を検出することで既に解決されており、時間的関連の問題のみが残る。 時間的関連性については,検出毎に強い再同定(re-ID)特徴を学習する方法を示す。 その結果, BEVの早期融合は, 検出と追跡の両方において高い精度が得られることがわかった。 EarlyBirdは最先端の手法より優れており、現在のWildtrackの状態を+4.6 MOTAと+5.6 IDF1で改善している。

Multi-view aggregation promises to overcome the occlusion and missed detection challenge in multi-object detection and tracking. Recent approaches in multi-view detection and 3D object detection made a huge performance leap by projecting all views to the ground plane and performing the detection in the Bird's Eye View (BEV). In this paper, we investigate if tracking in the BEV can also bring the next performance breakthrough in Multi-Target Multi-Camera (MTMC) tracking. Most current approaches in multi-view tracking perform the detection and tracking task in each view and use graph-based approaches to perform the association of the pedestrian across each view. This spatial association is already solved by detecting each pedestrian once in the BEV, leaving only the problem of temporal association. For the temporal association, we show how to learn strong Re-Identification (re-ID) features for each detection. The results show that early-fusion in the BEV achieves high accuracy for both detection and tracking. EarlyBird outperforms the state-of-the-art methods and improves the current state-of-the-art on Wildtrack by +4.6 MOTA and +5.6 IDF1.
翻訳日:2023-10-23 23:44:03 公開日:2023-10-20
# RL-X:RoboCupのための深層強化学習ライブラリ

RL-X: A Deep Reinforcement Learning Library (not only) for RoboCup ( http://arxiv.org/abs/2310.13396v1 )

ライセンス: Link先を確認
Nico Bohlinger and Klaus Dorer(参考訳) 本稿では,新しいDeep Reinforcement Learning (DRL)ライブラリRL-XとそのRoboCup Soccer Simulation 3D Leagueおよび従来のDRLベンチマークへの応用について述べる。 RL-Xは、自己完結した単一ディレクトリアルゴリズムで柔軟で拡張しやすいコードベースを提供する。 高速なJAXベースの実装によって、RL-XはStable-Baselines3のような有名なフレームワークと比較して4.5倍のスピードアップを達成できる。

This paper presents the new Deep Reinforcement Learning (DRL) library RL-X and its application to the RoboCup Soccer Simulation 3D League and classic DRL benchmarks. RL-X provides a flexible and easy-to-extend codebase with self-contained single directory algorithms. Through the fast JAX-based implementations, RL-X can reach up to 4.5x speedups compared to well-known frameworks like Stable-Baselines3.
翻訳日:2023-10-23 23:35:50 公開日:2023-10-20
# tuna: 大きな言語モデルからのフィードバックによる命令チューニング

Tuna: Instruction Tuning using Feedback from Large Language Models ( http://arxiv.org/abs/2310.13385v1 )

ライセンス: Link先を確認
Haoran Li, Yiran Liu, Xingxing Zhang, Wei Lu, Furu Wei(参考訳) LLaMAのようなオープンソースの大規模言語モデル(LLM)のインストラクションチューニングは、インストラクト-GPTやGPT-4のようなより強力なLLMからの直接出力を使用しており、モデルの振る舞いを人間の好みに合わせるためのコスト効率の良い方法であることが証明されている。 しかし、命令調整モデルでは命令毎に1つの応答しか見られず、より優れた応答の知識が欠落している。 本稿では,より優れた応答を生成する可能性を高めるために,新しい \textit{probabilistic ranking} と \textit{contextual ranking} を用いた命令調整llmの微調整を提案する。 確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。 一方,文脈ランキングを用いた学習では,より強固なllmの文脈理解能力を用いて,モデルが独自の応答分布を洗練することができる。 さらに,命令調整 LLM に対して確率的ランキングと文脈的ランキングを順次適用する。 得られたモデルは \textbf{tuna}と呼ばれ、超自然命令(119テストタスク)、lmentry(25テストタスク)、vicuna qaのパフォーマンスを一貫して向上させ、強力な強化学習ベースラインよりも優れた結果を得ることができます。 私たちのコードとデータは、 \url{ https://github.com/microsoft/lmops}で利用可能です。

Instruction tuning of open-source large language models (LLMs) like LLaMA, using direct outputs from more powerful LLMs such as Instruct-GPT and GPT-4, has proven to be a cost-effective way to align model behaviors with human preferences. However, the instruction-tuned model has only seen one response per instruction, lacking the knowledge of potentially better responses. In this paper, we propose finetuning an instruction-tuned LLM using our novel \textit{probabilistic ranking} and \textit{contextual ranking} approaches to increase the likelihood of generating better responses. Probabilistic ranking enables the instruction-tuned model to inherit the relative rankings of high-quality and low-quality responses from the teacher LLM. On the other hand, learning with contextual ranking allows the model to refine its own response distribution using the contextual understanding ability of stronger LLMs. Furthermore, we apply probabilistic ranking and contextual ranking sequentially to the instruction-tuned LLM. The resulting model, which we call \textbf{Tuna}, consistently improves the performance on Super Natural Instructions (119 test tasks), LMentry (25 test tasks), Vicuna QA, and can even obtain better results than several strong reinforcement learning baselines. Our code and data are available at \url{ https://github.com/microsoft/LMOps}.
翻訳日:2023-10-23 23:35:43 公開日:2023-10-20
# Salted Inference: モバイルコンピューティングにおけるスプリット推論の効率を維持しながらプライバシを高める

Salted Inference: Enhancing Privacy while Maintaining Efficiency of Split Inference in Mobile Computing ( http://arxiv.org/abs/2310.13384v1 )

ライセンス: Link先を確認
Mohammad Malekzadeh and Fahim Kawsar(参考訳) Split推論は、ディープニューラルネットワーク(DNN)をパーティションして、エッジの初期部分とクラウドの後半部分を実行する。 デバイス上の機械学習には、入力のプライバシと計算効率の2つの重要な要件がある。 それでも、分割推論におけるオープンな質問は、DNNの出力がクラウドに可視であることを考えると、出力のプライバシである。 暗号化コンピューティングはアウトプットプライバシを保護することができるが、広範な計算と通信リソースを必要とする。 本稿では,従来のDNNと非常に近い精度と効率を維持しつつ,クライアントが推論時にDNN出力の意味的解釈を制御できるようにする手法である「Salted DNN」を紹介する。 画像とセンサデータの両方で行った実験的評価では、塩分dnnは標準dnnに非常に近い分類精度を達成しており、特に塩分層が初期位置にある場合、分割推論の要件を満たすことが示されている。 本手法は汎用的であり,様々なDNNに適用可能である。 将来の研究のベンチマークとして、コードと結果をオープンソースにしています。

Split inference partitions a deep neural network (DNN) to run the early part at the edge and the later part in the cloud. This meets two key requirements for on-device machine learning: input privacy and compute efficiency. Still, an open question in split inference is output privacy, given that the output of a DNN is visible to the cloud. While encrypted computing can protect output privacy, it mandates extensive computation and communication resources. In this paper, we introduce "Salted DNNs": a novel method that lets clients control the semantic interpretation of DNN output at inference time while maintaining accuracy and efficiency very close to that of a standard DNN. Experimental evaluations conducted on both image and sensor data show that Salted DNNs achieve classification accuracy very close to standard DNNs, particularly when the salted layer is positioned within the early part to meet the requirements of split inference. Our method is general and can be applied to various DNNs. We open-source our code and results, as a benchmark for future studies.
翻訳日:2023-10-23 23:35:17 公開日:2023-10-20
# ディープニューラルネットワークを用いた高雑音状態における量子誤差緩和:トロタライズドダイナミクス

Quantum error mitigation in the regime of high noise using deep neural network: Trotterized dynamics ( http://arxiv.org/abs/2310.13382v1 )

ライセンス: Link先を確認
A. A. Zhukov, W. V. Pogosov(参考訳) 本稿では,後処理段階に適用されたディープニューラルネットワークを用いた学習に基づく量子誤り軽減手法について検討し,その性能について検討する。 高雑音下での2次元スピン格子のトロタライズドダイナミクスのシミュレーションに着目し、有界なトレースレス観測器の期待値を強く抑制した。 数値シミュレーションを用いて,偏極・不均一なパウリ流路における局所重み1および重み2オブザーバブルのデータ品質を劇的に改善した。 誤差緩和の質、特に重量1の可観測物は、基本的に測定の確率論的性質による統計的不確実性によって制限される。 同時に、コヒーレント$ZZ$クロストークの効果は緩和されないので、練習時にクロストークをランダム化されたコンパイルによってまず非コヒーレントエラーに変換する必要がある。

We address a learning-based quantum error mitigation method, which utilizes deep neural network applied at the postprocessing stage, and study its performance in presence of different types of quantum noises. We concentrate on the simulation of Trotterized dynamics of 2D spin lattice in the regime of high noise, when expectation values of bounded traceless observables are strongly suppressed. By using numerical simulations, we demonstrate a dramatic improvement of data quality for both local weight-1 and weight-2 observables for the depolarizing and inhomogeneous Pauli channels. The quality of error mitigation, especially for weight-1 observables, is limited essentially by statistical uncertainties due to the probabilistic nature of measurements. At the same time, the effect of coherent $ZZ$ crosstalks is not mitigated, so that in practise crosstalks should be at first converted into incoherent errors by randomized compiling.
翻訳日:2023-10-23 23:34:59 公開日:2023-10-20
# 大規模データクラスタリング問題に対するスパースカーネルスペクトルクラスタリングの高速化

Accelerated sparse Kernel Spectral Clustering for large scale data clustering problems ( http://arxiv.org/abs/2310.13381v1 )

ライセンス: Link先を確認
Mihaly Novak, Rocco Langone, Carlos Alzate, Johan Suykens(参考訳) 本稿では,sparse multiway kernel spectral clustering (ksc)の改良版について述べる。 元のアルゴリズムは、プリマル・デュアルの最小二乗サポートベクターマシン(LS-SVM)フレームワークで定式化された重み付きカーネル主成分(KPCA)分析から導かれる。 次に、不完全コレスキー分解(ICD)に基づくカーネル行列の低階近似といわゆるreduced set法を組み合わせることにより、スパーシリティが達成される。 もともとのICDベースのスパースKSCアルゴリズムは、特に実際に設計された大規模データクラスタリング問題に適用した場合、計算的に非常に要求されすぎており、これまでは単に理論上の関連性以上のものを得られなかった。 これは、計算特性を大幅に改善する、このブリーフで報告された修正によって変更される。 計算的に最も要求されるコア固有値問題の対称性付きバージョンを解くことで、モデル構築中に大きな行列の形成とSVDが不要になる。 これにより、結果を変更することなく数時間を要すると報告された数秒以内のクラスタリング問題の解決が可能になった。 さらに、空間性も大幅に改善され、よりコンパクトなモデル表現が可能となり、計算効率だけでなく記述力も向上する。 これらのアルゴリズムは、大規模クラスタリング問題に適用可能な元の、理論上のみ関係のあるICDベースのスパースKSCアルゴリズムを変換する。 画像セグメンテーションのような実生活問題と同様に、慎重に選択された合成データに対する計算実験により理論的結果と改善が示された。

An improved version of the sparse multiway kernel spectral clustering (KSC) is presented in this brief. The original algorithm is derived from weighted kernel principal component (KPCA) analysis formulated within the primal-dual least-squares support vector machine (LS-SVM) framework. Sparsity is achieved then by the combination of the incomplete Cholesky decomposition (ICD) based low rank approximation of the kernel matrix with the so called reduced set method. The original ICD based sparse KSC algorithm was reported to be computationally far too demanding, especially when applied on large scale data clustering problems that actually it was designed for, which has prevented to gain more than simply theoretical relevance so far. This is altered by the modifications reported in this brief that drastically improve the computational characteristics. Solving the alternative, symmetrized version of the computationally most demanding core eigenvalue problem eliminates the necessity of forming and SVD of large matrices during the model construction. This results in solving clustering problems now within seconds that were reported to require hours without altering the results. Furthermore, sparsity is also improved significantly, leading to more compact model representation, increasing further not only the computational efficiency but also the descriptive power. These transform the original, only theoretically relevant ICD based sparse KSC algorithm applicable for large scale practical clustering problems. Theoretical results and improvements are demonstrated by computational experiments on carefully selected synthetic data as well as on real life problems such as image segmentation.
翻訳日:2023-10-23 23:34:45 公開日:2023-10-20
# APP:Few-shot OOD検出のための適応型Pseudo-Labeling

APP: Adaptive Prototypical Pseudo-Labeling for Few-shot OOD Detection ( http://arxiv.org/abs/2310.13380v1 )

ライセンス: Link先を確認
Pei Wang, Keqing He, Yutao Mou, Xiaoshuai Song, Yanan Wu, Jingang Wang, Yunsen Xian, Xunliang Cai, Weiran Xu(参考訳) タスク指向対話システムでは、ユーザクエリからドメイン外インテント(OOD)を検出することが不可欠である。 従来のOOD検出研究は一般的に、多くのラベル付きIND意図が存在するという仮定で機能する。 本稿では、少数のラベル付きINDデータと、INDまたはOODに属する可能性のある大量のラベル付き混合データしか存在しない、より実用的な数ショットOOD設定に焦点を当てる。 新しいシナリオには2つの重要な課題がある。限られたindデータを使用して識別表現を学習し、ラベルのない混合データを活用する。 そこで本研究では,限られたINDデータを用いた低リソースOOD検出を容易にするプロトタイプOOD検出フレームワーク(ProtoOOD)や,高品質な擬似OODラベルを生成するための適応擬似ラベル作成手法を提案する。 大規模な実験と分析により,数発のOOD検出法の有効性が示された。

Detecting out-of-domain (OOD) intents from user queries is essential for a task-oriented dialogue system. Previous OOD detection studies generally work on the assumption that plenty of labeled IND intents exist. In this paper, we focus on a more practical few-shot OOD setting where there are only a few labeled IND data and massive unlabeled mixed data that may belong to IND or OOD. The new scenario carries two key challenges: learning discriminative representations using limited IND data and leveraging unlabeled mixed data. Therefore, we propose an adaptive prototypical pseudo-labeling (APP) method for few-shot OOD detection, including a prototypical OOD detection framework (ProtoOOD) to facilitate low-resource OOD detection using limited IND data, and an adaptive pseudo-labeling method to produce high-quality pseudo OOD\&IND labels. Extensive experiments and analysis demonstrate the effectiveness of our method for few-shot OOD detection.
翻訳日:2023-10-23 23:34:25 公開日:2023-10-20
# scalablemap: オンラインの長距離ベクトル化hdマップ構築のためのスケーラブルマップ学習

ScalableMap: Scalable Map Learning for Online Long-Range Vectorized HD Map Construction ( http://arxiv.org/abs/2310.13378v1 )

ライセンス: Link先を確認
Jingyi Yu and Zizhao Zhang and Shengfu Xia and Jizhang Sang(参考訳) オンライン長範囲ベクトル化ハイデフィニション(HD)マップ構築のための,オンボードカメラセンサを用いた新しいエンドツーエンドパイプラインを提案する。 地図要素を表現するためにポリラインとポリゴンを用いるHDマップのベクトル化表現は、下流タスクで広く使われている。 しかし、動的オブジェクト検出に言及して設計された以前のスキームは、線形マップ要素の構造的制約を見落とし、長距離シナリオにおける性能劣化をもたらす。 本稿では,地図要素の特性を利用して地図構築の性能を向上させる。 より正確な鳥眼ビュー(BEV)の特徴を線形構造で導いた上で,ベクトル化された地図要素のスケーラビリティをさらに活用する階層的なスパースマップ表現を提案し,この表現に基づいて進行的復号機構と監督戦略を設計する。 当社のアプローチである scalablemap は,nuscenes データセット,特に長距離シナリオにおいて,18.3 fps を達成したまま,以前の最先端モデルを6.5 map で上回って優れたパフォーマンスを示している。 コードはhttps://github.com/jingy1yu/ScalableMapで入手できる。

We propose a novel end-to-end pipeline for online long-range vectorized high-definition (HD) map construction using on-board camera sensors. The vectorized representation of HD maps, employing polylines and polygons to represent map elements, is widely used by downstream tasks. However, previous schemes designed with reference to dynamic object detection overlook the structural constraints within linear map elements, resulting in performance degradation in long-range scenarios. In this paper, we exploit the properties of map elements to improve the performance of map construction. We extract more accurate bird's eye view (BEV) features guided by their linear structure, and then propose a hierarchical sparse map representation to further leverage the scalability of vectorized map elements and design a progressive decoding mechanism and a supervision strategy based on this representation. Our approach, ScalableMap, demonstrates superior performance on the nuScenes dataset, especially in long-range scenarios, surpassing previous state-of-the-art model by 6.5 mAP while achieving 18.3 FPS. Code is available at https://github.com/jingy1yu/ScalableMap.
翻訳日:2023-10-23 23:34:06 公開日:2023-10-20
# 言語習得と差分学習による人間とロボットの相互学習システム

A Human-Robot Mutual Learning System with Affect-Grounded Language Acquisition and Differential Outcomes Training ( http://arxiv.org/abs/2310.13377v1 )

ライセンス: Link先を確認
Alva Markelius, Sofia Sj\"oberg, Zakaria Lemhauori, Laura Cohen, Martin Bergstr\"om, Robert Lowe, and Lola Ca\~namero(参考訳) 本稿では,ロボットのための新しいヒューマン・ロボットインタラクション設定と,ロボットのホメオスタティックニーズを識別するためのシンボリック言語学習を提案する。 ロボットと人間はそれぞれ、ホメオスタティックなニーズと、ホメオスタティックなニーズを満たす刺激を伝達する同じ言語シンボルの使用と応答を学習する。 我々は,適切な刺激(クッキーなど)で満たされた場合,ロボットが内部ニーズ(例えば「ハンター」)に特異的なフィードバック(差分)を提供する,差分結果トレーニング(DOT)プロトコルを採用した。 dotによって人間の学習効率が向上し、それによってより効率的なロボット言語習得が可能になるという証拠が得られた。 この研究で使われたロボットは、言語‘babbling’のフェーズで、人間の幼児のそれに似た語彙を持つ。 ロボットソフトウェアアーキテクチャは、人間とのインタラクションを通じて語彙と内的ニーズ(ハンガー、渇き、好奇心)を関連付ける、情緒的言語獲得のモデル上に構築されている。 本研究は,ロボットの言語習得が,非DOT制御条件と比較してDOT条件の収束率が高いことを明らかにする対話的な設定による初期試験結果を示す。 さらに、被験者はポジティブな情緒体験、制御されている感覚、ロボットとの共感的なつながりを報告した。 この相互学習(Teacher-student learning)アプローチは、アクティブな教育学習の役割を担い、人間をより訓練タスクに従事させることによって、治療の順応性を高めることによって、DOT(例えば認知症の人々)との認知的介入を促進する潜在的貢献を提供する。 ロボットの言語獲得の恒常的動機付けは、より生態学的に有効で(協力的/養育的な)ロボットとの相互作用に寄与する可能性がある。

This paper presents a novel human-robot interaction setup for robot and human learning of symbolic language for identifying robot homeostatic needs. The robot and human learn to use and respond to the same language symbols that convey homeostatic needs and the stimuli that satisfy the homeostatic needs, respectively. We adopted a differential outcomes training (DOT) protocol whereby the robot provides feedback specific (differential) to its internal needs (e.g. `hunger') when satisfied by the correct stimulus (e.g. cookie). We found evidence that DOT can enhance the human's learning efficiency, which in turn enables more efficient robot language acquisition. The robot used in the study has a vocabulary similar to that of a human infant in the linguistic ``babbling'' phase. The robot software architecture is built upon a model for affect-grounded language acquisition where the robot associates vocabulary with internal needs (hunger, thirst, curiosity) through interactions with the human. The paper presents the results of an initial pilot study conducted with the interactive setup, which reveal that the robot's language acquisition achieves higher convergence rate in the DOT condition compared to the non-DOT control condition. Additionally, participants reported positive affective experiences, feeling of being in control, and an empathetic connection with the robot. This mutual learning (teacher-student learning) approach offers a potential contribution of facilitating cognitive interventions with DOT (e.g. for people with dementia) through increased therapy adherence as a result of engaging humans more in training tasks by taking an active teaching-learning role. The homeostatic motivational grounding of the robot's language acquisition has potential to contribute to more ecologically valid and social (collaborative/nurturing) interactions with robots.
翻訳日:2023-10-23 23:33:44 公開日:2023-10-20
# 探索経路計画問題の解決のための改良された人工魚群アルゴリズム

An Improved Artificial Fish Swarm Algorithm for Solving the Problem of Investigation Path Planning ( http://arxiv.org/abs/2310.13375v1 )

ライセンス: Link先を確認
Qian Huang, Weiwen Qian, Chang Li, Xuan Ding(参考訳) 今日の世界では情報化が主流だ。 意思決定プロセスにおける情報需要の増加は、特に計画調査プログラムに限られたリソースを効果的に割り当てるという点において、調査活動に重大な課題をもたらす。 本稿では、マルチトラベリングセールスマン問題(MTSP)として定式化することで、調査経路計画問題に対処する。 本研究の目的は,コストの最小化であり,多集団差分進化(DE-CAFSA)に基づくカオスな人工魚群アルゴリズムを提案することである。 最適化精度の低下や大域的および局所的な情報を考慮できないといった人工魚群アルゴリズムの限界を克服するために,適応的視野とステップサイズ調整を取り入れ,ランダム動作を2-opt演算に置き換え,カオス理論とサブ最適解を導入し,最適化精度と探索性能を向上させる。 さらに,両手法の相補的利点を生かしたハイブリッドアルゴリズムを作成するために,微分進化アルゴリズムを統合する。 実験の結果,de-cafsaは,異なる大きさの公開データセット上で他のアルゴリズムよりも優れており,本研究で提案する例で優れた性能を示している。

Informationization is a prevailing trend in today's world. The increasing demand for information in decision-making processes poses significant challenges for investigation activities, particularly in terms of effectively allocating limited resources to plan investigation programs. This paper addresses the investigation path planning problem by formulating it as a multi-traveling salesman problem (MTSP). Our objective is to minimize costs, and to achieve this, we propose a chaotic artificial fish swarm algorithm based on multiple population differential evolution (DE-CAFSA). To overcome the limitations of the artificial fish swarm algorithm, such as low optimization accuracy and the inability to consider global and local information, we incorporate adaptive field of view and step size adjustments, replace random behavior with the 2-opt operation, and introduce chaos theory and sub-optimal solutions to enhance optimization accuracy and search performance. Additionally, we integrate the differential evolution algorithm to create a hybrid algorithm that leverages the complementary advantages of both approaches. Experimental results demonstrate that DE-CAFSA outperforms other algorithms on various public datasets of different sizes, as well as showcasing excellent performance on the examples proposed in this study.
翻訳日:2023-10-23 23:33:13 公開日:2023-10-20
# 逆手続きモデルによる単眼3次元再構成

Single-view 3D reconstruction via inverse procedural modeling ( http://arxiv.org/abs/2310.13373v1 )

ライセンス: Link先を確認
Albert Garifullin, Nikolay Maiorov, Vladimir Frolov(参考訳) 本稿では,逆手続きモデルによる3次元再構成手法を提案し,その2つのバリエーションについて検討する。 最初の選択肢は、遺伝的アルゴリズムを用いた入力パラメータの適合セットである。 我々は、木モデル、複雑なオブジェクト、ほとんどの既存メソッドが処理できない再構成に関する作業の結果を実証する。 第2の選択肢は、メメティックアルゴリズム内の勾配、微分可能なレンダリング、および微分可能な手続き生成器を使用することで、精度を大幅に向上させることができる。 私たちの仕事では、主な貢献が2つあります。 まず,微分可能レンダリングと逆手続きモデリングを結合する手法を提案する。 これにより、少数の入力画像が利用可能な場合(単一画像であっても)、既存のアプローチよりも正確に3Dモデルを再構築する機会が得られる。 第二に、微分可能と非微分可能の両方の手続き生成器を単一のフレームワークで結合することで、かなり複雑な生成器に逆手続きモデリングを適用することができる。

We propose an approach to 3D reconstruction via inverse procedural modeling and investigate two variants of this approach. The first option consists in the fitting set of input parameters using a genetic algorithm. We demonstrate the results of our work on tree models, complex objects, with the reconstruction of which most existing methods cannot handle. The second option allows us to significantly improve the precision by using gradients within memetic algorithm, differentiable rendering and also differentiable procedural generators. In our work we see 2 main contributions. First, we propose a method to join differentiable rendering and inverse procedural modeling. This gives us an opportunity to reconstruct 3D model more accurately than existing approaches when a small number of input images are available (even for single image). Second, we join both differentiable and non-differentiable procedural generators in a single framework which allow us to apply inverse procedural modeling to fairly complex generators: when gradient is available, reconstructions is precise, when gradient is not available, reconstruction is approximate, but always high quality without visual artifacts.
翻訳日:2023-10-23 23:32:52 公開日:2023-10-20
# 同変深重み空間アライメント

Equivariant Deep Weight Space Alignment ( http://arxiv.org/abs/2310.13397v1 )

ライセンス: Link先を確認
Aviv Navon, Aviv Shamsian, Ethan Fetaya, Gal Chechik, Nadav Dym, Haggai Maron(参考訳) ディープネットワークの置換対称性は、モデル平均化や類似度推定のような単純な操作を困難にする。 多くの場合、ネットワークの重み、すなわち、その重み間の最適な置換を見つけることは必要である。 より一般に、重みのアライメントは、モデルマージからディープニューラルネットワークの最適化の展望、ニューラルネットワーク間の有意義な距離関数の定義に至るまで、幅広いアプリケーションにおいて不可欠である。 残念ながら、重量調整はnp問題である。 それまでの研究は主にアライメント問題の緩和版を解くことに集中しており、時間を要する方法や準最適解が導かれる。 本稿では,アライメントプロセスを加速し,その品質を向上させるために,重みアライメント問題を解決するための新しい枠組みを提案する。 この目的のために、まず2つの基本対称性に重み付けが一致することを実証し、これらの対称性を尊重する深いアーキテクチャを提案する。 特に、当社のフレームワークはラベル付きデータを必要としない。 提案手法の理論的解析を行い,様々なタイプのネットワークアーキテクチャと学習環境におけるDeep-Alignの評価を行う。 実験結果から,Deep-Align を用いたフィードフォワードパスは,現在の最適化アルゴリズムと同等のアライメントが得られることがわかった。 さらに、我々のアライメントは、収束の大幅なスピードアップを伴うより良いソリューションを得るための他のメソッドのイニシャライズとして使用できます。

Permutation symmetries of deep networks make simple operations like model averaging and similarity estimation challenging. In many cases, aligning the weights of the networks, i.e., finding optimal permutations between their weights, is necessary. More generally, weight alignment is essential for a wide range of applications, from model merging, through exploring the optimization landscape of deep neural networks, to defining meaningful distance functions between neural networks. Unfortunately, weight alignment is an NP-hard problem. Prior research has mainly focused on solving relaxed versions of the alignment problem, leading to either time-consuming methods or sub-optimal solutions. To accelerate the alignment process and improve its quality, we propose a novel framework aimed at learning to solve the weight alignment problem, which we name Deep-Align. To that end, we first demonstrate that weight alignment adheres to two fundamental symmetries and then, propose a deep architecture that respects these symmetries. Notably, our framework does not require any labeled data. We provide a theoretical analysis of our approach and evaluate Deep-Align on several types of network architectures and learning setups. Our experimental results indicate that a feed-forward pass with Deep-Align produces better or equivalent alignments compared to those produced by current optimization algorithms. Additionally, our alignments can be used as an initialization for other methods to gain even better solutions with a significant speedup in convergence.
翻訳日:2023-10-23 23:28:06 公開日:2023-10-20
# 可能ならキャッシュする:大規模言語モデルへの呼び出しを減らすオンラインコスト対応の教師学習フレームワーク

Cache me if you Can: an Online Cost-aware Teacher-Student framework to Reduce the Calls to Large Language Models ( http://arxiv.org/abs/2310.13395v1 )

ライセンス: Link先を確認
Ilias Stogiannidis, Stavros Vassos, Prodromos Malakasiotis, Ion Androutsopoulos(参考訳) Prompting Large Language Models (LLMs) はゼロショットと少数ショットの設定で素晴らしいパフォーマンスを発揮する。 そのため、大規模なタスク固有のトレーニングデータセットを作成するコストがかからない中小企業(中小企業)や、独自のLCMを事前訓練するコストも、LDMを推進できるサードパーティサービスへと変化しつつある。 しかし、これらのサービスは現在、通話当たりの支払いを必要としており、これは大きな運用コスト(opex)となる。 さらに、顧客入力は時間とともに非常によく似ているため、中小企業はLLMを非常によく似たインスタンスで呼び出す。 本稿では,従来のLCM応答をキャッシュし,それを用いて,中小企業側でローカルな安価なモデルを訓練することにより,LCMへの呼び出しを削減できるフレームワークを提案する。 フレームワークには、いつローカルモデルを信頼するか、LCMを呼び出すかを決める基準と、その基準を調整し、パフォーマンスとコストのトレードオフを測定する方法論が含まれている。 実験的な目的のために,2つのLLM(GPT-3.5またはGPT-4)と2つの安価な学生(k-NN分類器またはMulti-Layer Perceptron)でフレームワークをインスタンス化する。 実験結果から,OpExの大幅な節約はわずかに低い性能で達成できることが示唆された。

Prompting Large Language Models (LLMs) performs impressively in zero- and few-shot settings. Hence, small and medium-sized enterprises (SMEs) that cannot afford the cost of creating large task-specific training datasets, but also the cost of pretraining their own LLMs, are increasingly turning to third-party services that allow them to prompt LLMs. However, such services currently require a payment per call, which becomes a significant operating expense (OpEx). Furthermore, customer inputs are often very similar over time, hence SMEs end-up prompting LLMs with very similar instances. We propose a framework that allows reducing the calls to LLMs by caching previous LLM responses and using them to train a local inexpensive model on the SME side. The framework includes criteria for deciding when to trust the local model or call the LLM, and a methodology to tune the criteria and measure the tradeoff between performance and cost. For experimental purposes, we instantiate our framework with two LLMs, GPT-3.5 or GPT-4, and two inexpensive students, a k-NN classifier or a Multi-Layer Perceptron, using two common business tasks, intent recognition and sentiment analysis. Experimental results indicate that significant OpEx savings can be obtained with only slightly lower performance.
翻訳日:2023-10-23 23:27:43 公開日:2023-10-20
# posqa: llmの世界モデルをサイズ比較で調査する

POSQA: Probe the World Models of LLMs with Size Comparisons ( http://arxiv.org/abs/2310.13394v1 )

ライセンス: Link先を確認
Chang Shu, Jiuzhou Han, Fangyu Liu, Ehsan Shareghi, Nigel Collier(参考訳) 具体化された言語理解は、言語理解は脳における精神的処理の問題だけでなく、身体的および社会的環境との相互作用も含んでいることを強調する。 LLM(Large Language Models)の爆発的成長と、私たちの日常生活にすでに広く存在していることから、現実の理解を検証する必要性が高まっている。 認知理論にインスパイアされたPOSQA: 単純なサイズ比較質問付き物理オブジェクトサイズ質問回答データセットを提案し, 最新のLCMの具体的理解のメカニズムを解明する。 現在、最大のLLMでさえゼロショット設定では性能が良くないことを示す。 そして、高度なプロンプト技術と外部知識の強化で限界を押し上げます。 さらに,実世界の理解が主として文脈情報や内的重みから来ているかを調査し,プロンプト形式の影響を分析し,異なるオブジェクトのバイアスを報告する。 以上の結果から,LLMがテキストデータから形成されることは,プロンプトの表面形態による誤認や混乱に対して脆弱であり,人間の行動との整合性が低下することが示唆された。

Embodied language comprehension emphasizes that language understanding is not solely a matter of mental processing in the brain but also involves interactions with the physical and social environment. With the explosive growth of Large Language Models (LLMs) and their already ubiquitous presence in our daily lives, it is becoming increasingly necessary to verify their real-world understanding. Inspired by cognitive theories, we propose POSQA: a Physical Object Size Question Answering dataset with simple size comparison questions to examine the extremity and analyze the potential mechanisms of the embodied comprehension of the latest LLMs. We show that even the largest LLMs today perform poorly under the zero-shot setting. We then push their limits with advanced prompting techniques and external knowledge augmentation. Furthermore, we investigate whether their real-world comprehension primarily derives from contextual information or internal weights and analyse the impact of prompt formats and report bias of different objects. Our results show that real-world understanding that LLMs shaped from textual data can be vulnerable to deception and confusion by the surface form of prompts, which makes it less aligned with human behaviours.
翻訳日:2023-10-23 23:27:16 公開日:2023-10-20
# レストレストバンディットの信頼度を固定した最適腕識別法

Optimal Best Arm Identification with Fixed Confidence in Restless Bandits ( http://arxiv.org/abs/2310.13393v1 )

ライセンス: Link先を確認
P. N. Karthik, Vincent Y. F. Tan, Arpan Mukherjee, Ali Tajer(参考訳) 本研究は,有限個の腕を持つレスレスマルチアームバンドセットにおける腕の識別について検討する。 各アームが生成する離散時間データは、共通の有限状態空間で値を取る均質なマルコフ連鎖を形成する。 各アームの状態遷移は、TPMの1パラメータ指数族に属するエルゴード遷移確率行列(TPM)によって捕捉される。 腕のTPMの実際の値パラメータは未知であり、与えられた空間に属する。 アームの共通状態空間上で定義される関数$f$が与えられると、決定のエラー確率(すなわち固定信頼体制)を上限として、最も少ないサンプル数で、アームの静止分布の下で評価される最大の平均値である$f$の最高のアームを特定することが目標となる。 消滅する誤差確率の漸近に、期待停止時間の成長速度に対する低い境界を確立する。 さらに, 最良腕識別政策を提案し, その停止時間は下限値と一致する漸近的成長速度を持つことが証明された。 マルコフ決定過程の長期的挙動とその状態-行動の訪問比率を追跡することが,その逆と達成可能性の境界を分析する上で重要な要因であることが示された。 各政策の下では、状態-行動の訪問比率は特定の近似的な流れ保存制約を満たし、これらの比率は漸近的最適方針の下で下界によって指示される最適割合に一致することが示されている。 休眠帯における最高の腕の識別に関する以前の研究は、腕からの独立した観察、休息したマルコフの腕、そして既知の腕のTPMを持つレストレスのマルコフの腕に焦点を当てていた。 対照的に、この研究は、未知の腕TPMを持つレストレス・バンディットにおいて、最も優れた腕の識別を研究する最初のものである。

We study best arm identification in a restless multi-armed bandit setting with finitely many arms. The discrete-time data generated by each arm forms a homogeneous Markov chain taking values in a common, finite state space. The state transitions in each arm are captured by an ergodic transition probability matrix (TPM) that is a member of a single-parameter exponential family of TPMs. The real-valued parameters of the arm TPMs are unknown and belong to a given space. Given a function $f$ defined on the common state space of the arms, the goal is to identify the best arm -- the arm with the largest average value of $f$ evaluated under the arm's stationary distribution -- with the fewest number of samples, subject to an upper bound on the decision's error probability (i.e., the fixed-confidence regime). A lower bound on the growth rate of the expected stopping time is established in the asymptote of a vanishing error probability. Furthermore, a policy for best arm identification is proposed, and its expected stopping time is proved to have an asymptotic growth rate that matches the lower bound. It is demonstrated that tracking the long-term behavior of a certain Markov decision process and its state-action visitation proportions are the key ingredients in analyzing the converse and achievability bounds. It is shown that under every policy, the state-action visitation proportions satisfy a specific approximate flow conservation constraint and that these proportions match the optimal proportions dictated by the lower bound under any asymptotically optimal policy. The prior studies on best arm identification in restless bandits focus on independent observations from the arms, rested Markov arms, and restless Markov arms with known arm TPMs. In contrast, this work is the first to study best arm identification in restless bandits with unknown arm TPMs.
翻訳日:2023-10-23 23:26:45 公開日:2023-10-20
# 孤立系の平衡に対する厳密な境界を用いた弱熱化と強熱化の連続遷移

Continuous Transition Between Weak and Strong Thermalization using Rigorous Bounds on Equilibration of Isolated Systems ( http://arxiv.org/abs/2310.13392v1 )

ライセンス: Link先を確認
Luis Fernando dos Prazeres and Thiago R. de Oliveira(参考訳) 孤立量子系の平衡に関する厳密な数学的上界の観点から,強熱・弱熱化理論を解析した。 弱い平衡は、初期状態の小さな有効次元が原因であると理解することができる。 さらに, ゆらぎ上の上限のスケーリングを解析した結果, 観測可能な揺らぎは, 弱熱化と強熱化の両方の系サイズで指数関数的に減少し, これら2つのレジーム間の鋭い遷移を示さないことを示した。

We analyze strong and weak thermalization regimes from a perspective of rigorous mathematical upper bounds on the equilibration of isolated quantum systems. We show that weak equilibration can be understood to be due to the small effective dimension of the initial state. Furthermore, analyzing the scaling of an upper bound on the fluctuations, we show that the observable fluctuations decay exponentially with the system size for both weak and strong thermalization indicating no sharp transitions between these two regimes.
翻訳日:2023-10-23 23:25:31 公開日:2023-10-20
# 分散ヘビー時間記憶を用いた学習後継表現

Learning Successor Representations with Distributed Hebbian Temporal Memory ( http://arxiv.org/abs/2310.13391v1 )

ライセンス: Link先を確認
Evgenii Dzhivelikian, Petr Kuderov and Aleksandr I. Panov(参考訳) 本稿では,非定常,部分可観測環境における不確実性下での意思決定におけるオンライン隠れ表現学習の課題に対処するための新しい手法を提案する。 提案アルゴリズムは因子グラフ形式と多成分ニューロンモデルに基づく分散Hebbian Temporal Memory (DHTM) である。 dhtmはシーケンシャルなデータ関係を捉え、将来の観測に関する累積予測を行い、後継表現(sr)を形成することを目的としている。 新皮質の神経生理学的モデルにインスパイアされたこのアルゴリズムは、分散表現、スパース遷移行列、および局所ヘビアンのような学習規則を利用して、RNNやHMMのような伝統的な時間記憶アルゴリズムの不安定性と遅い学習プロセスを克服する。 実験により、DHTMは従来のLSTMよりも優れ、より高度なRNNのようなアルゴリズムと互換性があり、環境変化におけるSRの時間差学習を高速化することが示された。 さらに、DHTMによって生成されたSRと、別の生物学的にインスパイアされたHMMライクなアルゴリズムCSCGを比較した。 この結果から,DHTMは動的環境におけるオンライン隠れ表現学習の課題に対処するための有望なアプローチであることが示唆された。

This paper presents a novel approach to address the challenge of online hidden representation learning for decision-making under uncertainty in non-stationary, partially observable environments. The proposed algorithm, Distributed Hebbian Temporal Memory (DHTM), is based on factor graph formalism and a multicomponent neuron model. DHTM aims to capture sequential data relationships and make cumulative predictions about future observations, forming Successor Representation (SR). Inspired by neurophysiological models of the neocortex, the algorithm utilizes distributed representations, sparse transition matrices, and local Hebbian-like learning rules to overcome the instability and slow learning process of traditional temporal memory algorithms like RNN and HMM. Experimental results demonstrate that DHTM outperforms classical LSTM and performs comparably to more advanced RNN-like algorithms, speeding up Temporal Difference learning for SR in changing environments. Additionally, we compare the SRs produced by DHTM to another biologically inspired HMM-like algorithm, CSCG. Our findings suggest that DHTM is a promising approach for addressing the challenges of online hidden representation learning in dynamic environments.
翻訳日:2023-10-23 23:25:19 公開日:2023-10-20
# ピークベース音声フィンガープリンティングのための音楽拡張と雑音除去

Music Augmentation and Denoising For Peak-Based Audio Fingerprinting ( http://arxiv.org/abs/2310.13388v1 )

ライセンス: Link先を確認
Kamil Akesbi, Dorian Desblancs, Benjamin Martin(参考訳) オーディオフィンガープリントは、短い録音の抜粋から曲を識別するための確立されたソリューションである。 一般的な方法はスパース表現(一般的にスペクトルピーク)の抽出に依存しており、大規模なコレクションに対して正確で高速でスケーラブルであることが証明されている。 しかし、実世界の音声識別の応用はしばしばノイズの多い環境で行われ、これらのシステムが故障する可能性がある。 本研究では,実際のシナリオを統計的に模倣することにより,音楽スニペットにノイズを加える新たなオーディオ拡張パイプラインを導入して,この問題に対処する。 次に,ピークベース指紋認証システムの精度を向上させるため,スペクトルからノイズ成分を除去するディープラーニングモデルを提案する。 提案モデルの付加により, 騒音環境下においても, 一般的な音声フィンガープリンティングシステムの識別性能が向上することを示す。

Audio fingerprinting is a well-established solution for song identification from short recording excerpts. Popular methods rely on the extraction of sparse representations, generally spectral peaks, and have proven to be accurate, fast, and scalable to large collections. However, real-world applications of audio identification often happen in noisy environments, which can cause these systems to fail. In this work, we tackle this problem by introducing and releasing a new audio augmentation pipeline that adds noise to music snippets in a realistic way, by stochastically mimicking real-world scenarios. We then propose and release a deep learning model that removes noisy components from spectrograms in order to improve peak-based fingerprinting systems' accuracy. We show that the addition of our model improves the identification performance of commonly used audio fingerprinting systems, even under noisy conditions.
翻訳日:2023-10-23 23:24:37 公開日:2023-10-20
# 因果発見における推定違反とスコアマッチングの堅牢性

Assumption violations in causal discovery and the robustness of score matching ( http://arxiv.org/abs/2310.13387v1 )

ライセンス: Link先を確認
Francesco Montagna, Atalanti A. Mastakouri, Elias Eulig, Nicoletta Noceti, Lorenzo Rosasco, Dominik Janzing, Bryon Aragam, Francesco Locatello(参考訳) ドメイン知識が制限され、倫理的、財政的、時間的制約によって実験が制限される場合、実践者は因果構造を回復するために観察因果的発見法に目を向け、データの統計的特性を利用する。 因果発見がさらなる仮定なしでは不十分な問題であるため、それぞれのアルゴリズムは、通常証明不可能な仮定の集合を持ち、その一部は実際のデータセットでは達成が難しい。 これらの考察により,本論文は,近年の観測的背景条件の異なるデータに対する因果発見手法の実証的性能を広範囲に評価し,各選択したアプローチが要求する臨界仮定を破ることを可能にした。 実験結果から,これらの難解なシナリオにおいて,評価法は偽陽性および偽陰性率において驚くべき性能を示し,その性能に関する理論的知見を提供する。 この研究は、ハイパーパラメータの値に関して因果発見アルゴリズムの安定性をベンチマークする最初の試みでもある。 最後に,本稿では,因果発見手法の評価のための新たな基準を定め,その分野に関心を持つ実践者のアクセス可能なエントリポイントとして,異なるアルゴリズム選択の実証的意義を強調する。

When domain knowledge is limited and experimentation is restricted by ethical, financial, or time constraints, practitioners turn to observational causal discovery methods to recover the causal structure, exploiting the statistical properties of their data. Because causal discovery without further assumptions is an ill-posed problem, each algorithm comes with its own set of usually untestable assumptions, some of which are hard to meet in real datasets. Motivated by these considerations, this paper extensively benchmarks the empirical performance of recent causal discovery methods on observational i.i.d. data generated under different background conditions, allowing for violations of the critical assumptions required by each selected approach. Our experimental findings show that score matching-based methods demonstrate surprising performance in the false positive and false negative rate of the inferred graph in these challenging scenarios, and we provide theoretical insights into their performance. This work is also the first effort to benchmark the stability of causal discovery algorithms with respect to the values of their hyperparameters. Finally, we hope this paper will set a new standard for the evaluation of causal discovery methods and can serve as an accessible entry point for practitioners interested in the field, highlighting the empirical implications of different algorithm choices.
翻訳日:2023-10-23 23:24:23 公開日:2023-10-20
# 高調波発振器用磁気時計

A magnetic clock for a harmonic oscillator ( http://arxiv.org/abs/2310.13386v1 )

ライセンス: Link先を確認
Alessandro Coppo, Alessandro Cuccoli, Paola Verrucchi(参考訳) 本稿では,進化系とその時計を非相互作用的,絡み合うシステムとして記述し,時間を定義するための最近提案された手法の実装について述べる。 我々は、量子力学が時計のみ、または時計と進化系の両方によってマクロ性に関連する条件が満たされるとき、古典的な振る舞いにどのように変化するかを研究する。 この新たな振る舞いの記述では、時間という古典的な概念と位相空間とそれ上の軌道の概念がその位置にあることが分かる。 これにより、システムとクロックを別々に特徴付ける量の間に保持しなければならない関係を分析し、議論することが可能になります。

We present an implementation of a recently proposed procedure for defining time, based on the description of the evolving system and its clock as non-interacting, entangled systems, according to the Page and Wootters approach. We study how the quantum dynamics transforms into a classical-like behaviour when conditions related with macroscopicity are met by the clock alone, or by both the clock and the evolving system. In the description of this emerging behaviour finds its place the classical notion of time, as well as that of phase-space and trajectories on it. This allows us to analyze and discuss the relations that must hold between quantities that characterize system and clock separately, in order for the resulting overall picture be that of a physical dynamics as we mean it.
翻訳日:2023-10-23 23:23:59 公開日:2023-10-20
# fltracer: フェデレーション学習における正確な中毒攻撃前兆

FLTracer: Accurate Poisoning Attack Provenance in Federated Learning ( http://arxiv.org/abs/2310.13424v1 )

ライセンス: Link先を確認
Xinyu Zhang, Qingyu Liu, Zhongjie Ba, Yuan Hong, Tianhang Zheng, Feng Lin, Li Lu, and Kui Ren(参考訳) Federated Learning(FL)は、複数のクライアントが共同で共有グローバルモデルをトレーニングできる、有望な分散学習アプローチである。 しかし、近年の研究では、flは様々な中毒攻撃に対して脆弱であり、グローバルモデルの性能を低下させたり、バックドアを導入したりすることができる。 本稿では,まず,以前のFL攻撃と検出方法に関する包括的研究を行う。 その結果,既存の検出方法は限定的かつ特定の攻撃に対してのみ有効であることがわかった。 ほとんどの検出方法は高い偽陽性を被り、特に独立ではなく(非iid)に分散している場合、パフォーマンスが著しく低下する。 これらの問題に対処するために、fltracerを提案する。fl attack provenanceフレームワークは、様々な攻撃を正確に検出し、更新の攻撃時間、目的、タイプ、および有毒な場所を追跡する。 クロスクライアント異常検出のみに依存する既存の手法とは異なり,攻撃前後の行動変化を求めることで敵を識別するカルマンフィルタに基づくクロスラウンド検出を提案する。 これにより、データの不均一性に耐性を持ち、非IID設定でも有効である。 検出方法の精度をさらに高めるため,4つの新しい特徴を用い,それらの異常を同時決定で捉えた。 広範な評価により、fltracerは平均的な真正率96.88\%$であり、平均偽陽性率は2.67\%$未満であり、sota検出法を著しく上回っている。 \footnote{Code は \url{https://github.com/Eyr3/FLTracer} で入手できる。 }

Federated Learning (FL) is a promising distributed learning approach that enables multiple clients to collaboratively train a shared global model. However, recent studies show that FL is vulnerable to various poisoning attacks, which can degrade the performance of global models or introduce backdoors into them. In this paper, we first conduct a comprehensive study on prior FL attacks and detection methods. The results show that all existing detection methods are only effective against limited and specific attacks. Most detection methods suffer from high false positives, which lead to significant performance degradation, especially in not independent and identically distributed (non-IID) settings. To address these issues, we propose FLTracer, the first FL attack provenance framework to accurately detect various attacks and trace the attack time, objective, type, and poisoned location of updates. Different from existing methodologies that rely solely on cross-client anomaly detection, we propose a Kalman filter-based cross-round detection to identify adversaries by seeking the behavior changes before and after the attack. Thus, this makes it resilient to data heterogeneity and is effective even in non-IID settings. To further improve the accuracy of our detection method, we employ four novel features and capture their anomalies with the joint decisions. Extensive evaluations show that FLTracer achieves an average true positive rate of over $96.88\%$ at an average false positive rate of less than $2.67\%$, significantly outperforming SOTA detection methods. \footnote{Code is available at \url{https://github.com/Eyr3/FLTracer}.}
翻訳日:2023-10-23 23:14:47 公開日:2023-10-20
# テンソル化パウリ分解アルゴリズム

Tensorized Pauli decomposition algorithm ( http://arxiv.org/abs/2310.13421v1 )

ライセンス: Link先を確認
Lukas Hantzko, Lennart Binkowski, Sabhyata Gupta(参考訳) 本稿では,マトリクス乗算の代わりにマトリクススライシングを用いたパウリ分解のための新しい汎用アルゴリズムを提案する。 このアプローチはマルチキュービット行列の分解を著しく加速する。 量子コンピューティングと量子化学シミュレーションの分野におけるアルゴリズムの潜在的な重要性を裏付ける数値実験が、観測されたスピードアップを検証するために提供される。

This paper introduces a novel general-purpose algorithm for Pauli decomposition that employs matrix slicing instead of matrix multiplication. This approach significantly accelerates the decomposition of multi-qubit matrices. Numerical experiments are provided to validate the observed speedup, underscoring the algorithm's potential significance in the realm of quantum computing and quantum chemistry simulations.
翻訳日:2023-10-23 23:14:19 公開日:2023-10-20
# 会話年代記:多段階会話における異種時間・関係ダイナミクスを目指して

Conversation Chronicles: Towards Diverse Temporal and Relational Dynamics in Multi-Session Conversations ( http://arxiv.org/abs/2310.13420v1 )

ライセンス: Link先を確認
Jihyoung Jang, Minseong Boo, Hyounghun Kim(参考訳) 自然言語処理の分野では、オープンドメインチャットボットが重要な研究トピックとして登場した。 しかし、既存のオープンドメインチャットボット研究の大きな制限は、短いシングルセッション対話に焦点を絞ることであり、進行中の対話に先立つ複数のセッションでコンテキスト情報を理解する必要性を無視している。 多セッション会話における文脈を構成する要素のうち、セッション間の時間間隔と話者間の関係は特に重要である。 その重要性にもかかわらず、現在の研究はこれらの対話的要素に十分対応していない。 本稿では,時間間隔ときめ細かな話者関係を組み込んだ長期会話設定を実現するための,会話クロニクルと呼ばれる新しい1m多セッション対話データセットを提案する。 最近の研究に続いて、我々はデータを生成するために大きな言語モデルを利用する。 人間の広範な評価は、会話年代記の対話エピソードがこれらの特性を反映し、すべてのセッションを一貫した相互作用を維持していることを示している。 また,約630万のパラメータを用いた時系列要約と対話生成モジュールで構成されるReBotと呼ばれる対話モデルを提案する。 会話クロニクルでトレーニングすると、rebotは人間のエンゲージメントスコアの高い長期的なコンテキスト理解を示す。

In the field of natural language processing, open-domain chatbots have emerged as an important research topic. However, a major limitation of existing open-domain chatbot research is its singular focus on short single-session dialogue, neglecting the potential need for understanding contextual information in multiple consecutive sessions that precede an ongoing dialogue. Among the elements that compose the context in multi-session conversation settings, the time intervals between sessions and the relationships between speakers would be particularly important. Despite their importance, current research efforts have not sufficiently addressed these dialogical components. In this paper, we introduce a new 1M multi-session dialogue dataset, called Conversation Chronicles, for implementing a long-term conversation setup in which time intervals and fine-grained speaker relationships are incorporated. Following recent works, we exploit a large language model to produce the data. The extensive human evaluation shows that dialogue episodes in Conversation Chronicles reflect those properties while maintaining coherent and consistent interactions across all the sessions. We also propose a dialogue model, called ReBot, which consists of chronological summarization and dialogue generation modules using only around 630M parameters. When trained on Conversation Chronicles, ReBot demonstrates long-term context understanding with a high human engagement score.
翻訳日:2023-10-23 23:14:13 公開日:2023-10-20
# 新規集積フォトニックチップを用いたトラッピングイオン量子ビットの低話者光アドレス化

Low Cross-Talk Optical Addressing of Trapped-Ion Qubits Using a Novel Integrated Photonic Chip ( http://arxiv.org/abs/2310.13419v1 )

ライセンス: Link先を確認
A. S. Sotirova, B. Sun, J. D. Leppard, A. Wang, M. Wang, A. Vazquez-Brennan, D. P. Nadlinger, S. Moser, A. Jesacher, C. He, F. Pokorny, M. J. Booth, C. J. Ballance(参考訳) 閉じ込められた原子イオンの連鎖における個々の光学的アドレス付けは、低いクロストークを持つ多くの小さな間隔のビームを生成する必要がある。 さらに、並列動作を実装するには各ビームの位相、周波数、振幅制御が必要である。 本稿では,光ファイバー部品のネットワークに結合した新しい集積フォトニックチップを用いて,これらの機能をすべて実現するためのスケーラブルな手法を提案する。 チップ設計は、チャネルコアとクラッドとの間に非常に高い屈折率のコントラストを実装することにより、マイクロスケール間隔でも近隣チャネル間のクロストークを極めて低くする。 さらに、フォトニックチップ製造手順は非常に柔軟であり、任意の数のチャネルとチップ出力における一様でないチャネル間隔を持つデバイスを作成できる。 本稿では,このチップをイオントラップ装置に統合し,単一トラップイオンを光界センサとして用いた完全な個別アドレッシング装置の性能を特徴付ける。 測定の結果,チップ全体の強度クロストークは10^{-3}$以下であり,最小観測クロストークは$O\left(10^{-5}\right)$以下であった。

Individual optical addressing in chains of trapped atomic ions requires generation of many small, closely spaced beams with low cross-talk. Furthermore, implementing parallel operations necessitates phase, frequency, and amplitude control of each individual beam. Here we present a scalable method for achieving all of these capabilities using a novel integrated photonic chip coupled to a network of optical fibre components. The chip design results in very low cross-talk between neighbouring channels even at the micrometre-scale spacing by implementing a very high refractive index contrast between the channel core and cladding. Furthermore, the photonic chip manufacturing procedure is highly flexible, allowing for the creation of devices with an arbitrary number of channels as well as non-uniform channel spacing at the chip output. We present the system used to integrate the chip within our ion trap apparatus and characterise the performance of the full individual addressing setup using a single trapped ion as a light-field sensor. Our measurements showed intensity cross-talk below $10^{-3}$ across the chip, with minimum observed cross-talk as low as $O\left(10^{-5}\right)$.
翻訳日:2023-10-23 23:13:54 公開日:2023-10-20
# 知識グラフリンク予測のための関係ルール強化に向けて

Towards Enhancing Relational Rules for Knowledge Graph Link Prediction ( http://arxiv.org/abs/2310.13411v1 )

ライセンス: Link先を確認
Shuhan Wu, Huaiyu Wan, Wei Chen, Yuting Wu, Junfeng Shen, Youfang Lin(参考訳) グラフニューラルネットワーク(GNN)は知識グラフ推論に有望な性能を示している。 プログレッシブリレーショナルグラフニューラルネットワーク(prgnn)と呼ばれるgnnの最近の変種は、リレーショナルルールを使用して、リレーショナルダイアグラムの知識の不足を推測し、注目すべき結果を達成する。 しかし,PRGNNを用いた推論では,(1)関係関係の順序が関係規則のセマンティクスに影響を及ぼす関係構成の順序性,(2)要求情報の伝達速度が新たな実体の出現速度よりも遅れる関係情報伝播という2つの重要な特性が無視されることが多い。 これらの性質を無視すると、不正確な関係ルール学習と推論精度の低下につながる。 そこで本研究では,新しい知識グラフ推論手法であるrelational rule enhanced graph neural network (run-gnn)を提案する。 具体的には、RUN-GNNは、クエリ関連融合ゲートユニットを用いて関係成分のシーケンシャル性をモデル化し、バッファリング更新機構を用いて、タグ付きエンティティ情報伝搬の負の効果を緩和し、高品質な関係ルール学習を実現する。 複数のデータセットに対する実験結果は、RUN-GNNが帰納的および帰納的リンク予測タスクよりも優れていることを示す。

Graph neural networks (GNNs) have shown promising performance for knowledge graph reasoning. A recent variant of GNN called progressive relational graph neural network (PRGNN), utilizes relational rules to infer missing knowledge in relational digraphs and achieves notable results. However, during reasoning with PRGNN, two important properties are often overlooked: (1) the sequentiality of relation composition, where the order of combining different relations affects the semantics of the relational rules, and (2) the lagged entity information propagation, where the transmission speed of required information lags behind the appearance speed of new entities. Ignoring these properties leads to incorrect relational rule learning and decreased reasoning accuracy. To address these issues, we propose a novel knowledge graph reasoning approach, the Relational rUle eNhanced Graph Neural Network (RUN-GNN). Specifically, RUN-GNN employs a query related fusion gate unit to model the sequentiality of relation composition and utilizes a buffering update mechanism to alleviate the negative effect of lagged entity information propagation, resulting in higher-quality relational rule learning. Experimental results on multiple datasets demonstrate the superiority of RUN-GNN is superior on both transductive and inductive link prediction tasks.
翻訳日:2023-10-23 23:13:35 公開日:2023-10-20
# 対話型機械読解のための明示的アライメントと多対多推論に基づく推論

Explicit Alignment and Many-to-many Entailment Based Reasoning for Conversational Machine Reading ( http://arxiv.org/abs/2310.13409v1 )

ライセンス: Link先を確認
Yangyang Luo, Shiyu Tian, Caixia Yuan, Xiaojie Wang(参考訳) 対話型機械読取(cmr)は、ある文書に基づくマルチターン対話インタラクションを通じて、ユーザの最初の質問に答える必要がある。 多くの効果的な方法が存在するが、文書とユーザが提供する情報の整合性は無視され、中間的な意思決定とその後の質問生成に大きな影響を及ぼす。 この問題に対処するために,(1)上記2つの側面を明示的に整列するパイプラインフレームワークを提案し,(2)軽量な多対多の推論モジュールを用いて意思決定を行い,(3)文書と以前に質問された質問に基づいて,直接フォローアップ質問を生成する。 提案手法は,マイクロ精度の最先端化を実現し,CMRベンチマークデータセットShARCの公開リーダボードにランクインする。

Conversational Machine Reading (CMR) requires answering a user's initial question through multi-turn dialogue interactions based on a given document. Although there exist many effective methods, they largely neglected the alignment between the document and the user-provided information, which significantly affects the intermediate decision-making and subsequent follow-up question generation. To address this issue, we propose a pipeline framework that (1) aligns the aforementioned two sides in an explicit way, (2)makes decisions using a lightweight many-to-many entailment reasoning module, and (3) directly generates follow-up questions based on the document and previously asked questions. Our proposed method achieves state-of-the-art in micro-accuracy and ranks the first place on the public leaderboard of the CMR benchmark dataset ShARC.
翻訳日:2023-10-23 23:13:11 公開日:2023-10-20
# サウンドスケープの定義に依存しない形式化--形式方法論に向けて

Definition-independent Formalization of Soundscapes: Towards a Formal Methodology ( http://arxiv.org/abs/2310.13404v1 )

ライセンス: Link先を確認
Mikel D. Jedrusiak, Thomas Harweg, Timo Haselhoff, Bryce T. Lawrence, Susanne Moebus, Frank Weichert(参考訳) サウンドスケープは様々な分野の研究者によって研究されており、それぞれ異なる視点、目標、アプローチ、用語がある。 したがって、フィールドによってサウンドスケープの構成要素の概念が変化し、それによって基本的な定義が変わる。 これにより、学際的コミュニケーションが複雑化し、結果が比較される。 特に、サウンドスケープ関連の研究領域が関与している場合。 そこで本研究では,データの不均一な構造と1つのモデルにおける異なるイデオロギーを捉えることを目的として,基礎となるサウンドスケープ定義に依存しない潜在的な形式化を提案する。 mfccsのような機能に代わる土地利用型検出のための周波数相関行列の例式分析において,提案する形式化の実用的応用を示す。

Soundscapes have been studied by researchers from various disciplines, each with different perspectives, goals, approaches, and terminologies. Accordingly, depending on the field, the concept of a soundscape's components changes, consequently changing the basic definition. This results in complicating interdisciplinary communication and comparison of results. Especially when soundscape-unrelated research areas are involved. For this reason, we present a potential formalization that is independent of the underlying soundscape definition, with the goal of being able to capture the heterogeneous structure of the data as well as the different ideologies in one model. In an exemplary analysis of frequency correlation matrices for land use type detection as an alternative to features like MFCCs, we show a practical application of our presented formalization.
翻訳日:2023-10-23 23:12:55 公開日:2023-10-20
# brfl:ブロックチェーンベースのビザンチンロバストフェデレーション学習モデル

BRFL: A Blockchain-based Byzantine-Robust Federated Learning Model ( http://arxiv.org/abs/2310.13403v1 )

ライセンス: Link先を確認
Yang Li, Chunhe Xia, Chang Li, Tianbo Wang(参考訳) 機械学習の重要性が増すにつれ、トレーニングデータのプライバシーとセキュリティが重要になっている。 分散ノードにデータを格納し、モデルパラメータのみを共有するフェデレーション学習は、この懸念に対処する上で大きな注目を集めている。 しかし、悪質なローカルモデルが集約中のグローバルモデルのパフォーマンスを損なうというビザンティン攻撃問題により、連合学習において課題が生じる。 この記事では、ブロックチェーン技術と統合学習を組み合わせたByzantine-Robust Federated Learning(BRLF)モデルを提案する。 この統合は悪意のあるモデルのトレーサビリティを可能にし、ローカルに訓練されたクライアントにインセンティブを提供する。 本手法では,ピアソン相関係数に基づいて集計ノードを選択し,スペクトルクラスタリングを行い,各クラスタ内の平均勾配を算出し,集計ノードの局所データセットを用いてその精度を検証する。 公開データセットにおける実験結果から,セキュアアグリゲーションアルゴリズムが他のベースラインビザンチンロバストアグリゲーション法と比較して優れたビザンチンロバスト性を示し,資源消費問題に対するモデルの有効性を実証した。

With the increasing importance of machine learning, the privacy and security of training data have become critical. Federated learning, which stores data in distributed nodes and shares only model parameters, has gained significant attention for addressing this concern. However, a challenge arises in federated learning due to the Byzantine Attack Problem, where malicious local models can compromise the global model's performance during aggregation. This article proposes the Blockchain-based Byzantine-Robust Federated Learning (BRLF) model that combines federated learning with blockchain technology. This integration enables traceability of malicious models and provides incentives for locally trained clients. Our approach involves selecting the aggregation node based on Pearson's correlation coefficient, and we perform spectral clustering and calculate the average gradient within each cluster, validating its accuracy using local dataset of the aggregation nodes. Experimental results on public datasets demonstrate the superior byzantine robustness of our secure aggregation algorithm compared to other baseline byzantine robust aggregation methods, and proved our proposed model effectiveness in addressing the resource consumption problem.
翻訳日:2023-10-23 23:12:43 公開日:2023-10-20
# 可微分被覆確率を用いた神経シミュレーションに基づく推定の校正

Calibrating Neural Simulation-Based Inference with Differentiable Coverage Probability ( http://arxiv.org/abs/2310.13402v1 )

ライセンス: Link先を確認
Maciej Falkiewicz, Naoya Takeishi, Imahn Shekhzadeh, Antoine Wehenkel, Arnaud Delaunoy, Gilles Louppe, Alexandros Kalousis(参考訳) ベイズ推論は、事前情報と証拠の可能性を与えられた確率モデルの下で、後方信念の不確実性を表現することができる。 主に、確率関数はシミュレーションベース推論(sbi)の必要性を満たすシミュレータによってのみ暗黙的に確立される。 しかし、既存のアルゴリズムは、不確かさの定量化が不正確であれば、信頼性のすべての目的を破ることができる(Hermans *et al.*, 2022)。 本稿では,神経モデルの訓練目的に直接キャリブレーション用語を含める手法を提案する。 古典的なキャリブレーション誤差の定式化を緩和することにより、エンドツーエンドのバックプロパゲーションを可能にする。 提案手法は, 特定のニューラルモデルに縛られず, 導入した利益と比較して, 計算オーバーヘッドが緩やかである。 既存の計算パイプラインに直接適用でき、信頼性の高いブラックボックス後部推論が可能である。 提案手法は,既存の手法に比べて,カバー範囲と予測後部密度の両面で競合的あるいは良好な結果が得られるという6つのベンチマーク問題を実証的に示す。

Bayesian inference allows expressing the uncertainty of posterior belief under a probabilistic model given prior information and the likelihood of the evidence. Predominantly, the likelihood function is only implicitly established by a simulator posing the need for simulation-based inference (SBI). However, the existing algorithms can yield overconfident posteriors (Hermans *et al.*, 2022) defeating the whole purpose of credibility if the uncertainty quantification is inaccurate. We propose to include a calibration term directly into the training objective of the neural model in selected amortized SBI techniques. By introducing a relaxation of the classical formulation of calibration error we enable end-to-end backpropagation. The proposed method is not tied to any particular neural model and brings moderate computational overhead compared to the profits it introduces. It is directly applicable to existing computational pipelines allowing reliable black-box posterior inference. We empirically show on six benchmark problems that the proposed method achieves competitive or better results in terms of coverage and expected posterior density than the previously existing approaches.
翻訳日:2023-10-23 23:12:24 公開日:2023-10-20
# Open Annotate3D:マルチモーダル3次元データのためのオープン語彙自動ラベルシステム

OpenAnnotate3D: Open-Vocabulary Auto-Labeling System for Multi-modal 3D Data ( http://arxiv.org/abs/2310.13398v1 )

ライセンス: Link先を確認
Yijie Zhou, Likun Cai, Xianhui Cheng, Zhongxue Gan, Xiangyang Xue, and Wenchao Ding(参考訳) ビッグデータと大規模モデルの時代において、マルチモーダルデータの自動アノテート機能は、自律運転や具体化AIなど、現実のAI駆動アプリケーションにとって非常に重要である。 従来のクローズドセットアノテーションとは異なり、オープン語彙アノテーションは人間レベルの認知能力を達成するために不可欠である。 しかし、マルチモーダル3Dデータのためのオープン語彙自動ラベルシステムはほとんどない。 本稿では,オープンソースのオープンソース自動ラベルシステムopenannotate3dを紹介し,視覚およびポイントクラウドデータのための2dマスク,3dマスク,3dバウンディングボックスアノテーションを自動生成する。 本システムでは,大規模言語モデル (llms) の連鎖的思考能力と視覚言語モデル (vlms) の相互モダリティ機能を統合する。 われわれの知る限り、OpenAnnotate3Dはオープン語彙のマルチモーダル3D自動ラベルのための先駆的な作品の1つである。 筆者らは,公用および内用両方の実世界のデータセットに対して包括的な評価を行い,手動のアノテーションと比較してアノテーション効率が著しく向上し,正確なオープン語彙の自動注釈結果を提供することを示した。

In the era of big data and large models, automatic annotating functions for multi-modal data are of great significance for real-world AI-driven applications, such as autonomous driving and embodied AI. Unlike traditional closed-set annotation, open-vocabulary annotation is essential to achieve human-level cognition capability. However, there are few open-vocabulary auto-labeling systems for multi-modal 3D data. In this paper, we introduce OpenAnnotate3D, an open-source open-vocabulary auto-labeling system that can automatically generate 2D masks, 3D masks, and 3D bounding box annotations for vision and point cloud data. Our system integrates the chain-of-thought capabilities of Large Language Models (LLMs) and the cross-modality capabilities of vision-language models (VLMs). To the best of our knowledge, OpenAnnotate3D is one of the pioneering works for open-vocabulary multi-modal 3D auto-labeling. We conduct comprehensive evaluations on both public and in-house real-world datasets, which demonstrate that the system significantly improves annotation efficiency compared to manual annotation while providing accurate open-vocabulary auto-annotating results.
翻訳日:2023-10-23 23:12:10 公開日:2023-10-20
# タスク実証による形態的異なるロボットの対応学習

Correspondence learning between morphologically different robots through task demonstrations ( http://arxiv.org/abs/2310.13458v1 )

ライセンス: Link先を確認
Hakan Aktas, Yukie Nagai, Minoru Asada, Erhan Oztop, Emre Ugur(参考訳) 我々は、体、センサー、アクチュエーターの観点から、さまざまなロボットを観察している。 スキルセットの共通性を考えると、個々のロボットに個別に各スキルを教えることは非効率であり、ロボットランドスケープの多様さを考慮するとスケーラビリティがない。 異なるロボットの感覚運動空間間の対応を学習できれば、一方のロボットで学習されたスキルが、より直接的に他のロボットに移されるようになると期待できる。 本稿では, 関節制御による固定型マニピュレータロボットと, 差動駆動型移動ロボットという, 形態に有意な違いがあるロボット間の対応関係を学習する手法を提案する。 そのため、両方のロボットが最初に同じタスクを遂行するデモを与えられる。 共通潜在表現は、対応するポリシーを学習しながら形成される。 この初期学習段階の後、一方のロボットによる新たなタスク実行の観察により、他方のロボットに関連する潜在空間表現を生成して同じタスクを達成することができる。 我々は,(1)ロボットが同じ作業を行うために同じ経路をたどる必要がある場合,(2)ロボットが同じ作業を行うために異なる軌跡をたどる必要がある場合,(3)ロボットが考慮すべき感覚運動軌跡の複雑さが異なる場合,の2つのシミュレーションロボット間の対応を学習する実験において,本システムを検証した。 また,実際のマニピュレータロボットとシミュレートされた移動ロボットとの対応学習の概念実証を行う。

We observe a large variety of robots in terms of their bodies, sensors, and actuators. Given the commonalities in the skill sets, teaching each skill to each different robot independently is inefficient and not scalable when the large variety in the robotic landscape is considered. If we can learn the correspondences between the sensorimotor spaces of different robots, we can expect a skill that is learned in one robot can be more directly and easily transferred to the other robots. In this paper, we propose a method to learn correspondences between robots that have significant differences in their morphologies: a fixed-based manipulator robot with joint control and a differential drive mobile robot. For this, both robots are first given demonstrations that achieve the same tasks. A common latent representation is formed while learning the corresponding policies. After this initial learning stage, the observation of a new task execution by one robot becomes sufficient to generate a latent space representation pertaining to the other robot to achieve the same task. We verified our system in a set of experiments where the correspondence between two simulated robots is learned (1) when the robots need to follow the same paths to achieve the same task, (2) when the robots need to follow different trajectories to achieve the same task, and (3) when complexities of the required sensorimotor trajectories are different for the robots considered. We also provide a proof-of-the-concept realization of correspondence learning between a real manipulator robot and a simulated mobile robot.
翻訳日:2023-10-23 23:06:17 公開日:2023-10-20
# 仮想吸音異常点におけるキャビティによる高効率一般波形捕捉

Efficient General Waveform Catching by a cavity at a Virtual Absorbing Exceptional Point ( http://arxiv.org/abs/2310.13454v1 )

ライセンス: Link先を確認
Asaf Farhi, Wei Dai, Seunghwi Kim, Andrea Alu, and Douglas Stone(参考訳) 状態伝達と光子検出は、量子コンピューティングやフォトニック回路などの分野に直接的な影響を与える基本的なプロセスである。 しかし、自然に放出される光子は時間的に指数関数的に崩壊するが、その包絡物は吸収空洞の時間反転反応に一致するように指数関数的に増大する。 ここでは、仮想的に吸収する例外点の空洞が入射波形の付加時間順序を捕捉し、効率的な受動状態伝達と光子検出をもたらすことを示す。 このアプローチは、光周波数における状態伝達の方法と、自発的に放出される光子の効率的な検出を舗装する。

State transfer and photon detection are fundamental processes that have direct implications in fields such as quantum computing and photonic circuits. However, while naturally emitted photons decay exponentially in time, to perfectly capture a photon its envelope should increase exponentially to match the time-reversed response of the absorbing cavity. Here we show that a cavity at a virtual absorbing exceptional point captures additional temporal orders of an incoming waveform, resulting in efficient passive state transfer and photon detection. This approach paves the way for state transfer at optical frequencies and efficient detection of a spontaneously emitted photon.
翻訳日:2023-10-23 23:05:51 公開日:2023-10-20
# 楽曲検索のためのカリキュラム強化による2段階三重項損失訓練

Two-Stage Triplet Loss Training with Curriculum Augmentation for Audio-Visual Retrieval ( http://arxiv.org/abs/2310.13451v1 )

ライセンス: Link先を確認
Donghuo Zeng and Kazushi Ikeda(参考訳) クロスモーダル検索モデルは、3重損失最適化の可能性を活用し、堅牢な埋め込み空間を学習する。 しかし、既存の手法では、最適化過程における半硬三重項と硬三重項の区別を見渡して、これらのモデルを特異なパスで訓練することが多い。 半硬三重項と硬三重項を区別しないという見落としは、準最適モデル性能をもたらす。 本稿では,この問題に対処するために,カリキュラム学習に根ざした新しいアプローチを提案する。 モデルの学習プロセスを半ハードからハードトリプレットへ導く2段階のトレーニングパラダイムを提案する。 最初の段階では、モデルは低損失のベースから始まる半硬な三つ子で訓練される。 その後,第2段階において補間法を用いて埋め込みを増強する。 このプロセスは潜在的なハードネガティブを識別し、ハードトリプルの不足による高損失関数に起因する問題を緩和する。 提案手法は, モデルをさらに最適化するために, 拡張埋め込み空間にハードトリプルトマイニングを適用する。 2つの視聴覚データセットで行った広範囲な実験により、avデータセット上での視聴覚横断的検索(av-cmr)タスクにおいて、現在の最先端法であるmsnscaよりも平均平均平均精度(map)が約9.8%向上し、提案手法の有効性が示された。

The cross-modal retrieval model leverages the potential of triple loss optimization to learn robust embedding spaces. However, existing methods often train these models in a singular pass, overlooking the distinction between semi-hard and hard triples in the optimization process. The oversight of not distinguishing between semi-hard and hard triples leads to suboptimal model performance. In this paper, we introduce a novel approach rooted in curriculum learning to address this problem. We propose a two-stage training paradigm that guides the model's learning process from semi-hard to hard triplets. In the first stage, the model is trained with a set of semi-hard triplets, starting from a low-loss base. Subsequently, in the second stage, we augment the embeddings using an interpolation technique. This process identifies potential hard negatives, alleviating issues arising from high-loss functions due to a scarcity of hard triples. Our approach then applies hard triplet mining in the augmented embedding space to further optimize the model. Extensive experimental results conducted on two audio-visual datasets show a significant improvement of approximately 9.8% in terms of average Mean Average Precision (MAP) over the current state-of-the-art method, MSNSCA, for the Audio-Visual Cross-Modal Retrieval (AV-CMR) task on the AVE dataset, indicating the effectiveness of our proposed method.
翻訳日:2023-10-23 23:05:38 公開日:2023-10-20
# 微調整と文脈学習による機械翻訳のための大規模言語モデルのステアリング

Steering Large Language Models for Machine Translation with Finetuning and In-Context Learning ( http://arxiv.org/abs/2310.13448v1 )

ライセンス: Link先を確認
Duarte M. Alves, Nuno M. Guerreiro, Jo\~ao Alves, Jos\'e Pombal, Ricardo Rei, Jos\'e G. C. de Souza, Pierre Colombo and Andr\'e F. T. Martins(参考訳) 大規模言語モデル(LLMs)は機械翻訳(MT)の道である。 しかし、現在のLLMベースのMTシステムは不安定であり、その有効性は少数例の選択に大きく依存しており、過剰発生による余分な後処理を必要とすることが多い。 翻訳命令の微調整などの代替手段は計算コストが高く、特殊化の過大さによりコンテキスト内学習能力が低下する可能性がある。 本稿では,この問題を詳細に検討する。 まず、LoRAを用いたアダプタベースのファインタニングが従来のファインタニングのパフォーマンスと一致し、トレーニングパラメータの数を50倍に削減することから始める。 このメソッドは、少数ショットのプロンプトよりも優れており、後処理やコンテキスト内例の必要性をなくす。 しかし, 微調整は一般に, 適応能力の阻害を伴い, 数発性能を低下させる。 最後に,両世界の最善を勝ち取るために,微調整中に少数のサンプルを組み込んだ単純なアプローチを提案する。 10個の言語ペアを用いた実験により,提案手法は,微調整の利点を保ちつつ,最初のマイナショット機能を回復することを示した。

Large language models (LLMs) are a promising avenue for machine translation (MT). However, current LLM-based MT systems are brittle: their effectiveness highly depends on the choice of few-shot examples and they often require extra post-processing due to overgeneration. Alternatives such as finetuning on translation instructions are computationally expensive and may weaken in-context learning capabilities, due to overspecialization. In this paper, we provide a closer look at this problem. We start by showing that adapter-based finetuning with LoRA matches the performance of traditional finetuning while reducing the number of training parameters by a factor of 50. This method also outperforms few-shot prompting and eliminates the need for post-processing or in-context examples. However, we show that finetuning generally degrades few-shot performance, hindering adaptation capabilities. Finally, to obtain the best of both worlds, we propose a simple approach that incorporates few-shot examples during finetuning. Experiments on 10 language pairs show that our proposed approach recovers the original few-shot capabilities while keeping the added benefits of finetuning.
翻訳日:2023-10-23 23:05:14 公開日:2023-10-20
# VL表現のためのマルチスケール超画素構造差グラフ畳み込みネットワーク

Multiscale Superpixel Structured Difference Graph Convolutional Network for VL Representation ( http://arxiv.org/abs/2310.13447v1 )

ライセンス: Link先を確認
Siyu Zhang, Yeming Chen, Sirui Cheng, Yaoru Sun, Jun Yang, Lizhi Bai(参考訳) マルチモーダル分野において、ビジョンと言語を統合する鍵は、優れたアライメント戦略を確立することである。 近年,自己指導型学習の成功の恩恵を受け,視覚と言語に対する事前学習モデルに基づく多モーダルな意味表現が顕著に進歩している。 しかし、視覚的意味表現の改善の余地はまだ残っている。 空間的セマンティックコヒーレンスとノイズに対する脆弱性の欠如により、現在のピクセルやパッチベースの方法で複雑なシーン境界を正確に抽出することは困難である。 そこで本研究では,学習可能な画像データの包括的コンパクト表現としてスーパーピクセルを開発し,知覚的に類似した画素をクラスタリングすることで,その後の処理における視覚的プリミティブの数を効果的に削減する。 より正確なトポロジ的関係を明らかにするために,MDGCN (Multiscale Different Graph Convolutional Network) を提案する。 画像全体を、構成する視覚パターンの微調整された階層構造として解析し、隣接するスーパーピクセルをグラフノードとして段階的に結合することで、マルチスケールな特徴をキャプチャする。 さらに,グラフ構造を通して隣接ノード間の差異を予測し,グラフノードのキー情報収集を容易にし,実際の意味関係を推論する。 その後、異なる地域規模で相補的な空間情報を学習することで偏差の理解を避けるため、ボトムアップ方式でマルチレベル融合ルールを設計する。 提案手法は,複数の下流タスク学習に適用可能である。 広汎な実験により,本手法は視覚的推論における他の最先端手法と競合することを示した。 私たちのコードは出版時に公開される。

Within the multimodal field, the key to integrating vision and language lies in establishing a good alignment strategy. Recently, benefiting from the success of self-supervised learning, significant progress has been made in multimodal semantic representation based on pre-trained models for vision and language. However, there is still room for improvement in visual semantic representation. The lack of spatial semantic coherence and vulnerability to noise makes it challenging for current pixel or patch-based methods to accurately extract complex scene boundaries. To this end, this paper develops superpixel as a comprehensive compact representation of learnable image data, which effectively reduces the number of visual primitives for subsequent processing by clustering perceptually similar pixels. To mine more precise topological relations, we propose a Multiscale Difference Graph Convolutional Network (MDGCN). It parses the entire image as a fine-to-coarse hierarchical structure of constituent visual patterns, and captures multiscale features by progressively merging adjacent superpixels as graph nodes. Moreover, we predict the differences between adjacent nodes through the graph structure, facilitating key information aggregation of graph nodes to reason actual semantic relations. Afterward, we design a multi-level fusion rule in a bottom-up manner to avoid understanding deviation by learning complementary spatial information at different regional scales. Our proposed method can be well applied to multiple downstream task learning. Extensive experiments demonstrate that our method is competitive with other state-of-the-art methods in visual reasoning. Our code will be released upon publication.
翻訳日:2023-10-23 23:04:54 公開日:2023-10-20
# NLPにおけるタイポロジーデータベースの過去・現在・未来

The Past, Present, and Future of Typological Databases in NLP ( http://arxiv.org/abs/2310.13440v1 )

ライセンス: Link先を確認
Emi Baylor and Esther Ploeger and Johannes Bjerva(参考訳) タイポロジー情報は、特に低リソース言語において、NLPモデルの開発において有益である可能性がある。 残念なことに、現在の大規模な類型データベース、特にWALSとGrambankは、言語文法のような他の類型情報ソースと相容れない。 これらの矛盾のいくつかはコーディングエラーや言語的変異に起因するが、多くの相違点はこれらのデータベースの離散的な分類的性質に起因する。 タイポロジーデータベースとリソースの相違点とnlpにおけるそれらの利用を体系的に検討することで,この問題を浮き彫りにした。 次に,このような研究の将来を考察し,類型的特徴の連続的視点が明らかに有益であるという議論を提示し,言語学からの勧告を反映する。 そこで本稿では,低リソースシナリオにおける言語モデリングを含む,このような型論の視点が将来大きな可能性を示唆する。

Typological information has the potential to be beneficial in the development of NLP models, particularly for low-resource languages. Unfortunately, current large-scale typological databases, notably WALS and Grambank, are inconsistent both with each other and with other sources of typological information, such as linguistic grammars. Some of these inconsistencies stem from coding errors or linguistic variation, but many of the disagreements are due to the discrete categorical nature of these databases. We shed light on this issue by systematically exploring disagreements across typological databases and resources, and their uses in NLP, covering the past and present. We next investigate the future of such work, offering an argument that a continuous view of typological features is clearly beneficial, echoing recommendations from linguistics. We propose that such a view of typology has significant potential in the future, including in language modeling in low-resource scenarios.
翻訳日:2023-10-23 23:04:26 公開日:2023-10-20
# 曖昧性下における大規模言語モデルの自己一貫性

Self-Consistency of Large Language Models under Ambiguity ( http://arxiv.org/abs/2310.13439v1 )

ライセンス: Link先を確認
Henning Bartsch, Ole Jorgensen, Domenic Rosati, Jason Hoelscher-Obermaier, Jacob Pfau(参考訳) コンテキスト間で一貫した回答を提供しない大規模言語モデル(llm)は、一貫性を期待するタスク(例えば、質問応答、説明など)に使用する場合、問題となる。 本研究では,2つ以上の回答が正しい場合の自己整合性評価ベンチマークを提案する。 我々は,あいまいな整数列補完タスクを用いて,openaiモデルスイート上で一連の行動実験を行う。 平均一貫性は67\%から82\%の範囲であり、モデルの一貫性がランダムであれば予測されるよりもはるかに高く、モデル能力が向上するにつれて増加する。 さらに,モデルでは,話者の変化やシーケンス長の変化など,一連の堅牢性チェックを通じて自己整合性を維持する傾向にあることを示す。 これらの結果から, 自己整合性は, 具体的訓練を伴わずに創発的能力として生じることが示唆された。 それにもかかわらず、モデル自体の一貫性を判断する際には、モデルに過度と過度の信頼の両方が示されることがわかりました。 また,モデルが非自明な確率を代替解に割り当てるかどうかをトークン出力分布から判断する非パラメトリックテストを提案する。 このテストを用いて、自己整合性の増加にもかかわらず、モデルは通常、代替的で一貫性のない答えにかなりの重みを置く。 この確率質量の分布は、高い自己整合モデルでさえ内部で複数の可能な応答を計算する証拠を与える。

Large language models (LLMs) that do not give consistent answers across contexts are problematic when used for tasks with expectations of consistency, e.g., question-answering, explanations, etc. Our work presents an evaluation benchmark for self-consistency in cases of under-specification where two or more answers can be correct. We conduct a series of behavioral experiments on the OpenAI model suite using an ambiguous integer sequence completion task. We find that average consistency ranges from 67\% to 82\%, far higher than would be predicted if a model's consistency was random, and increases as model capability improves. Furthermore, we show that models tend to maintain self-consistency across a series of robustness checks, including prompting speaker changes and sequence length changes. These results suggest that self-consistency arises as an emergent capability without specifically training for it. Despite this, we find that models are uncalibrated when judging their own consistency, with models displaying both over- and under-confidence. We also propose a nonparametric test for determining from token output distribution whether a model assigns non-trivial probability to alternative answers. Using this test, we find that despite increases in self-consistency, models usually place significant weight on alternative, inconsistent answers. This distribution of probability mass provides evidence that even highly self-consistent models internally compute multiple possible responses.
翻訳日:2023-10-23 23:04:09 公開日:2023-10-20
# 低密度分離推定下における教師付き学習と教師なし学習のバランスのランダム行列解析

Random Matrix Analysis to Balance between Supervised and Unsupervised Learning under the Low Density Separation Assumption ( http://arxiv.org/abs/2310.13434v1 )

ライセンス: Link先を確認
Vasilii Feofanov, Malik Tiomoko, Aladin Virmaux(参考訳) 高次元状態における低密度分離仮定の下で半教師付き分類を解析するための理論的枠組みを提案する。 特に、リニア分類モデルであるQLDSを導入し、低密度分離仮定を2次マージンの最大化により実装する。 このアルゴリズムは, 理論的性質の豊富な明示的な解を持ち, このアルゴリズムの特定のケースは, 教師なしの場合の最小二乗支援ベクトルマシン, 完全に教師なしの場合のスペクトルクラスタリング, 半教師付きグラフベースアプローチのクラスであることを示す。 このようにQLDSは、これら教師なしと教師なしの学習方法の間のスムーズなブリッジを確立する。 ランダム行列理論の最近の進歩を用いて,漸近的手法における分類誤差の理論的評価を形式的に導出する。 応用として、教師なしと教師なしの学習基準のバランスの最良のバランスを求めるハイパーパラメータ選択ポリシーを導出する。 最後に、我々のフレームワークの広範なイラストと、QLDSが計算効率が良いにもかかわらず、ハイパーパラメータ選択のクロスバリデーションよりも改善され、半教師付きモデル選択におけるランダム行列理論の使用が期待できることを示すために、いくつかのベンチマークに関する実験結果を提供する。

We propose a theoretical framework to analyze semi-supervised classification under the low density separation assumption in a high-dimensional regime. In particular, we introduce QLDS, a linear classification model, where the low density separation assumption is implemented via quadratic margin maximization. The algorithm has an explicit solution with rich theoretical properties, and we show that particular cases of our algorithm are the least-square support vector machine in the supervised case, the spectral clustering in the fully unsupervised regime, and a class of semi-supervised graph-based approaches. As such, QLDS establishes a smooth bridge between these supervised and unsupervised learning methods. Using recent advances in the random matrix theory, we formally derive a theoretical evaluation of the classification error in the asymptotic regime. As an application, we derive a hyperparameter selection policy that finds the best balance between the supervised and the unsupervised terms of our learning criterion. Finally, we provide extensive illustrations of our framework, as well as an experimental study on several benchmarks to demonstrate that QLDS, while being computationally more efficient, improves over cross-validation for hyperparameter selection, indicating a high promise of the usage of random matrix theory for semi-supervised model selection.
翻訳日:2023-10-23 23:03:45 公開日:2023-10-20
# Y対角結合:条件付きワッサースタイン距離による後方近似

Y-Diagonal Couplings: Approximating Posteriors with Conditional Wasserstein Distances ( http://arxiv.org/abs/2310.13433v1 )

ライセンス: Link先を確認
Jannis Chemseddine, Paul Hagemann, Christian Wald(参考訳) 逆問題において、多くの条件付き生成モデルは、ジョイント測度と学習された近似の間の距離を最小にすることで後方測度を近似する。 このアプローチは、Kullback Leibler の発散の場合の後方測度間の距離も制御するが、ワッサーシュタイン距離には当てはまらない。 後部の期待するワッサーシュタイン距離と等しいような制限された結合の集合を持つ条件付きワッサーシュタイン距離を導入する。 その双対を導出することにより、条件付きワッサーシュタイン GAN の損失を動機付ける厳密な方法を見つける。 条件付きワッサースタイン距離とバニラ距離が一致する条件について概説する。 さらに,条件付きワッサーシュタイン距離のトレーニングが後方サンプリングに好適な特性をもたらす場合の数値例を示す。

In inverse problems, many conditional generative models approximate the posterior measure by minimizing a distance between the joint measure and its learned approximation. While this approach also controls the distance between the posterior measures in the case of the Kullback Leibler divergence, it does not hold true for the Wasserstein distance. We will introduce a conditional Wasserstein distance with a set of restricted couplings that equals the expected Wasserstein distance of the posteriors. By deriving its dual, we find a rigorous way to motivate the loss of conditional Wasserstein GANs. We outline conditions under which the vanilla and the conditional Wasserstein distance coincide. Furthermore, we will show numerical examples where training with the conditional Wasserstein distance yields favorable properties for posterior sampling.
翻訳日:2023-10-23 23:03:23 公開日:2023-10-20
# 球状神経過程メタリアナーを用いたhrtf補間

HRTF Interpolation using a Spherical Neural Process Meta-Learner ( http://arxiv.org/abs/2310.13430v1 )

ライセンス: Link先を確認
Etienne Thuillier and Craig Jin and Vesa V\"alim\"aki(参考訳) 近年,人の頭部伝達関数(HRTF)を人体計測やピンナ写真などの便利な入力モダリティを用いて推定する手法が提案されている。 被験者のhrtfからいくつかのデータポイントサンプルを使用して、音響計測や知覚フィードバックを用いて取得した推定誤差を適応的に補正する必要性がある。 この目的のために、HRTFエラー補間に特化した畳み込み条件付きニューラルプロセスメタラーナを導入する。 特に、このモデルには、HRTFデータの球形状に対応する球状畳み込みニューラルネットワークコンポーネントが含まれている。 また、中央軸付近のHRTFの左右チャネル間の潜在的な対称性を利用する。 本研究では,一般集団平均HRTFが個別化ではなく修正に先立って初期推定値を生成するという簡易な設定の下で,時間整合スペクトル補間場でのモデルの性能を純粋に評価する。 訓練されたモデルでは,85名の被験者で訓練されたにもかかわらず,最先端補間法と比較して最大3dBの相対誤差を低減できる。 この改善は、同等の精度を達成するのに必要なデータポイント数の半分近く、特に補間された機能あたりの平均 -20 dB の相対誤差に到達するために 50 から 28 のポイントに変換される。 さらに,訓練されたモデルが不確実性推定の精度が高いことを示す。 これにより、所望のHRTF個人化精度を満たすために必要なHRTFデータポイントの補正を少なくして取得するシーケンシャルな決定問題を報知することができる。

Several individualization methods have recently been proposed to estimate a subject's Head-Related Transfer Function (HRTF) using convenient input modalities such as anthropometric measurements or pinnae photographs. There exists a need for adaptively correcting the estimation error committed by such methods using a few data point samples from the subject's HRTF, acquired using acoustic measurements or perceptual feedback. To this end, we introduce a Convolutional Conditional Neural Process meta-learner specialized in HRTF error interpolation. In particular, the model includes a Spherical Convolutional Neural Network component to accommodate the spherical geometry of HRTF data. It also exploits potential symmetries between the HRTF's left and right channels about the median axis. In this work, we evaluate the proposed model's performance purely on time-aligned spectrum interpolation grounds under a simplified setup where a generic population-mean HRTF forms the initial estimates prior to corrections instead of individualized ones. The trained model achieves up to 3 dB relative error reduction compared to state-of-the-art interpolation methods despite being trained using only 85 subjects. This improvement translates up to nearly a halving of the data point count required to achieve comparable accuracy, in particular from 50 to 28 points to reach an average of -20 dB relative error per interpolated feature. Moreover, we show that the trained model provides well-calibrated uncertainty estimates. Accordingly, such estimates can inform the sequential decision problem of acquiring as few correcting HRTF data points as needed to meet a desired level of HRTF individualization accuracy.
翻訳日:2023-10-23 23:03:11 公開日:2023-10-20
# 非相反媒質中のエネルギー移動の逆設計によるナノフォトニック光学分離

Towards nanophotonic optical isolation via inverse design of energy transfer in non-reciprocal media ( http://arxiv.org/abs/2310.13485v1 )

ライセンス: Link先を確認
Claire M. Cisowski and Madeline C. Waller and Robert Bennett(参考訳) 本研究では,非逆メディアへの逆設計の随伴法を一般化する。 テストケースでは、レベルセット法による3次元トポロジ最適化を用いて、点状ソースと観測点の一方方向エネルギー移動を最適化する。 これを実現するために、磁気光学媒体の存在下での効率的な形状最適化を可能にする「ファラデー・アジョイント」と呼ばれる一連のツールを導入する。 非相互媒質におけるエネルギー移動を導出する非常に一般的な方程式に基づいて最適化を行い、有限微分時間領域の数値をテンソル誘電率に一般化した修正ボルン級数を通して解析する。 この研究は、実用的なナノフォトニクスの光学分離への一歩であり、しばしば統合フォトニクスの「聖杯」と見なされる。

In this work we generalise the adjoint method of inverse design to non-reciprocal media. As a test case, we use three-dimensional topology optimisation via the level-set method to optimise one-way energy transfer for point-like source and observation points. To achieve this we introduce a suite of tools, chiefly what we term the `Faraday-adjoint' method which allows for efficient shape optimisation in the presence of magneto-optical media. We carry out an optimisation based on a very general equation that we derive for energy transfer in a non-reciprocal medium, and link finite-different time-domain numerics to analytics via a modified Born series generalised to a tensor permittivity. This work represents a stepping stone towards practical nanophotonic optical isolation, often regarded as the `holy grail' of integrated photonics.
翻訳日:2023-10-23 22:56:29 公開日:2023-10-20
# 純ポズナー分子とドープポズナー分子の絡み合いとコヒーレンス

Entanglement and coherence in pure and doped Posner molecules ( http://arxiv.org/abs/2310.13484v1 )

ライセンス: Link先を確認
Betony Adams, Ilya Sinayskiy, Shivang Agarwal and Francesco Petruccione(参考訳) 生物系におけるスピンの役割は、量子生物学における主要なトピックである。 しかし、この研究の多くは電子スピンに焦点を当てている。 最近の仮説では、核スピンは生物学的プロセスに適しており、脱コヒーレンスに敏感でない可能性が示唆されている。 この仮説は、リン原子核がスピン絡み合い状態でどのように合成されるか、どのようにこの絡み合いがリン酸カルシウム (posner) 分子に結合して保護されるか、そしてこの絡み合いがカルシウムイオンの生成と共役神経活性化を調節するかを詳述している。 本稿では,ポスナー分子のコヒーレンスや絡み合いなどの量子効果のロバスト性について検討する。 これらの効果がスピンスピン結合強度やポスナー分子対称性といった特定のパラメータにどのように直接依存するかを調べる。 また、リチウム同位体をドープしたポスナー分子がコヒーレンスや絡み合いなどの量子資源を微分的に調節し、これが双極性疾患におけるリチウムの作用機構の有効な説明であるかどうかについても検討する。 最後に, 生物学的環境の活用を通じて, 絡み合いをいかに保存するかを説明する。

The potential role of spin in biological systems is a primary topic in quantum biology. However, much of this research focuses on electron spin. A recent hypothesis suggests that nuclear spin may be better suited to biological processes, being less sensitive to decoherence. The hypothesis details how phosphorus nuclei might be prepared in a spin-entangled state, how this entanglement is protected by assembly into calcium phosphate (Posner) molecules, and how this entanglement might modulate calcium ion production and concomitant neural activation. In this paper, we investigate the robustness of quantum effects such as coherence and entanglement in Posner molecules. We investigate how these effects are directly dependent on specific parameters such as spin-spin coupling strengths and Posner molecule symmetry. We also investigate how lithium isotope-doped Posner molecules differentially modulate quantum resources such as coherence and entanglement and whether this is a viable explanation for lithium's mechanism of action in bipolar disease. Finally, we illustrate how entanglement might possibly be preserved through the exploitation of the biological environment.
翻訳日:2023-10-23 22:56:14 公開日:2023-10-20
# 深層学習の家畜行動認識への応用:系統的文献レビュー

Application of deep learning for livestock behaviour recognition: A systematic literature review ( http://arxiv.org/abs/2310.13483v1 )

ライセンス: Link先を確認
Ali Rohan, Muhammad Saad Rafaq, Md. Junayed Hasan, Furqan Asghar, Ali Kashif Bashir, Tania Dottorini(参考訳) 家畜の健康と福祉のモニタリングは伝統的に労働集約的な作業であった。 近年の進歩は、家畜業界における意思決定ツールとしてAIとコンピュータビジョン技術、特にディープラーニングモデルの採用につながっている。 これらのモデルは動物識別、追跡、体部認識、種分類などのタスクに用いられてきた。 過去10年間で、これらのモデルを使って家畜の行動と健康問題との関係を探ることへの関心が高まっている。 これまでのレビュー研究は一般的だったが、家畜の行動認識のためのdlに焦点を当てたレビュー研究は、現時点では行われていない。 そこで,この体系的文献レビュー(slr)を行った。 SLRは電子データベースを横断して最初の検索を行い、1101年に出版された。 決定された選択基準を適用した後、126の出版物がリストアップされた。 これらの出版物は品質基準に基づいてさらにフィルタリングされ、44の高品質な初等研究が選ばれた。 これらの研究は研究課題に対処するために分析された。 その結果、DLは44種類の行動クラスを含む13の行動認識問題に対処できた。 CNN、Faster R-CNN、YOLOv5、YOLOv4は最も一般的なモデルであり、VGG16、CSPDarknet53、GoogLeNet、ResNet101、ResNet50は人気のあるネットワークである。 性能評価には10の異なる行列が含まれ、精度と精度が最も頻繁に用いられる。 一次研究は、排卵、粘着、データ不均衡、家畜環境の複雑さなどの課題を明らかにした。 SLR研究はまた、自律的家畜行動認識システムの開発を促進するための潜在的な解決策と研究の方向性についても論じた。

Livestock health and welfare monitoring has traditionally been a labor-intensive task performed manually. Recent advances have led to the adoption of AI and computer vision techniques, particularly deep learning models, as decision-making tools within the livestock industry. These models have been employed for tasks like animal identification, tracking, body part recognition, and species classification. In the past decade, there has been a growing interest in using these models to explore the connection between livestock behaviour and health issues. While previous review studies have been rather generic, there is currently no review study specifically focusing on DL for livestock behaviour recognition. Hence, this systematic literature review (SLR) was conducted. The SLR involved an initial search across electronic databases, resulting in 1101 publications. After applying defined selection criteria, 126 publications were shortlisted. These publications were further filtered based on quality criteria, resulting in the selection of 44 high-quality primary studies. These studies were analysed to address the research questions. The results showed that DL successfully addressed 13 behaviour recognition problems encompassing 44 different behaviour classes. A variety of DL models and networks were employed, with CNN, Faster R-CNN, YOLOv5, and YOLOv4 being among the most common models, and VGG16, CSPDarknet53, GoogLeNet, ResNet101, and ResNet50 being popular networks. Performance evaluation involved ten different matrices, with precision and accuracy being the most frequently used. Primary studies identified challenges, including occlusion, adhesion, data imbalance, and the complexities of the livestock environment. The SLR study also discussed potential solutions and research directions to facilitate the development of autonomous livestock behaviour recognition systems.
翻訳日:2023-10-23 22:55:52 公開日:2023-10-20
# 光リモートセンシング画像からの樹冠検出とデライン化の展望

A review of individual tree crown detection and delineation from optical remote sensing images ( http://arxiv.org/abs/2310.13481v1 )

ライセンス: Link先を確認
Juepeng Zheng and Shuai Yuan and Weijia Li and Haohuan Fu and Le Yu(参考訳) 光リモートセンシングセンサーの進歩により、非常に高い空間分解能のマルチスペクトル画像の生成は、コスト効率が高く、高精度な森林在庫と分析を自動化できる大きな可能性をもたらす。 個々の木のレベルにインベントリを提供することを目的とした多くの研究が、個別樹冠検出・ガイドライン(ITCD)のための様々な方法を生み出している。 本総説では,個々の樹冠を検出・同定するためのitcd手法を概説し,光学リモートセンシング画像に適用したitcd関連研究の過去・現在を体系的に検討する。 既存のitcdの取り組みの明確なナレッジマップを提供することを目的として,最近のitcd論文の包括的レビューを行い,アルゴリズム,研究サイト,木種,センサタイプ,評価方法などを含むメタデータ分析を構築する。 本稿では,従来の画像処理手法(局所的な最大フィルタリング,画像分割など),従来の機械学習手法(ランダムな森林,決定木など),ディープラーニングに基づく手法の3つのクラスに分類する。 論文の大半に寄与する深層学習指向のアプローチにより、意味セグメンテーションやオブジェクト検出法として深層学習に基づく手法についてさらに議論する。 さらに,マルチセンサデータとITCD領域の光学データの比較,異なるアルゴリズムと異なるITCDタスクの比較など,光リモートセンシングデータを用いたITCD領域の理解を深めるための4つのITCD関連課題についても論じる。 最後に、今後のITCD研究において、いくつかのITCD関連アプリケーションといくつかのエキサイティングな展望と潜在的なホットトピックを提案する。

Powered by the advances of optical remote sensing sensors, the production of very high spatial resolution multispectral images provides great potential for achieving cost-efficient and high-accuracy forest inventory and analysis in an automated way. Lots of studies that aim at providing an inventory to the level of each individual tree have generated a variety of methods for Individual Tree Crown Detection and Delineation (ITCD). This review covers ITCD methods for detecting and delineating individual tree crowns, and systematically reviews the past and present of ITCD-related researches applied to the optical remote sensing images. With the goal to provide a clear knowledge map of existing ITCD efforts, we conduct a comprehensive review of recent ITCD papers to build a meta-data analysis, including the algorithm, the study site, the tree species, the sensor type, the evaluation method, etc. We categorize the reviewed methods into three classes: (1) traditional image processing methods (such as local maximum filtering, image segmentation, etc.); (2) traditional machine learning methods (such as random forest, decision tree, etc.); and (3) deep learning based methods. With the deep learning-oriented approaches contributing a majority of the papers, we further discuss the deep learning-based methods as semantic segmentation and object detection methods. In addition, we discuss four ITCD-related issues to further comprehend the ITCD domain using optical remote sensing data, such as comparisons between multi-sensor based data and optical data in ITCD domain, comparisons among different algorithms and different ITCD tasks, etc. Finally, this review proposes some ITCD-related applications and a few exciting prospects and potential hot topics in future ITCD research.
翻訳日:2023-10-23 22:55:25 公開日:2023-10-20
# てんかん性ネットワークダイナミクスのデータ駆動モデルによる神経振動の個人化同定、予測および刺激

Personalized identification, prediction, and stimulation of neural oscillations via data-driven models of epileptic network dynamics ( http://arxiv.org/abs/2310.13480v1 )

ライセンス: Link先を確認
Tena Dubcek, Debora Ledergerber, Jana Thomann, Giovanna Aiello, Marc Serra-Garcia, Lukas Imbach and Rafael Polania(参考訳) 神経振動は、脳内の情報処理とコミュニケーションの脳特異的なシグネチャであると考えられている。 また、神経疾患の病態的脳活動を反映しており、診断と予測の基礎を提供する。 てんかんは、脳内の振動の異常同期と非同期化を特徴とする最も一般的な神経疾患の1つである。 てんかん症例の約3分の1は薬剤耐性であり、脳の刺激が有望な治療法であると考えられる新しい治療法の必要性を強調している。 しかし、脳刺激のパラダイムの発展は、しばしば脳力学に関する一般的な仮定に基づいているが、患者と脳の状態の間に大きな違いが生じることは知られている。 脳波データから直接ててんかん性ネットワークダイナミクスの個人化予測モデルを抽出するフレームワークを開発した。 モデルは支配的なコヒーレント振動とその動的カップリングに基づいており、神経振動によるダイナミクスの確立された解釈と、患者特有の正確な特徴を組み合わせる。 周期的駆動下での脳-ネットワークダイナミクスのモデルと,周期的刺激による神経エントレーメントのメカニズムとの直接的な対応を構築できることを示す。 この枠組みをてんかん状態(永久的発作活動の脳状態)患者の脳波記録に適用すると、周期的脳刺激の治療効果のモデル駆動予測解析が得られる。 このことは、周期的な脳刺激がてんかん性ネットワークの病態状態を正常な機能的脳状態へと導くことを示唆している。

Neural oscillations are considered to be brain-specific signatures of information processing and communication in the brain. They also reflect pathological brain activity in neurological disorders, thus offering a basis for diagnoses and forecasting. Epilepsy is one of the most common neurological disorders, characterized by abnormal synchronization and desynchronization of the oscillations in the brain. About one third of epilepsy cases are pharmacoresistant, and as such emphasize the need for novel therapy approaches, where brain stimulation appears to be a promising therapeutic option. The development of brain stimulation paradigms, however, is often based on generalized assumptions about brain dynamics, although it is known that significant differences occur between patients and brain states. We developed a framework to extract individualized predictive models of epileptic network dynamics directly from EEG data. The models are based on the dominant coherent oscillations and their dynamical coupling, thus combining an established interpretation of dynamics through neural oscillations, with accurate patient-specific features. We show that it is possible to build a direct correspondence between the models of brain-network dynamics under periodic driving, and the mechanism of neural entrainment via periodic stimulation. When our framework is applied to EEG recordings of patients in status epilepticus (a brain state of perpetual seizure activity), it yields a model-driven predictive analysis of the therapeutic performance of periodic brain stimulation. This suggests that periodic brain stimulation can drive pathological states of epileptic network dynamics towards a healthy functional brain state.
翻訳日:2023-10-23 22:54:54 公開日:2023-10-20
# segment, select, correct:弱教師付き参照セグメンテーションのためのフレームワーク

Segment, Select, Correct: A Framework for Weakly-Supervised Referring Segmentation ( http://arxiv.org/abs/2310.13479v1 )

ライセンス: Link先を確認
Francisco Eiras, Kemal Oksuz, Adel Bibi, Philip H.S. Torr, Puneet K. Dokania(参考訳) Referring Image Segmentation (RIS) - 自然言語文を通して画像中のオブジェクトを識別する問題は、現在主に教師付き学習によって解決されている課題である。 しかし、参照するアノテーションマスクの収集には時間を要するが、既存の弱い教師付きアプローチやゼロショットアプローチは、完全に教師付き学習方法に比べて、パフォーマンスが著しく低い。 マスクアノテーションを使わずにパフォーマンスギャップを埋めるために,参照命令(segment)で言及されたオブジェクトのインスタンスマスクを取得し,ゼロショット学習を用いて与えられた命令(select)に対して潜在的に正しいマスクを選択する,ゼロショット選択(correct)のミスを修正可能なモデルをブートストラップする,という3つのステップに分解してRISに対処する,新しい弱い教師付きフレームワークを提案する。 実験では,最初の2段階(ゼロショットセグメントとセレクト)のみを用いて,他のゼロショットベースラインを最大19%向上させる一方,本手法はより強力なベースラインを改良し,弱教師付きRISのための新しい最先端技術を設定し,弱教師付き手法と完全教師付き手法のギャップを約33%から14%に短縮する。 コードはhttps://github.com/fgirbal/segment-select-correctで入手できる。

Referring Image Segmentation (RIS) - the problem of identifying objects in images through natural language sentences - is a challenging task currently mostly solved through supervised learning. However, while collecting referred annotation masks is a time-consuming process, the few existing weakly-supervised and zero-shot approaches fall significantly short in performance compared to fully-supervised learning ones. To bridge the performance gap without mask annotations, we propose a novel weakly-supervised framework that tackles RIS by decomposing it into three steps: obtaining instance masks for the object mentioned in the referencing instruction (segment), using zero-shot learning to select a potentially correct mask for the given instruction (select), and bootstrapping a model which allows for fixing the mistakes of zero-shot selection (correct). In our experiments, using only the first two steps (zero-shot segment and select) outperforms other zero-shot baselines by as much as 19%, while our full method improves upon this much stronger baseline and sets the new state-of-the-art for weakly-supervised RIS, reducing the gap between the weakly-supervised and fully-supervised methods in some cases from around 33% to as little as 14%. Code is available at https://github.com/fgirbal/segment-select-correct.
翻訳日:2023-10-23 22:54:30 公開日:2023-10-20
# $k$-meansに対する$D^\alpha$シードの解析

An Analysis of $D^\alpha$ seeding for $k$-means ( http://arxiv.org/abs/2310.13474v1 )

ライセンス: Link先を確認
Etienne Bamas, Sai Ganesh Nagarajan, Ola Svensson(参考訳) 最も有名なクラスタリングアルゴリズムの1つは、Arthur and Vassilvitskii (2007) による有名な$D^\alpha$ seeding algorithm ($k$-means++ when $\alpha=2$) であり、$O(2^{2\alpha}\cdot \log k)$-approximate solution to the $k$,$\alpha$)-means cost (ここでユークリッド距離は$\alpha\ge 1$に対して$$\alpha$) となることを保証している。 より最近、Balcan, Dick, and White (2018) は、$D^\alpha$ seeding with $\alpha>2$ が標準 $k$-means の目的(すなわち$(k,2)$-means のコスト)に関してより良い解をもたらすことを実験的に観察した。 本稿では,この現象の厳密な理解について述べる。 For any $\alpha>2$, we show that $D^\alpha$ seeding guarantees in expectation an approximation factor of $$ O_\alpha \left((g_\alpha)^{2/\alpha}\cdot \left(\frac{\sigma_{\mathrm{max}}}{\sigma_{\mathrm{min}}}\right)^{2-4/\alpha}\cdot (\min\{\ell,\log k\})^{2/\alpha}\right)$$ with respect to the standard $k$-means cost of any underlying clustering; where $g_\alpha$ is a parameter capturing the concentration of the points in each cluster, $\sigma_{\mathrm{max}}$ and $\sigma_{\mathrm{min}}$ are the maximum and minimum standard deviation of the clusters around their means, and $\ell$ is the number of distinct mixing weights in the underlying clustering (after rounding them to the nearest power of $2$). これらの結果は、$g_\alpha$ と $\sigma_{\mathrm{max}}/\sigma_{\mathrm{min}}$ への依存がきついことを示す下界によって補う。 最後に, 上記のパラメータが$D^\alpha$シードに与える影響を実験的に確認する。 さらに、$\alpha>2$が$d^2$のシードに比べて実際に$k$-meansのコストを改善できるという観測と、この利点は、シード後のロイドのアルゴリズムを実行しても残ることを裏付ける。

One of the most popular clustering algorithms is the celebrated $D^\alpha$ seeding algorithm (also know as $k$-means++ when $\alpha=2$) by Arthur and Vassilvitskii (2007), who showed that it guarantees in expectation an $O(2^{2\alpha}\cdot \log k)$-approximate solution to the ($k$,$\alpha$)-means cost (where euclidean distances are raised to the power $\alpha$) for any $\alpha\ge 1$. More recently, Balcan, Dick, and White (2018) observed experimentally that using $D^\alpha$ seeding with $\alpha>2$ can lead to a better solution with respect to the standard $k$-means objective (i.e. the $(k,2)$-means cost). In this paper, we provide a rigorous understanding of this phenomenon. For any $\alpha>2$, we show that $D^\alpha$ seeding guarantees in expectation an approximation factor of $$ O_\alpha \left((g_\alpha)^{2/\alpha}\cdot \left(\frac{\sigma_{\mathrm{max}}}{\sigma_{\mathrm{min}}}\right)^{2-4/\alpha}\cdot (\min\{\ell,\log k\})^{2/\alpha}\right)$$ with respect to the standard $k$-means cost of any underlying clustering; where $g_\alpha$ is a parameter capturing the concentration of the points in each cluster, $\sigma_{\mathrm{max}}$ and $\sigma_{\mathrm{min}}$ are the maximum and minimum standard deviation of the clusters around their means, and $\ell$ is the number of distinct mixing weights in the underlying clustering (after rounding them to the nearest power of $2$). We complement these results by some lower bounds showing that the dependency on $g_\alpha$ and $\sigma_{\mathrm{max}}/\sigma_{\mathrm{min}}$ is tight. Finally, we provide an experimental confirmation of the effects of the aforementioned parameters when using $D^\alpha$ seeding. Further, we corroborate the observation that $\alpha>2$ can indeed improve the $k$-means cost compared to $D^2$ seeding, and that this advantage remains even if we run Lloyd's algorithm after the seeding.
翻訳日:2023-10-23 22:53:59 公開日:2023-10-20
# マルチモーダル大言語モデルにおける逐次的視覚入力推論と予測

Benchmarking Sequential Visual Input Reasoning and Prediction in Multimodal Large Language Models ( http://arxiv.org/abs/2310.13473v1 )

ライセンス: Link先を確認
Mingwei Zhu, Leigang Sha, Yu Shu, Kangjia Zhao, Tiancheng Zhao, Jianwei Yin(参考訳) マルチモーダル大言語モデル(mllm)は、認識と解釈タスクにおいて大きな可能性を示したが、予測推論の能力は未検討のままである。 このギャップに対処するために,MLLMの予測推論能力を様々なシナリオで評価する新しいベンチマークを導入する。 本ベンチマークでは,抽象パターン推論,人間活動予測,物理的相互作用予測という3つの重要な領域を対象としている。 さらに,大規模言語モデルを用いた3つの評価手法を開発し,多視点コンテキストに基づく未来予測・推論におけるモデル性能の定量化を図る。 実験により,提案したベンチマークと評価手法の音質を厳密な試験により検証し,予測推論の課題における現在のMLLMの長所と短所を明らかにする。 最後に,提案するベンチマークはmllmsの標準化評価フレームワークを提供し,マルチモーダル入力の複雑な長いシーケンスを推論し,予測可能な,より高度なモデルの開発を容易にする。

Multimodal large language models (MLLMs) have shown great potential in perception and interpretation tasks, but their capabilities in predictive reasoning remain under-explored. To address this gap, we introduce a novel benchmark that assesses the predictive reasoning capabilities of MLLMs across diverse scenarios. Our benchmark targets three important domains: abstract pattern reasoning, human activity prediction, and physical interaction prediction. We further develop three evaluation methods powered by large language model to robustly quantify a model's performance in predicting and reasoning the future based on multi-visual context. Empirical experiments confirm the soundness of the proposed benchmark and evaluation methods via rigorous testing and reveal pros and cons of current popular MLLMs in the task of predictive reasoning. Lastly, our proposed benchmark provides a standardized evaluation framework for MLLMs and can facilitate the development of more advanced models that can reason and predict over complex long sequence of multimodal input.
翻訳日:2023-10-23 22:52:58 公開日:2023-10-20
# 騒々しい翻訳データをきれいにする言語モデル

Ask Language Model to Clean Your Noisy Translation Data ( http://arxiv.org/abs/2310.13469v1 )

ライセンス: Link先を確認
Quinten Bolding, Baohao Liao, Brandon James Denis, Jun Luo, Christof Monz(参考訳) トランスフォーマーモデルはニューラルマシン翻訳(NMT)において顕著な性能を示した。 しかし、ノイズ入力に対するその脆弱性は、ノイズ入力からクリーンな出力を生成するという実践的な実装において重大な課題を生んでいる。 MTNTデータセット \cite{MTNT} は、ノイズ入力に対するNMTモデルの堅牢性を評価するベンチマークとして広く利用されている。 それでも、その実用性は、ソース文とターゲット文の両方にノイズがあるため制限されている。 この制限に対処するため、MTNTのターゲット文からノイズを除去することに集中し、ノイズ評価のベンチマークとしてより適している。 大規模言語モデル(llm)の機能を活用して,ノイズ除去におけるその印象的な能力を観察した。 例えば、意味的な意味を考慮しながら絵文字を削除できる。 さらに, LLM はスラング, ジャーゴン, 預言を効果的に表現できることが示唆された。 C-MTNTと呼ばれる結果のデータセットは、元の文のセマンティックな整合性を保ちながら、ターゲット文のノイズを著しく少なくする。 我々の人間とgpt-4の評価は、llmがこのタスクでうまく働くという一貫した結論をもたらす。 最後に、C-MTNT実験はNMTモデルの堅牢性を評価する上での有効性を示し、C-MTNTを貴重な資源として強調した。

Transformer models have demonstrated remarkable performance in neural machine translation (NMT). However, their vulnerability to noisy input poses a significant challenge in practical implementation, where generating clean output from noisy input is crucial. The MTNT dataset \cite{MTNT} is widely used as a benchmark for evaluating the robustness of NMT models against noisy input. Nevertheless, its utility is limited due to the presence of noise in both the source and target sentences. To address this limitation, we focus on cleaning the noise from the target sentences in MTNT, making it more suitable as a benchmark for noise evaluation. Leveraging the capabilities of large language models (LLMs), we observe their impressive abilities in noise removal. For example, they can remove emojis while considering their semantic meaning. Additionally, we show that LLM can effectively rephrase slang, jargon, and profanities. The resulting datasets, called C-MTNT, exhibit significantly less noise in the target sentences while preserving the semantic integrity of the original sentences. Our human and GPT-4 evaluations also lead to a consistent conclusion that LLM performs well on this task. Lastly, experiments on C-MTNT showcased its effectiveness in evaluating the robustness of NMT models, highlighting the potential of advanced language models for data cleaning and emphasizing C-MTNT as a valuable resource.
翻訳日:2023-10-23 22:52:40 公開日:2023-10-20
# 線形補間による安定な非凸非凹トレーニング

Stable Nonconvex-Nonconcave Training via Linear Interpolation ( http://arxiv.org/abs/2310.13459v1 )

ライセンス: Link先を確認
Thomas Pethick, Wanyun Xie, Volkan Cevher(参考訳) 本稿では,線形補間理論をニューラルネットワークトレーニングの安定化(大規模)のための原理的手法として提案する。 最適化過程の不安定性はロスランドスケープの非単調性によってしばしば引き起こされ、線形補間が非拡大作用素の理論を活用してどのように役立つかを示す。 我々は,コヒポモノトン問題に対する最後の反復収束率を達成するための最初の明示的手法である緩和近似近位点(RAPP)と呼ばれる新しい最適化手法を構築した。 構成は制約付きおよび規則化された設定にまで拡張される。 RAPPにおける内部オプティマイザを置き換えることで、基底オプティマイザが勾配勾配勾配の上昇であるとしても、コヒポモノトン問題の収束を確立するLookaheadアルゴリズムの族を再発見する。 lookaheadが収束するコヒポモノトン問題の範囲は、lookaheadがベースオプティマイザの特性を継承することを利用してさらに拡大される。 RAPPとLookaheadの両方に存在する線形補間による利点を実証する、生成的対向ネットワークの実験で結果を裏付ける。

This paper presents a theoretical analysis of linear interpolation as a principled method for stabilizing (large-scale) neural network training. We argue that instabilities in the optimization process are often caused by the nonmonotonicity of the loss landscape and show how linear interpolation can help by leveraging the theory of nonexpansive operators. We construct a new optimization scheme called relaxed approximate proximal point (RAPP), which is the first explicit method to achieve last iterate convergence rates for the full range of cohypomonotone problems. The construction extends to constrained and regularized settings. By replacing the inner optimizer in RAPP we rediscover the family of Lookahead algorithms for which we establish convergence in cohypomonotone problems even when the base optimizer is taken to be gradient descent ascent. The range of cohypomonotone problems in which Lookahead converges is further expanded by exploiting that Lookahead inherits the properties of the base optimizer. We corroborate the results with experiments on generative adversarial networks which demonstrates the benefits of the linear interpolation present in both RAPP and Lookahead.
翻訳日:2023-10-23 22:52:19 公開日:2023-10-20
# 対話型デモンストレーションによる言語モデルの自己改善教育

Teaching Language Models to Self-Improve through Interactive Demonstrations ( http://arxiv.org/abs/2310.13522v1 )

ライセンス: Link先を確認
Xiao Yu, Baolin Peng, Michel Galley, Jianfeng Gao, Zhou Yu(参考訳) 大規模言語モデル(LLM)の自己改善能力は、彼らのアウトプットを分析して修正することを可能にし、近年の研究において大きな関心を集めている。 しかし、この能力はより小さなモデルでは欠如しており、学習が困難であることが示されており、それによって最先端のLLMとよりコスト効率が高くより高速なLCMのパフォーマンスギャップが広がる。 このギャップを減らすために,このような自己改善能力を持つ小型モデルを実現するトレーニングアルゴリズムTriPosTを導入し,LLaMA-7bの性能を最大7.13%向上させることができることを示す。 従来の作業とは対照的に、より小さなモデルを用いてLLMと対話し、フィードバックを収集し、自分自身の世代で改善する。 この経験を再生して、小さなモデルをトレーニングします。 4つの数学および推論データセットに関する実験により、小規模モデルでは、学習のインタラクティブな経験と、誤りの修正が、パフォーマンス向上に不可欠であることが示されている。

The self-improving ability of large language models (LLMs), enabled by prompting them to analyze and revise their own outputs, has garnered significant interest in recent research. However, this ability has been shown to be absent and difficult to learn for smaller models, thus widening the performance gap between state-of-the-art LLMs and more cost-effective and faster ones. To reduce this gap, we introduce TriPosT, a training algorithm that endows smaller models with such self-improvement ability, and show that our approach can improve a LLaMA-7b's performance on math and reasoning tasks by up to 7.13%. In contrast to prior work, we achieve this by using the smaller model to interact with LLMs to collect feedback and improvements on its own generations. We then replay this experience to train the small model. Our experiments on four math and reasoning datasets show that the interactive experience of learning from and correcting its own mistakes is crucial for small models to improve their performance.
翻訳日:2023-10-23 22:46:26 公開日:2023-10-20
# ビジョンベースのモバイルアプリGUIテスト:サーベイ

Vision-Based Mobile App GUI Testing: A Survey ( http://arxiv.org/abs/2310.13518v1 )

ライセンス: Link先を確認
Shengcheng Yu, Chunrong Fang, Ziyuan Tuo, Quanjun Zhang, Chunyang Chen, Zhenyu Chen, Zhendong Su(参考訳) gui(graphical user interface)は,モバイルアプリケーション(apps)の最も重要な部分のひとつだ。 モバイルアプリとエンドユーザの直接的な橋渡しであり、エンドユーザのエクスペリエンスに直接影響を与えます。 GUI品質の無視は、モバイルアプリ全体の価値と効果を損なう可能性がある。 GUIテストは、モバイルアプリの品質を保証するための効果的な方法である。 厳格なGUIテストを実行することで、開発者はモバイルアプリの視覚的およびインタラクティブな要素が機能要件を満たすだけでなく、シームレスでユーザフレンドリなエクスペリエンスを提供することができる。 しかし、ソースコードやレイアウトファイルに依存する従来のソリューションは、取得したものと実際のアプリGUIとのギャップにより、効率と効率の両面で課題に直面してきた。 ビジョンベースのモバイルアプリGUIテストアプローチは、コンピュータビジョン技術の発展とともに現れ、有望な進歩を遂げた。 本研究は,226論文の最先端技術に関する包括的調査であり,そのうち78論文が視覚に基づく研究である。 この調査では、GUIテスト生成、GUIテストレコードとリプレイ、GUIテストフレームワークなど、GUIテストのさまざまなトピックについて取り上げている。 特に、この調査の重点は、視覚ベースの技術が従来のソリューションよりも優れており、GUIテスト分野において徐々に重要な役割を担っている。 本研究は,既存研究をベースとして,(ビジョンベース)モバイルアプリGUIテストの課題と機会を概説し,新たな技術の組み合わせによる将来的な研究方向性を提案する。

Graphical User Interface (GUI) has become one of the most significant parts of mobile applications (apps). It is a direct bridge between mobile apps and end users, which directly affects the end user's experience. Neglecting GUI quality can undermine the value and effectiveness of the entire mobile app solution. Significant research efforts have been devoted to GUI testing, one effective method to ensure mobile app quality. By conducting rigorous GUI testing, developers can ensure that the visual and interactive elements of the mobile apps not only meet functional requirements but also provide a seamless and user-friendly experience. However, traditional solutions, relying on the source code or layout files, have met challenges in both effectiveness and efficiency due to the gap between what is obtained and what app GUI actually presents. Vision-based mobile app GUI testing approaches emerged with the development of computer vision technologies and have achieved promising progress. In this survey paper, we provide a comprehensive investigation of the state-of-the-art techniques on 226 papers, among which 78 are vision-based studies. This survey covers different topics of GUI testing, like GUI test generation, GUI test record & replay, GUI testing framework, etc. Specifically, the research emphasis of this survey is placed mostly on how vision-based techniques outperform traditional solutions and have gradually taken a vital place in the GUI testing field. Based on the investigation of existing studies, we outline the challenges and opportunities of (vision-based) mobile app GUI testing and propose promising research directions with the combination of emerging techniques.
翻訳日:2023-10-23 22:46:09 公開日:2023-10-20
# RaceLens: レーシング写真分析のためのマシンインテリジェンスベースのアプリケーション

RaceLens: A Machine Intelligence-Based Application for Racing Photo Analysis ( http://arxiv.org/abs/2310.13515v1 )

ライセンス: Link先を確認
Andrei Boiarov, Dmitry Bleklov, Pavlo Bredikhin, Nikita Koritsky and Sergey Ulasen(参考訳) 本稿では,高度な深層学習とコンピュータビジョンモデルを用いたレース写真の包括的解析を行うRaceLensを提案する。 開発したモデルは、レーシングカーの検出、車番号の認識、車の詳細の検出と定量化、車方向の認識など、幅広いタスクでその効率を実証した。 モデルトレーニングに必要な堅牢なデータセット収集のプロセスについて議論し、このデータセットを継続的に拡張および改善するために設計したアプローチについて述べる。 提案手法は,連続モデルの改善にフィードバックループを活用し,時間とともにレースレンズの性能と精度を向上させる。 本研究は,NASCARチームによる4シーズンにわたる展開の成功に焦点を当て,RaceLensの実践的応用の図示に重点を置いている。 システムのパフォーマンスと、そのチームの戦略的決定とパフォーマンス指標に対する直接的な影響を総合的に評価する。 この結果は、カーレースの競争と動的世界におけるマシンインテリジェンスの変革の可能性を強調し、将来の応用の先例となる。

This paper presents RaceLens, a novel application utilizing advanced deep learning and computer vision models for comprehensive analysis of racing photos. The developed models have demonstrated their efficiency in a wide array of tasks, including detecting racing cars, recognizing car numbers, detecting and quantifying car details, and recognizing car orientations. We discuss the process of collecting a robust dataset necessary for training our models, and describe an approach we have designed to augment and improve this dataset continually. Our method leverages a feedback loop for continuous model improvement, thus enhancing the performance and accuracy of RaceLens over time. A significant part of our study is dedicated to illustrating the practical application of RaceLens, focusing on its successful deployment by NASCAR teams over four seasons. We provide a comprehensive evaluation of our system's performance and its direct impact on the team's strategic decisions and performance metrics. The results underscore the transformative potential of machine intelligence in the competitive and dynamic world of car racing, setting a precedent for future applications.
翻訳日:2023-10-23 22:45:44 公開日:2023-10-20
# マルチレベルコンテンツプランニングによる質問生成の改善

Improving Question Generation with Multi-level Content Planning ( http://arxiv.org/abs/2310.13512v1 )

ライセンス: Link先を確認
Zehua Xia, Qi Gou, Bowen Yu, Haiyang Yu, Fei Huang, Yongbin Li, Cam-Tu Nguyen(参考訳) 本稿では,与えられた文脈と回答から質問を生成する問題,特に拡張された文脈にまたがるマルチホップ推論を必要とする質問に焦点をあてる。 従来の研究では、キーフレーズの選択は質問生成(QG)に不可欠であることが示唆されてきたが、そのような不連続なフレーズを意味のある質問(特に長期的文脈)に結びつけることは依然として困難である。 この問題を軽減するために,マルチレベルコンテンツプランニングに基づく新しいQGフレームワークであるMultiFactorを提案する。 特に、MultiFactorには、キーフレーズを同時に選択して完全な回答を生成するFA-modelと、生成された完全な回答を付加的な入力として取り込んだQ-modelの2つのコンポーネントが含まれている。 ここでは、短い回答と選択されたキーフレーズを結びつけるために全回答生成を導入し、QGを容易にするために回答対応要約を形成する。 FAモデルとQモデルの両方は、フレーズ選択とテキスト生成のジョイントモデルである単純なyet- Effective Phrase-Enhanced Transformersとして形式化されている。 実験結果から,本手法は2つの人気QGデータセットに対して高いベースラインを達成できた。 私たちのコードはhttps://github.com/zeaver/MultiFactor.comで利用可能です。

This paper addresses the problem of generating questions from a given context and an answer, specifically focusing on questions that require multi-hop reasoning across an extended context. Previous studies have suggested that key phrase selection is essential for question generation (QG), yet it is still challenging to connect such disjointed phrases into meaningful questions, particularly for long context. To mitigate this issue, we propose MultiFactor, a novel QG framework based on multi-level content planning. Specifically, MultiFactor includes two components: FA-model, which simultaneously selects key phrases and generates full answers, and Q-model which takes the generated full answer as an additional input to generate questions. Here, full answer generation is introduced to connect the short answer with the selected key phrases, thus forming an answer-aware summary to facilitate QG. Both FA-model and Q-model are formalized as simple-yet-effective Phrase-Enhanced Transformers, our joint model for phrase selection and text generation. Experimental results show that our method outperforms strong baselines on two popular QG datasets. Our code is available at https://github.com/zeaver/MultiFactor.
翻訳日:2023-10-23 22:45:27 公開日:2023-10-20
# テキストスパン間のインタラクションの説明

Explaining Interactions Between Text Spans ( http://arxiv.org/abs/2310.13506v1 )

ライセンス: Link先を確認
Sagnik Ray Choudhury, Pepa Atanasova, Isabelle Augenstein(参考訳) 入力の異なる部分からのトークンのスパンに対する推論は、ファクトチェック(FC)、機械読解(MRC)、自然言語推論(NLI)といった自然言語理解(NLU)タスクに不可欠である。 しかし、既存のハイライトベースの説明は、主に個々の重要なトークンや、隣接するトークンやトークンのタプル間のインタラクションを特定することに焦点を当てている。 中でも注目すべきは、そのようなタスクにおいて情報的意思決定に必要な相互作用を人間の意思決定プロセスに記録するアノテーションがないことである。 このギャップを埋めるために、NLIとFCという2つのNLUタスクのための人間間相互作用説明のマルチアノテーションデータセットであるSpanExを紹介した。 次に、入力の別々の部分におけるスパン間の使用済み接続の観点から、複数の微調整された大言語モデルの意思決定過程を調査し、それらを人間の推論プロセスと比較する。 最後に,このようなインタラクションの説明をモデルの内部動作から抽出する,新しいコミュニティ検出に基づく非教師なし手法を提案する。

Reasoning over spans of tokens from different parts of the input is essential for natural language understanding (NLU) tasks such as fact-checking (FC), machine reading comprehension (MRC) or natural language inference (NLI). However, existing highlight-based explanations primarily focus on identifying individual important tokens or interactions only between adjacent tokens or tuples of tokens. Most notably, there is a lack of annotations capturing the human decision-making process w.r.t. the necessary interactions for informed decision-making in such tasks. To bridge this gap, we introduce SpanEx, a multi-annotator dataset of human span interaction explanations for two NLU tasks: NLI and FC. We then investigate the decision-making processes of multiple fine-tuned large language models in terms of the employed connections between spans in separate parts of the input and compare them to the human reasoning processes. Finally, we present a novel community detection based unsupervised method to extract such interaction explanations from a model's inner workings.
翻訳日:2023-10-23 22:45:06 公開日:2023-10-20
# 強化リフォーム生成を伴う対話型質問応答モデルのロバストトレーニング

Robust Training for Conversational Question Answering Models with Reinforced Reformulation Generation ( http://arxiv.org/abs/2310.13505v1 )

ライセンス: Link先を確認
Magdalena Kaiser, Rishiraj Saha Roy, Gerhard Weikum(参考訳) 知識グラフ(KG)上の会話質問応答モデル(ConvQA)は通常、金QAペアのベンチマークでトレーニングされ、テストされる。 これは、トレーニングが各データセットで見られる表面的なフォームに限られており、評価は少数の持たない質問に基づいて行われることを意味する。 提案するフレームワークであるREIGNを通じて,この制限された学習設定を修復する。 まず, 学習課題の再構成を体系的に生成し, モデルの頑健性を高め, 変形を表面化する。 このような質問の不完全性を考えると、これは特に難しい問題である。 第2に、深い強化学習を用いて、回答の質を向上させるための改良のみを施すことで、ConvQAモデルをより高いパフォーマンスに導く。 第3に、主要なモデルコンポーネントをひとつのベンチマークでトレーニングし、それをゼロショットで他のベンチマークに適用することの可能性を実証する。 最後に、訓練されたモデルに対する頑健さの厳密な評価のために、ベンチマークテストセットにGPT(サイズが20倍に増加する)を促すことによって生成される多種多様な改革を多数使用・リリースする。 以上の結果から,コンブQAモデルでは,ゴールドQAペアのみの標準トレーニングよりも有意に優れていた。

Models for conversational question answering (ConvQA) over knowledge graphs (KGs) are usually trained and tested on benchmarks of gold QA pairs. This implies that training is limited to surface forms seen in the respective datasets, and evaluation is on a small set of held-out questions. Through our proposed framework REIGN, we take several steps to remedy this restricted learning setup. First, we systematically generate reformulations of training questions to increase robustness of models to surface form variations. This is a particularly challenging problem, given the incomplete nature of such questions. Second, we guide ConvQA models towards higher performance by feeding it only those reformulations that help improve their answering quality, using deep reinforcement learning. Third, we demonstrate the viability of training major model components on one benchmark and applying them zero-shot to another. Finally, for a rigorous evaluation of robustness for trained models, we use and release large numbers of diverse reformulations generated by prompting GPT for benchmark test sets (resulting in 20x increase in sizes). Our findings show that ConvQA models with robust training via reformulations, significantly outperform those with standard training from gold QA pairs only.
翻訳日:2023-10-23 22:44:46 公開日:2023-10-20
# アナロジカル・プロポーションと創造性 : 予備研究

Analogical Proportions and Creativity: A Preliminary Study ( http://arxiv.org/abs/2310.13500v1 )

ライセンス: Link先を確認
Stergos Afantenos, Henri Prade, Leonardo Cortez Bernardes(参考訳) アナロジー比例は「$a$ is to $b$ as $c$ is to $d$」という形式のステートメントであり、ペア$(a, b)$およびペア$(c, d)$における要素の比較が同様の結果をもたらすことを表している。 アナロジー比例は、3つの異なる項目が与えられた場合、前回の項目と異なる第4の項目$d$の表現が、ある条件を満たす場合、それらと類似する割合を計算することができるという意味で創造的である。 類比とその特性について紹介した後,本論文では,動物記述のデータベースとそのクラスを用いた実験の結果を報告し,新しい動物を既存の動物から「創造」し,プラティプスのようなレアな動物を回収する試みを行った。 単語埋め込みとブール特徴を用いた一連の実験を行い,類似の比率に基づく新しい動物の提案を行い,単語埋め込みがよりよい結果を得ることを示す。

Analogical proportions are statements of the form "$a$ is to $b$ as $c$ is to $d$", which expresses that the comparisons of the elements in pair $(a, b)$ and in pair $(c, d)$ yield similar results. Analogical proportions are creative in the sense that given 3 distinct items, the representation of a 4th item $d$, distinct from the previous items, which forms an analogical proportion with them can be calculated, provided certain conditions are met. After providing an introduction to analogical proportions and their properties, the paper reports the results of an experiment made with a database of animal descriptions and their class, where we try to "create" new animals from existing ones, retrieving rare animals such as platypus. We perform a series of experiments using word embeddings as well as Boolean features in order to propose novel animals based on analogical proportions, showing that word embeddings obtain better results.
翻訳日:2023-10-23 22:44:24 公開日:2023-10-20
# DistillCSE: 文埋め込みのための蒸留コントラスト学習

DistillCSE: Distilled Contrastive Learning for Sentence Embeddings ( http://arxiv.org/abs/2310.13499v1 )

ライセンス: Link先を確認
Jiahao Xu and Wei Shao and Lihui Chen and Lemao Liu(参考訳) 本稿では,知識蒸留による自己学習パラダイムの下で,コントラスト学習を行うDistillCSEフレームワークを提案する。 DistillCSEの潜在的な利点は、自給自足機能である: ベースモデルを使用してさらなる監視信号を提供することで、知識蒸留を通じてより強力なモデルを学ぶことができる。 しかしながら、知識蒸留の標準的な実装によるバニラ蒸留は、過度な過剰フィットによる限界的な改善しか達成できない。 さらに定量的に分析した結果, 標準知識蒸留は, コントラスト学習の本質から, 教師モデルのロジットに比較的大きなばらつきがあることが明らかになった。 そこで本研究では,高分散によって引き起こされる問題を緩和するため,グループ・Pシャッフル戦略を暗黙の正規化として提案し,複数の教師成分から平均ロジットを抽出した。 標準ベンチマークによる実験では、提案法が多くの強力なベースライン法を上回り、新たな最先端性能をもたらすことが示されている。

This paper proposes the DistillCSE framework, which performs contrastive learning under the self-training paradigm with knowledge distillation. The potential advantage of DistillCSE is its self-enhancing feature: using a base model to provide additional supervision signals, a stronger model may be learned through knowledge distillation. However, the vanilla DistillCSE through the standard implementation of knowledge distillation only achieves marginal improvements due to severe overfitting. The further quantitative analyses demonstrate the reason that the standard knowledge distillation exhibits a relatively large variance of the teacher model's logits due to the essence of contrastive learning. To mitigate the issue induced by high variance, this paper accordingly proposed two simple yet effective solutions for knowledge distillation: a Group-P shuffling strategy as an implicit regularization and the averaging logits from multiple teacher components. Experiments on standard benchmarks demonstrate that the proposed DistillCSE outperforms many strong baseline methods and yields a new state-of-the-art performance.
翻訳日:2023-10-23 22:44:07 公開日:2023-10-20
# 木材品質分類のためのニューラルネットワークの特徴選択とハイパーパラメータ微調整

Feature Selection and Hyperparameter Fine-tuning in Artificial Neural Networks for Wood Quality Classification ( http://arxiv.org/abs/2310.13490v1 )

ライセンス: Link先を確認
Mateus Roder, Leandro Aparecido Passos, Jo\~ao Paulo Papa, Andr\'e Luis Debiaso Rossi(参考訳) 木材板の品質分類は製材業において必須の課題であり、発展途上国の小規模から中央値の企業で人間のオペレーターが行うのが一般的である。 機械学習アルゴリズムは問題の調査に成功しており、他のソリューションよりも安価な代替手段を提供する。 しかしながら、そのようなアプローチは通常、そのハイパーパラメータの適切な選択に関していくつかの欠点を示す。 さらに,木板画像から抽出した特徴の影響を受けやすいため,モデルの誘導に影響を及ぼし,その結果,一般化能力が向上する。 そこで本稿では,ANN(Artificial Neural Network)のハイパーパラメータを同時に調整することの問題点と,木板の品質をよりよく記述する特徴のサブセットを選択することについて検討する。 製材所から得られた画像からなるプライベートデータセット上で実験を行い、異なる特徴記述子を用いて記述した。 このモデルの予測性能を5つのベースライン法とランダム探索法で比較し,nハイパーパラメータチューニングと特徴選択を行った。 実験結果から,ハイパーパラメータは特徴セットに応じて調整すべきか,ハイパーパラメータ値を考慮して選択すべきかが示唆された。 要約すると、最高の予測性能、すなわち0.80$のバランスの取れた精度は、2つの異なるシナリオで達成された。 (i)特徴選択のみを行う、及び (ii)両タスクを同時実行すること。 したがって,2つのアプローチの少なくとも1つは,産業応用の文脈で検討されるべきである。

Quality classification of wood boards is an essential task in the sawmill industry, which is still usually performed by human operators in small to median companies in developing countries. Machine learning algorithms have been successfully employed to investigate the problem, offering a more affordable alternative compared to other solutions. However, such approaches usually present some drawbacks regarding the proper selection of their hyperparameters. Moreover, the models are susceptible to the features extracted from wood board images, which influence the induction of the model and, consequently, its generalization power. Therefore, in this paper, we investigate the problem of simultaneously tuning the hyperparameters of an artificial neural network (ANN) as well as selecting a subset of characteristics that better describes the wood board quality. Experiments were conducted over a private dataset composed of images obtained from a sawmill industry and described using different feature descriptors. The predictive performance of the model was compared against five baseline methods as well as a random search, performing either ANN hyperparameter tuning and feature selection. Experimental results suggest that hyperparameters should be adjusted according to the feature set, or the features should be selected considering the hyperparameter values. In summary, the best predictive performance, i.e., a balanced accuracy of $0.80$, was achieved in two distinct scenarios: (i) performing only feature selection, and (ii) performing both tasks concomitantly. Thus, we suggest that at least one of the two approaches should be considered in the context of industrial applications.
翻訳日:2023-10-23 22:43:51 公開日:2023-10-20
# 指示を意識する:即興学習における一貫性と相互作用の総合評価

Mind the instructions: a holistic evaluation of consistency and interactions in prompt-based learning ( http://arxiv.org/abs/2310.13486v1 )

ライセンス: Link先を確認
Lucas Weber, Elia Bruni and Dieuwke Hupkes(参考訳) トレーニング済みの言語モデルをタスクに適応させる最善の方法を見つけることは、現在のNLPにおいて大きな課題である。 従来のタスクチューニングモデル(TT)と同様に、ICL(In-context-learning)を介してタスクに適応するモデルは、いくつかの設定では堅牢であるが、他の設定では堅牢である。 本稿では,LLM予測における設計選択が不安定性や矛盾の原因となる要因を詳細に分析する。 まず、入力分布とラベル(TTモデルで既知の問題)の急激な相関関係が、誘導モデルにのみ小さな問題となることを示す。 そこで我々は, 予測に影響を及ぼす要因の系統的, 包括的評価を行う。 我々は,バニラと命令調整型(IT)LLMの両方において,様々な要因の可能な組み合わせを検証し,その結果を統計的に分析し,最も影響力があり,対話的であり,安定した要因を示す。 以上の結果から,どの要因を予防なく利用できるか,ほとんどの設定で避けるべきか,治療すべきかが分かる。

Finding the best way of adapting pre-trained language models to a task is a big challenge in current NLP. Just like the previous generation of task-tuned models (TT), models that are adapted to tasks via in-context-learning (ICL) are robust in some setups but not in others. Here, we present a detailed analysis of which design choices cause instabilities and inconsistencies in LLM predictions. First, we show how spurious correlations between input distributions and labels -- a known issue in TT models -- form only a minor problem for prompted models. Then, we engage in a systematic, holistic evaluation of different factors that have been found to influence predictions in a prompting setup. We test all possible combinations of a range of factors on both vanilla and instruction-tuned (IT) LLMs of different scale and statistically analyse the results to show which factors are the most influential, interactive or stable. Our results show which factors can be used without precautions and which should be avoided or handled with care in most settings.
翻訳日:2023-10-23 22:43:26 公開日:2023-10-20
# 知識に基づく視覚質問応答のための簡単なベースライン

A Simple Baseline for Knowledge-Based Visual Question Answering ( http://arxiv.org/abs/2310.13570v1 )

ライセンス: Link先を確認
Alexandros Xenos, Themos Stafylakis, Ioannis Patras and Georgios Tzimiropoulos(参考訳) 本稿では,知識に基づく視覚質問応答(KB-VQA)の問題について述べる。 最近の研究は、(外部データベースを通して)明示的な知識と(LCMを通して)暗黙的な知識の両方を効果的に取り入れることの重要性を強調している。 このようなアプローチの共通する制限は、比較的複雑なパイプラインで構成されており、しばしばGPT-3 APIへのアクセスに大きく依存していることである。 本稿では,質問文を文脈情報としてラマ(1,2)を促すことで,効率的な文脈内学習を基本とした,よりシンプルで容易に再現可能なパイプラインを提案する。 近年のアプローチとは対照的に,本手法はトレーニングフリーであり,外部データベースやAPIへのアクセスを必要とせず,OK-VQAおよびA-OK-VQAデータセット上で最先端の精度を実現する。 最後に,本手法の重要な側面を理解するため,いくつかのアブレーション研究を行った。 私たちのコードはhttps://github.com/alexandrosXe/ASimple-Baseline-For-Knowledge-Based-VQAで公開されています。

This paper is on the problem of Knowledge-Based Visual Question Answering (KB-VQA). Recent works have emphasized the significance of incorporating both explicit (through external databases) and implicit (through LLMs) knowledge to answer questions requiring external knowledge effectively. A common limitation of such approaches is that they consist of relatively complicated pipelines and often heavily rely on accessing GPT-3 API. Our main contribution in this paper is to propose a much simpler and readily reproducible pipeline which, in a nutshell, is based on efficient in-context learning by prompting LLaMA (1 and 2) using question-informative captions as contextual information. Contrary to recent approaches, our method is training-free, does not require access to external databases or APIs, and yet achieves state-of-the-art accuracy on the OK-VQA and A-OK-VQA datasets. Finally, we perform several ablation studies to understand important aspects of our method. Our code is publicly available at https://github.com/alexandrosXe/ASimple-Baseline-For-Knowledge-Based-VQA
翻訳日:2023-10-23 22:36:00 公開日:2023-10-20
# 大規模言語モデルによるファクトチェックのペリルと約束

The Perils & Promises of Fact-checking with Large Language Models ( http://arxiv.org/abs/2310.13549v1 )

ライセンス: Link先を確認
Dorian Quelle, Alexandre Bovet(参考訳) 自動ファクトチェック(autonomous fact-checking)は、機械学習を使ってクレームを検証する。 GPT-4のような大規模言語モデル(LLM)は、情報検証や学術論文、訴訟、ニュース記事の執筆にますます信頼され、嘘から真実を識別する役割とアウトプットを検証することの重要性を強調している。 そこで我々は,LLMエージェントの語句検索,文脈データ検索,意思決定による事実確認における使用状況の評価を行った。 重要なことは、我々のフレームワークにおいて、エージェントはそれらの推論を説明し、検索されたコンテキストから関連するソースを引用する。 本研究は, 文脈情報を用いたLLMの高度化を示すものである。 GPT-4はGPT-3より優れているが、精度はクエリ言語とクレームの正確性によって異なる。 LLMは事実チェックにおいて有望であるが、不整合精度のため注意が必要である。 我々の調査はさらなる研究を要求し、エージェントがいつ成功し、いつ失敗するかをより深く理解する。

Autonomous fact-checking, using machine learning to verify claims, has grown vital as misinformation spreads beyond human fact-checking capacity. Large Language Models (LLMs) like GPT-4 are increasingly trusted to verify information and write academic papers, lawsuits, and news articles, emphasizing their role in discerning truth from falsehood and the importance of being able to verify their outputs. Here, we evaluate the use of LLM agents in fact-checking by having them phrase queries, retrieve contextual data, and make decisions. Importantly, in our framework, agents explain their reasoning and cite the relevant sources from the retrieved context. Our results show the enhanced prowess of LLMs when equipped with contextual information. GPT-4 outperforms GPT-3, but accuracy varies based on query language and claim veracity. While LLMs show promise in fact-checking, caution is essential due to inconsistent accuracy. Our investigation calls for further research, fostering a deeper comprehension of when agents succeed and when they fail.
翻訳日:2023-10-23 22:35:31 公開日:2023-10-20
# 言語モデルにおける語彙理解に向けて

Towards Understanding Sycophancy in Language Models ( http://arxiv.org/abs/2310.13548v1 )

ライセンス: Link先を確認
Mrinank Sharma, Meg Tong, Tomasz Korbak, David Duvenaud, Amanda Askell, Samuel R. Bowman, Newton Cheng, Esin Durmus, Zac Hatfield-Dodds, Scott R. Johnston, Shauna Kravec, Timothy Maxwell, Sam McCandlish, Kamal Ndousse, Oliver Rausch, Nicholas Schiefer, Da Yan, Miranda Zhang, Ethan Perez(参考訳) 人間のフィードバックからの強化学習(RLHF)は、高品質なAIアシスタントを訓練するための一般的なテクニックである。 しかし、RLHFはまた、真の反応に対するユーザの信念と一致するモデル応答を奨励するかもしれない。 RLHF訓練モデルにおける梅毒の有病率と人間の嗜好判断が原因かを検討する。 まず,5つの最先端aiアシスタントが,4つの自由形式のテキスト生成タスクに対して一貫して共語行動を示すことを実証した。 人間の嗜好がRLHFモデルの広範に観察された振る舞いを駆動するかどうかを理解するために,既存の嗜好データを分析する。 レスポンスがユーザのビューにマッチする場合、より好まれる可能性が高いことが分かりました。 さらに、人間と選好モデル(pms)は、正しいものよりも説得力に書かれたシコファンティックな反応を好む。 pmsに対するモデル出力の最適化は、時としてシンコファンシーに有利な真理を犠牲にする。 以上の結果から, 梅毒はRLHFモデルの一般的な行動である可能性が示唆された。

Reinforcement learning from human feedback (RLHF) is a popular technique for training high-quality AI assistants. However, RLHF may also encourage model responses that match user beliefs over truthful responses, a behavior known as sycophancy. We investigate the prevalence of sycophancy in RLHF-trained models and whether human preference judgements are responsible. We first demonstrate that five state-of-the-art AI assistants consistently exhibit sycophantic behavior across four varied free-form text-generation tasks. To understand if human preferences drive this broadly observed behavior of RLHF models, we analyze existing human preference data. We find that when a response matches a user's views, it is more likely to be preferred. Moreover, both humans and preference models (PMs) prefer convincingly-written sycophantic responses over correct ones a negligible fraction of the time. Optimizing model outputs against PMs also sometimes sacrifices truthfulness in favor of sycophancy. Overall, our results indicate that sycophancy is a general behavior of RLHF models, likely driven in part by human preference judgements favoring sycophantic responses.
翻訳日:2023-10-23 22:35:07 公開日:2023-10-20
# scalelong: scaling network long skip connectionによる拡散モデルのより安定したトレーニングに向けて

ScaleLong: Towards More Stable Training of Diffusion Model via Scaling Network Long Skip Connection ( http://arxiv.org/abs/2310.13545v1 )

ライセンス: Link先を確認
Zhongzhan Huang, Pan Zhou, Shuicheng Yan, Liang Lin(参考訳) 拡散モデルでは、遠方のネットワークブロックを繋ぐための長いスキップ接続(LSC)は、長距離情報を集約し、消滅する勾配を緩和できるため、UNetが最も人気のあるネットワークバックボーンである。 残念ながら、UNetは拡散モデルの不安定なトレーニングに悩まされることが多く、LSC係数を小さくすることで緩和できる。 しかし、拡散モデルにおけるUNetの不安定性とLCCスケーリングの性能改善に関する理論的理解はまだ残っていない。 そこで本研究では, unet における lsc の係数が unet の前方および後方伝播の安定性とロバスト性に大きな影響を与えることを理論的に示す。 具体的には、任意の層におけるUNetの隠れた特徴と勾配が発振可能であり、その発振範囲は実際に大きいため、UNetトレーニングの不安定性が説明できる。 さらに、UNetは摂動入力に対して確実に敏感であり、所望の出力から離れた出力を予測し、振動損失を生じ、振動勾配を生じる。 また, unet の lsc 係数スケーリングの理論的利点として, 隠れた特徴の安定性, 勾配およびロバスト性についても考察した。 最後に,本理論に触発されて,unet における lsc の係数をスケールし, unet のトレーニング安定性を向上させる効果的な係数スケーリングフレームワークである scalelong を提案する。 4つの有名なデータセットによる実験結果から,UNetやUViTのバックボーンを持つ異なる拡散モデルにおいて,トレーニングの安定化と約1.5倍のトレーニングアクセラレーションが得られた。 コード:https://github.com/sail-sg/ScaleLong

In diffusion models, UNet is the most popular network backbone, since its long skip connects (LSCs) to connect distant network blocks can aggregate long-distant information and alleviate vanishing gradient. Unfortunately, UNet often suffers from unstable training in diffusion models which can be alleviated by scaling its LSC coefficients smaller. However, theoretical understandings of the instability of UNet in diffusion models and also the performance improvement of LSC scaling remain absent yet. To solve this issue, we theoretically show that the coefficients of LSCs in UNet have big effects on the stableness of the forward and backward propagation and robustness of UNet. Specifically, the hidden feature and gradient of UNet at any layer can oscillate and their oscillation ranges are actually large which explains the instability of UNet training. Moreover, UNet is also provably sensitive to perturbed input, and predicts an output distant from the desired output, yielding oscillatory loss and thus oscillatory gradient. Besides, we also observe the theoretical benefits of the LSC coefficient scaling of UNet in the stableness of hidden features and gradient and also robustness. Finally, inspired by our theory, we propose an effective coefficient scaling framework ScaleLong that scales the coefficients of LSC in UNet and better improves the training stability of UNet. Experimental results on four famous datasets show that our methods are superior to stabilize training and yield about 1.5x training acceleration on different diffusion models with UNet or UViT backbones. Code: https://github.com/sail-sg/ScaleLong
翻訳日:2023-10-23 22:34:41 公開日:2023-10-20
# 不確実性下におけるAIのユーザ信頼に関するダイアクロニックな視点

A Diachronic Perspective on User Trust in AI under Uncertainty ( http://arxiv.org/abs/2310.13544v1 )

ライセンス: Link先を確認
Shehzaad Dhuliawala, Vil\'em Zouhar, Mennatallah El-Assady, Mrinmaya Sachan(参考訳) 人間とAIのコラボレーションでは、ユーザーはその信頼性と、システム信頼性の提示やアウトプットの説明などに基づいて、AIシステムのメンタルモデルを構築する。 現代のNLPシステムは、しばしば未分類であり、ユーザの信頼を損なう確実な誤った予測をもたらす。 信頼に足るAIを構築するためには、ユーザ信頼がどのように開発され、信頼を損なう可能性のあるイベントの後、どのように回復できるかを理解する必要がある。 ベッティングゲームを用いて,これらの信頼を損なうイベントに対するユーザの信頼の進化について検討する。 不正確な信頼性を持ついくつかの不正確なインスタンスでさえ、ユーザの信頼とパフォーマンスを損なうことが分かっています。 また、この信頼の低下は、人間とaiのコラボレーションの成功を減少させ、異なるタイプのミスキャリブレーション(確固たる正確さと自信の欠如)がユーザーの信頼に異なる悪影響を及ぼすことも示しています。 我々の発見は、ユーザー向けAIアプリケーションにおける校正の重要性を強調し、ユーザーがAIシステムを信頼するかどうかを決めるのにどのような側面が役立つかを明らかにした。

In a human-AI collaboration, users build a mental model of the AI system based on its reliability and how it presents its decision, e.g. its presentation of system confidence and an explanation of the output. Modern NLP systems are often uncalibrated, resulting in confidently incorrect predictions that undermine user trust. In order to build trustworthy AI, we must understand how user trust is developed and how it can be regained after potential trust-eroding events. We study the evolution of user trust in response to these trust-eroding events using a betting game. We find that even a few incorrect instances with inaccurate confidence estimates damage user trust and performance, with very slow recovery. We also show that this degradation in trust reduces the success of human-AI collaboration and that different types of miscalibration -- unconfidently correct and confidently incorrect -- have different negative effects on user trust. Our findings highlight the importance of calibration in user-facing AI applications and shed light on what aspects help users decide whether to trust the AI system.
翻訳日:2023-10-23 22:34:07 公開日:2023-10-20
# 構造認識型グラフ学習による正ラベルノード分類

Positive-Unlabeled Node Classification with Structure-aware Graph Learning ( http://arxiv.org/abs/2310.13538v1 )

ライセンス: Link先を確認
Hansi Yang, Yongqi Zhang, Quanming Yao, James Kwok(参考訳) グラフ上のノード分類は多くのアプリケーションにおいて重要な研究課題である。 現実世界のグラフデータセットは、既存のほとんどの作品で想定されているように、バランスがとれ、正確ではないかもしれない。 難しい設定は、ラベル付きノードが正のノードに制限される、正のラベル付き(pu)ノード分類である。 パンデミックの予測やネットワーク異常検出など、さまざまな応用がある。 puノードの分類に関する既存の作業は、グラフ構造で情報を見落としている。 本稿では,PUノード分類におけるグラフ構造をよりよく活用することを提案する。 まず、グラフにホモフィリーを用いて、より正確な監視を行う距離対応PU損失を提案する。 また、モデルとグラフ構造を整合させる正規化器を提案する。 理論的解析により、提案された損失の最小化は、正と負の両方のラベルによる期待損失の最小化につながることが示された。 多様なグラフデータセットに対する広範な経験的評価は、既存の最先端手法よりも優れた性能を示している。

Node classification on graphs is an important research problem with many applications. Real-world graph data sets may not be balanced and accurate as assumed by most existing works. A challenging setting is positive-unlabeled (PU) node classification, where labeled nodes are restricted to positive nodes. It has diverse applications, e.g., pandemic prediction or network anomaly detection. Existing works on PU node classification overlook information in the graph structure, which can be critical. In this paper, we propose to better utilize graph structure for PU node classification. We first propose a distance-aware PU loss that uses homophily in graphs to introduce more accurate supervision. We also propose a regularizer to align the model with graph structure. Theoretical analysis shows that minimizing the proposed loss also leads to minimizing the expected loss with both positive and negative labels. Extensive empirical evaluation on diverse graph data sets demonstrates its superior performance over existing state-of-the-art methods.
翻訳日:2023-10-23 22:33:43 公開日:2023-10-20
# iccv 2023 visual continual learning challenge: continuous test-time adaptation for semantic segmentation (iccv 2023) の報告

Technical Report for ICCV 2023 Visual Continual Learning Challenge: Continuous Test-time Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2310.13533v1 )

ライセンス: Link先を確認
Damian S\'ojka, Yuyang Liu, Dipam Goswami, Sebastian Cygert, Bart{\l}omiej Twardowski, Joost van de Weijer(参考訳) この課題の目標は、セマンティックセグメンテーションタスクのためのビデオシーケンスのドメインを徐々に変更するようにモデルを適応させるテスト時間適応(TTA)手法を開発することである。 合成駆動ビデオデータセット - ShiFT をベースとしている。 ソースモデルは、晴れた天候で昼間に撮影された画像に基づいて訓練される。 テスト時のドメインの変更は、主に天候や時間帯によって引き起こされる。 TTA法は、各画像シーケンス(ビデオ)で別々に評価され、つまり、モデルは次のシーケンスの前にソースモデル状態にリセットされる。 画像はひとつずつ表示され、各フレームの到着時に予測される必要がある。 各シーケンスは401のイメージで構成され、ソースドメインから始まり、シーケンスの中央まで徐々に別のもの(天気や時間の変化)にドリフトする。 シーケンスの後半では、ドメインは徐々にソース1に戻る。 地上の真理データはShiftデータセットの検証分割のためにのみ利用可能で、ソースドメインで開始および終了する6つのシーケンスしか存在しない。 我々はこれらのシーケンスを特に分析する。 開発したtta法をリーダーボードランキングで評価するテスト分割のための根拠真理データは、公開されていない。 提案されたソリューションは、チャレンジで3位を獲得し、イノベーション賞を受賞した。 より良い結果を得たソリューションとは対照的に、私たちはソリューションを可能な限り一般的なものにするために、外部でトレーニング済みのモデルや特別なデータ拡張を使用しませんでした。 分散シフトの分析と、データダイナミクスの変化に適応し、さまざまなシナリオを一般化する手法の開発に重点を置いてきた。

The goal of the challenge is to develop a test-time adaptation (TTA) method, which could adapt the model to gradually changing domains in video sequences for semantic segmentation task. It is based on a synthetic driving video dataset - SHIFT. The source model is trained on images taken during daytime in clear weather. Domain changes at test-time are mainly caused by varying weather conditions and times of day. The TTA methods are evaluated in each image sequence (video) separately, meaning the model is reset to the source model state before the next sequence. Images come one by one and a prediction has to be made at the arrival of each frame. Each sequence is composed of 401 images and starts with the source domain, then gradually drifts to a different one (changing weather or time of day) until the middle of the sequence. In the second half of the sequence, the domain gradually shifts back to the source one. Ground truth data is available only for the validation split of the SHIFT dataset, in which there are only six sequences that start and end with the source domain. We conduct an analysis specifically on those sequences. Ground truth data for test split, on which the developed TTA methods are evaluated for leader board ranking, are not publicly available. The proposed solution secured a 3rd place in a challenge and received an innovation award. Contrary to the solutions that scored better, we did not use any external pretrained models or specialized data augmentations, to keep the solutions as general as possible. We have focused on analyzing the distributional shift and developing a method that could adapt to changing data dynamics and generalize across different scenarios.
翻訳日:2023-10-23 22:33:29 公開日:2023-10-20
# 量子場の量子状態の直接特性ファンクショントモグラフィ

Direct Characteristic-Function Tomography of the Quantum States of Quantum Fields ( http://arxiv.org/abs/2310.13530v1 )

ライセンス: Link先を確認
Zehua Tian, Jiliang Jing, and Jiangfeng Du(参考訳) 本稿では,量子場の量子状態の対称特性関数の直接読み出しを理想化計測の関与なしに行うための新しい手法を提案する。 提案手法は量子場に局所的に結合した補助量子ビットの量子制御と測定に依存する。 場の変位演算子の実部と虚部の両方の期待値を量子ビット状態にマッピングすることで、量子ビットの読み出しは対称特性関数に関する完全な情報を提供する。 量子スカラー場のKubo-Martin-Schwinger(熱)および圧縮状態に適用することにより,本手法の特徴付けを行う。 さらに, ボース・アインシュタイン凝縮系などの類似重力系に対するこのアプローチの一般応用を, 最先端実験能力の範囲内で議論した。 この戦略は、相対論的量子情報応用のための量子場の制御の理解と最適化に必須であり、特に重力と量子の相互作用、例えば局所性、因果性、情報との関係を探求する上で必須である。

Herein, we propose a novel strategy for implementing a direct readout of the symmetric characteristic function of the quantum states of quantum fields without the involvement of idealized measurements, an aspect that has always been deemed ill-defined in quantum field theory. This proposed scheme relies on the quantum control and measurements of an auxiliary qubit locally coupled to the quantum fields. By mapping the expectation values of both the real and imaginary parts of the field displacement operator to the qubit states, the qubit's readout provides complete information regarding the symmetric characteristic function. We characterize our technique by applying it to the Kubo-Martin-Schwinger (thermal) and squeezed states of a quantum scalar field. In addition, we have discussed general applications of this approach to analogue-gravity systems, such as Bose-Einstein condensates, within the scope of state-of-the-art experimental capabilities. This proposed strategy may serve as an essential in understanding and optimizing the control of quantum fields for relativistic quantum information applications, particularly in exploring the interplay between gravity and quantum, for example, the relation to locality, causality, and information.
翻訳日:2023-10-23 22:33:01 公開日:2023-10-20
# ランダム性制御による変圧器モデルの性能向上

Controlled Randomness Improves the Performance of Transformer Models ( http://arxiv.org/abs/2310.13526v1 )

ライセンス: Link先を確認
Tobias Deu{\ss}er, Cong Zhao, Wolfgang Kr\"amer, David Leonhard, Christian Bauckhage, Rafet Sifa(参考訳) 自然言語モデルの事前学習段階において、主な目的は事前学習データセットの一般的な表現を学習することであり、通常、自然言語の複雑さと多様性を捉えるために大量のテキストデータを必要とする。 これとは対照的に、多くの場合、特定のダウンストリームタスクを解決するために利用可能なデータのサイズは、前述の事前トレーニングデータセットによって劣っている。 制御されたランダム性、すなわちノイズを訓練プロセスに導入し、微調整言語モデルを改善し、これらのモデルのパラメータに加えてターゲット雑音の性能を探索する。 このようなノイズを加えることで,エンティティ認識と関係抽出,テキスト要約という2つの下流タスクのパフォーマンス向上が期待できる。

During the pre-training step of natural language models, the main objective is to learn a general representation of the pre-training dataset, usually requiring large amounts of textual data to capture the complexity and diversity of natural language. Contrasting this, in most cases, the size of the data available to solve the specific downstream task is often dwarfed by the aforementioned pre-training dataset, especially in domains where data is scarce. We introduce controlled randomness, i.e. noise, into the training process to improve fine-tuning language models and explore the performance of targeted noise in addition to the parameters of these models. We find that adding such noise can improve the performance in our two downstream tasks of joint named entity recognition and relation extraction and text summarization.
翻訳日:2023-10-23 22:32:43 公開日:2023-10-20
# 変分計測に基づく量子計算による生成モデリング

Variational measurement-based quantum computation for generative modeling ( http://arxiv.org/abs/2310.13524v1 )

ライセンス: Link先を確認
Arunava Majumder, Marius Krumm, Tina Radkohl, Hendrik Poulsen Nautrup, Sofiene Jerbi, Hans J. Briegel(参考訳) 測定ベースの量子計算(MBQC)は、量子アルゴリズムを設計するための基本的なユニークなパラダイムを提供する。 実際、量子測定の本質的なランダム性のため、MBQCの自然な操作は決定論的でユニタリではなく、確率的副産物で拡張される。 しかし、mbqcの主なアルゴリズム利用は、回路モデルで表現されたユニタリ計算をシミュレートするために、この確率的性質を完全に反動させることである。 本研究では,この固有ランダム性を取り入れたMBQCアルゴリズムの設計と,MBQCのランダム副産物を計算資源として扱うことを提案する。 ランダム性が有益である自然な応用として、複雑な確率分布を生成することを中心とした機械学習のタスクである生成モデリングを考える。 この課題に対処するために,制御パラメータを備えた変分MBQCアルゴリズムを提案する。 解析結果から,この付加的なランダム性は,特定の生成モデルタスクにおける学習性能を著しく向上させる可能性が示唆された。 これらの結果は、MBQC固有のランダム性を利用する潜在的な利点を強調し、MBQCベースのアルゴリズムに関するさらなる研究を動機付けている。

Measurement-based quantum computation (MBQC) offers a fundamentally unique paradigm to design quantum algorithms. Indeed, due to the inherent randomness of quantum measurements, the natural operations in MBQC are not deterministic and unitary, but are rather augmented with probabilistic byproducts. Yet, the main algorithmic use of MBQC so far has been to completely counteract this probabilistic nature in order to simulate unitary computations expressed in the circuit model. In this work, we propose designing MBQC algorithms that embrace this inherent randomness and treat the random byproducts in MBQC as a resource for computation. As a natural application where randomness can be beneficial, we consider generative modeling, a task in machine learning centered around generating complex probability distributions. To address this task, we propose a variational MBQC algorithm equipped with control parameters that allow to directly adjust the degree of randomness to be admitted in the computation. Our numerical findings indicate that this additional randomness can lead to significant gains in learning performance in certain generative modeling tasks. These results highlight the potential advantages in exploiting the inherent randomness of MBQC and motivate further research into MBQC-based algorithms.
翻訳日:2023-10-23 22:32:30 公開日:2023-10-20
# 二重降下の謎を解き放ち--学習特徴空間のレンズを通しての深い分析

Unraveling the Enigma of Double Descent: An In-depth Analysis through the Lens of Learned Feature Space ( http://arxiv.org/abs/2310.13572v1 )

ライセンス: Link先を確認
Yufei Gu, Xiaoqing Zheng, and Tomaso Aste(参考訳) ダブルサブジェクションは機械学習領域において直観に反する側面を示しており、研究者は様々なモデルやタスクでその現象を観察している。 特定の文脈でこの現象についていくつかの理論的説明が提案されているが、深層学習における現象を考慮に入れた理論はまだ確立されていない。 本研究では,二重降下現象を再検討し,その発生が雑音データの存在に強く影響していることを示す。 学習表現の特徴空間の包括的解析を行い,ノイズデータを用いた不完全モデルにおいて二重降下が発生することを明らかにした。 二重降下は、まず補間するまでノイズデータを学習し、次に過パラメータ化による暗黙の正規化を加えることによって、ノイズから情報を分離する能力を持つモデルの結果であると主張する。 正規化モデルでは二重降下は起こらないと仮定する。

Double descent presents a counter-intuitive aspect within the machine learning domain, and researchers have observed its manifestation in various models and tasks. While some theoretical explanations have been proposed for this phenomenon in specific contexts, an accepted theory to account for its occurrence in deep learning remains yet to be established. In this study, we revisit the phenomenon of double descent and demonstrate that its occurrence is strongly influenced by the presence of noisy data. Through conducting a comprehensive analysis of the feature space of learned representations, we unveil that double descent arises in imperfect models trained with noisy data. We argue that double descent is a consequence of the model first learning the noisy data until interpolation and then adding implicit regularization via over-parameterization acquiring therefore capability to separate the information from the noise. We postulate that double descent should never occur in well-regularized models.
翻訳日:2023-10-23 22:26:05 公開日:2023-10-20
# 大規模言語モデルはなぜ正しい連鎖を生成するのか?

Why Can Large Language Models Generate Correct Chain-of-Thoughts? ( http://arxiv.org/abs/2310.13571v1 )

ライセンス: Link先を確認
Rasul Tutunov, Antoine Grosnit, Juliusz Ziomek, Jun Wang, Haitham Bou-Ammar(参考訳) 本稿では,大規模言語モデル(LLM)の能力について述べる。 本研究では,LLMを効果的に誘導し,コヒーレントな思考連鎖を生成する方法について検討する。 これを実現するために,自然言語生成に適した2階層階層型グラフィカルモデルを提案する。 この枠組み内では、真の言語に由来するものと比較して、LLM生成された思考の連鎖の可能性を測る魅力的な幾何学的収束率を確立する。 本研究は、推論能力を要求するタスクにおけるパフォーマンス向上を説明する(潜在的に)適切な思考列を生成するllmの能力に関する理論的正当性を提供する。

This paper delves into the capabilities of large language models (LLMs), specifically focusing on advancing the theoretical comprehension of chain-of-thought prompting. We investigate how LLMs can be effectively induced to generate a coherent chain of thoughts. To achieve this, we introduce a two-level hierarchical graphical model tailored for natural language generation. Within this framework, we establish a compelling geometrical convergence rate that gauges the likelihood of an LLM-generated chain of thoughts compared to those originating from the true language. Our findings provide a theoretical justification for the ability of LLMs to produce the correct sequence of thoughts (potentially) explaining performance gains in tasks demanding reasoning skills.
翻訳日:2023-10-23 22:25:50 公開日:2023-10-20
# 論理的推論と関連スコーリングを用いた検索強化ニューラルレスポンス生成

Retrieval-Augmented Neural Response Generation Using Logical Reasoning and Relevance Scoring ( http://arxiv.org/abs/2310.13566v1 )

ライセンス: Link先を確認
Nicholas Thomas Walker, Stefan Ultes, Pierre Lison(参考訳) タスク指向対話システムにおける応答の構成は、通常、現在の対話状態や外部データベースなどの情報ソースに依存する。 本稿では,検索型言語モデルと論理推論を組み合わせた知識基盤応答生成手法を提案する。 このアプローチは、現在の対話状態と背景情報を表す知識グラフを中心に展開し、3つのステップで進む。 知識グラフはまず確率論的論理プログラミングを用いて推論された論理的に導出された事実に富む。 次に、各ターンにニューラルモデルを用いて、この拡張グラフの各ノードとエッジの会話の関連性を評価する。 最後に、最も関連度の高い要素を自然言語形式に変換し、システム応答を生成するために使用される神経会話モデルのためのプロンプトに統合する。 本研究では,2つのデータセット(KVRETとGraphWOZ)に対する提案手法の利点と人的評価について検討する。 実験結果から,(確率的)論理的推論と会話関連性スコアの組合せは,応答の事実性と流布性の両方を増大させることが示された。

Constructing responses in task-oriented dialogue systems typically relies on information sources such the current dialogue state or external databases. This paper presents a novel approach to knowledge-grounded response generation that combines retrieval-augmented language models with logical reasoning. The approach revolves around a knowledge graph representing the current dialogue state and background information, and proceeds in three steps. The knowledge graph is first enriched with logically derived facts inferred using probabilistic logical programming. A neural model is then employed at each turn to score the conversational relevance of each node and edge of this extended graph. Finally, the elements with highest relevance scores are converted to a natural language form, and are integrated into the prompt for the neural conversational model employed to generate the system response. We investigate the benefits of the proposed approach on two datasets (KVRET and GraphWOZ) along with a human evaluation. Experimental results show that the combination of (probabilistic) logical reasoning with conversational relevance scoring does increase both the factuality and fluency of the responses.
翻訳日:2023-10-23 22:25:38 公開日:2023-10-20
# 自律型サイバーセキュリティエージェントのリワードシェイピング

Reward Shaping for Happier Autonomous Cyber Security Agents ( http://arxiv.org/abs/2310.13565v1 )

ライセンス: Link先を確認
Elizabeth Bates, Vasilios Mavroudis, Chris Hicks(参考訳) 機械学習モデルがより有能になるにつれて、複雑なタスクを解く可能性が高まっている。 最も有望な方向の1つは、深層強化学習を使用して、コンピュータネットワーク防衛タスクで自律エージェントを訓練する。 本研究は,課題の訓練においてエージェントに提供される報酬信号の影響について検討する。 サイバーセキュリティタスクの性質のため、報奨信号は典型的には 1) 罰(例えば、妥協が発生した場合)の形式で、及び 2)各防衛エピソードにばらばらに分布する。 このような報酬特性は、エージェントが定期的に進歩に対して報奨を受ける古典的な強化学習タスクの典型である(cf. 時に失敗に対して罰を受けること)。 エージェントがより効率的にサンプルを訓練し、よりよいパフォーマンスに収束できるように、このギャップを橋渡しできる報酬形成手法を調査した。 まず,深層強化学習アルゴリズムは,ペナルティの大きさとその相対的大きさに敏感であることを示す。 そして,罰則を正の外部報酬と組み合わせ,その効果をペナルティのみの訓練と比較した。 最後に,本質的好奇心を内部的な肯定的報酬機構として評価し,高レベルネットワーク監視タスクに有利でない理由について論じる。

As machine learning models become more capable, they have exhibited increased potential in solving complex tasks. One of the most promising directions uses deep reinforcement learning to train autonomous agents in computer network defense tasks. This work studies the impact of the reward signal that is provided to the agents when training for this task. Due to the nature of cybersecurity tasks, the reward signal is typically 1) in the form of penalties (e.g., when a compromise occurs), and 2) distributed sparsely across each defense episode. Such reward characteristics are atypical of classic reinforcement learning tasks where the agent is regularly rewarded for progress (cf. to getting occasionally penalized for failures). We investigate reward shaping techniques that could bridge this gap so as to enable agents to train more sample-efficiently and potentially converge to a better performance. We first show that deep reinforcement learning algorithms are sensitive to the magnitude of the penalties and their relative size. Then, we combine penalties with positive external rewards and study their effect compared to penalty-only training. Finally, we evaluate intrinsic curiosity as an internal positive reward mechanism and discuss why it might not be as advantageous for high-level network monitoring tasks.
翻訳日:2023-10-23 22:25:23 公開日:2023-10-20
# cache & distil: 大きな言語モデルへのapi呼び出しの最適化

Cache & Distil: Optimising API Calls to Large Language Models ( http://arxiv.org/abs/2310.13561v1 )

ライセンス: Link先を確認
Guillem Ram\'irez and Matthias Lindemann and Alexandra Birch and Ivan Titov(参考訳) ジェネレーティブAIツールの大規模デプロイは、ユーザクエリをフルフィルするために、LLM(Large Language Model)に対する高価なAPI呼び出しに依存することが多い。 これらの呼び出しの頻度を縮めるために、LLMのレスポンスに基づいて継続的にトレーニングされる小さな言語モデル(学生)を使用することができる。 この学生は徐々に、ユーザリクエストの増加を独立して処理する能力を得ています。 ニューラルキャッシングにおける重要な要素は、どの要求を学生単独で処理し、どの要求をLLMにリダイレクトするかを決定し、その後、学生の学習を支援するポリシーである。 本研究では,分類課題に焦点をあて,古典的な能動的学習に基づく選択基準を政策として検討する。 我々の実験は、Margin SamplingとQuery by Committeeがタスクと予算に一貫した利益をもたらすことを示唆している。

Large-scale deployment of generative AI tools often depends on costly API calls to a Large Language Model (LLM) to fulfil user queries. To curtail the frequency of these calls, one can employ a smaller language model -- a student -- which is continuously trained on the responses of the LLM. This student gradually gains proficiency in independently handling an increasing number of user requests, a process we term neural caching. The crucial element in neural caching is a policy that decides which requests should be processed by the student alone and which should be redirected to the LLM, subsequently aiding the student's learning. In this study, we focus on classification tasks, and we consider a range of classic active learning-based selection criteria as the policy. Our experiments suggest that Margin Sampling and Query by Committee bring consistent benefits across tasks and budgets.
翻訳日:2023-10-23 22:25:05 公開日:2023-10-20
# Von Mises 推定器を用いた条件独立試験のサンプル複雑性と因果発見への応用

On sample complexity of conditional independence testing with Von Mises estimator with application to causal discovery ( http://arxiv.org/abs/2310.13553v1 )

ライセンス: Link先を確認
Fateme Jamshidi, Luca Ganassali, Negar Kiyavash(参考訳) 制約に基づく因果発見アルゴリズムにおける必須ステップである条件付き独立性テストに動機づけられ,カーネル密度推定器上に構築された多変量分布のエントロピーに対する非パラメトリックなフォン・ミセス推定器について検討した。 この推定器の指数集中不等式を確立する。 我々は,VM-CIと呼ばれる推定器をベースとした条件独立性テスト(CI)を設計し,スムーズな仮定の下で最適なパラメトリックレートを達成する。 指数集中を利用して、VM-CIの全体的な誤差に対して厳密な上限を証明した。 これにより、CIテストにVM-CIを使用する制約ベースの因果探索アルゴリズムのサンプル複雑性を特徴付けることができる。 我々の知る限りでは、これは連続変数の因果発見のための最初のサンプル複雑性保証である。 さらに,vm-ciは他の一般的なciテストよりも時間やサンプルの複雑さ(あるいはその両方)において優れており,構造学習のパフォーマンスも向上していることを示す。

Motivated by conditional independence testing, an essential step in constraint-based causal discovery algorithms, we study the nonparametric Von Mises estimator for the entropy of multivariate distributions built on a kernel density estimator. We establish an exponential concentration inequality for this estimator. We design a test for conditional independence (CI) based on our estimator, called VM-CI, which achieves optimal parametric rates under smoothness assumptions. Leveraging the exponential concentration, we prove a tight upper bound for the overall error of VM-CI. This, in turn, allows us to characterize the sample complexity of any constraint-based causal discovery algorithm that uses VM-CI for CI tests. To the best of our knowledge, this is the first sample complexity guarantee for causal discovery for continuous variables. Furthermore, we empirically show that VM-CI outperforms other popular CI tests in terms of either time or sample complexity (or both), which translates to a better performance in structure learning as well.
翻訳日:2023-10-23 22:24:47 公開日:2023-10-20
# オープンドメインマルチホップ推論のための大規模言語モデルに対する自己プロンプト連鎖

Self-prompted Chain-of-Thought on Large Language Models for Open-domain Multi-hop Reasoning ( http://arxiv.org/abs/2310.13552v1 )

ライセンス: Link先を確認
Jinyuan Wang and Junlong Li and Hai Zhao(参考訳) オープンドメイン質問回答(ODQA)では、既存の質問の多くはコモンセンスのシングルホップ推論を必要とする。 さらに,open-domain multi-hop reasoning (odmr) を公式に導入し,オープンドメイン設定において明示的な推論ステップを用いてマルチホップ質問に回答する。 近年,大規模言語モデル (LLM) は外部コーパスを使わずにODQAを促進するために重要な有用性を見出した。 さらに、チェーン・オブ・シント(CoT)の促進により、手動または自動化パラダイムによりLLMの推論能力は大幅に向上する。 しかし、既存の自動化手法は品質保証を欠いているが、手動のアプローチはスケーラビリティの制限と多様性の低さに悩まされ、LLMの能力を妨げている。 本稿では,LLMの高品質CoTを大量生産する自動化フレームワークであるSP-CoTを提案する。 SP-CoTは高品質なODMRデータセットの自動生成パイプライン、コンテキスト内CoT選択のための適応型サンプリング、コンテキスト内学習による自己プロンプト推論を導入している。 提案したSP-CoTは,大規模な175BLLMのSOTA法をはるかに上回るだけでなく,小型(13B)LLMのゼロショット性能もほぼ2倍に向上することを示した。 さらなる分析により、MuSiQue-Ansデータセット上の中間回答の$$\sim$50\%をリコールすることで、SP-CoTが直接的および簡潔な中間推論ステップを引き出す驚くべき能力を明らかにした。

In open-domain question-answering (ODQA), most existing questions require single-hop reasoning on commonsense. To further extend this task, we officially introduce open-domain multi-hop reasoning (ODMR) by answering multi-hop questions with explicit reasoning steps in open-domain setting. Recently, large language models (LLMs) have found significant utility in facilitating ODQA without external corpus. Furthermore, chain-of-thought (CoT) prompting boosts the reasoning capability of LLMs to a greater extent with manual or automated paradigms. However, existing automated methods lack of quality assurance, while manual approaches suffer from limited scalability and poor diversity, hindering the capabilities of LLMs. In this paper, we propose Self-prompted Chain-of-Thought (SP-CoT), an automated framework to mass-produce high quality CoTs of LLMs, by LLMs and for LLMs. SP-CoT introduces an automated generation pipeline of high quality ODMR datasets, an adaptive sampler for in-context CoT selection and self-prompted inference via in-context learning. Extensive experiments on four multi-hop question-answering benchmarks show that our proposed SP-CoT not only significantly surpasses the previous SOTA methods on large-scale (175B) LLMs, but also nearly doubles the zero-shot performance of small-scale (13B) LLMs. Further analysis reveals the remarkable capability of SP-CoT to elicit direct and concise intermediate reasoning steps by recalling $\sim$50\% of intermediate answers on MuSiQue-Ans dataset.
翻訳日:2023-10-23 22:24:30 公開日:2023-10-20
# ROSS: レーダーオフロードセマンティックセマンティックセグメンテーション

ROSS: Radar Off-road Semantic Segmentation ( http://arxiv.org/abs/2310.13551v1 )

ライセンス: Link先を確認
Peng Jiang, Srikanth Saripalli(参考訳) オフロード環境における自律ナビゲーションの需要が増大するにつれ、これらの環境を理解するための効果的なソリューションの必要性が重要となる。 本研究では,オフロードシナリオを対象としたRADARデータにおけるセマンティックセグメンテーションの複雑さに直面する。 LIDARデータと既存の注釈付きオフロードLIDARデータセットを用いてRADARラベルを生成し,RADARデータを画像として表現するパイプラインを提案する。 実世界のデータセットで検証された我々の実用的なアプローチは、オフロード環境でのナビゲーションアプリケーションのためのレーダー技術の可能性の基礎となるものです。

As the demand for autonomous navigation in off-road environments increases, the need for effective solutions to understand these surroundings becomes essential. In this study, we confront the inherent complexities of semantic segmentation in RADAR data for off-road scenarios. We present a novel pipeline that utilizes LIDAR data and an existing annotated off-road LIDAR dataset for generating RADAR labels, in which the RADAR data are represented as images. Validated with real-world datasets, our pragmatic approach underscores the potential of RADAR technology for navigation applications in off-road environments.
翻訳日:2023-10-23 22:24:01 公開日:2023-10-20
# 非マルコフ決定過程におけるマルチタスクRLの確率的メリット

Provable Benefits of Multi-task RL under Non-Markovian Decision Making Processes ( http://arxiv.org/abs/2310.13550v1 )

ライセンス: Link先を確認
Ruiquan Huang, Yuan Cheng, Jing Yang, Vincent Tan, Yingbin Liang(参考訳) マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において、複数のMDP間での共用潜伏構造の存在は、シングルタスクRLと比較してサンプル効率に有意な利益をもたらすことが示されている。 本稿では,そのような利点が,部分可観測型mdp (pomdps) やより一般的な予測状態表現 (psr) といった,より一般的な逐次的意思決定問題に拡張できるかどうかを検討する。 ここでの大きな課題は、大規模で複雑なモデル空間が、マルチタスクPSRの一般的な潜在構造の種類が、モデルの複雑さを減らし、サンプル効率を向上させることを困難にしていることである。 この目的のために、タスクの合同モデルクラスを仮定し、その複雑性を定量化するために$\eta$-bracketing numberという概念を用いる。 我々はまず,すべてのタスクが同じ観察空間と行動空間を共有するpsrによる上流マルチタスク学習について検討した。 提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるアルゴリズムであるUTT-PSRを提案する。また,PSRの合同モデルクラスが,個別のシングルタスク学習よりもより小さい$\eta$-bracketing数を持つ場合,マルチタスク学習の利点が現れることを示す。 マルチタスク学習の利点を享受できる小さな$\eta$-bracketing数値を持つマルチタスクPSRの例もいくつか提供する。 さらに,類似性制約によって上流タスクと共通点を持つ新しい対象タスクをエージェントが学習する必要がある下流学習についても検討する。 上流から学習したPSRを利用して、ほぼ最適ポリシーを確実に見つけるサンプル効率のアルゴリズムを開発する。

In multi-task reinforcement learning (RL) under Markov decision processes (MDPs), the presence of shared latent structures among multiple MDPs has been shown to yield significant benefits to the sample efficiency compared to single-task RL. In this paper, we investigate whether such a benefit can extend to more general sequential decision making problems, such as partially observable MDPs (POMDPs) and more general predictive state representations (PSRs). The main challenge here is that the large and complex model space makes it hard to identify what types of common latent structure of multi-task PSRs can reduce the model complexity and improve sample efficiency. To this end, we posit a joint model class for tasks and use the notion of $\eta$-bracketing number to quantify its complexity; this number also serves as a general metric to capture the similarity of tasks and thus determines the benefit of multi-task over single-task RL. We first study upstream multi-task learning over PSRs, in which all tasks share the same observation and action spaces. We propose a provably efficient algorithm UMT-PSR for finding near-optimal policies for all PSRs, and demonstrate that the advantage of multi-task learning manifests if the joint model class of PSRs has a smaller $\eta$-bracketing number compared to that of individual single-task learning. We also provide several example multi-task PSRs with small $\eta$-bracketing numbers, which reap the benefits of multi-task learning. We further investigate downstream learning, in which the agent needs to learn a new target task that shares some commonalities with the upstream tasks via a similarity constraint. By exploiting the learned PSRs from the upstream, we develop a sample-efficient algorithm that provably finds a near-optimal policy.
翻訳日:2023-10-23 22:23:49 公開日:2023-10-20
# 受動的に収集された異なるデータのストレス・抑うつ予測への貢献の分析

Analyzing the contribution of different passively collected data to predict Stress and Depression ( http://arxiv.org/abs/2310.13607v1 )

ライセンス: Link先を確認
Irene Bonafonte, Cristina Bustos, Abraham Larrazolo, Gilberto Lorenzo Martinez Luna, Adolfo Guzman Arenas, Xavier Baro, Isaac Tourgeman, Mercedes Balcells and Agata Lapedriza(参考訳) 受動的に捉えたデータから人間の行動や環境状況の多様な側面を認識できることは、メンタルヘルスアセスメントへの利用を動機付けている。 本稿では,受動的に収集したセンサデータ(Wi-Fi,GPS,ソーシャルインタラクション,電話ログ,身体活動,オーディオ,学術的特徴)を用いて,日々の自己申告ストレスとPHQ-9抑うつスコアの予測を行った。 まず、元の生データから125の中間機能を計算する。 これらの125の機能には、センサーデータタイプの機能のグループが含まれている。 次に,すべての特徴を訓練したニューラルネットワークモデルと,特定の特徴群を訓練したニューラルネットワークモデルの性能を比較することにより,各特徴型の寄与度を評価する。 以上の結果から、WiFi機能(モビリティパターンをエンコードする)とPhone Log機能(睡眠パターンと相関する情報をエンコードする)がストレスやうつ病の予測に有意な情報を提供することがわかった。

The possibility of recognizing diverse aspects of human behavior and environmental context from passively captured data motivates its use for mental health assessment. In this paper, we analyze the contribution of different passively collected sensor data types (WiFi, GPS, Social interaction, Phone Log, Physical Activity, Audio, and Academic features) to predict daily selfreport stress and PHQ-9 depression score. First, we compute 125 mid-level features from the original raw data. These 125 features include groups of features from the different sensor data types. Then, we evaluate the contribution of each feature type by comparing the performance of Neural Network models trained with all features against Neural Network models trained with specific feature groups. Our results show that WiFi features (which encode mobility patterns) and Phone Log features (which encode information correlated with sleep patterns), provide significative information for stress and depression prediction.
翻訳日:2023-10-23 22:14:42 公開日:2023-10-20
# ReLM: 化学反応予測の高速化のための言語モデル

ReLM: Leveraging Language Models for Enhanced Chemical Reaction Prediction ( http://arxiv.org/abs/2310.13590v1 )

ライセンス: Link先を確認
Yaorui Shi, An Zhang, Enzhi Zhang, Zhiyuan Liu, Xiang Wang(参考訳) 化学反応の予測は、化学の基本的な課題であり、与えられた反応過程から得られる生成物を予測することを伴う。 従来の技術、特にグラフニューラルネットワーク(GNN)を採用する技術は、トレーニングデータ不足とテキスト情報の利用が不可能なために制限されることが多く、現実のアプリケーションへの適用性を損なう。 本研究では,言語モデル(LM)に符号化された化学知識を活用してGNNを支援する新しいフレームワークであるReLMを提案し,実世界の化学反応予測の精度を高める。 モデルの堅牢性と解釈可能性をさらに向上するため、信頼性スコア戦略を取り入れ、LMが予測の信頼性を自己評価できるようにする。 実験により,ReLMは様々な化学反応データセット,特に分布外環境において,最先端のGNN法の性能を向上させることが示された。 コードはhttps://github.com/syr-cn/relmで入手できる。

Predicting chemical reactions, a fundamental challenge in chemistry, involves forecasting the resulting products from a given reaction process. Conventional techniques, notably those employing Graph Neural Networks (GNNs), are often limited by insufficient training data and their inability to utilize textual information, undermining their applicability in real-world applications. In this work, we propose ReLM, a novel framework that leverages the chemical knowledge encoded in language models (LMs) to assist GNNs, thereby enhancing the accuracy of real-world chemical reaction predictions. To further enhance the model's robustness and interpretability, we incorporate the confidence score strategy, enabling the LMs to self-assess the reliability of their predictions. Our experimental results demonstrate that ReLM improves the performance of state-of-the-art GNN-based methods across various chemical reaction datasets, especially in out-of-distribution settings. Codes are available at https://github.com/syr-cn/ReLM.
翻訳日:2023-10-23 22:14:25 公開日:2023-10-20
# Tailored Reference を用いた同時機械翻訳

Simultaneous Machine Translation with Tailored Reference ( http://arxiv.org/abs/2310.13588v1 )

ライセンス: Link先を確認
Shoutao Guo, Shaolei Zhang, Yang Feng(参考訳) 同時機械翻訳(SiMT)は、ソース文全体を読みながら翻訳を生成する。 しかし、既存のSiMTモデルは、異なるレイテンシで利用可能な様々なソース情報を無視して、同じ参照を使用して訓練される。 低レイテンシでのモデルトレーニングは強制的な予測をもたらす可能性があるが、高レイテンシでソースワードの順序に一致する参照を使用することでパフォーマンスが低下する。 したがって、高い品質を維持しながらトレーニング中に強制的な予測を避ける適切な参照でsimtモデルを訓練することが重要である。 本稿では,異なるレイテンシでトレーニングされたSiMTモデルに対して,基底構造を表現して参照する手法を提案する。 具体的には,強化学習によって引き起こされるテーラーを用い,テーラード参照に接地を修飾する。 SiMTモデルは、調整された基準で訓練され、性能を高めるために調整器で共同最適化される。 重要な点として,本手法は近年のSiMTの幅広いアプローチに適用可能である。 3つの翻訳課題に関する実験により,本手法は固定ポリシーと適応ポリシーの両方において最先端の性能を達成することを示した。

Simultaneous machine translation (SiMT) generates translation while reading the whole source sentence. However, existing SiMT models are typically trained using the same reference disregarding the varying amounts of available source information at different latency. Training the model with ground-truth at low latency may introduce forced anticipations, whereas utilizing reference consistent with the source word order at high latency results in performance degradation. Consequently, it is crucial to train the SiMT model with appropriate reference that avoids forced anticipations during training while maintaining high quality. In this paper, we propose a novel method that provides tailored reference for the SiMT models trained at different latency by rephrasing the ground-truth. Specifically, we introduce the tailor, induced by reinforcement learning, to modify ground-truth to the tailored reference. The SiMT model is trained with the tailored reference and jointly optimized with the tailor to enhance performance. Importantly, our method is applicable to a wide range of current SiMT approaches. Experiments on three translation tasks demonstrate that our method achieves state-of-the-art performance in both fixed and adaptive policies.
翻訳日:2023-10-23 22:14:09 公開日:2023-10-20
# potloc : 点教師付き時間動作定位のための擬似ラベル指向トランス

POTLoc: Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization ( http://arxiv.org/abs/2310.13585v1 )

ライセンス: Link先を確認
Elahe Vahdani, Yingli Tian(参考訳) 本稿では,1フレームのみをトレーニングセットの各アクションインスタンスにアノテートする点教師付き時間的動作検出の課題に対処する。 現在のメソッドのほとんどは、アノテーション付きポイントのスパースな性質によって妨げられ、アクションの継続的な構造やアクションインスタンス内の固有の時間的およびセマンティックな依存関係を効果的に表現するのに苦労しています。 その結果、これらの手法は単に最も特徴的なアクションのセグメントを学習することも多く、不完全なアクション提案の作成に繋がる。 本稿では,ポイントレベルアノテーションのみを用いた弱教師付き動作定位のための擬似ラベル指向トランスである potloc を提案する。 POTLocは、自己学習戦略を通じて、継続的なアクション構造を特定し、追跡するように設計されている。 ベースモデルは、ポイントレベルの監督のみでアクション提案を生成することから始まります。 これらの提案は、推定された行動境界の精度を高めるために改良と回帰を行い、結果として補助的な監視信号として「擬似ラベル」が生産される。 モデルのアーキテクチャは、トランスフォーマーと時間的特徴ピラミッドを統合して、ビデオスニペットの依存関係と様々な期間のモデルアクションをキャプチャする。 粗い位置と行動の境界に関する情報を提供する擬似ラベルは、行動力学の学習を促進するためのトランスフォーマーの指導を支援する。 POTLOCはTHUMOS'14とActivityNet-v1.2データセットの最先端のポイント管理手法よりも優れており、前者の平均mAPは5%向上している。

This paper tackles the challenge of point-supervised temporal action detection, wherein only a single frame is annotated for each action instance in the training set. Most of the current methods, hindered by the sparse nature of annotated points, struggle to effectively represent the continuous structure of actions or the inherent temporal and semantic dependencies within action instances. Consequently, these methods frequently learn merely the most distinctive segments of actions, leading to the creation of incomplete action proposals. This paper proposes POTLoc, a Pseudo-label Oriented Transformer for weakly-supervised Action Localization utilizing only point-level annotation. POTLoc is designed to identify and track continuous action structures via a self-training strategy. The base model begins by generating action proposals solely with point-level supervision. These proposals undergo refinement and regression to enhance the precision of the estimated action boundaries, which subsequently results in the production of `pseudo-labels' to serve as supplementary supervisory signals. The architecture of the model integrates a transformer with a temporal feature pyramid to capture video snippet dependencies and model actions of varying duration. The pseudo-labels, providing information about the coarse locations and boundaries of actions, assist in guiding the transformer for enhanced learning of action dynamics. POTLoc outperforms the state-of-the-art point-supervised methods on THUMOS'14 and ActivityNet-v1.2 datasets, showing a significant improvement of 5% average mAP on the former.
翻訳日:2023-10-23 22:13:51 公開日:2023-10-20
# subtree-aware word reordering による言語間伝達の改善

Improving Cross-Lingual Transfer through Subtree-Aware Word Reordering ( http://arxiv.org/abs/2310.13583v1 )

ライセンス: Link先を確認
Ofir Arviv, Dmitry Nikolaev, Taelin Karidi and Omri Abend(参考訳) xlm-rやmt5といった多言語モデルの能力は印象的な成長を遂げたものの、タイポロジーに富んだ言語、特に低リソース環境に取り組むと、依然として困難に直面することが示されている。 効果的な言語間伝達の障害の一つは、単語順パターンの可変性である。 ソースまたはターゲット側の単語再順序付けによって、潜在的に軽減することができ、再順序付けに対する多くのアプローチが提案されている。 しかし、それらは言語固有のルールに依存し、POSタグのレベルに取り組み、主節のみをターゲットにし、従属節をそのまま残している。 これらの制約に対処するために,我々は,構文的文脈に条件付けられたきめ細かい単語順パターンを少量の注釈付きデータから学習し,構文木のすべてのレベルに適用可能な,新たな強力な順序変更手法を提案する。 我々は様々なタスクについて実験を行い、異なる言語ペアとモデルアーキテクチャの強いベースラインを一貫して上回っていることを示す。 この性能上の利点はゼロショットシナリオと少数ショットシナリオの両方において当てはまる。

Despite the impressive growth of the abilities of multilingual language models, such as XLM-R and mT5, it has been shown that they still face difficulties when tackling typologically-distant languages, particularly in the low-resource setting. One obstacle for effective cross-lingual transfer is variability in word-order patterns. It can be potentially mitigated via source- or target-side word reordering, and numerous approaches to reordering have been proposed. However, they rely on language-specific rules, work on the level of POS tags, or only target the main clause, leaving subordinate clauses intact. To address these limitations, we present a new powerful reordering method, defined in terms of Universal Dependencies, that is able to learn fine-grained word-order patterns conditioned on the syntactic context from a small amount of annotated data and can be applied at all levels of the syntactic tree. We conduct experiments on a diverse set of tasks and show that our method consistently outperforms strong baselines over different language pairs and model architectures. This performance advantage holds true in both zero-shot and few-shot scenarios.
翻訳日:2023-10-23 22:13:23 公開日:2023-10-20
# spare: リレーショナルデータベースのための単一パスニューラルモデル

SPARE: A Single-Pass Neural Model for Relational Databases ( http://arxiv.org/abs/2310.13581v1 )

ライセンス: Link先を確認
Benjamin Hilprecht, Kristian Kersting and Carsten Binnig(参考訳) 画像やテキストのディープニューラルネットワークに関する広範な研究は行われているが、リレーショナルデータベース(RDB)のディープラーニングはいまだに未調査の分野である。 最近注目を集めた方向の1つは、グラフニューラルネットワーク(gnns)をrbdsに適用することである。 しかし、大規模リレーショナルデータベース(例えば、複数のデータベーステーブルに格納されたデータ)でのGNNのトレーニングは、複数の訓練ラウンドと潜在的に大きく非効率な表現のために、かなり非効率である。 そこで本論文では,rdb上で効率的に学習でき,gnnと類似した精度を持つニューラルモデルであるspare (single-pass relational models)を提案する。 GNNとは異なる効率的なトレーニングを可能にするため、SPAREでは、RDB内のデータが正規構造であるため、同時に対称性を活用しながら、これらのモデルを単一のパスでトレーニングすることが可能である。 広範な経験的評価の結果,spareはトレーニングと推論の両方を著しくスピードアップし,多数のベースライン上での競合予測性能を提供することができた。

While there has been extensive work on deep neural networks for images and text, deep learning for relational databases (RDBs) is still a rather unexplored field. One direction that recently gained traction is to apply Graph Neural Networks (GNNs) to RBDs. However, training GNNs on large relational databases (i.e., data stored in multiple database tables) is rather inefficient due to multiple rounds of training and potentially large and inefficient representations. Hence, in this paper we propose SPARE (Single-Pass Relational models), a new class of neural models that can be trained efficiently on RDBs while providing similar accuracies as GNNs. For enabling efficient training, different from GNNs, SPARE makes use of the fact that data in RDBs has a regular structure, which allows one to train these models in a single pass while exploiting symmetries at the same time. Our extensive empirical evaluation demonstrates that SPARE can significantly speedup both training and inference while offering competitive predictive performance over numerous baselines.
翻訳日:2023-10-23 22:13:01 公開日:2023-10-20
# 因果発見のためのモデルベース強化学習を用いたDAG空間における木探索

Tree Search in DAG Space with Model-based Reinforcement Learning for Causal Discovery ( http://arxiv.org/abs/2310.13576v1 )

ライセンス: Link先を確認
Victor-Alexandru Darvariu, Stephen Hailes, Mirco Musolesi(参考訳) 因果構造を特定することは、戦略的な意思決定から生物学や経済学まで、様々な分野の中心である。 本研究では,有向非巡回グラフを漸進的に構築する木探索に基づく因果探索のためのモデルベース強化学習手法を提案する。 また,DAG空間のより深い離散的な探索とサンプリングを可能にするエッジを除外する効率的なアルゴリズムの妥当性を定式化し,証明する。 我々は,2つの実世界の課題に対するアプローチを評価し,最先端のモデルフリー手法や欲求探索よりもはるかに優れた性能を実現し,組み合わせ手法の有望な進歩を図った。

Identifying causal structure is central to many fields ranging from strategic decision-making to biology and economics. In this work, we propose a model-based reinforcement learning method for causal discovery based on tree search, which builds directed acyclic graphs incrementally. We also formalize and prove the correctness of an efficient algorithm for excluding edges that would introduce cycles, which enables deeper discrete search and sampling in DAG space. We evaluate our approach on two real-world tasks, achieving substantially better performance than the state-of-the-art model-free method and greedy search, constituting a promising advancement for combinatorial methods.
翻訳日:2023-10-23 22:12:40 公開日:2023-10-20
# テキストからSQLへのパーシングのための質問とSQLのセマンティック分解

Semantic Decomposition of Question and SQL for Text-to-SQL Parsing ( http://arxiv.org/abs/2310.13575v1 )

ライセンス: Link先を確認
Ben Eyal, Amir Bachar, Ophir Haroche, Moran Mahabi, Michael Elhadad(参考訳) テキストからSQLへのセマンティック解析は、クロスドメインおよび複雑なクエリへの一般化において課題に直面している。 最近の研究では、複雑なSQLクエリのパースを強化するために、質問分解戦略を採用している。 しかし、この戦略は2つの大きな障害に直面する: (1) 既存のデータセットには疑問の分解がない; (2) SQLの構文上の複雑さのため、ほとんどの複雑なクエリは簡単に再コンパイルできるサブクエリに切り離せない。 これらの課題に対処するため,我々は,sqlクエリを単純かつ正規なサブクエリに体系的に分解するモジュール型クエリプラン言語 (qpl) を提案する。 我々はSQLサーバクエリ最適化計画の分析を利用してSQLからQPLへのトランスレータを開発し、QPLプログラムでスパイダーデータセットを増強する。 実験の結果,QPLのモジュール性は既存のセマンティックパーシングアーキテクチャの恩恵を受けており,テキスト対QPLパーサのトレーニングは意味論的に等価なクエリに対するテキスト対SQLパーシングよりも効果的であることがわかった。 qplアプローチには2つの利点がある。 (1) qplプログラムは単純な質問としてパラフレーズすることができ、(複雑な質問、分解された質問)データセットを作成することができる。 このデータセットのトレーニングでは、データベーススキーマに敏感なデータ検索のための質問分解器を得る。 2) QPLは、複雑なクエリの非専門家によりアクセスしやすく、セマンティックパーサからのより解釈可能な出力をもたらす。

Text-to-SQL semantic parsing faces challenges in generalizing to cross-domain and complex queries. Recent research has employed a question decomposition strategy to enhance the parsing of complex SQL queries. However, this strategy encounters two major obstacles: (1) existing datasets lack question decomposition; (2) due to the syntactic complexity of SQL, most complex queries cannot be disentangled into sub-queries that can be readily recomposed. To address these challenges, we propose a new modular Query Plan Language (QPL) that systematically decomposes SQL queries into simple and regular sub-queries. We develop a translator from SQL to QPL by leveraging analysis of SQL server query optimization plans, and we augment the Spider dataset with QPL programs. Experimental results demonstrate that the modular nature of QPL benefits existing semantic-parsing architectures, and training text-to-QPL parsers is more effective than text-to-SQL parsing for semantically equivalent queries. The QPL approach offers two additional advantages: (1) QPL programs can be paraphrased as simple questions, which allows us to create a dataset of (complex question, decomposed questions). Training on this dataset, we obtain a Question Decomposer for data retrieval that is sensitive to database schemas. (2) QPL is more accessible to non-experts for complex queries, leading to more interpretable output from the semantic parser.
翻訳日:2023-10-23 22:12:28 公開日:2023-10-20
# 一般化乳癌切除のための進行性デュアルプリオリネットワーク

Progressive Dual Priori Network for Generalized Breast Tumor Segmentation ( http://arxiv.org/abs/2310.13574v1 )

ライセンス: Link先を確認
Li Wang, Lihui Wang, Zixiang Kuai, Lei Tang, Yingfeng Ou, Chen Ye, Yuemin Zhu(参考訳) 乳腺腫瘍セグメント化モデルの一般化能力の向上と,より小型で低コントラストのアンダー不規則形状の乳腺腫瘍に対するセグメンテーション性能の向上を目的として,異なる部位で取得したダイナミックエンハンスメント磁気共鳴画像(DCE-MRI)から乳房腫瘍を分割するプログレッシブデュアルプライオリティネットワーク(PDPNet)を提案する。 PDPNetは,まず粗いセグメンテーションをベースとした局在モジュールを持つ腫瘍領域を収穫し,弱いセマンティックオーディションとクロススケール相関により乳房腫瘍マスクを徐々に改良した。 PDPNetの有効性を検証するため,マルチセンタデータセット上での最先端手法との比較を行った。 その結果, PDPNetのDSC, SEN, KAPPA, HD95は, それぞれ3.63\%, 8.19\%, 5.52\%, 3.66\%の改善が見られた。 さらに,提案する局在化モジュールが正常組織の影響を減少させ,モデルの一般化能力を向上させることを実証した。 弱いセマンティクス優先は、腫瘍領域に集中することで、小腫瘍や低コントラスト腫瘍の欠如を避けることができる。 クロススケール相関は,非切除性腫瘍の形状認識能の促進に有用である。 これにより,乳腺腫瘍のマルチセンターセグメンテーション性能が向上した。

To promote the generalization ability of breast tumor segmentation models, as well as to improve the segmentation performance for breast tumors with smaller size, low-contrast amd irregular shape, we propose a progressive dual priori network (PDPNet) to segment breast tumors from dynamic enhanced magnetic resonance images (DCE-MRI) acquired at different sites. The PDPNet first cropped tumor regions with a coarse-segmentation based localization module, then the breast tumor mask was progressively refined by using the weak semantic priori and cross-scale correlation prior knowledge. To validate the effectiveness of PDPNet, we compared it with several state-of-the-art methods on multi-center datasets. The results showed that, comparing against the suboptimal method, the DSC, SEN, KAPPA and HD95 of PDPNet were improved 3.63\%, 8.19\%, 5.52\%, and 3.66\% respectively. In addition, through ablations, we demonstrated that the proposed localization module can decrease the influence of normal tissues and therefore improve the generalization ability of the model. The weak semantic priors allow focusing on tumor regions to avoid missing small tumors and low-contrast tumors. The cross-scale correlation priors are beneficial for promoting the shape-aware ability for irregual tumors. Thus integrating them in a unified framework improved the multi-center breast tumor segmentation performance.
翻訳日:2023-10-23 22:12:02 公開日:2023-10-20
# 指紋活度検出のための適応スタイル手法によるブースティング一般化

Boosting Generalization with Adaptive Style Techniques for Fingerprint Liveness Detection ( http://arxiv.org/abs/2310.13573v1 )

ライセンス: Link先を確認
Kexin Zhu, Bo Lin, Yang Qiu, Adam Yule, Yao Tang, Jiajun Liang(参考訳) 本稿では,LivDet 2023 Fingerprint Representation Challengeにおいて,指紋の鮮明な特徴抽出技術を紹介した。 さらに94.68%の精度で実用的な指紋認識システムを開発し,LivDet 2023 Liveness Detection in Actionの2位を獲得した。 各種手法,特にスタイル転送を調査することにより,限られたトレーニングデータに直面する場合の精度の向上と一般化を実証する。 その結果,LivDet 2023 Challengesで最先端の性能を達成した。

We introduce a high-performance fingerprint liveness feature extraction technique that secured first place in LivDet 2023 Fingerprint Representation Challenge. Additionally, we developed a practical fingerprint recognition system with 94.68% accuracy, earning second place in LivDet 2023 Liveness Detection in Action. By investigating various methods, particularly style transfer, we demonstrate improvements in accuracy and generalization when faced with limited training data. As a result, our approach achieved state-of-the-art performance in LivDet 2023 Challenges.
翻訳日:2023-10-23 22:11:33 公開日:2023-10-20
# hunayn: リテラルを越えた翻訳の促進

Hunayn: Elevating Translation Beyond the Literal ( http://arxiv.org/abs/2310.13613v1 )

ライセンス: Link先を確認
Nasser Almousa, Nasser Alzamil, Abdullah Alshehri and Ahmad Sait(参考訳) このプロジェクトでは、従来のツールを超越した英語からアラビア語への翻訳が導入された。 ヘルシンキ変圧器(marianmt)を活用することで、自制的で純粋にアラビア語のデータセットを微調整する手法を提案する。 Google Translateに対する評価は質的な評価において一貫した性能を示す。 特に文化の感度と文脈の正確さに優れている。 本研究は、フシャデータセットを用いた英語とアラビア語の翻訳においてヘルシンキ変換器の優位性を裏付けるものである。

This project introduces an advanced English-to-Arabic translator surpassing conventional tools. Leveraging the Helsinki transformer (MarianMT), our approach involves fine-tuning on a self-scraped, purely literary Arabic dataset. Evaluations against Google Translate show consistent outperformance in qualitative assessments. Notably, it excels in cultural sensitivity and context accuracy. This research underscores the Helsinki transformer's superiority for English-to-Arabic translation using a Fusha dataset.
翻訳日:2023-10-23 22:06:00 公開日:2023-10-20
# 決断を納得させろ! 統一二段階フレームワーク:自己帰属と意思決定

Make Your Decision Convincing! A Unified Two-Stage Framework: Self-Attribution and Decision-Making ( http://arxiv.org/abs/2310.13610v1 )

ライセンス: Link先を確認
Yanrui Du, Sendong Zhao, Haochun Wang, Yuhan Chen, Rui Bai, Zewen Qiang, Muzhen Cai, Bing Qin(参考訳) 自然言語によるブラックボックスモデル動作の説明は、様々なNLPタスクにおいて印象的な結果を得た。 最近の研究は、入力テキストからのサブシーケンスの利用を根拠として研究しており、ユーザーにモデル決定を支持する証拠を提供する。 既存のフレームワークは、高いタスクパフォーマンスを実現しながら、高品質な合理性を生み出すのに優れていますが、生成された合理性とモデル決定との信頼できないつながりを考慮に入れません。 単純な言い方をすれば、モデルは間違った合理性を帰着しながら正しい判断をしたり、正しい合理性を帰着しながら下手な判断をしたりすることができる。 この問題を軽減するため,我々は,自己帰属と意思決定(sadm)として知られる統一二段階フレームワークを提案する。 eraserベンチマークから5つの推論データセットを広範囲に実験した結果,本フレームワークは生成した論理とモデル決定とのより信頼性の高いリンクを確立するだけでなく,タスク性能と論理の質において競争的な結果をもたらすことを実証した。 さらに, 半教師付きシナリオにおけるフレームワークの可能性についても検討する。

Explaining black-box model behavior with natural language has achieved impressive results in various NLP tasks. Recent research has explored the utilization of subsequences from the input text as a rationale, providing users with evidence to support the model decision. Although existing frameworks excel in generating high-quality rationales while achieving high task performance, they neglect to account for the unreliable link between the generated rationale and model decision. In simpler terms, a model may make correct decisions while attributing wrong rationales, or make poor decisions while attributing correct rationales. To mitigate this issue, we propose a unified two-stage framework known as Self-Attribution and Decision-Making (SADM). Through extensive experiments on five reasoning datasets from the ERASER benchmark, we demonstrate that our framework not only establishes a more reliable link between the generated rationale and model decision but also achieves competitive results in task performance and the quality of rationale. Furthermore, we explore the potential of our framework in semi-supervised scenarios.
翻訳日:2023-10-23 22:05:52 公開日:2023-10-20
# multitude: 大規模多言語機械生成テキスト検出ベンチマーク

MULTITuDE: Large-Scale Multilingual Machine-Generated Text Detection Benchmark ( http://arxiv.org/abs/2310.13606v1 )

ライセンス: Link先を確認
Dominik Macko, Robert Moro, Adaku Uchendu, Jason Samuel Lucas, Michiharu Yamashita, Mat\'u\v{s} Pikuliak, Ivan Srba, Thai Le, Dongwon Lee, Jakub Simko, Maria Bielikova(参考訳) 英語以外の言語で説得力のあるテキストを生成する最近のllmの能力や、多言語環境で機械生成テキストの検出性能に関する研究が不足している。 これは、英語以外の言語で真正のテキストがなく、主に古いジェネレータをカバーする利用可能なベンチマークにも反映されている。 このギャップを埋めるために,多言語 LLM が生成する 11 言語 (ar, ca, cs, de, en, es, nl, pt, ru, uk, zh) で,74,081 個の認証および機械生成テキストからなる,多言語機械生成テキスト検出のためのベンチマークデータセットである MultiTuDE を導入する。 このベンチマークを用いてゼロショット(統計的およびブラックボックス)と微調整検出器の性能を比較する。 多言語性を考えると 1) これらの検出器の一般化方法(言語学的に類似しており、異種と類似している)と未知のLLM 2) 複数の言語で学習すると,検出器の性能が向上する。

There is a lack of research into capabilities of recent LLMs to generate convincing text in languages other than English and into performance of detectors of machine-generated text in multilingual settings. This is also reflected in the available benchmarks which lack authentic texts in languages other than English and predominantly cover older generators. To fill this gap, we introduce MULTITuDE, a novel benchmarking dataset for multilingual machine-generated text detection comprising of 74,081 authentic and machine-generated texts in 11 languages (ar, ca, cs, de, en, es, nl, pt, ru, uk, and zh) generated by 8 multilingual LLMs. Using this benchmark, we compare the performance of zero-shot (statistical and black-box) and fine-tuned detectors. Considering the multilinguality, we evaluate 1) how these detectors generalize to unseen languages (linguistically similar as well as dissimilar) and unseen LLMs and 2) whether the detectors improve their performance when trained on multiple languages.
翻訳日:2023-10-23 22:05:33 公開日:2023-10-20
# FMRT:Reconciliatory Transformerによる正確な特徴マッチング学習

FMRT: Learning Accurate Feature Matching with Reconciliatory Transformer ( http://arxiv.org/abs/2310.13605v1 )

ライセンス: Link先を確認
Xinyu Zhang, Li Wang, Zhiqiang Jiang, Kun Dai, Tao Xie, Lei Yang, Wenhao Yu, Yang Shen, Jun Li(参考訳) 局所的特徴マッチングは、複数のコンピュータビジョンタスク(例えば、動きからの構造や視覚の局所化)において不可欠なコンポーネントであり、トランスフォーマティブベースの手法によって効果的に解決されている。 しかし、これらの手法はキーポイント間の長距離コンテキスト情報のみを固定受容野と統合し、異なる受容野による特徴の重要性の調整を制約し、完全な画像認識を実現するため、マッチング精度が制限される。 さらに、従来の手作りエンコーディング手法を用いて、キーポイントの位置情報をビジュアル記述子に統合し、信頼性の高い位置エンコーディングメッセージを抽出するネットワークの能力を制限する。 本研究では,複数の受容場と異なる特徴を適応的に照合し,並列ネットワークを用いて信頼性の高い位置符号化を実現するFMRT(Feature Matching with Reconciliatory Transformer)を提案する。 具体的には、異なる受容領域を持つ視覚記述子を抽出し、様々なスケールでグローバルコンテキスト情報を統合するためのGPAL(Global Perception Attention Layer)と、様々な受容領域の重要性を適応的に測定するPWL(Perception Weight Layer)と、深い集約された局所特徴表現を抽出するローカル知覚フィードフォワードネットワーク(LPFFN)からなる専用のReconciliatory Transformer(RecFormer)を提案する。 FMRTは、ポーズ推定、視覚的ローカライゼーション、ホモグラフィー推定、画像マッチングなど、複数のベンチマークで異常な性能を示す。

Local Feature Matching, an essential component of several computer vision tasks (e.g., structure from motion and visual localization), has been effectively settled by Transformer-based methods. However, these methods only integrate long-range context information among keypoints with a fixed receptive field, which constrains the network from reconciling the importance of features with different receptive fields to realize complete image perception, hence limiting the matching accuracy. In addition, these methods utilize a conventional handcrafted encoding approach to integrate the positional information of keypoints into the visual descriptors, which limits the capability of the network to extract reliable positional encoding message. In this study, we propose Feature Matching with Reconciliatory Transformer (FMRT), a novel Transformer-based detector-free method that reconciles different features with multiple receptive fields adaptively and utilizes parallel networks to realize reliable positional encoding. Specifically, FMRT proposes a dedicated Reconciliatory Transformer (RecFormer) that consists of a Global Perception Attention Layer (GPAL) to extract visual descriptors with different receptive fields and integrate global context information under various scales, Perception Weight Layer (PWL) to measure the importance of various receptive fields adaptively, and Local Perception Feed-forward Network (LPFFN) to extract deep aggregated multi-scale local feature representation. Extensive experiments demonstrate that FMRT yields extraordinary performance on multiple benchmarks, including pose estimation, visual localization, homography estimation, and image matching.
翻訳日:2023-10-23 22:05:12 公開日:2023-10-20
# スケール依存モデルを用いたトランスフォーマネットワークによる皮膚病変分割の改善

Skin Lesion Segmentation Improved by Transformer-based Networks with Inter-scale Dependency Modeling ( http://arxiv.org/abs/2310.13604v1 )

ライセンス: Link先を確認
Sania Eskandari, Janet Lumpp, Luis Sanchez Giraldo(参考訳) 異常な皮膚細胞増殖に起因する危険な皮膚がんであるメラノーマは、早期に検出された場合に治療することができる。 完全畳み込みネットワーク(fcns)を用いた様々なアプローチが提案されており、u-netアーキテクチャは自動的に皮膚病変を分割することで診断を支援する。 しかし、対称 u-net モデルの畳み込み操作への依存は、正確な医療画像のセグメンテーションに必須の長距離依存性を捉える能力を妨げる。 TransformerベースのいくつかのU-Netトポロジが最近作成され、ローカルおよびグローバル表現をキャプチャするために、CNNブロックを異なるTransformerモジュールに置き換えることで、この制限を克服している。 さらに、U字型構造はエンコーダとデコーダのセマンティックギャップによって妨げられる。 本研究は,スキップ接続経路を慎重に構築することにより,ネットワークの機能再利用性を高めることを目的としている。 スキップ接続経路に既に計算済みの注意親和性を統合することにより、従来のスキップ接続経路で使用される典型的な連結プロセスが改善される。 そこで,本研究では,皮膚病変分割のためのu字型階層的トランスフォーマー構造と,エンコーダの各段階における注意相関を用いて,各段階のコンテキストを適応的に結合して意味的ギャップを緩和するiscf法を提案する。 2つの皮膚病変セグメンテーションベンチマークの結果は、ISCFモジュールの適用性と有効性を支持している。 コードは \url{https://github.com/saniaesk/skin-lesion-segmentation} で公開されている。

Melanoma, a dangerous type of skin cancer resulting from abnormal skin cell growth, can be treated if detected early. Various approaches using Fully Convolutional Networks (FCNs) have been proposed, with the U-Net architecture being prominent To aid in its diagnosis through automatic skin lesion segmentation. However, the symmetrical U-Net model's reliance on convolutional operations hinders its ability to capture long-range dependencies crucial for accurate medical image segmentation. Several Transformer-based U-Net topologies have recently been created to overcome this limitation by replacing CNN blocks with different Transformer modules to capture local and global representations. Furthermore, the U-shaped structure is hampered by semantic gaps between the encoder and decoder. This study intends to increase the network's feature re-usability by carefully building the skip connection path. Integrating an already calculated attention affinity within the skip connection path improves the typical concatenation process utilized in the conventional skip connection path. As a result, we propose a U-shaped hierarchical Transformer-based structure for skin lesion segmentation and an Inter-scale Context Fusion (ISCF) method that uses attention correlations in each stage of the encoder to adaptively combine the contexts from each stage to mitigate semantic gaps. The findings from two skin lesion segmentation benchmarks support the ISCF module's applicability and effectiveness. The code is publicly available at \url{https://github.com/saniaesk/skin-lesion-segmentation}
翻訳日:2023-10-23 22:04:38 公開日:2023-10-20
# マルチモードファイバによるランダム測定による光の量子状態の分類

Classification of quantum states of light using random measurements through a multimode fiber ( http://arxiv.org/abs/2310.13599v1 )

ライセンス: Link先を確認
Saroch Leedumrongwatthanakun, Luca Innocenti, Alessandro Ferraro, Mauro Paternostro, Sylvain Gigan(参考訳) 未知の量子状態に関する有意な情報をフルトモグラフィなしで抽出することは重要な課題である。 低次元の投影とランダムな測定はそのような洞察を与えるが、通常は注意深い工法を必要とする。 本稿では,マルチモードファイバを介して未知の入力状態を送信し,2点強度と同時測定を行う光学スキームを提案する。 短絡多モードファイバは空間領域におけるランダムプロジェクションを効果的に実施し、長分散多モードファイバは空間及びスペクトルプロジェクションを実行する。 本研究では,光電流の統計特性と2つの出力間の相関を未知のランダム射影の多数の実現で測定することにより,スペクトルに絡み合った二光子状態を含む光の諸状態の純度,次元性,非識別性などの有用性を実験的に示す。 さらに,この情報を状態分類に使用できることを示す。

Extracting meaningful information about unknown quantum states without performing a full tomography is an important task. Low-dimensional projections and random measurements can provide such insight but typically require careful crafting. In this paper, we present an optical scheme based on sending unknown input states through a multimode fiber and performing two-point intensity and coincidence measurements. A short multimode fiber implements effectively a random projection in the spatial domain, while a long-dispersive multimode fiber performs a spatial and spectral projection. We experimentally show that useful properties -- i.e., the purity, dimensionality, and degree of indistinguishability -- of various states of light including spectrally entangled biphoton states, can be obtained by measuring statistical properties of photocurrents and their correlation between two outputs over many realizations of unknown random projections. Moreover, we show that this information can then be used for state classification.
翻訳日:2023-10-23 22:04:11 公開日:2023-10-20
# marinegpt:海洋の秘密を一般公開する

MarineGPT: Unlocking Secrets of Ocean to the Public ( http://arxiv.org/abs/2310.13596v1 )

ライセンス: Link先を確認
Ziqiang Zheng and Jipeng Zhang and Tuan-Anh Vu and Shizhe Diao and Yue Him Wong Tim and Sai-Kit Yeung(参考訳) ChatGPT/GPT-4のような大規模言語モデル(LLM)は、AIアシスタントとしてのユーザエクスペリエンスを促進する強力なツールであることが証明されている。 連続的な作業はMLLM(Multi-modal large language model)の提案であり、共同意味空間(例えば、ビジュアルテキスト空間)を構築することで複数のモーダル入力を検知する能力を持つLLMの強化である。 LLM や MLLM では大きな成功を収めたが、ドメイン固有の知識と専門知識を必要とするドメイン固有のアプリケーションにおける LLM や MLLM の探索は、特に \textbf{marine ドメインでは、あまり行われていない。 汎用MLLMとは異なり、海洋固有のMLLMは、より多くの \textbf{sensitive} 、 \textbf{informative} 、 \textbf{scientific} 応答を得る必要がある。 本研究は,既存のMLLMが大量の汎用トレーニングデータに最適化されていることを実証し,ドメイン固有の意図を最小限に理解し,情報的かつ満足な応答を生成することを示した。 これらの問題に対処するために,海洋ドメイン用に特別に設計された最初の視覚言語モデルである \textbf{MarineGPT} を提案する。 我々は,500万以上の海洋画像テキストペアを用いて,我々のモデルにドメイン固有の海洋知識を注入し,より優れた海洋ビジョンと言語アライメントを実現する。 私たちのMarineGPTは、海洋理解の境界を一般大衆に広めるだけでなく、汎用アシスタントを下流ドメインの専門家に適応するための標準プロトコルも提供しています。 学術分野と産業分野の両方における今後の研究のための貴重なデータと事前訓練されたモデルを設定しながら、幅広い海洋応用への道を開く。

Large language models (LLMs), such as ChatGPT/GPT-4, have proven to be powerful tools in promoting the user experience as an AI assistant. The continuous works are proposing multi-modal large language models (MLLM), empowering LLMs with the ability to sense multiple modality inputs through constructing a joint semantic space (e.g. visual-text space). Though significant success was achieved in LLMs and MLLMs, exploring LLMs and MLLMs in domain-specific applications that required domain-specific knowledge and expertise has been less conducted, especially for \textbf{marine domain}. Different from general-purpose MLLMs, the marine-specific MLLM is required to yield much more \textbf{sensitive}, \textbf{informative}, and \textbf{scientific} responses. In this work, we demonstrate that the existing MLLMs optimized on huge amounts of readily available general-purpose training data show a minimal ability to understand domain-specific intents and then generate informative and satisfactory responses. To address these issues, we propose \textbf{MarineGPT}, the first vision-language model specially designed for the marine domain, unlocking the secrets of the ocean to the public. We present our \textbf{Marine-5M} dataset with more than 5 million marine image-text pairs to inject domain-specific marine knowledge into our model and achieve better marine vision and language alignment. Our MarineGPT not only pushes the boundaries of marine understanding to the general public but also offers a standard protocol for adapting a general-purpose assistant to downstream domain-specific experts. We pave the way for a wide range of marine applications while setting valuable data and pre-trained models for future research in both academic and industrial communities.
翻訳日:2023-10-23 22:03:55 公開日:2023-10-20
# 絡み合った選好:強化学習の歴史とリスクと人間のフィードバック

Entangled Preferences: The History and Risks of Reinforcement Learning and Human Feedback ( http://arxiv.org/abs/2310.13595v1 )

ライセンス: Link先を確認
Nathan Lambert and Thomas Krendl Gilbert and Tom Zick(参考訳) 人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)をより使いやすく、効果的にするための強力なテクニックとして登場した。 RLHFプロセスの中核は、最適化のための報酬関数として機能する人間の好みのモデルのトレーニングと利用である。 このアプローチは、多くの利害関係者と学術分野の交点で運用されているが、いまだによく分かっていない。 RLHF報酬モデルはしばしばパフォーマンスの達成の中心として言及されるが、能力、評価、トレーニング方法、オープンソースのモデルに関する記述はごくわずかである。 このような情報がないため、学習したRLHF報酬モデルにはさらなる研究と透明性が必要である。 本稿では,プライオリティを最適化する複雑な歴史と,報酬モデルの社会学的文脈を理解するための問合せの要点について述べる。 特に、RLHFの基礎におけるコスト、報酬、嗜好のオントロジ的差異、関連する方法論的緊張、および報酬モデルがどのように機能するかの一般的な理解を改善するための研究の方向性について強調する。

Reinforcement learning from human feedback (RLHF) has emerged as a powerful technique to make large language models (LLMs) easier to use and more effective. A core piece of the RLHF process is the training and utilization of a model of human preferences that acts as a reward function for optimization. This approach, which operates at the intersection of many stakeholders and academic disciplines, remains poorly understood. RLHF reward models are often cited as being central to achieving performance, yet very few descriptors of capabilities, evaluations, training methods, or open-source models exist. Given this lack of information, further study and transparency is needed for learned RLHF reward models. In this paper, we illustrate the complex history of optimizing preferences, and articulate lines of inquiry to understand the sociotechnical context of reward models. In particular, we highlight the ontological differences between costs, rewards, and preferences at stake in RLHF's foundations, related methodological tensions, and possible research directions to improve general understanding of how reward models function.
翻訳日:2023-10-23 22:03:21 公開日:2023-10-20
# 長距離コンテキスト化マスク自動エンコーダ

Longer-range Contextualized Masked Autoencoder ( http://arxiv.org/abs/2310.13593v1 )

ライセンス: Link先を確認
Taekyung Kim, Sanghyuk Chun, Byeongho Heo, Dongyoon Han(参考訳) Masked Image Modeling (MIM)は、有望な自己教師型学習(SSL)戦略として登場した。 MIMプリトレーニングは、いくつかの入力ピクセルをランダムにマスキングし、残りのピクセルからマスクされたピクセルを再構成することにより、エンコーダデコーダフレームワークを使用して強力な表現の学習を容易にする。 しかし、エンコーダは部分画素で訓練されるため、MIM事前学習は長距離依存を理解する能力が低い。 この制限は、複数の範囲の依存関係を完全に理解する能力を妨げる可能性があるため、注意マップ内の狭い強調領域が精度低下を引き起こす可能性がある。 この制限を軽減するために,Longer-range Contextualized Masked Autoencoder (LC-MAE) という自己教師型学習フレームワークを提案する。 LC-MAEは、視覚表現のグローバルなコンテキスト理解を効果的に活用し、同時に入力の空間的冗長性を低減します。 本手法は,複数ビューで全画素から学習すると同時に,スパース画素から局所表現を学習する。 その結果、LC-MAEはより差別的な表現を学習し、画像Net-1K上のVT-Bで84.2%のトップ-1の精度を達成する性能が0.6%向上した。 特異値スペクトルと注意分析によって証明されるように,改良事前学習法の成功を特徴付ける。 最後に、LC-MAEは、下流セマンティックセマンティックセグメンテーションときめ細かい視覚的分類タスク、および多様なロバストな評価指標において、大幅な性能向上を達成する。 私たちのコードは公開されます。

Masked image modeling (MIM) has emerged as a promising self-supervised learning (SSL) strategy. The MIM pre-training facilitates learning powerful representations using an encoder-decoder framework by randomly masking some input pixels and reconstructing the masked pixels from the remaining ones. However, as the encoder is trained with partial pixels, the MIM pre-training can suffer from a low capability of understanding long-range dependency. This limitation may hinder its capability to fully understand multiple-range dependencies, resulting in narrow highlighted regions in the attention map that may incur accuracy drops. To mitigate the limitation, We propose a self-supervised learning framework, named Longer-range Contextualized Masked Autoencoder (LC-MAE). LC-MAE effectively leverages a global context understanding of visual representations while simultaneously reducing the spatial redundancy of input at the same time. Our method steers the encoder to learn from entire pixels in multiple views while also learning local representation from sparse pixels. As a result, LC-MAE learns more discriminative representations, leading to a performance improvement of achieving 84.2% top-1 accuracy with ViT-B on ImageNet-1K with 0.6%p gain. We attribute the success to the enhanced pre-training method, as evidenced by the singular value spectrum and attention analyses. Finally, LC-MAE achieves significant performance gains at the downstream semantic segmentation and fine-grained visual classification tasks; and on diverse robust evaluation metrics. Our code will be publicly available.
翻訳日:2023-10-23 22:03:02 公開日:2023-10-20
# コントラスト・プレフェンス・ラーニング:RLのない人間のフィードバックから学ぶ

Contrastive Prefence Learning: Learning from Human Feedback without RL ( http://arxiv.org/abs/2310.13639v1 )

ライセンス: Link先を確認
Joey Hejna, Rafael Rafailov, Harshit Sikchi, Chelsea Finn, Scott Niekum, W. Bradley Knox, Dorsa Sadigh(参考訳) Reinforcement Learning from Human Feedback (RLHF) は、モデルを人間の意図に合わせるための一般的なパラダイムとして登場した。 第一に、人間の好みを使って報酬関数を学習し、第二に、強化学習(rl)によって学習した報酬を最適化することでモデルを調整します。 このパラダイムは、人間の嗜好は報酬に応じて分配されると仮定するが、最近の研究は、ユーザーの最適なポリシーの下で後悔に従うことを示唆している。 したがって、フィードバックから報酬関数を学習することは、人間の好みの欠陥の仮定に基づくだけでなく、ポリシーの勾配やrlフェーズでのブートストラップに起因する不利な最適化課題につながる。 これらの最適化の課題により、現代のRLHF法は文脈的帯域設定(例えば、大きな言語モデル)や観測次元(例えば、状態に基づくロボット工学)に制限される。 我々は,人間の嗜好の後悔に基づくモデルを用いて,人間のフィードバックから行動の最適化を行うアルゴリズムを新たに導入することで,これらの制限を克服する。 最大エントロピーの原理を用いて、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL) を導出し、RLの必要性を回避する。 CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。 これにより、CPLは従来の方法よりも単純でありながら、高次元およびシーケンシャルなRLHF問題にエレガントにスケールすることができる。

Reinforcement Learning from Human Feedback (RLHF) has emerged as a popular paradigm for aligning models with human intent. Typically RLHF algorithms operate in two phases: first, use human preferences to learn a reward function and second, align the model by optimizing the learned reward via reinforcement learning (RL). This paradigm assumes that human preferences are distributed according to reward, but recent work suggests that they instead follow the regret under the user's optimal policy. Thus, learning a reward function from feedback is not only based on a flawed assumption of human preference, but also leads to unwieldy optimization challenges that stem from policy gradients or bootstrapping in the RL phase. Because of these optimization challenges, contemporary RLHF methods restrict themselves to contextual bandit settings (e.g., as in large language models) or limit observation dimensionality (e.g., state-based robotics). We overcome these limitations by introducing a new family of algorithms for optimizing behavior from human feedback using the regret-based model of human preferences. Using the principle of maximum entropy, we derive Contrastive Preference Learning (CPL), an algorithm for learning optimal policies from preferences without learning reward functions, circumventing the need for RL. CPL is fully off-policy, uses only a simple contrastive objective, and can be applied to arbitrary MDPs. This enables CPL to elegantly scale to high-dimensional and sequential RLHF problems while being simpler than prior methods.
翻訳日:2023-10-23 21:53:58 公開日:2023-10-20
# 2光子駆動Kerr共振器における1次及び2次散逸相転移の観測

Observation of first- and second-order dissipative phase transitions in a two-photon driven Kerr resonator ( http://arxiv.org/abs/2310.13636v1 )

ライセンス: Link先を確認
Guillaume Beaulieu, Fabrizio Minganti, Simone Frasca, Vincenzo Savona, Simone Felicetti, Roberto Di Candia, and Pasquale Scarlino(参考訳) オープン量子系において、一階および二階の散逸相転移(DPT)は、ユニタリ進化、駆動項、散逸の競合から熱力学的極限に現れる。 DPTの順序は定常状態の連続性の性質によって定義される。 これまで、第2次dptは理論上主に研究されており、一方1次dptは単一光子駆動kerr共振器の理論に基づく重要な実験で観測されている。 ここでは、2光子(パラメトリック)駆動のKerr超伝導共振器において、第1および第2のDPTの総合的および理論的解析を行う。 まず,2次および1次臨界点における定常状態とその主な特徴を,それぞれ異なる光子数を持つ2つの相の真空以下にスクイーズする。 次に,量子軌道に沿って連続的にシステムを監視することにより,臨界点を横断する非平衡ダイナミクスを考察する。 我々は,第1次DPTによるヒステリシスサイクルと,第2次DPTによる自然対称性の破れを目撃する。 リウビリアン超作用素のスペクトル理論を応用し、これらの過程の時間スケールに伴う臨界スローダウンを定量化する効率的な手順を考案する。 熱力学の限界に向かってスケーリングする場合、これらの時間スケールは5桁に及ぶ。 我々の結果は、DPTのリウヴィリア理論を用いて導出された予測を裏付けるものである。 この研究は超伝導回路における工学と臨界性の制御の魅力的な例である。 これは、2光子駆動のkerr共振器を用いた臨界量子情報応用における重要な進歩を示す。

In open quantum systems, first- and second-order dissipative phase transitions (DPTs) can emerge in the thermodynamic limit from the competition between unitary evolution, driving terms, and dissipation. The order of a DPT is defined by the continuity properties of the steady state. Until now, second-order DPTs have predominantly been investigated theoretically, while first-order DPTs have been observed in key experiments based on the theory of the single-photon driven Kerr resonator. We present here the first comprehensive experimental and theoretical analysis of both first and second-order DPTs in a two-photon (i.e., parametrically) driven Kerr superconducting resonator. Firstly, we characterize the steady state and its main features at the second- and first-order critical points: squeezing below vacuum and coexistence of two phases with different photon numbers, respectively. Then, by continuously monitoring the system along quantum trajectories, we study the non-equilibrium dynamics across the critical points. We witness the hysteresis cycles associated with the first-order DPT and the spontaneous symmetry breaking due to the second-order DPT. Applying the spectral theory of the Liouvillian superoperator, we develop efficient procedures to quantify the critical slowing down associated with the timescales of these processes. When scaling towards the thermodynamic limit, these timescales span five orders of magnitude. Our results corroborate the predictions derived using the Liouvillian theory of DPTs. This work stands as a compelling example of engineering and controlling of criticality in superconducting circuits. It marks a significant advancement in the use of two-photon driven Kerr resonators for criticality-enhanced quantum information applications.
翻訳日:2023-10-23 21:53:29 公開日:2023-10-20
# 古典振動子の揺動パラメトリック駆動は散逸量子ビットをシミュレートできる

Fluctuating parametric driving of coupled classical oscillators can simulate dissipative qubits ( http://arxiv.org/abs/2310.13631v1 )

ライセンス: Link先を確認
Lorenzo Bernazzani and Guido Burkard(参考訳) 内部パラメータの確率的ゆらぎを受ける2つの結合発振器からなるシステムについて検討した。 特に、2レベル系(TLS)の量子力学、すなわち2つの結合振動子によって提供される量子ビットの古典的類似が、散逸性量子系の力学をシミュレートするために拡張できるかどうかという疑問に答える。 ナノメカニクスの文脈では、散逸フリーケースのアナロジーは、例えば2重クランプまたはカンチレバー弦共振器や光浮上粒子など、複数の実験装置で既にテストされている。 この古典的アナロジーのよく知られた結果は、アナログ量子システムの緩和時間とデコヒーレンス時間は、量子tlsの一般的な場合とは対照的に$t_1=t_2$である。 この基本量子的特徴、すなわち$T_1\neq T_2$は、上記の古典システムでも内部パラメータに確率的変動を加えることで実装可能であることを示す。 さらに,このような確率的貢献を,システムの制御装置で実装できることを示した。

We investigate a system composed of two coupled oscillators subject to stochastic fluctuations in its internal parameters. In particular, we answer the question whether the well-known classical analogy of the quantum dynamics of two-level systems (TLS), i.e. qubits, provided by two coupled oscillators can be extended to simulate the dynamics of dissipative quantum systems. In the context of nanomechanics, the analogy in the dissipation free case has already been tested in multiple experimental setups, e.g., doubly clamped or cantilever string resonators and optically levitated particles. A well-known result of this classical analogy is that the relaxation and decoherence times of the analog quantum system must be equal, i.e. $T_1=T_2$, in contrast to the general case of quantum TLS. We show that this fundamentally quantum feature, i.e. $T_1\neq T_2$, can be implemented as well in the aforementioned classical systems by adding stochastic fluctuations in their internal parameters. Moreover, we show that these stochastic contributions can be engineered in the control apparatus of those systems.
翻訳日:2023-10-23 21:53:06 公開日:2023-10-20
# SurfaceNet: 表面コード付きフォールトトレラント量子ネットワーク

SurfaceNet: Fault-Tolerant Quantum Networks with Surface Codes ( http://arxiv.org/abs/2310.13628v1 )

ライセンス: Link先を確認
Tianjie Hu, Jindi Wu, Qun Li(参考訳) 量子ネットワークは、物理的に分離された量子プロセッサ間で、量子ビットまたは量子ビットに符号化された情報を送信する手段として機能する。 量子ビットの不安定さを考えると、そのようなネットワークの設計は困難であり、信頼性と効率のバランスが慎重に必要である。 量子ネットワークは通常、量子テレポーテーションに量子エンタングルメントを使用し、量子メッセージを直接転送する2つのカテゴリに分類される。 本稿では、表面符号を論理キュービットとして利用し、メッセージを保存・転送する第2カテゴリの量子ネットワークであるsurfacenetを提案する。 サーフェス符号を用いるアプローチは、ネットワーク内の動作および光子損失エラーの両方をフォールトトレラントに補正することができる。 本稿では,表面符号をネットワークアーキテクチャに統合する新しい一方向量子通信手法を提案する。 また,通信手順のリソース利用を最適化する効率的なルーティングプロトコルを提案する。 シミュレーションの結果,SurfaceNetは通信の完全性を大幅に向上させることがわかった。

Quantum networks serve as the means to transmit information, encoded in quantum bits or qubits, between quantum processors that are physically separated. Given the instability of qubits, the design of such networks is challenging, necessitating a careful balance between reliability and efficiency. Typically, quantum networks fall into two categories: those utilize quantum entanglements for quantum teleportation, and those directly transfer quantum message. In this paper, we present SurfaceNet, a quantum network in the second category that employs surface codes as logical qubits for preserving and transferring message. Our approach of using surface codes can fault-tolerantly correct both operational and photon loss errors within the network. We propose a novel one-way quantum communication procedure, designed to better integrate surface codes into our network architecture. We also propose an efficient routing protocol that optimizes resource utilization for our communication procedure. Simulation results demonstrate that SurfaceNet significantly enhances the overall communication fidelity.
翻訳日:2023-10-23 21:52:46 公開日:2023-10-20
# 宇宙用ハイパースペクトルPRISMAデータによる深層学習に基づく変化検出

Deep-Learning-based Change Detection with Spaceborne Hyperspectral PRISMA data ( http://arxiv.org/abs/2310.13627v1 )

ライセンス: Link先を確認
J.F. Amieva, A. Austoni, M.A. Brovelli, L. Ansalone, P. Naylor, F. Serva, B. Le Saux(参考訳) 変化検出(CD)法は光データに何十年も適用されてきたが、スペクトル分解能の優れたハイパースペクトルデータの使用はめったに研究されていない。 CDは環境モニタリングや災害管理などいくつかの分野に適用されている。 PRecursore IperSpettrale della Missione operativA (PRISMA)により、宇宙からのハイパースペクトルCDが可能になった。 本研究は,自然から都市に至るまで,様々なターゲットに標準およびディープラーニング(DL)CD手法を適用した。 コアレジストレーションから始まるパイプラインと,全スペクトルアルゴリズムによるCDと,光学データ用に開発されたDLネットワークを提案する。 植生や建築環境の変化はよく捉えられています。 スペクトル情報は微妙な変化を識別するのに有用であり、DL法は統計的手法に比べてノイズの影響が少ないが、大気効果と信頼性の高い地上事実の欠如は、超スペクトルCDにとって大きな課題である。

Change detection (CD) methods have been applied to optical data for decades, while the use of hyperspectral data with a fine spectral resolution has been rarely explored. CD is applied in several sectors, such as environmental monitoring and disaster management. Thanks to the PRecursore IperSpettrale della Missione operativA (PRISMA), hyperspectral-from-space CD is now possible. In this work, we apply standard and deep-learning (DL) CD methods to different targets, from natural to urban areas. We propose a pipeline starting from coregistration, followed by CD with a full-spectrum algorithm and by a DL network developed for optical data. We find that changes in vegetation and built environments are well captured. The spectral information is valuable to identify subtle changes and the DL methods are less affected by noise compared to the statistical method, but atmospheric effects and the lack of reliable ground truth represent a major challenge to hyperspectral CD.
翻訳日:2023-10-23 21:52:32 公開日:2023-10-20
# コンピューティングプロバイダのためのノウ・ユー・カスタマスキームによるフロンティアAIの展望

Oversight for Frontier AI through a Know-Your-Customer Scheme for Compute Providers ( http://arxiv.org/abs/2310.13625v1 )

ライセンス: Link先を確認
Janet Egan and Lennart Heim(参考訳) 高度に有能な人工知能(AI)モデルから生じるセキュリティと安全性のリスクに対処するため、米国政府は、コンピュータプロバイダーがKnow-Your-Customer(KYC)スキームを実装することを保証するべきである。 これらのAIモデルのトレーニングと実行に必要な計算能力とインフラストラクチャであるComputeが、監視のノードとして登場している。 銀行セクターがクライアントの識別と検証のために開発した標準であるKYCは、既存の輸出管理におけるフロンティアAI開発とクローズループの監視を強化するメカニズムを提供する可能性がある。 このようなスキームは、AI能力の潜在的および/または突然の進歩をステークホルダーに特定し、警告し、AI規制のための政府の能力を構築し、よりニュアンスでターゲットとする輸出管理の開発と実装を可能にする。 aiチップの購入を制限する戦略とは異なり、コンピュートへのデジタルアクセスを規制することはより正確な制御を提供し、計算量に対する規制による制御を可能にすると同時に、いつでもアクセスを停止できる柔軟性を提供する。 To enact a KYC scheme, the US government will need to work closely with industry to (1) establish a dynamic threshold of compute that effectively captures high-risk frontier model development, while minimizing imposition on developers not engaged in frontier AI; (2) set requirements and guidance for compute providers to keep records and report high-risk entities; (3) establish government capacity that allows for co-design, implementation, administration and enforcement of the scheme; and (4) engage internationally to promote international alignment with the scheme and support its long-term efficacy. このスキームはすべてのAIリスクに対処するわけではないが、フロンティアAIモデルの開発と望ましくないAI増殖を制御するための、より正確で柔軟なアプローチを可能にすることで、提案されたソリューションを補完する。

To address security and safety risks stemming from highly capable artificial intelligence (AI) models, we propose that the US government should ensure compute providers implement Know-Your-Customer (KYC) schemes. Compute - the computational power and infrastructure required to train and run these AI models - is emerging as a node for oversight. KYC, a standard developed by the banking sector to identify and verify client identity, could provide a mechanism for greater public oversight of frontier AI development and close loopholes in existing export controls. Such a scheme has the potential to identify and warn stakeholders of potentially problematic and/or sudden advancements in AI capabilities, build government capacity for AI regulation, and allow for the development and implementation of more nuanced and targeted export controls. Unlike the strategy of limiting access to AI chip purchases, regulating the digital access to compute offers more precise controls, allowing regulatory control over compute quantities, as well as the flexibility to suspend access at any time. To enact a KYC scheme, the US government will need to work closely with industry to (1) establish a dynamic threshold of compute that effectively captures high-risk frontier model development, while minimizing imposition on developers not engaged in frontier AI; (2) set requirements and guidance for compute providers to keep records and report high-risk entities; (3) establish government capacity that allows for co-design, implementation, administration and enforcement of the scheme; and (4) engage internationally to promote international alignment with the scheme and support its long-term efficacy. While the scheme will not address all AI risks, it complements proposed solutions by allowing for a more precise and flexible approach to controlling the development of frontier AI models and unwanted AI proliferation.
翻訳日:2023-10-23 21:52:15 公開日:2023-10-20
# ご覧の通り: トポロジカルローカライズのためのdeep neural dataset-to-dataset similarityによるランキング

What you see is what you get: Experience ranking with deep neural dataset-to-dataset similarity for topological localisation ( http://arxiv.org/abs/2310.13622v1 )

ライセンス: Link先を確認
Matthew Gadd, Benjamin Ramtoula, Daniele De Martini, Paul Newman(参考訳) ローカライズや事前理解のために最も関連する視覚記憶を思い出すと、特定の視覚記憶に対するローカライズ努力の結果は効率的で堅牢な視覚ナビゲーションに有用である。 この問題に対する解決策は、実行時に利用できないため、根本的真実に対するパフォーマンス評価から分離されるべきであり、理想的には、一般的な環境観測に基づいているべきである。 そこで本研究では,画像のデータセットを高度にスケーラブルに比較するためのツールとして,最近開発されたビジュアルdnaを適用することを提案する。 ローカライゼーションの場合、パフォーマンスに影響を与える重要なデータセットの違いは、天気、照明、季節など、外観の変化のモードである。 具体的には、特定の層で特徴量とマッチングして場所認識に使用される任意の深層アーキテクチャにおいて、実際の画像と過去に記録された複数の過去の経験と、潜在的に大きな季節(冬/夏)または昼(昼/夜)シフトとのニューロン毎の活性化統計を比較するために分布尺度を用いる。 これらの統計値の違いは、同じ外観ギャップを持つ過去の経験を用いて局所化すると、パフォーマンスに相関することがわかった。 nordlandのクロスシーズンデータセットに対するアプローチと、オックスフォード大学の大学公園の光沢と穏やかな季節変化に関するデータを検証することで、システムの実際のローカライズパフォーマンスを候補者エクスペリエンス全体でランク付けする優れた能力を示しました。

Recalling the most relevant visual memories for localisation or understanding a priori the likely outcome of localisation effort against a particular visual memory is useful for efficient and robust visual navigation. Solutions to this problem should be divorced from performance appraisal against ground truth - as this is not available at run-time - and should ideally be based on generalisable environmental observations. For this, we propose applying the recently developed Visual DNA as a highly scalable tool for comparing datasets of images - in this work, sequences of map and live experiences. In the case of localisation, important dataset differences impacting performance are modes of appearance change, including weather, lighting, and season. Specifically, for any deep architecture which is used for place recognition by matching feature volumes at a particular layer, we use distribution measures to compare neuron-wise activation statistics between live images and multiple previously recorded past experiences, with a potentially large seasonal (winter/summer) or time of day (day/night) shift. We find that differences in these statistics correlate to performance when localising using a past experience with the same appearance gap. We validate our approach over the Nordland cross-season dataset as well as data from Oxford's University Parks with lighting and mild seasonal change, showing excellent ability of our system to rank actual localisation performance across candidate experiences.
翻訳日:2023-10-23 21:51:43 公開日:2023-10-20
# 言語モデルにおける情報理論と幾何圧縮の橋渡し

Bridging Information-Theoretic and Geometric Compression in Language Models ( http://arxiv.org/abs/2310.13620v1 )

ライセンス: Link先を確認
Emily Cheng, Corentin Kervadec, and Marco Baroni(参考訳) 言語モデル(LM)が人間の言語を忠実にモデル化するには、膨大な無限の情報を比較的少数の次元に圧縮する必要がある。 本稿では,(事前学習された)LMの圧縮を幾何学的および情報理論の2点から解析する。 言語データの内在的な幾何学的次元は, LMの下での符号化長を予測する。 次に,言語データセットの高圧縮は,そのデータセットへの迅速な適応を予測し,言語情報を圧縮できることがLM性能の重要な部分であることを確認した。 本分析の実践的副産物として,言語データから本質的次元推定器の電池を初めて評価し,情報理論的圧縮,幾何学的圧縮,適応の容易性の関係をカプセル化したもののみを示した。

For a language model (LM) to faithfully model human language, it must compress vast, potentially infinite information into relatively few dimensions. We propose analyzing compression in (pre-trained) LMs from two points of view: geometric and information-theoretic. We demonstrate that the two views are highly correlated, such that the intrinsic geometric dimension of linguistic data predicts their coding length under the LM. We then show that, in turn, high compression of a linguistic dataset predicts rapid adaptation to that dataset, confirming that being able to compress linguistic information is an important part of successful LM performance. As a practical byproduct of our analysis, we evaluate a battery of intrinsic dimension estimators for the first time on linguistic data, showing that only some encapsulate the relationship between information-theoretic compression, geometric compression, and ease-of-adaptation.
翻訳日:2023-10-23 21:51:16 公開日:2023-10-20
# 画像ナレーションにおける半教師付きマルチモーダルコリファレンス分解

Semi-supervised multimodal coreference resolution in image narrations ( http://arxiv.org/abs/2310.13619v1 )

ライセンス: Link先を確認
Arushi Goel, Basura Fernando, Frank Keller and Hakan Bilen(参考訳) 本稿では,より長い記述テキスト,すなわちナレーションと画像の組み合わせを用いたマルチモーダルコリファレンスの解決法について検討する。 これは、微粒な画像テキストアライメント、物語言語に固有の曖昧さ、大きな注釈付きトレーニングセットの有効性など、大きな課題を生じさせる。 これらの課題に対処するために,画像ナレーションペアを用いたデータ効率の高い半教師付きアプローチを提案する。 当社のアプローチでは,ラベル付きデータとラベル付きデータの両方をクロスモーダルフレームワークに組み込む。 評価の結果,提案手法は,コーパスの解決や物語のグラウンディングのタスクにおいて,定量的にも質的にも,強いベースラインを上回ります。

In this paper, we study multimodal coreference resolution, specifically where a longer descriptive text, i.e., a narration is paired with an image. This poses significant challenges due to fine-grained image-text alignment, inherent ambiguity present in narrative language, and unavailability of large annotated training sets. To tackle these challenges, we present a data efficient semi-supervised approach that utilizes image-narration pairs to resolve coreferences and narrative grounding in a multimodal context. Our approach incorporates losses for both labeled and unlabeled data within a cross-modal framework. Our evaluation shows that the proposed approach outperforms strong baselines both quantitatively and qualitatively, for the tasks of coreference resolution and narrative grounding.
翻訳日:2023-10-23 21:51:01 公開日:2023-10-20
# 数学学習における大規模言語モデルの利用に関する3つの質問

Three Questions Concerning the Use of Large Language Models to Facilitate Mathematics Learning ( http://arxiv.org/abs/2310.13615v1 )

ライセンス: Link先を確認
An-Zi Yen and Wei-Ling Hsu(参考訳) 大規模言語モデル(llm)の優れた言語理解と生成能力により,その教育への応用が検討されている。 しかし、学生が数学を学ぶのを手助けするLLMの教育的能力についての研究はほとんど行われていない。 本稿では,適応型フィードバックを提供することにより,学生の数学的問題解決スキルを向上させるためのllmの活用に関する課題について述べる。 誤った推論プロセスを生成するだけでなく、LLMは質問の意味を誤解し、学生の回答を正そうとするときに与えられた質問の理性を理解するのに困難を示す。 3つの研究課題が定式化されている。

Due to the remarkable language understanding and generation abilities of large language models (LLMs), their use in educational applications has been explored. However, little work has been done on investigating the pedagogical ability of LLMs in helping students to learn mathematics. In this position paper, we discuss the challenges associated with employing LLMs to enhance students' mathematical problem-solving skills by providing adaptive feedback. Apart from generating the wrong reasoning processes, LLMs can misinterpret the meaning of the question, and also exhibit difficulty in understanding the given questions' rationales when attempting to correct students' answers. Three research questions are formulated.
翻訳日:2023-10-23 21:50:46 公開日:2023-10-20
# ステップバイステップの合成: 小さなモデルからエラーを外挿して、大きな言語モデルによる反復データセットの合成

Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models ( http://arxiv.org/abs/2310.13671v1 )

ライセンス: Link先を確認
Ruida Wang, Wangchunshu Zhou, Mrinmaya Sachan(参考訳) ※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。 データ合成の1つのアプローチは、大規模な言語モデルからの豊富な知識を活用して、小さなモデルの擬似トレーニング例を合成することで、データと計算効率を同時に達成する。 しかし、データ合成における重要な課題は、合成データセットが*実際のタスク*データ分布との大きな分散不一致に悩まされることがしばしばあることである。 そこで本稿では,大規模な言語モデルを用いて,合成データセット上で訓練された小さなモデルによる誤りを反復的に外挿することで,この分散ギャップを縮小するデータ合成フレームワーク**(**S3**)を提案する。 複数のnlpタスクに関する広範な実験は、合成データセットと実際のデータとの間のギャップを小さくすることで、小さなモデルのパフォーマンスを改善できることを示しました。その結果、いくつかのベースラインと比較すると、9.48%改善とgoldgenに対する2.73%、そして、人間の注釈付きデータで訓練された小さなモデルと比較して、最大15.17%改善しました。

*Data Synthesis* is a promising way to train a small model with very little labeled data. One approach for data synthesis is to leverage the rich knowledge from large language models to synthesize pseudo training examples for small models, making it possible to achieve both data and compute efficiency at the same time. However, a key challenge in data synthesis is that the synthesized dataset often suffers from a large distributional discrepancy from the *real task* data distribution. Thus, in this paper, we propose *Synthesis Step by Step* (**S3**), a data synthesis framework that shrinks this distribution gap by iteratively extrapolating the errors made by a small model trained on the synthesized dataset on a small real-world validation dataset using a large language model. Extensive experiments on multiple NLP tasks show that our approach improves the performance of a small model by reducing the gap between the synthetic dataset and the real data, resulting in significant improvement compared to several baselines: 9.48% improvement compared to ZeroGen and 2.73% compared to GoldGen, and at most 15.17% improvement compared to the small model trained on human-annotated data.
翻訳日:2023-10-23 21:46:19 公開日:2023-10-20
# ManifoldNeRF:Few-shot Neural Radiance Fieldのためのビュー依存画像特徴監督

ManifoldNeRF: View-dependent Image Feature Supervision for Few-shot Neural Radiance Fields ( http://arxiv.org/abs/2310.13670v1 )

ライセンス: Link先を確認
Daiju Kanaoka, Motoharu Sonogashira, Hakaru Tamukoh, Yasutomo Kawanishi(参考訳) ニューラル・レージアンス・フィールド(NeRF)の出現により、新しいビュー合成が大きな進歩を遂げた。 DietNeRFは、入力画像のない未知の視点に新たなロス関数を導入することで、少数の画像からこのタスクを実現することを目的としたNeRFの拡張である。 損失関数は、入力画像が同じオブジェクトを含むため、異なる視点でキャプチャされた場合でも、事前訓練された特徴抽出器が同じ特徴を出力すべきであると仮定する。 しかし、この仮定は理想的ではあるが、実際には視点が連続的に変化し、特徴ベクトルも連続的に変化することが知られている。 したがって、その仮定は訓練に害を与える可能性がある。 この有害なトレーニングを避けるため、近隣の既知の視点から補間された特徴を用いた未知視点で特徴ベクトルを監視できるManifoldNeRFを提案する。 補間された特徴によって各未知の視点を適切に監視するため、ボリューム表現はDietNeRFよりもよく学習される。 実験の結果,提案手法は複雑な場面において他の手法よりも優れた性能を示すことがわかった。 また、視点の集合から視点のいくつかのサブセットを実験し、実環境に対する効果的な視点の集合を同定した。 これにより、現実世界のアプリケーションに対する視点パターンの基本的なポリシーが提供された。 コードはhttps://github.com/haganelego/manifoldnerf_bmvc2023で入手できる。

Novel view synthesis has recently made significant progress with the advent of Neural Radiance Fields (NeRF). DietNeRF is an extension of NeRF that aims to achieve this task from only a few images by introducing a new loss function for unknown viewpoints with no input images. The loss function assumes that a pre-trained feature extractor should output the same feature even if input images are captured at different viewpoints since the images contain the same object. However, while that assumption is ideal, in reality, it is known that as viewpoints continuously change, also feature vectors continuously change. Thus, the assumption can harm training. To avoid this harmful training, we propose ManifoldNeRF, a method for supervising feature vectors at unknown viewpoints using interpolated features from neighboring known viewpoints. Since the method provides appropriate supervision for each unknown viewpoint by the interpolated features, the volume representation is learned better than DietNeRF. Experimental results show that the proposed method performs better than others in a complex scene. We also experimented with several subsets of viewpoints from a set of viewpoints and identified an effective set of viewpoints for real environments. This provided a basic policy of viewpoint patterns for real-world application. The code is available at https://github.com/haganelego/ManifoldNeRF_BMVC2023
翻訳日:2023-10-23 21:45:56 公開日:2023-10-20
# コード合成のためのユニットテストデータ自動生成とアクタ-クリティック強化学習

Automatic Unit Test Data Generation and Actor-Critic Reinforcement Learning for Code Synthesis ( http://arxiv.org/abs/2310.13669v1 )

ライセンス: Link先を確認
Philip John Gorinski, Matthieu Zimmer, Gerasimos Lampouras, Derrick Goh Xin Deik, Ignacio Iacobacci(参考訳) コード合成の領域における大規模な事前学習言語モデルの出現は、様々なベンチマークにおいて顕著なパフォーマンスを示し、言語モデリング(LM)の目的によって訓練された自然言語生成に似た方法でコード生成の問題を扱います。 さらに、プログラミング言語のコードの性質はセマンティクスに関して正確に評価できる -- 機能的正当性をチェックするために単体テストを使用することによって -- さらなるトレーニングパラダイムとして強化学習(Reinforcement Learning, RL)を使用することに役立ちます。 従来の研究により、RLはモデルのコーディング能力を改善するために適用可能であることが示されているが、そのようなRLベースの手法は定義された単体テストに基づく報酬信号に依存しており、LMの目的に使用される巨大なクローされたコードデータセットに比べて取得がはるかに困難である。 本稿では,コード合成モデルのrlトレーニングに適した関数シグネチャと関連するユニットテストからなるデータを自動的に取得する新しい手法を提案する。 我々はまた、単純でシンプルで効果的なアクター・クリティカルなRLトレーニングスキームを導入し、自動生成されたトレーニングデータと合わせて、トレーニング済みの言語モデルの性能を9.9%向上させ、標準のPPOやCodeRLでトレーニングされたRLベースモデルよりも最大4.3%向上させることを示した。

The advent of large pre-trained language models in the domain of Code Synthesis has shown remarkable performance on various benchmarks, treating the problem of Code Generation in a fashion similar to Natural Language Generation, trained with a Language Modelling (LM) objective. In addition, the property of programming language code being precisely evaluable with respect to its semantics -- through the use of Unit Tests to check its functional correctness -- lends itself to using Reinforcement Learning (RL) as a further training paradigm. Previous work has shown that RL can be applied as such to improve models' coding capabilities; however, such RL-based methods rely on a reward signal based on defined Unit Tests, which are much harder to obtain compared to the huge crawled code datasets used in LM objectives. In this work, we present a novel approach to automatically obtain data consisting of function signatures and associated Unit Tests, suitable for RL training of Code Synthesis models. We also introduce a straightforward, simple yet effective Actor-Critic RL training scheme and show that it, in conjunction with automatically generated training data, leads to improvement of a pre-trained code language model's performance by up to 9.9% improvement over the original underlying code synthesis LM, and up to 4.3% over RL-based models trained with standard PPO or CodeRL.
翻訳日:2023-10-23 21:45:20 公開日:2023-10-20
# 説明可能性,解釈可能性,抑うつ検出,ソーシャルメディア

Explainability, Interpretability, Depression detection, Social Media ( http://arxiv.org/abs/2310.13664v1 )

ライセンス: Link先を確認
Eliseo Bao Souto, Anxo P\'erez and Javier Parapar(参考訳) ソーシャルプラットフォームのユーザーは、これらのサイトをメンタルヘルスの問題を投稿するための支援的なスペースと認識することが多い。 これらの会話は個人の健康リスクに関する重要な痕跡を含んでいる。 最近、研究者たちは、このオンライン情報を利用してメンタルヘルス検出モデルを構築し、Twitter、Reddit、Facebookなどのプラットフォーム上で危険にさらされているユーザーを特定することを目標にしている。 これらのモデルのほとんどは、適切な分類結果の達成に集中しており、決定の説明可能性や解釈可能性を無視している。 近年の研究では、健康専門家による計算モデルへの信頼を高めるために、症状の使用などの臨床マーカーを使用することの重要性が指摘されている。 本稿では, 利用者の文章中の抑うつ症状マーカーの出現を検知し, 説明するために, トランスフォーマーに基づくアーキテクチャを提案する。 i)$ 分類のためにモデルを訓練し、もう1 つは分類器の決定を別々に説明し、$ii)$ は1つのモデルを使って2つのタスクを同時に統一する。 さらに,近年の会話型LLMの文脈内学習における性能についても検討した。 自然言語による説明により,臨床医はモデルの判断を検証された症状に基づいて解釈し,自動化プロセスへの信頼度を高めることができる。 我々は、最近の症状に基づくデータセットを用いて、オフラインとエキスパート・イン・ザ・ループのメトリクスを用いて、モデルが生成した説明の質を評価するアプローチを評価した。 実験の結果, 解釈可能な症状に基づく説明を生成できながら, 良好な分類結果が得られることがわかった。

Users of social platforms often perceive these sites as supportive spaces to post about their mental health issues. Those conversations contain important traces about individuals' health risks. Recently, researchers have exploited this online information to construct mental health detection models, which aim to identify users at risk on platforms like Twitter, Reddit or Facebook. Most of these models are centred on achieving good classification results, ignoring the explainability and interpretability of the decisions. Recent research has pointed out the importance of using clinical markers, such as the use of symptoms, to improve trust in the computational models by health professionals. In this paper, we propose using transformer-based architectures to detect and explain the appearance of depressive symptom markers in the users' writings. We present two approaches: $i)$ train a model to classify, and another one to explain the classifier's decision separately and $ii)$ unify the two tasks simultaneously using a single model. Additionally, for this latter manner, we also investigated the performance of recent conversational LLMs when using in-context learning. Our natural language explanations enable clinicians to interpret the models' decisions based on validated symptoms, enhancing trust in the automated process. We evaluate our approach using recent symptom-based datasets, employing both offline and expert-in-the-loop metrics to assess the quality of the explanations generated by our models. The experimental results show that it is possible to achieve good classification results while generating interpretable symptom-based explanations.
翻訳日:2023-10-23 21:44:27 公開日:2023-10-20
# 精査によるアラビア方言の識別:単一ラベル分類の限界

Arabic Dialect Identification under Scrutiny: Limitations of Single-label Classification ( http://arxiv.org/abs/2310.13661v1 )

ライセンス: Link先を確認
Amr Keleg and Walid Magdy(参考訳) 2010年代初頭に導入されて以来、テキストの自動アラビア語方言識別(adi)の人気が高まっている。 複数のデータセットが開発され、2018年から毎年共有タスクが実行されている。 しかし、ADIシステムはアラビア語のマイクロ方言の区別に失敗したと報告されている。 単一ラベル分類問題として現在採用されているADIタスクのフレーミングは,その主な原因の一つであると論じる。 方言ラベルの不完全性の限界を強調し, adiシステムの評価にどのように影響するかを示す。 アラビア方言の7人の母語話者によって行われたADIの予測のための手動エラー解析により、検証済みエラーの66%が真の誤りではないことが明らかになった。 そこで我々は,ADIを多ラベル分類タスクとしてフレーミングすることを提案し,新しいADIデータセットの設計を推奨する。

Automatic Arabic Dialect Identification (ADI) of text has gained great popularity since it was introduced in the early 2010s. Multiple datasets were developed, and yearly shared tasks have been running since 2018. However, ADI systems are reported to fail in distinguishing between the micro-dialects of Arabic. We argue that the currently adopted framing of the ADI task as a single-label classification problem is one of the main reasons for that. We highlight the limitation of the incompleteness of the Dialect labels and demonstrate how it impacts the evaluation of ADI systems. A manual error analysis for the predictions of an ADI, performed by 7 native speakers of different Arabic dialects, revealed that $\approx$ 66% of the validated errors are not true errors. Consequently, we propose framing ADI as a multi-label classification task and give recommendations for designing new ADI datasets.
翻訳日:2023-10-23 21:44:00 公開日:2023-10-20
# 曖昧さ下でのテキスト間SQL生成のベンチマークと改善

Benchmarking and Improving Text-to-SQL Generation under Ambiguity ( http://arxiv.org/abs/2310.13659v1 )

ライセンス: Link先を確認
Adithya Bhaskar, Tushar Tomar, Ashutosh Sathe, Sunita Sarawagi(参考訳) テキストからSQLへの変換の研究は、各テキストクエリが1つの正しいSQLに対応するデータセットに対して大きくベンチマークされている。 しかし、実際のデータベース上の自然言語クエリには、スキーマ名と複数の混乱した関係パスが重複していることから、意図したsqlに対する曖昧さがしばしば伴う。 このギャップを埋めるために、我々はAmbiQTと呼ばれる新しいベンチマークを開発し、各テキストが語彙的および/または構造的あいまいさのために2つのもっともらしいSQLとして解釈できる3000以上の例を示した。 曖昧さに直面した場合、理想のトップ$k$デコーダは、ユーザによる曖昧さの可能なすべての有効な解釈を生成する必要がある。 我々は,最先端llmを使用するものを含む複数のテキスト対sqlシステムと復号アルゴリズムを評価し,その理想から程遠いものを見出す。 主な理由は、一般的なビーム探索アルゴリズムとその変種がsqlクエリを文字列として扱い、上位$k$のトークンレベルの多様性を生み出しているためである。 提案するLogicalBeamは,計画ベースのテンプレート生成と制約付き埋め込みを組み合わせたSQLロジック空間をナビゲートする,新しい復号アルゴリズムである。 事実上生成されたプランは、スキーマ名のみに枝分かれするビームサーチで埋め込んだまま、テンプレートを多様化する。 LogicalBeamは、上位の$kの出力ですべての候補SQLを生成する際に、最先端のモデルよりも2.5ドル高い効果がある。 また、SPIDERとKaggle DBQAの5$ Exact and Execution Match Accuraciesも強化されている。

Research in Text-to-SQL conversion has been largely benchmarked against datasets where each text query corresponds to one correct SQL. However, natural language queries over real-life databases frequently involve significant ambiguity about the intended SQL due to overlapping schema names and multiple confusing relationship paths. To bridge this gap, we develop a novel benchmark called AmbiQT with over 3000 examples where each text is interpretable as two plausible SQLs due to lexical and/or structural ambiguity. When faced with ambiguity, an ideal top-$k$ decoder should generate all valid interpretations for possible disambiguation by the user. We evaluate several Text-to-SQL systems and decoding algorithms, including those employing state-of-the-art LLMs, and find them to be far from this ideal. The primary reason is that the prevalent beam search algorithm and its variants, treat SQL queries as a string and produce unhelpful token-level diversity in the top-$k$. We propose LogicalBeam, a new decoding algorithm that navigates the SQL logic space using a blend of plan-based template generation and constrained infilling. Counterfactually generated plans diversify templates while in-filling with a beam-search that branches solely on schema names provides value diversity. LogicalBeam is up to $2.5$ times more effective than state-of-the-art models at generating all candidate SQLs in the top-$k$ ranked outputs. It also enhances the top-$5$ Exact and Execution Match Accuracies on SPIDER and Kaggle DBQA.
翻訳日:2023-10-23 21:43:36 公開日:2023-10-20
# 機械学習を用いたパーキンソン病早期診断の試み

An experimental study for early diagnosing Parkinson's disease using machine learning ( http://arxiv.org/abs/2310.13654v1 )

ライセンス: Link先を確認
Md. Taufiqul Haque Khan Tusar, Md. Touhidul Islam, Abul Hasnat Sakil(参考訳) 世界中で最も破滅的な神経障害の1つはパーキンソン病である。 それとともに、治療は複雑で、非常に高価である。 進行を制御する唯一の効果的な作用は、早期にそれを診断することである。 しかし、早期発見は大規模で複雑な臨床研究を必要とするため、これは難しい。 この実験は、臨床特性、音声特徴、運動検査からパーキンソン病の早期発見を自動化するために機械学習技術を用いた。 本研究では,パーキンソン病患者130名,未治療のパーキンソン病患者30名,早期眼球運動睡眠行動障害患者50名,パーキンソン病発症リスクの高いパーキンソン病患者50名,健康管理患者50名を対象に,MLモデルを構築した。 MinMax Scalerを使ってデータポイントを再スケールし、Local Outlier Factorでoutlierを削除し、SMOTEで既存のクラスの周波数のバランスを取ります。 その後、多くの機械学習技術を適用する。 データのリークやオーバーフィッティングが不可能な方法で,アプローチを実装しています。 最後に、PDとRBDの分類において100%の精度が得られ、PDとHCの分類では92%の精度が得られた。

One of the most catastrophic neurological disorders worldwide is Parkinson's Disease. Along with it, the treatment is complicated and abundantly expensive. The only effective action to control the progression is diagnosing it in the early stage. However, this is challenging because early detection necessitates a large and complex clinical study. This experimental work used Machine Learning techniques to automate the early detection of Parkinson's Disease from clinical characteristics, voice features and motor examination. In this study, we develop ML models utilizing a public dataset of 130 individuals, 30 of whom are untreated Parkinson's Disease patients, 50 of whom are Rapid Eye Movement Sleep Behaviour Disorder patients who are at a greater risk of contracting Parkinson's Disease, and 50 of whom are Healthy Controls. We use MinMax Scaler to rescale the data points, Local Outlier Factor to remove outliers, and SMOTE to balance existing class frequency. Afterwards, apply a number of Machine Learning techniques. We implement the approaches in such a way that data leaking and overfitting are not possible. Finally, obtained 100% accuracy in classifying PD and RBD patients, as well as 92% accuracy in classifying PD and HC individuals.
翻訳日:2023-10-23 21:43:07 公開日:2023-10-20
# 騒音木量測定器の最適搬送

Optimal Transport for Measures with Noisy Tree Metric ( http://arxiv.org/abs/2310.13653v1 )

ライセンス: Link先を確認
Tam Le, Truyen Nguyen, Kenji Fukumizu(参考訳) 木メートル空間上での確率測度に対する最適輸送(OT)問題について検討する。 そのようなot問題(すなわちtree-wasserstein (tw))は閉形式表現を許容することは知られているが、基本的には入力測度の支持よりも根底にある木構造に依存する。 実際には、与えられた木構造はノイズや逆数の測定によって乱れてしまうことがある。 この問題を緩和するために、木メトリクスの不確かさの集合に対する2つの入力測度間の最大距離を考慮に入れた最大ロバストOTアプローチに従う。 一般に、このアプローチは、特に大規模な設定において、その実用的応用を妨げる非凸性と非平滑性のために、1ドルの空間でサポートされた測度であっても、計算が困難である。 そこで本研究では,木構造を多様に網羅したエッジ削除/付加のレンズから,木メトリクスのemph{novel uncertainty set of tree metricsを提案する。 したがって,提案する不確実性集合の上に構築し,木構造をサポートよりも活用することにより,max-minロバストotは高速計算のためのクローズド形式式を標準ot(すなわちtw)として認めていることを示す。 さらに,max-minロバストotは計量特性を満足し負定値であることを示す。 次に、その負の定性を利用して \emph{ positive certain kernels} を提案し、様々な実世界のデータセットの文書分類とトポロジカルデータ解析に関するいくつかのシミュレーションで検証する。

We study optimal transport (OT) problem for probability measures supported on a tree metric space. It is known that such OT problem (i.e., tree-Wasserstein (TW)) admits a closed-form expression, but depends fundamentally on the underlying tree structure over supports of input measures. In practice, the given tree structure may be, however, perturbed due to noisy or adversarial measurements. In order to mitigate this issue, we follow the max-min robust OT approach which considers the maximal possible distances between two input measures over an uncertainty set of tree metrics. In general, this approach is hard to compute, even for measures supported in $1$-dimensional space, due to its non-convexity and non-smoothness which hinders its practical applications, especially for large-scale settings. In this work, we propose \emph{novel uncertainty sets of tree metrics} from the lens of edge deletion/addition which covers a diversity of tree structures in an elegant framework. Consequently, by building upon the proposed uncertainty sets, and leveraging the tree structure over supports, we show that the max-min robust OT also admits a closed-form expression for a fast computation as its counterpart standard OT (i.e., TW). Furthermore, we demonstrate that the max-min robust OT satisfies the metric property and is negative definite. We then exploit its negative definiteness to propose \emph{positive definite kernels} and test them in several simulations on various real-world datasets on document classification and topological data analysis for measures with noisy tree metric.
翻訳日:2023-10-23 21:42:49 公開日:2023-10-20
# BotChat: LLMのマルチターン対話能力の評価

BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues ( http://arxiv.org/abs/2310.13650v1 )

ライセンス: Link先を確認
Haodong Duan, Jueqi Wei, Chonghua Wang, Hongwei Liu, Yixiao Fang, Songyang Zhang, Dahua Lin, Kai Chen(参考訳) 高品質なマルチターン対話による人間との対話は、大言語モデル(llm)の重要な特徴である。 しかし、このような能力の評価には集中的な手作業が伴う。 本報告は、llmに基づくアプローチにより、人間型マルチターンチャットのための既存の大規模言語モデルの予備的評価を提供する。 実際の人間の対話から始まり、ChatSEEDとして最初の発話を維持します。 次に,LLMに対して,ChatSEEDに基づく全マルチターン対話(発話数)を生成するように促す。 最後に,得られた対話を評価するために,現状のLPM (GPT-4, \etc) を審査員として採用する。 評価プロトコルが異なるため,ほぼ同一の結論が得られた。 GPT-4は人型多面体対話を優れた品質で生成でき、その性能は著しく向上する。 GPT-4が生成した対話と人間の対話を区別することは難しい。 対照的に、他のllmは、命令追従能力の低さ、長い発話の傾向、あるいは限られた一般能力のために、満足な品質のマルチターン対話を生成するのに苦労している。 すべてのデータとコードはhttps://github.com/open-compass/BotChat/で提供されます。

Interacting with human via high-quality multi-turn dialogues is a key feature of large language models (LLMs). However, human-based evaluation of such capability involves intensive manual labor. This report provides a preliminary evaluation of existing large language models for human-style multi-turn chatting, through an LLM-based approach. We start from real-world human dialogues and keep the very first utterances as the ChatSEED. Then we prompt LLMs to generate a full multi-turn dialogue (tens of utterances) based on the ChatSEED, utterance by utterance. Finally, we adopt state-of-the-art LLMs (GPT-4, \etc) as the judge to evaluate the generated dialogues. With different evaluation protocols, we come to substantially identical conclusions. We find that GPT-4 can generate human-style multi-turn dialogues with impressive quality, significantly outperforms its counterparts. It's difficult for a discriminator to distinguish between GPT-4 generated dialogues and human dialogues. In contrast, other LLMs struggle to generate multi-turn dialogues of satisfactory quality due to poor instruction-following capability, tendency to generate lengthy utterances, or limited general capability. All data and codes will be provided in https://github.com/open-compass/BotChat/ and we hope they can serve as a valuable resource for evaluating multi-turn chatting capabilities of LLMs.
翻訳日:2023-10-23 21:42:19 公開日:2023-10-20
# 初心者開発者によるソフトウェア開発ライフサイクルを通じてChatGPTを使用する

Using ChatGPT throughout the Software Development Life Cycle by Novice Developers ( http://arxiv.org/abs/2310.13648v1 )

ライセンス: Link先を確認
Muhammad Waseem, Teerath Das, Aakash Ahmad, Mahdi Fehmideh, Peng Liang, Tommi Mikkonen(参考訳) 本研究は、大学生のソフトウェア開発経験にaiベースの生成ツールであるchatgptが与える影響について検討する。 7人の大学生が参加する3ヶ月のプロジェクトを通じて、ChatGPTは支援ツールとして採用され、プロジェクト前後でその経験を体系的に調査した。 この研究の目的は、chatgptの有効性、利点、限界、学習への影響、直面する課題に関する4つの重要な質問に答えることである。 本研究は,ソフトウェア開発における教育的欠陥に対処することの重要性を強調し,大学生のスキルギャップを明らかにした。 ChatGPTはソフトウェア開発ライフサイクルのさまざまなフェーズに肯定的な影響を与え、効率性、正確性、コラボレーションの向上につながった。 ChatGPTはまた、ソフトウェア開発における参加者の基本的な理解とソフトスキルを一貫して改善した。 これらの発見は、chatgptのようなaiツールを大学生の教育に組み込むこと、特にスキルギャップの橋渡しと生産性の向上に役立っている。 しかし、技術に依存しないアプローチが不可欠であり、意見の多様性とカスタマイズの必要性を認めている。 今後の研究は、開発コンテキストをまたいでchatgptのアプリケーションを最適化し、特定の課題に対処しながら学習を最大化するための戦略を検討する必要がある。

This study investigates the impact of ChatGPT -- a generative AI-based tool -- on undergraduate students' software development experiences. Through a three-month project involving seven undergraduate students, ChatGPT was employed as a supporting tool, and their experiences were systematically surveyed before and after the projects. The research aims to answer four key questions related to ChatGPT's effectiveness, advantages, limitations, impact on learning, and challenges faced. The findings revealed significant skill gaps among undergraduate students, underscoring the importance of addressing educational deficiencies in software development. ChatGPT was found to have a positive influence on various phases of the software development life cycle, leading to enhanced efficiency, accuracy, and collaboration. ChatGPT also consistently improved participants' foundational understanding and soft skills in software development. These findings underscore the significance of integrating AI tools like ChatGPT into undergraduate students education, particularly to bridge skill gaps and enhance productivity. However, a nuanced approach to technology reliance is essential, acknowledging the variability in opinions and the need for customization. Future research should explore strategies to optimize ChatGPT's application across development contexts, ensuring it maximizes learning while addressing specific challenges.
翻訳日:2023-10-23 21:41:59 公開日:2023-10-20
# インテリジェンス複製のためのニューラルベース音楽生成

Neural-Base Music Generation for Intelligence Duplication ( http://arxiv.org/abs/2310.13691v1 )

ライセンス: Link先を確認
Jacob Galajda, Kien Hua(参考訳) 機械学習と人工知能には,(1)情報の解釈,(2)新しい有用な情報の創造,の2つの側面がある。 1)パターン認識技術(例えば、視覚データの解釈)に焦点をあてて、多くの進歩がなされている。 本稿では,(2)発明のための知的複製(ID)に焦点を当てる。 我々は、学習した専門知識と才能を生かして新しい情報を生み出すために、特定の個人の創造的推論を学ぶ可能性を探る。 具体的には、偉大な作曲家ベートーヴェンから学習し、彼の作曲能力をハッシュベースの知識ベースで捉えるために、深層学習システムを用いる。 この新たな形態の知識ベースは、新しい音楽生成方法を通じて楽曲を駆動する推論機能を提供する。

There are two aspects of machine learning and artificial intelligence: (1) interpreting information, and (2) inventing new useful information. Much advance has been made for (1) with a focus on pattern recognition techniques (e.g., interpreting visual data). This paper focuses on (2) with intelligent duplication (ID) for invention. We explore the possibility of learning a specific individual's creative reasoning in order to leverage the learned expertise and talent to invent new information. More specifically, we employ a deep learning system to learn from the great composer Beethoven and capture his composition ability in a hash-based knowledge base. This new form of knowledge base provides a reasoning facility to drive the music composition through a novel music generation method.
翻訳日:2023-10-23 21:33:02 公開日:2023-10-20
# 形態素一般化のための言語プローブの探索

Exploring Linguistic Probes for Morphological Generalization ( http://arxiv.org/abs/2310.13686v1 )

ライセンス: Link先を確認
Jordan Kodner, Salam Khalifa, Sarah Payne(参考訳) 形態的インフレクションの言語間計算モデルに関する現代の研究は、典型的には言語に依存しないデータ分割アルゴリズムを用いている。 本稿では、形態素一般化の側面をテストするために設計された言語固有のプローブを用いて、そのアプローチを補完する。 これらのプローブを英語、スペイン語、スワヒリ語という3つの形態学的に異なる言語で調べると、3つの主要な形態的インフレクション系が共役類と正書法および音韻学的に書き起こされた入力の特徴集合に対して異なる一般化戦略を採用するという証拠が見つかる。

Modern work on the cross-linguistic computational modeling of morphological inflection has typically employed language-independent data splitting algorithms. In this paper, we supplement that approach with language-specific probes designed to test aspects of morphological generalization. Testing these probes on three morphologically distinct languages, English, Spanish, and Swahili, we find evidence that three leading morphological inflection systems employ distinct generalization strategies over conjugational classes and feature sets on both orthographic and phonologically transcribed inputs.
翻訳日:2023-10-23 21:32:50 公開日:2023-10-20
# CAPIVARA:低リソース言語における多言語CLIP性能向上のための費用効率の良いアプローチ

CAPIVARA: Cost-Efficient Approach for Improving Multilingual CLIP Performance on Low-Resource Languages ( http://arxiv.org/abs/2310.13683v1 )

ライセンス: Link先を確認
Gabriel Oliveira dos Santos, Diego Alysson Moreia, Alef Iury Ferreira, Jhessica Silva, Luiz Pereira, Pedro Bueno, Thiago Sousa, Helena Maia, N\'adia Da Silva, Esther Colombini, Helio Pedrini and Sandra Avila(参考訳) CAPIVARAは低リソース言語における多言語CLIPモデルの性能を高めるために設計された費用効率のよいフレームワークである。 CLIPはゼロショットビジョン言語タスクでは優れているが、モデルトレーニングのリソース集約性は依然として難しい。 多くのデータセットは、画像の英語記述のみを特徴とする言語多様性を欠いている。 CAPIVARAは、画像キャプションと機械翻訳を使用してテキストデータを増やし、低リソース言語で複数の合成キャプションを生成することで、この問題に対処する。 我々は、LiT、LoRA、勾配チェックポイントでトレーニングパイプラインを最適化し、計算コストを軽減する。 広範な実験を通じて、カピバラは、画像やポルトガル語のテキストを含むゼロショットのタスクの最先端として現れる。 我々は,CAPIVARAを1つのGPU上で2時間使用し,事前学習した多言語CLIPを微調整することで,他の低リソース言語に大幅な改善をもたらす可能性を示す。 私たちのモデルとコードはhttps://github.com/hiaac-nlp/capivaraで利用可能です。

This work introduces CAPIVARA, a cost-efficient framework designed to enhance the performance of multilingual CLIP models in low-resource languages. While CLIP has excelled in zero-shot vision-language tasks, the resource-intensive nature of model training remains challenging. Many datasets lack linguistic diversity, featuring solely English descriptions for images. CAPIVARA addresses this by augmenting text data using image captioning and machine translation to generate multiple synthetic captions in low-resource languages. We optimize the training pipeline with LiT, LoRA, and gradient checkpointing to alleviate the computational cost. Through extensive experiments, CAPIVARA emerges as state of the art in zero-shot tasks involving images and Portuguese texts. We show the potential for significant improvements in other low-resource languages, achieved by fine-tuning the pre-trained multilingual CLIP using CAPIVARA on a single GPU for 2 hours. Our model and code is available at https://github.com/hiaac-nlp/CAPIVARA.
翻訳日:2023-10-23 21:32:40 公開日:2023-10-20
# トークン除去による検索型読み出しモデルの最適化

Optimizing Retrieval-augmented Reader Models via Token Elimination ( http://arxiv.org/abs/2310.13682v1 )

ライセンス: Link先を確認
Moshe Berchansky, Peter Izsak, Avi Caciularu, Ido Dagan, Moshe Wasserblat(参考訳) Fusion-in-Decoder (FiD) は、質問応答や事実チェックなど、様々なオープンドメインタスクに適用される効果的な検索強化言語モデルである。 FiDでは、サポートパスが最初に検索され、生成モデル(Reader)を使用して処理される。 本研究では,検索した全てのパスが読者モデルの性能に寄与するかどうかを解析し,トークンレベルでは,回答生成プロセスに不可欠な情報を提供しないような,検索した情報のいくつかを除去することを提案する。 提案手法では,実行時間を最大62.2%削減できるが,性能は2%程度に抑えられ,場合によっては性能が向上する場合もある。

Fusion-in-Decoder (FiD) is an effective retrieval-augmented language model applied across a variety of open-domain tasks, such as question answering, fact checking, etc. In FiD, supporting passages are first retrieved and then processed using a generative model (Reader), which can cause a significant bottleneck in decoding time, particularly with long outputs. In this work, we analyze the contribution and necessity of all the retrieved passages to the performance of reader models, and propose eliminating some of the retrieved information, at the token level, that might not contribute essential information to the answer generation process. We demonstrate that our method can reduce run-time by up to 62.2%, with only a 2% reduction in performance, and in some cases, even improve the performance results.
翻訳日:2023-10-23 21:32:21 公開日:2023-10-20
# RealFM: データコントリビューションとデバイス参加をインセンティブ化する現実的なメカニズム

RealFM: A Realistic Mechanism to Incentivize Data Contribution and Device Participation ( http://arxiv.org/abs/2310.13681v1 )

ライセンス: Link先を確認
Marco Bornstein, Amrit Singh Bedi, Anit Kumar Sahu, Furqan Khan, and Furong Huang(参考訳) フェデレーション学習(FL)におけるエッジデバイス参加は、デバイスサーバ間通信(例えば、デバイスドロップアウト)のレンズの下で研究され、エッジデバイスがFLに参加するという望ましくない要求を前提としている。 その結果、現在のFLフレームワークは現実世界で実装する際に欠陥があり、フリーライダーの問題に遭遇することが多い。 FLを現実的な環境に向ける第一歩として,(1)デバイスユーティリティを現実的にモデル化し,(2)データコントリビューションとデバイス参加をインセンティブ化し,(3)フリーライダー現象を確実に除去する,初の真のフェデレーション機構であるRealFMを提案する。 realfmはデータ共有を必要とせず、モデル精度とユーティリティの非線形関係を可能にするため、非参加デバイスや他のflメカニズムに参加しているデバイスと比較して、サーバと参加者デバイスによって得られるユーティリティを改善します。 実世界のデータでは、RealFMはデバイスユーティリティとサーバユーティリティ、データコントリビューションを、それぞれベースラインメカニズムと比較して最大3等級と7倍改善する。

Edge device participation in federating learning (FL) has been typically studied under the lens of device-server communication (e.g., device dropout) and assumes an undying desire from edge devices to participate in FL. As a result, current FL frameworks are flawed when implemented in real-world settings, with many encountering the free-rider problem. In a step to push FL towards realistic settings, we propose RealFM: the first truly federated mechanism which (1) realistically models device utility, (2) incentivizes data contribution and device participation, and (3) provably removes the free-rider phenomena. RealFM does not require data sharing and allows for a non-linear relationship between model accuracy and utility, which improves the utility gained by the server and participating devices compared to non-participating devices as well as devices participating in other FL mechanisms. On real-world data, RealFM improves device and server utility, as well as data contribution, by up to 3 magnitudes and 7x respectively compared to baseline mechanisms.
翻訳日:2023-10-23 21:32:08 公開日:2023-10-20
# 大言語モデルと有限状態復号制約による分割による長文音声翻訳の改善

Improving Long-form Speech Translation through Segmentation with Large Language Models and Finite State Decoding Constraints ( http://arxiv.org/abs/2310.13678v1 )

ライセンス: Link先を確認
Arya D. McCarthy, Hao Zhang, Shankar Kumar, Felix Stahlberg, Ke Wu(参考訳) 音声翻訳における1つの課題は、多くの音声コンテンツが長文であるが、高品質翻訳を得るためには短い単位が必要であることである。 このミスマッチに対処するため、我々は大きな言語モデル (LLM) を適用して長いASR転写を独立に翻訳可能なセグメントに分割し、全体的な翻訳品質を最大化する。 llmsによる幻覚の傾向に対処するため,デコード中に有限状態制約を組み込んで不正な出力を除去した。 LLM は, 高速チューニングや微調整により, ASR エラーを含む書き起こしに適応できることが判明した。 最先端の自動句読解ベースラインと比較して、LLMは、セグメンテーションを改善するだけで、英語-ドイツ語、英語-スペイン語、英語-アラビア語のTEDトーク翻訳を9つのテストセットで2.9ポイント改善する。

One challenge in spoken language translation is that plenty of spoken content is long-form, but short units are necessary for obtaining high-quality translations. To address this mismatch, we adapt large language models (LLM) to split long ASR transcripts into segments that can be independently translated so as to maximize the overall translation quality. To combat the tendency of hallucination by LLMs, we incorporate finite-state constraints during decoding to eliminate invalid outputs. We discover that LLMs are adaptable to transcripts containing ASR errors through prompt-tuning or fine-tuning. In comparison to a state-of-the-art automatic punctuation baseline, our best LLM improves the average BLEU for English-German, English-Spanish, and English-Arabic TED talk translation in 9 test sets by 2.9 points, just by improving segmentation.
翻訳日:2023-10-23 21:31:45 公開日:2023-10-20
# 情報値:可塑性代替物からの距離による発話予測可能性の測定

Information Value: Measuring Utterance Predictability as Distance from Plausible Alternatives ( http://arxiv.org/abs/2310.13676v1 )

ライセンス: Link先を確認
Mario Giulianelli, Sarenne Wallbridge, Raquel Fern\'andez(参考訳) 本稿では,発話の予測可能性を評価する尺度である情報値を提案する。 本稿では,ニューラルテキスト生成器を用いて情報値の解釈可能な推定値を得る手法を提案し,その心理計測予測能力を用いて,人間の理解行動を促進する予測可能性の次元について検討する。 情報価値は、文字・音声対話における発話受容性の予測因子として、トークンレベルのサープリサールの集合よりも強く、視線追跡読解時間予測のためのサープリサールと相補的である。

We present information value, a measure which quantifies the predictability of an utterance relative to a set of plausible alternatives. We introduce a method to obtain interpretable estimates of information value using neural text generators, and exploit their psychometric predictive power to investigate the dimensions of predictability that drive human comprehension behaviour. Information value is a stronger predictor of utterance acceptability in written and spoken dialogue than aggregates of token-level surprisal and it is complementary to surprisal for predicting eye-tracked reading times.
翻訳日:2023-10-23 21:31:27 公開日:2023-10-20
# 逆翻訳のための合成データについて

On Synthetic Data for Back Translation ( http://arxiv.org/abs/2310.13675v1 )

ライセンス: Link先を確認
Jiahao Xu, Yubin Ruan, Wei Bi, Guoping Huang, Shuming Shi, Lihui Chen, Lemao Liu(参考訳) 逆翻訳(BT)はNTT研究分野において最も重要な技術の一つである。 既存のBTの試行は共通の特徴を共有しており、ビームサーチまたはランダムサンプリングを用いて後方モデルで合成データを生成するが、BTの性能における合成データの役割を研究することは滅多にない。 BTのパフォーマンスにどのような合成データが貢献するか? } 理論的および実証的研究を通じて, バックトランスレーションNMT性能を制御する合成データにおいて, 品質と重要性の2つの重要な因子を同定した。 さらに,本研究では,BTの性能向上のために,両因子のトレードオフを改善するため,合成データを簡便かつ効果的に生成する手法を提案する。 We run extensive experiment on WMT14 DE-EN, EN-DE, and RU-EN benchmark task。 提案手法を用いて合成データを生成することにより、BTモデルは標準BTベースライン(すなわち、データ生成のためのビームとサンプリングに基づく手法)を著しく上回り、提案手法の有効性を実証する。

Back translation (BT) is one of the most significant technologies in NMT research fields. Existing attempts on BT share a common characteristic: they employ either beam search or random sampling to generate synthetic data with a backward model but seldom work studies the role of synthetic data in the performance of BT. This motivates us to ask a fundamental question: {\em what kind of synthetic data contributes to BT performance?} Through both theoretical and empirical studies, we identify two key factors on synthetic data controlling the back-translation NMT performance, which are quality and importance. Furthermore, based on our findings, we propose a simple yet effective method to generate synthetic data to better trade off both factors so as to yield a better performance for BT. We run extensive experiments on WMT14 DE-EN, EN-DE, and RU-EN benchmark tasks. By employing our proposed method to generate synthetic data, our BT model significantly outperforms the standard BT baselines (i.e., beam and sampling based methods for data generation), which proves the effectiveness of our proposed methods.
翻訳日:2023-10-23 21:31:17 公開日:2023-10-20
# 顔認知畳み込みニューラルネットワークにおけるプレトレーニング重みバイアスの効果を弱めるためのヒューマンライクなメカニズム

Using Human-like Mechanism to Weaken Effect of Pre-training Weight Bias in Face-Recognition Convolutional Neural Network ( http://arxiv.org/abs/2310.13674v1 )

ライセンス: Link先を確認
Haojiang Ying, Yi-Fan Li, Yiyang Chen(参考訳) 畳み込みニューラルネットワーク(CNN)は人工知能の重要なモデルであり、様々な分野で広く使われ研究されている。 CNNの計算機構は、その複雑な性質のため、まだ完全には明らかになっていない。 本研究では,神経科学者によって人間に似たモデルとして分析されたcnn (alexnet, vgg11, vgg13, vgg16) を, 広く研究した。 我々はこれらのCNNを伝達学習により感情価分類タスクに訓練した。 彼らのパフォーマンスと人間のデータを比較したデータによると、これらのcnnは人間と同じように部分的に機能する。 次に、神経科学と行動データに基づく自己認識機構を用いて、オブジェクトベースのAlexNetを更新する。 FE-AlexNetは、他のテスト済みCNNよりも優れており、人間の知覚によく似ている。 これらのCNNの計算機構をさらに明らかにした。 さらに,本研究では,人間データによるCNN性能の理解と改善のための新しいパラダイムを提案する。

Convolutional neural network (CNN), as an important model in artificial intelligence, has been widely used and studied in different disciplines. The computational mechanisms of CNNs are still not fully revealed due to the their complex nature. In this study, we focused on 4 extensively studied CNNs (AlexNet, VGG11, VGG13, and VGG16) which has been analyzed as human-like models by neuroscientists with ample evidence. We trained these CNNs to emotion valence classification task by transfer learning. Comparing their performance with human data, the data unveiled that these CNNs would partly perform as human does. We then update the object-based AlexNet using self-attention mechanism based on neuroscience and behavioral data. The updated FE-AlexNet outperformed all the other tested CNNs and closely resembles human perception. The results further unveil the computational mechanisms of these CNNs. Moreover, this study offers a new paradigm to better understand and improve CNN performance via human data.
翻訳日:2023-10-23 21:30:59 公開日:2023-10-20
# StereoMap:大規模言語モデルにおける人間のようなステレオタイプ認識の定量化

StereoMap: Quantifying the Awareness of Human-like Stereotypes in Large Language Models ( http://arxiv.org/abs/2310.13673v1 )

ライセンス: Link先を確認
Sullam Jeoung, Yubin Ge, Jana Diesner(参考訳) 大規模言語モデル(LLM)は、トレーニングデータに存在する有害な関連を符号化し、永続する。 本稿では,人口集団が社会によってどのように見られているかについての認識を得るために,StereoMapという理論的基盤を持つフレームワークを提案する。 この枠組みは、心理学から確立された理論であるステレオタイプコンテンツモデル(SCM)に基礎を置いている。 SCMによると、ステレオタイプはすべて似ているわけではない。 代わりに、暖かさと能力の次元は、ステレオタイプの性質を示す要素として機能する。 SCM理論に基づいて、StereoMapは、ウォームスとコンピテンスの次元を用いて、LLMの社会グループに対する認識(社会デコグラフィーの特徴によって定義される)をマッピングする。 さらに,この枠組みにより,LLMの判断を推論するキーワードや動詞を探索し,その知覚に影響を及ぼす要因を明らかにすることができる。 以上の結果から, LLMはこれらのグループに対して, ウォームスとコンピテンスの次元に沿った混合評価を特徴とする多様な知覚を呈することが示された。 さらに, LLMの推論を解析した結果, LLMは社会的格差の認識を示し, 統計的データや研究結果がそれらの推論を支持することが多かった。 本研究は, LLMが社会集団をどのように知覚し, 表現しているかの理解に寄与し, 潜在的なバイアスと有害な関連性の永続性に光を当てる。

Large Language Models (LLMs) have been observed to encode and perpetuate harmful associations present in the training data. We propose a theoretically grounded framework called StereoMap to gain insights into their perceptions of how demographic groups have been viewed by society. The framework is grounded in the Stereotype Content Model (SCM); a well-established theory from psychology. According to SCM, stereotypes are not all alike. Instead, the dimensions of Warmth and Competence serve as the factors that delineate the nature of stereotypes. Based on the SCM theory, StereoMap maps LLMs' perceptions of social groups (defined by socio-demographic features) using the dimensions of Warmth and Competence. Furthermore, the framework enables the investigation of keywords and verbalizations of reasoning of LLMs' judgments to uncover underlying factors influencing their perceptions. Our results show that LLMs exhibit a diverse range of perceptions towards these groups, characterized by mixed evaluations along the dimensions of Warmth and Competence. Furthermore, analyzing the reasonings of LLMs, our findings indicate that LLMs demonstrate an awareness of social disparities, often stating statistical data and research findings to support their reasoning. This study contributes to the understanding of how LLMs perceive and represent social groups, shedding light on their potential biases and the perpetuation of harmful associations.
翻訳日:2023-10-23 21:30:43 公開日:2023-10-20
# 新しい量子機械学習アルゴリズム:量子条件マスター方程式に触発された分割隠れ量子マルコフモデル

A new quantum machine learning algorithm: split hidden quantum Markov model inspired by quantum conditional master equation ( http://arxiv.org/abs/2307.08640v3 )

ライセンス: Link先を確認
Xiao-Yu Li, Qin-Sheng Zhu, Yong Hu, Hao Wu, Guo-Wu Yang, Lian-Hui Yu, Geng Chen(参考訳) 隠れマルコフモデル(hidden quantum markov model, hqmm)は、時系列データの解析や量子領域の確率過程の研究において、古典的な隠れマルコフモデルよりも高い精度と効率性を持つ。 本稿では,量子システムの内部状態間の相互接続を実証するために,条件付きマスター方程式を微細なバランス条件で利用し,隠れ量子マルコフ過程を実装するための分割HQMM(SHQMM)を提案する。 実験結果から,本モデルは従来のモデルよりも性能とロバスト性において優れていることが示唆された。 さらに,量子条件マスター方程式をHQMMに関連付けることで,HQMMのパラメータを解く新しい学習アルゴリズムを構築した。 最後に,本研究では,量子輸送系がHQMMの物理表現とみなすことができることを示す。 shqmmと付随するアルゴリズムは、物理的に実装された量子システムと時系列を分析する新しい手法である。

The Hidden Quantum Markov Model (HQMM) has significant potential for analyzing time-series data and studying stochastic processes in the quantum domain due to its greater accuracy and efficiency than the classical hidden Markov model. In this paper, we introduced the split HQMM (SHQMM) for implementing the hidden quantum Markov process, utilizing the conditional master equation with a fine balance condition to demonstrate the interconnections among the internal states of the quantum system. The experimental results suggest that our model outperforms previous models in terms of performance and robustness. Additionally, we establish a new learning algorithm to solve parameters in HQMM by relating the quantum conditional master equation to the HQMM. Finally, our study provides clear evidence that the quantum transport system can be considered a physical representation of HQMM. The SHQMM with accompanying algorithms present a novel method to analyze quantum systems and time series grounded in physical implementation.
翻訳日:2023-10-23 17:26:04 公開日:2023-10-20
# 画像逆問題における不確かさ定量のための等変ブートストラップ

Equivariant Bootstrapping for Uncertainty Quantification in Imaging Inverse Problems ( http://arxiv.org/abs/2310.11838v2 )

ライセンス: Link先を確認
Julian Tachella and Marcelo Pereyra(参考訳) 科学的イメージングの問題は、しばしば深刻な問題であり、したがって固有の不確実性がある。 このような問題に対する解決策の不確実性を正確に定量化することは、実験結果の厳密な解釈や、再構成された画像を科学的証拠として確実に使用するために重要である。 残念なことに、既存の撮像法は複製実験に頑健な方法で再構成画像の不確かさを定量化できない。 本稿では,画像問題によく見られる対称性と不変性を利用したパラメトリックブートストラップアルゴリズムの等価な定式化に基づく新しい不確実性定量法を提案する。 さらに,提案手法は一般に,観測データのみからトレーニング可能な教師なしのトレーニング戦略を含む,任意の画像再構成手法に容易に適用できるため,真理データがない場合に不確実性定量化が可能となる。 提案手法は,一連の数値実験と,スコアベース拡散モデルを含むベイズ的手法やランゲヴィン・サンプルラーなど,最先端技術からの代替不確実性定量化戦略との比較により実証する。 全ての実験において,提案手法は高精度な高次元信頼領域を提供し,推定精度,不確実性定量化精度,計算時間において競合する手法より優れている。

Scientific imaging problems are often severely ill-posed, and hence have significant intrinsic uncertainty. Accurately quantifying the uncertainty in the solutions to such problems is therefore critical for the rigorous interpretation of experimental results as well as for reliably using the reconstructed images as scientific evidence. Unfortunately, existing imaging methods are unable to quantify the uncertainty in the reconstructed images in a manner that is robust to experiment replications. This paper presents a new uncertainty quantification methodology based on an equivariant formulation of the parametric bootstrap algorithm that leverages symmetries and invariance properties commonly encountered in imaging problems. Additionally, the proposed methodology is general and can be easily applied with any image reconstruction technique, including unsupervised training strategies that can be trained from observed data alone, thus enabling uncertainty quantification in situations where there is no ground truth data available. We demonstrate the proposed approach with a series of numerical experiments and through comparisons with alternative uncertainty quantification strategies from the state-of-the-art, such as Bayesian strategies involving score-based diffusion models and Langevin samplers. In all our experiments, the proposed method delivers remarkably accurate high-dimensional confidence regions and outperforms the competing approaches in terms of estimation accuracy, uncertainty quantification accuracy, and computing time.
翻訳日:2023-10-23 11:27:20 公開日:2023-10-20
# コヒーレンスモデルの拡張による長文トピックセグメンテーションモデルの改善

Improving Long Document Topic Segmentation Models With Enhanced Coherence Modeling ( http://arxiv.org/abs/2310.11772v2 )

ライセンス: Link先を確認
Hai Yu, Chong Deng, Qinglin Zhang, Jiaqing Liu, Qian Chen, Wen Wang(参考訳) トピックセグメンテーションは構造化された長いドキュメントを取得し、情報検索のような下流タスクを改善するために重要である。 大量のラベル付きデータからトピックシフトの手がかりを自動的に探索する能力のため、近年の教師付きニューラルネットワークは、長い文書のトピックセグメンテーションの開発を大いに促進しているが、セマンティックコヒーレンスとトピックセグメンテーションの深い関係は未解明のままである。 そこで本論文では,教師付きモデルにより,構造と類似性の観点からコヒーレンスを捉える能力を高め,トピック認識文構造予測 (tssp) やコントラスト的意味類似性学習 (cssl) など,トピックセグメンテーション性能をさらに向上させる。 具体的には、TSSPタスクは、そのトピックと文レベルで原文を共同的に破壊して構築した非配列文書において、隣接文の原文関係を学習することにより、構造情報の理解を強制する。 さらに,トピック間情報とトピック内情報を用いて対比サンプルを作成し,cssl目標の設計を行い,同一トピック内の文表現が意味的類似度が高いが,異なるトピックの文は類似度が低いことを保証する。 広汎な実験により,我々のアプローチによるロングフォーマーは,従来のSOTA法よりも優れていた。 提案手法は,wiki-727k において,古い sota の $f_{1}$ を 3.42 (73.74 -> 77.16) 改善し,$p_{k}$ を 1.11 ポイント (15.0 -> 13.89) 削減し,wiki セクション 上で $p_{k}$ で 0.83 ポイント削減する。 P_{k}$平均2.82点のドメイン外のデータセットは、我々のアプローチの堅牢性も示している。

Topic segmentation is critical for obtaining structured long documents and improving downstream tasks like information retrieval. Due to its ability of automatically exploring clues of topic shift from a large amount of labeled data, recent supervised neural models have greatly promoted the development of long document topic segmentation, but leaving the deeper relationship of semantic coherence and topic segmentation underexplored. Therefore, this paper enhances the supervised model's ability to capture coherence from both structure and similarity perspectives to further improve the topic segmentation performance, including the Topic-aware Sentence Structure Prediction (TSSP) and Contrastive Semantic Similarity Learning (CSSL). Specifically, the TSSP task is proposed to force the model to comprehend structural information by learning the original relations of adjacent sentences in a disarrayed document, which is constructed by jointly disrupting the original document at the topic and sentence levels. In addition, we utilize inter- and intra-topic information to construct contrastive samples and design the CSSL objective to ensure that the sentences representations in the same topic have higher semantic similarity, while those in different topics are less similar. Extensive experiments show that the Longformer with our approach significantly outperforms old state-of-the-art (SOTA) methods. Our approach improves $F_{1}$ of old SOTA by 3.42 (73.74 -> 77.16) and reduces $P_{k}$ by 1.11 points (15.0 -> 13.89) on WIKI-727K and achieves an average reduction of 0.83 points on $P_{k}$ on WikiSection. The average $P_{k}$ drop of 2.82 points on the two out-of-domain datasets also illustrates the robustness of our approach
翻訳日:2023-10-23 11:26:38 公開日:2023-10-20
# マルチモーダル失語症型検出のための学習協調ジェスチャー

Learning Co-Speech Gesture for Multimodal Aphasia Type Detection ( http://arxiv.org/abs/2310.11710v2 )

ライセンス: Link先を確認
Daeun Lee, Sejung Son, Hyolim Jeon, Seungbae Kim, Jinyoung Han(参考訳) 脳損傷による言語障害である失語症は、効果的な治療のためにブロカ失語症やヴェルニッケ失語症のような特定の失語症の正確な同定を必要とする。 しかし、異なる種類の失語症を検出する方法の開発にはほとんど注意が払われていない。 失語症を識別するための共語ジェスチャ分析の重要性を認識し,音声と対応するジェスチャパターンを用いた失語症検出のためのマルチモーダルグラフニューラルネットワークを提案する。 本モデルでは,各失語型における発話とジェスチャーのモダリティの相関関係を学習することにより,ジェスチャー情報に敏感なテキスト表現を生成できる。 実験の結果,既存手法よりも優れた手法が得られた(F1 84.2\%)。 また,ジェスチャ特徴が音響特徴よりも優れており,失語検出におけるジェスチャ表現の重要性を強調する。 再現性のためのコードを提供します。

Aphasia, a language disorder resulting from brain damage, requires accurate identification of specific aphasia types, such as Broca's and Wernicke's aphasia, for effective treatment. However, little attention has been paid to developing methods to detect different types of aphasia. Recognizing the importance of analyzing co-speech gestures for distinguish aphasia types, we propose a multimodal graph neural network for aphasia type detection using speech and corresponding gesture patterns. By learning the correlation between the speech and gesture modalities for each aphasia type, our model can generate textual representations sensitive to gesture information, leading to accurate aphasia type detection. Extensive experiments demonstrate the superiority of our approach over existing methods, achieving state-of-the-art results (F1 84.2\%). We also show that gesture features outperform acoustic features, highlighting the significance of gesture expression in detecting aphasia types. We provide the codes for reproducibility purposes.
翻訳日:2023-10-23 11:25:34 公開日:2023-10-20
# 大規模言語モデルにおけるファクチュアル知識の体系的評価

Systematic Assessment of Factual Knowledge in Large Language Models ( http://arxiv.org/abs/2310.11638v2 )

ライセンス: Link先を確認
Linhao Luo, Thuy-Trang Vu, Dinh Phung, Gholamreza Haffari(参考訳) 従来の研究では,大規模言語モデル(LLM)に格納された知識を評価するために,既存の質問応答ベンチマークに頼っていた。 しかし、このアプローチは、主に事前学習データと重複するジェネリックドメインに焦点を当てているため、事実的知識カバレッジに関する制限がある。 本稿では,知識グラフ(KG)を利用して,LLMの事実知識を体系的に評価する枠組みを提案する。 本フレームワークは,所定のKGに格納された事実から,質問の集合と期待された回答を自動的に生成し,これらの質問に対するLLMの精度を評価する。 汎用ドメインと特定ドメインのKGを用いて,最先端のLCMを体系的に評価した。 この実験は、ChatGPTがすべてのドメインで一貫してトップパフォーマーであることを示している。 また, LLMの性能は命令の微調整, ドメイン, 質問の複雑さに左右され, 相手のコンテキストに左右される傾向がある。

Previous studies have relied on existing question-answering benchmarks to evaluate the knowledge stored in large language models (LLMs). However, this approach has limitations regarding factual knowledge coverage, as it mostly focuses on generic domains which may overlap with the pretraining data. This paper proposes a framework to systematically assess the factual knowledge of LLMs by leveraging knowledge graphs (KGs). Our framework automatically generates a set of questions and expected answers from the facts stored in a given KG, and then evaluates the accuracy of LLMs in answering these questions. We systematically evaluate the state-of-the-art LLMs with KGs in generic and specific domains. The experiment shows that ChatGPT is consistently the top performer across all domains. We also find that LLMs performance depends on the instruction finetuning, domain and question complexity and is prone to adversarial context.
翻訳日:2023-10-23 11:25:16 公開日:2023-10-20
# 偽情報コンバットのためのAI技術の実験:IDMOプロジェクト

Experimenting AI Technologies for Disinformation Combat: the IDMO Project ( http://arxiv.org/abs/2310.11097v3 )

ライセンス: Link先を確認
Lorenzo Canale, Alberto Messina(参考訳) イタリアのデジタルメディア天文台(IDMO)プロジェクトは、偽情報や偽ニュースに対抗することに焦点を当てている。 本報告では,プロジェクトへのrai-critsからの貢献について概説する。 (i)試験技術のための新規データセットの作成 (ii)幅広い分析を容易にするためにpagella politica verdictsを分類する自動モデルの開発 (iii)フィーバーデータセットにおける例外的正確性を伴う文章の包含認識のための自動モデルの作成 4) GPT-4 を用いたテキスト・エントリメンの識別 (v)全国のイベントで偽ニュースに対する意識を高めるゲーム。

The Italian Digital Media Observatory (IDMO) project, part of a European initiative, focuses on countering disinformation and fake news. This report outlines contributions from Rai-CRITS to the project, including: (i) the creation of novel datasets for testing technologies (ii) development of an automatic model for categorizing Pagella Politica verdicts to facilitate broader analysis (iii) creation of an automatic model for recognizing textual entailment with exceptional accuracy on the FEVER dataset (iv) assessment using GPT-4 to identify textual entailmen (v) a game to raise awareness about fake news at national events.
翻訳日:2023-10-23 11:24:59 公開日:2023-10-20
# LLM4SGG:弱教師付きシーングラフ生成のための大規模言語モデル

LLM4SGG: Large Language Model for Weakly Supervised Scene Graph Generation ( http://arxiv.org/abs/2310.10404v4 )

ライセンス: Link先を確認
Kibum Kim, Kanghoon Yoon, Jaehyeong Jeon, Yeonjun In, Jinyoung Moon, Donghyun Kim, Chanyoung Park(参考訳) Wakly-Supervised Scene Graph Generation (WSSGG) 研究は、最近、コストのかかるアノテーションに大きく依存する、完全に教師されたアプローチの代替として現れた。 そこで,WSSGGの研究は,画像領域上の非局在化三重項の接地に着目しつつ,非局在化三重項の取得に画像キャプションを利用した。 しかし、キャプションから三重項形成の過程に関わる2つの問題を見落としている。 1)字幕中のきめ細かい述語を好ましくなく粗い述語に変換して長尾述語分布にするキャプションから三重項を抽出する際に意味的な単純化の問題が発生する。 2 低密度シーングラフは、キャプション内の三つ子を、多くの三つ子を捨てて訓練に使用しない利害関係のクラスに整列させ、監督が不十分な場合に発生する。 この2つの問題に対処するため,LLM の言語理解の深みを生かし,キャプションから三重項を抽出する際の推論能力と,エンティティ/述語クラスを対象データにアライメントすることで,弱教師付き SGG のための大規模言語モデル (LLM4SGG) を提案する。 これらのプロセスでLLMをさらに活用するため、我々はChain-of-Thoughtという概念と、文脈内数ショット学習戦略を採用した。 LLM4SGGの有効性を検証するために、我々は、Visual GenomeとGQAデータセットの広範な実験を行い、Recall@Kと平均Recall@Kの両方において、最先端のWSSGG法と比較して大幅に改善されていることを示す。 さらに、LLM4SGGはデータ効率が良く、少量のトレーニング画像で効果的なモデルトレーニングを可能にする。

Weakly-Supervised Scene Graph Generation (WSSGG) research has recently emerged as an alternative to the fully-supervised approach that heavily relies on costly annotations. In this regard, studies on WSSGG have utilized image captions to obtain unlocalized triplets while primarily focusing on grounding the unlocalized triplets over image regions. However, they have overlooked the two issues involved in the triplet formation process from the captions: 1) Semantic over-simplification issue arises when extracting triplets from captions, where fine-grained predicates in captions are undesirably converted into coarse-grained predicates, resulting in a long-tailed predicate distribution, and 2) Low-density scene graph issue arises when aligning the triplets in the caption with entity/predicate classes of interest, where many triplets are discarded and not used in training, leading to insufficient supervision. To tackle the two issues, we propose a new approach, i.e., Large Language Model for weakly-supervised SGG (LLM4SGG), where we mitigate the two issues by leveraging the LLM's in-depth understanding of language and reasoning ability during the extraction of triplets from captions and alignment of entity/predicate classes with target data. To further engage the LLM in these processes, we adopt the idea of Chain-of-Thought and the in-context few-shot learning strategy. To validate the effectiveness of LLM4SGG, we conduct extensive experiments on Visual Genome and GQA datasets, showing significant improvements in both Recall@K and mean Recall@K compared to the state-of-the-art WSSGG methods. A further appeal is that LLM4SGG is data-efficient, enabling effective model training with a small amount of training images.
翻訳日:2023-10-23 11:24:51 公開日:2023-10-20
# 文脈手がかりと役割関連による文書レベルのイベント引数抽出の強化

Enhancing Document-level Event Argument Extraction with Contextual Clues and Role Relevance ( http://arxiv.org/abs/2310.05991v3 )

ライセンス: Link先を確認
Wanlong Liu, Shaohuan Cheng, Dingyi Zeng, Hong Qu(参考訳) 文書レベルのイベント引数抽出は、文レベルの文よりも長い入力とクロスセンテンス推論の新たな課題を提起する。 しかしながら、ほとんどの先行研究は、各イベントにおける候補引数とイベントトリガーの関係を把握し、2つの重要なポイントを無視している。 a) 暗黙の文脈的手がかり情報 b) 議論の役割の関連性 本稿では,span-trigger-based context pooling and latent role guidance(span-trigger-based context pooling)モデルを提案する。 STCP(Span-Trigger-based Contextual Pooling)は、事前訓練されたモデルから特定の引数-トリガーペアのコンテキストアテンション重みに基づいて、非議論的手がかり語の情報を適応的に選択・集約する。 Role-based Latent Information Guidance (RLIG)モジュールは、潜在ロール表現を構築し、ロール間エンコーディングを通じて相互作用させ、意味的関連性をキャプチャし、それらを候補引数にマージする。 STCPとRLIGはいずれもベースモデルと比較して1%以上の新しいパラメータを導入せず、コンパクトで移植可能な他のイベント抽出モデルにも容易に適用できる。 2つの公開データセットの実験により、SCPRGは、それぞれRAMSとWikiEventsの1.13 F1と2.64 F1の改善により、従来の最先端メソッドよりも優れていたことが示されている。 さらなる分析は、我々のモデルの解釈可能性を示す。

Document-level event argument extraction poses new challenges of long input and cross-sentence inference compared to its sentence-level counterpart. However, most prior works focus on capturing the relations between candidate arguments and the event trigger in each event, ignoring two crucial points: a) non-argument contextual clue information; b) the relevance among argument roles. In this paper, we propose a SCPRG (Span-trigger-based Contextual Pooling and latent Role Guidance) model, which contains two novel and effective modules for the above problem. The Span-Trigger-based Contextual Pooling(STCP) adaptively selects and aggregates the information of non-argument clue words based on the context attention weights of specific argument-trigger pairs from pre-trained model. The Role-based Latent Information Guidance (RLIG) module constructs latent role representations, makes them interact through role-interactive encoding to capture semantic relevance, and merges them into candidate arguments. Both STCP and RLIG introduce no more than 1% new parameters compared with the base model and can be easily applied to other event extraction models, which are compact and transplantable. Experiments on two public datasets show that our SCPRG outperforms previous state-of-the-art methods, with 1.13 F1 and 2.64 F1 improvements on RAMS and WikiEvents respectively. Further analyses illustrate the interpretability of our model.
翻訳日:2023-10-23 11:24:13 公開日:2023-10-20
# DQ-LoRe: 文脈内学習のための低ランク近似型デュアルクェリ

DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for In-Context Learning ( http://arxiv.org/abs/2310.02954v4 )

ライセンス: Link先を確認
Jing Xiong, Zixuan Li, Chuanyang Zheng, Zhijiang Guo, Yichun Yin, Enze Xie, Zhicheng Yang, Qingxing Cao, Haiming Wang, Xiongwei Han, Jing Tang, Chengming Li, Xiaodan Liang(参考訳) 自然言語処理の最近の進歩は、主にLarge Language Models (LLM) によって推進され、文脈内学習に根ざした顕著な能力を示している。 複雑な推論タスクにおいてLLMを導くための有望な道は、Chain-of-Thought(CoT)パラダイムにおける中間的推論ステップの利用である。 それでも、中核的な課題は、インコンテキスト学習を促進するための例題の効果的な選択にある。 本研究では、DQ-LoRe(Dual Queries and Low-rank approximation Re- rank)を利用して、文脈内学習のための例を自動選択するフレームワークを提案する。 Dual Queries はまず LLM に問い合わせて、COT などの LLM 生成した知識を取得し、次に検索者に対して質問と知識の両方を通して最終例を得る。 さらに第2の質問に対して,loreは,入力質問の知識との密接な一致を保証し,例題選択を洗練するために,次元性低減手法を採用している。 広範な実験により, dq-lore は gpt-4 のexemplars の自動選択において, 従来の最先端手法を大幅に上回り, 92.5% から 94.2% に向上した。 総合分析の結果,dq-loreは,特に分布シフトを特徴とするシナリオにおいて,性能と適応性の両方において,検索ベースアプローチを一貫して上回っていることが明らかとなった。 DQ-LoReはコンテキスト内学習の境界を押し上げ、複雑な推論問題に対処するための新たな道を開く。 私たちはすぐにコードをリリースします。

Recent advances in natural language processing, primarily propelled by Large Language Models (LLMs), have showcased their remarkable capabilities grounded in in-context learning. A promising avenue for guiding LLMs in intricate reasoning tasks involves the utilization of intermediate reasoning steps within the Chain-of-Thought (CoT) paradigm. Nevertheless, the central challenge lies in the effective selection of exemplars for facilitating in-context learning. In this study, we introduce a framework that leverages Dual Queries and Low-rank approximation Re-ranking (DQ-LoRe) to automatically select exemplars for in-context learning. Dual Queries first query LLM to obtain LLM-generated knowledge such as CoT, then query the retriever to obtain the final exemplars via both question and the knowledge. Moreover, for the second query, LoRe employs dimensionality reduction techniques to refine exemplar selection, ensuring close alignment with the input question's knowledge. Through extensive experiments, we demonstrate that DQ-LoRe significantly outperforms prior state-of-the-art methods in the automatic selection of exemplars for GPT-4, enhancing performance from 92.5% to 94.2%. Our comprehensive analysis further reveals that DQ-LoRe consistently outperforms retrieval-based approaches in terms of both performance and adaptability, especially in scenarios characterized by distribution shifts. DQ-LoRe pushes the boundaries of in-context learning and opens up new avenues for addressing complex reasoning challenges. We will release the code soon.
翻訳日:2023-10-23 11:23:46 公開日:2023-10-20
# 映像品質評価モデルにおける脆弱性 : 敵対的攻撃の挑戦

Vulnerabilities in Video Quality Assessment Models: The Challenge of Adversarial Attacks ( http://arxiv.org/abs/2309.13609v3 )

ライセンス: Link先を確認
Ao-Xiang Zhang, Yu Ran, Weixuan Tang, Yuan-Gen Wang(参考訳) No-Reference Video Quality Assessment (NR-VQA) は、エンドユーザの視聴体験を改善する上で重要な役割を果たす。 ディープラーニングによって駆動される最近のNR-VQAモデルは、畳み込みニューラルネットワーク(CNN)とトランスフォーマーによる優れたパフォーマンスを実現している。 信頼性が高く実用的な評価システムを構築するには,その堅牢性を評価する必要がある。 しかし、この問題は学術界ではほとんど注目されていない。 本稿では,敵攻撃に対するNR-VQAモデルのロバスト性を評価するための最初の試みを行い,ブラックボックス攻撃に対するパッチベースのランダム検索手法を提案する。 具体的には、品質スコアに対する攻撃効果と対向映像の視覚品質の両方を考慮して、ジャスト・ノーティケータブル・差分(jnd)の制約下で推定品質スコアを誤解させるものとして攻撃問題を定式化する。 このような定式化に基づいて、Score-Reversed Boundary Lossと呼ばれる新しい損失関数は、相手ビデオの予測品質スコアを、その接点から特定のバウンダリへ遠ざけるように設計され、JND制約は厳格な$L_2$と$L_\infty$ノルム制約としてモデル化される。 つまり、ホワイトボックスとブラックボックスの攻撃は、効果的で受け入れがたい方法で起動できる。 ソースコードはhttps://github.com/GZHU-DVL/AttackVQAで入手できる。

No-Reference Video Quality Assessment (NR-VQA) plays an essential role in improving the viewing experience of end-users. Driven by deep learning, recent NR-VQA models based on Convolutional Neural Networks (CNNs) and Transformers have achieved outstanding performance. To build a reliable and practical assessment system, it is of great necessity to evaluate their robustness. However, such issue has received little attention in the academic community. In this paper, we make the first attempt to evaluate the robustness of NR-VQA models against adversarial attacks, and propose a patch-based random search method for black-box attack. Specifically, considering both the attack effect on quality score and the visual quality of adversarial video, the attack problem is formulated as misleading the estimated quality score under the constraint of just-noticeable difference (JND). Built upon such formulation, a novel loss function called Score-Reversed Boundary Loss is designed to push the adversarial video's estimated quality score far away from its ground-truth score towards a specific boundary, and the JND constraint is modeled as a strict $L_2$ and $L_\infty$ norm restriction. By this means, both white-box and black-box attacks can be launched in an effective and imperceptible manner. The source code is available at https://github.com/GZHU-DVL/AttackVQA.
翻訳日:2023-10-23 11:23:17 公開日:2023-10-20
# 量子重力補正のための情報理論的アプローチ

Information Theoretical Approach to Detecting Quantum Gravitational Corrections ( http://arxiv.org/abs/2310.12878v2 )

ライセンス: Link先を確認
Behnam Pourhassan, Xiaoping Shi, Salman Sajad Wani, Saif-Al-Khawari, Farideh Kazemian, \.Izzet Sakall{\i}, Naveed Ahmad Shah, Mir Faizal(参考訳) 量子重力補正をテストする1つの方法はブラックホール物理学である。 本稿では、ブラックホール内で量子重力補正が検出できるスケールについて情報理論を用いて検討する。 これは、Parikh-Wilczek形式から得られる確率分布に対して、Kullback-Leibler分散を計算することによってなされる。 量子重力補正は、ブラックホールの質量が減少するにつれてクルバック・リーブラーの偏差を増大させ、大きなブラックホールに対しては量子重力補正を無視できると予想される。 しかし、ある臨界値の後、ブラックホールの質量が減少するにつれて量子重力補正が再び減少する傾向が観察される。 この挙動の背後にある理由を理解するために、そのような量子重力補正に関するフィッシャー情報を取得し、質量が減少するにつれてそれも増加するが、臨界値の後に減少する。 このような規模では、量子揺らぎがシステムを支配し、システムに関する情報を失うからです。 これらの結果は高次元ブラックホールに対して得られ、ブラックホールの寸法に応じてクルバック・リーブラーの発散とフィッシャー情報の観測を行う。 これらの結果は、量子重力補正の検出の難しさのスケール依存と次元依存を定量化することができる。

One way to test quantum gravitational corrections is through black hole physics. In this paper, We investigate the scales at which quantum gravitational corrections can be detected in a black hole using information theory. This is done by calculating the Kullback-Leibler divergence for the probability distributions obtained from the Parikh-Wilczek formalism. We observe that the quantum gravitational corrections increase the Kullback-Leibler divergence as the mass of the black hole decreases, which is expected as quantum gravitational corrections can be neglected for larger black holes. However, we further observe that after a certain critical value, quantum gravitational corrections tend to decrease again as the mass of the black hole decreases. To understand the reason behind this behavior, we explicitly obtain Fisher information about such quantum gravitational corrections and find that it also increases as the mass decreases, but again, after a critical value, it decreases. This is because at such a scale, quantum fluctuations dominate the system and we lose information about the system. We obtain these results for higher-dimensional black holes and observe this behavior for Kullback-Leibler divergence and Fisher information depending on the dimensions of the black hole. These results can quantify the scale dependence and dimension dependence of the difficulty in detecting quantum gravitational corrections.
翻訳日:2023-10-23 11:14:38 公開日:2023-10-20
# GestureGPT:大規模言語モデルエージェントによるゼロショット対話型ジェスチャー理解とグラウンド化

GestureGPT: Zero-shot Interactive Gesture Understanding and Grounding with Large Language Model Agents ( http://arxiv.org/abs/2310.12821v2 )

ライセンス: Link先を確認
Xin Zeng, Xiaoyu Wang, Tengxiang Zhang, Chun Yu, Shengdong Zhao, Yiqiang Chen(参考訳) 現在のジェスチャー認識システムは、主に事前に定義されたセット内のジェスチャーの識別に重点を置いており、これらのジェスチャーを対話的なGUI要素やシステム機能(例えば 'thumb-up' ジェスチャーを 'like' ボタンにリンクするなど)に接続する際のギャップを残している。 我々は,大規模言語モデル(llms)を活用したゼロショットジェスチャ理解と接地フレームワークであるgisgegptを紹介する。 ジェスチャ記述はジェスチャビデオのハンドランドマーク座標に基づいて定式化し,デュアルエージェント対話システムへ入力する。 ジェスチャーエージェントは、これらの記述を解読し、コンテキストエージェントが整理し提供するインタラクションコンテキスト(インターフェイス、履歴、視線データなど)に関する問い合わせを行う。 反復交換に続いて、ジェスチャーエージェントはユーザ意図を識別し、対話的な機能にグラウンドする。 ジェスチャー記述モジュールをパブリックなファーストビューとサードビューのジェスチャデータセットを使って検証し、システム全体をビデオストリーミングとスマートホームiotコントロールという2つの現実の設定でテストした。 最高のゼロショットトップ5は、ビデオストリーミングの80.11%、スマートホームタスクの90.78%であり、新しいジェスチャー理解パラダイムの可能性を示している。

Current gesture recognition systems primarily focus on identifying gestures within a predefined set, leaving a gap in connecting these gestures to interactive GUI elements or system functions (e.g., linking a 'thumb-up' gesture to a 'like' button). We introduce GestureGPT, a novel zero-shot gesture understanding and grounding framework leveraging large language models (LLMs). Gesture descriptions are formulated based on hand landmark coordinates from gesture videos and fed into our dual-agent dialogue system. A gesture agent deciphers these descriptions and queries about the interaction context (e.g., interface, history, gaze data), which a context agent organizes and provides. Following iterative exchanges, the gesture agent discerns user intent, grounding it to an interactive function. We validated the gesture description module using public first-view and third-view gesture datasets and tested the whole system in two real-world settings: video streaming and smart home IoT control. The highest zero-shot Top-5 grounding accuracies are 80.11% for video streaming and 90.78% for smart home tasks, showing potential of the new gesture understanding paradigm.
翻訳日:2023-10-23 11:14:19 公開日:2023-10-20
# DT/MARS-CycleGAN:MARS聴取ロボットの物体検出の改善

DT/MARS-CycleGAN: Improved Object Detection for MARS Phenotyping Robot ( http://arxiv.org/abs/2310.12787v2 )

ライセンス: Link先を確認
David Liu, Zhengkun Li, Zihao Wu, Changying Li(参考訳) ロボット作物の表現型化は、作物の形態的および生理的特性を大規模に評価するための重要な技術として登場した。 これらの表現型測定は、生産性を高め、気候変動のような環境問題に対処するために、新しい作物品種の開発に不可欠である。 しかし、作物表現型ロボットの開発と展開には、ロボットのオブジェクト検出を複雑にする複雑で可変な作物形状、ロボットの制御を束ねる動的で非構造的な環境、ロボットのハードウェアやソフトウェアに挑戦するビッグデータのリアルタイムコンピューティングと管理など、多くの課題がある。 本研究は、画像拡張のための新しいDigital-Twin(DT)MARS-CycleGANモデルを提案し、複雑で可変な背景から収穫物を検出するモジュール農業ロボットシステム(MARS)を改善することによる、最初の課題に特に取り組む。 我々は,CycleGANモデルにおけるサイクル整合性損失に加えて,深層学習モデルにおける新たなDT-MARS損失を設計・強制し,MARSが取得した実収穫画像とDT MARSが検出した合成画像との整合性を検証した。 そのため、生成した合成作物画像はリアリズムの観点から実像を忠実に模倣し、YOLOv8のような微細な物体検出器に使用される。 広範な実験により,新しいdt/mars-cycleganフレームワークは,火星の作物のオブジェクト・ロウ検出器の性能を著しく向上させ,ロボット作物の表現型化の分野に寄与した。

Robotic crop phenotyping has emerged as a key technology to assess crops' morphological and physiological traits at scale. These phenotypical measurements are essential for developing new crop varieties with the aim of increasing productivity and dealing with environmental challenges such as climate change. However, developing and deploying crop phenotyping robots face many challenges such as complex and variable crop shapes that complicate robotic object detection, dynamic and unstructured environments that baffle robotic control, and real-time computing and managing big data that challenge robotic hardware/software. This work specifically tackles the first challenge by proposing a novel Digital-Twin(DT)MARS-CycleGAN model for image augmentation to improve our Modular Agricultural Robotic System (MARS)'s crop object detection from complex and variable backgrounds. Our core idea is that in addition to the cycle consistency losses in the CycleGAN model, we designed and enforced a new DT-MARS loss in the deep learning model to penalize the inconsistency between real crop images captured by MARS and synthesized images sensed by DT MARS. Therefore, the generated synthesized crop images closely mimic real images in terms of realism, and they are employed to fine-tune object detectors such as YOLOv8. Extensive experiments demonstrated that our new DT/MARS-CycleGAN framework significantly boosts our MARS' crop object/row detector's performance, contributing to the field of robotic crop phenotyping.
翻訳日:2023-10-23 11:13:56 公開日:2023-10-20
# プライバシー保護データからの条件密度推定

Conditional Density Estimations from Privacy-Protected Data ( http://arxiv.org/abs/2310.12781v2 )

ライセンス: Link先を確認
Yifei Xiong, Nianqiao P. Ju, Sanguo Zhang(参考訳) 現代の統計分析や機械学習アプリケーションの多くは、センシティブなユーザデータのトレーニングモデルを必要とする。 差分プライバシーは、個人レベルのユーザーの情報が漏洩しないという正式な保証を提供する。 このフレームワークでは、ランダム化されたアルゴリズムが機密データに校正されたノイズを注入し、プライバシー保護されたデータセットやクエリを生成する。 しかし、統計分析において、民営データのみへのアクセスを制限することは、機密データの背後にあるパラメータに対して有効な推論を行うことを計算的に困難にする。 本研究では,プライバシ保護データセットからのシミュレーションに基づく推論手法を提案する。 具体的には,神経条件密度推定器をフレキシブルな分布系として使用し,観察された個人的問合せ結果からモデルパラメータの後方分布を近似する。 本稿では,感染症モデルに基づく個別時系列データと通常の線形回帰モデルについて述べる。 プライバシ保護機構によって引き起こされるバイアスを正すための有効な統計的推論手順を設計する必要性と実現可能性を示す。

Many modern statistical analysis and machine learning applications require training models on sensitive user data. Differential privacy provides a formal guarantee that individual-level information about users does not leak. In this framework, randomized algorithms inject calibrated noise into the confidential data, resulting in privacy-protected datasets or queries. However, restricting access to only the privatized data during statistical analysis makes it computationally challenging to perform valid inferences on parameters underlying the confidential data. In this work, we propose simulation-based inference methods from privacy-protected datasets. Specifically, we use neural conditional density estimators as a flexible family of distributions to approximate the posterior distribution of model parameters given the observed private query results. We illustrate our methods on discrete time-series data under an infectious disease model and on ordinary linear regression models. Illustrating the privacy-utility trade-off, our experiments and analysis demonstrate the necessity and feasibility of designing valid statistical inference procedures to correct for biases introduced by the privacy-protection mechanisms.
翻訳日:2023-10-23 11:13:25 公開日:2023-10-20
# 深層学習による溶接プロセスのオンライン品質予測システム

Towards a Deep Learning-based Online Quality Prediction System for Welding Processes ( http://arxiv.org/abs/2310.12632v2 )

ライセンス: Link先を確認
Yannik Hahn, Robert Maack, Guido Buchholz, Marion Purrio, Matthias Angerhausen, Hasan Tercan, Tobias Meisen(参考訳) 製造プロセスのデジタル化は、機械学習による品質保証に有望な応用を可能にする。 データ駆動ソリューションの恩恵を受ける広く使われている製造プロセスは、ガス金属アーク溶接(gmaw)である。 溶接プロセスは, 材料特性, プロセス条件, 溶接品質の複雑な原因-影響関係を特徴とする。 プロセスパラメータが頻繁に変化する非実験室環境では、破壊試験による溶接品質の正確な決定は経済的に不可能である。 ディープラーニングは、利用可能なプロセスデータ内の関係を特定し、プロセス観察から溶接品質を予測する能力を提供する。 本稿では,GMAWにおけるディープラーニングに基づく予測品質システムの概念を提案する。 その中心となる概念は、マルチセンサーデータの収集と管理(電流と電圧など)、オートエンコーダによる時系列データのリアルタイム処理と機能エンジニアリング、品質予測のための適切な再帰的ディープラーニングモデルのトレーニングとデプロイ、継続的学習によるプロセス条件の変化に伴うモデル進化の4つの主要なフェーズで構成されるパイプラインである。 この概念は、生産を行うためのオンライン予測品質システムを実現するための将来の研究活動の基礎を提供する。

The digitization of manufacturing processes enables promising applications for machine learning-assisted quality assurance. A widely used manufacturing process that can strongly benefit from data-driven solutions is gas metal arc welding (GMAW). The welding process is characterized by complex cause-effect relationships between material properties, process conditions and weld quality. In non-laboratory environments with frequently changing process parameters, accurate determination of weld quality by destructive testing is economically unfeasible. Deep learning offers the potential to identify the relationships in available process data and predict the weld quality from process observations. In this paper, we present a concept for a deep learning based predictive quality system in GMAW. At its core, the concept involves a pipeline consisting of four major phases: collection and management of multi-sensor data (e.g. current and voltage), real-time processing and feature engineering of the time series data by means of autoencoders, training and deployment of suitable recurrent deep learning models for quality predictions, and model evolutions under changing process conditions using continual learning. The concept provides the foundation for future research activities in which we will realize an online predictive quality system for running production.
翻訳日:2023-10-23 11:13:09 公開日:2023-10-20
# 単一光子の連続変調変数におけるGottesman-Kitaev-Preskill符号化

Gottesman-Kitaev-Preskill encoding in continuous modal variables of single photons ( http://arxiv.org/abs/2310.12618v2 )

ライセンス: Link先を確認
\'Eloi Descamps, Arne Keller and P\'erola Milman(参考訳) Gottesman, Kitaev, Preskillによって導入されたGKP状態は連続変数論理量子ビットであり、位相空間の変位による誤差に対して補正することができる。 それらの実験的な実現は、特に電磁場の二次構造に量子情報が符号化される伝播場を用いて困難である。 しかし、進行光子は量子情報の長距離伝送を含むgkp符号の多くの応用において必須である。 本稿では,単一光子を用いた伝播場におけるGKP状態の符号化手法を提案する。 GKP状態は、時間と周波数の集合的連続モードによって記述される高相関状態として定義される。 誤差検出・補正プロトコルは、全光子数とスペクトル幅でどのようにスケールするかを分析する。 得られた符号は、二次位相空間における位相差や回転、光子損失に対応する時間周波数位相空間における変位を補正できることを示した。 最も重要なことは、2光子GKP状態の生成は比較的単純であり、これらの状態は現在、周波数と時間ビンの双光子絡み状態がエンジニアリング可能な複数のフォトニックプラットフォームで生成・操作されていることである。

GKP states, introduced by Gottesman, Kitaev, and Preskill, are continuous variable logical qubits that can be corrected for errors caused by phase space displacements. Their experimental realization is challenging, in particular using propagating fields, where quantum information is encoded in the quadratures of the electromagnetic field. However, travelling photons are essential in many applications of GKP codes involving the long-distance transmission of quantum information. We introduce a new method for encoding GKP states in propagating fields using single photons, each occupying a distinct auxiliary mode given by the propagation direction. The GKP states are defined as highly correlated states described by collective continuous modes, as time and frequency. We analyze how the error detection and correction protocol scales with the total photon number and the spectral width. We show that the obtained code can be corrected for displacements in time-frequency phase space - which correspond to dephasing, or rotations, in the quadrature phase space - and to photon losses. Most importantly, we show that generating two-photon GKP states is relatively simple, and that such states are currently produced and manipulated in several photonic platforms where frequency and time-bin biphoton entangled states can be engineered.
翻訳日:2023-10-23 11:12:52 公開日:2023-10-20
# 微分可能挿入/削除メトリック認識正規化器を用いた説明ベーストレーニング

Explanation-Based Training with Differentiable Insertion/Deletion Metric-Aware Regularizers ( http://arxiv.org/abs/2310.12553v2 )

ライセンス: Link先を確認
Yuya Yoshikawa, Tomoharu Iwata(参考訳) 複雑な機械学習予測器の予測のための説明の質は、しばしば、説明の忠実性、すなわち、説明が予測者の振る舞いをいかに正確に反映するかを評価する挿入および削除のメトリクスを用いて測定される。 そこで本研究では, 予測精度を維持しつつ, 説明文の挿入・削除スコアを改善するために, 微分可能な予測器を最適化する挿入/削除量認識説明ベース最適化 (id-expo) を提案する。 元の挿入と削除のメトリクスは説明に無関心であり、勾配に基づく最適化では直接利用できないため、メトリクスを微分可能に拡張し、挿入と削除のメトリクスベースの正規化器を形式化する。 画像および表型データセットを用いた実験の結果,id-expoを用いて微調整されたディープニューラルネットワークに基づく予測器は,高い予測精度を維持しつつ,人気のあるポストホック解説者がより忠実で解釈しやすい説明を作成できることがわかった。

The quality of explanations for the predictions of complex machine learning predictors is often measured using insertion and deletion metrics, which assess the faithfulness of the explanations, i.e., how correctly the explanations reflect the predictor's behavior. To improve the faithfulness, we propose insertion/deletion metric-aware explanation-based optimization (ID-ExpO), which optimizes differentiable predictors to improve both insertion and deletion scores of the explanations while keeping their predictive accuracy. Since the original insertion and deletion metrics are indifferentiable with respect to the explanations and directly unavailable for gradient-based optimization, we extend the metrics to be differentiable and use them to formalize insertion and deletion metric-based regularizers. The experimental results on image and tabular datasets show that the deep neural networks-based predictors fine-tuned using ID-ExpO enable popular post-hoc explainers to produce more faithful and easy-to-interpret explanations while keeping high predictive accuracy.
翻訳日:2023-10-23 11:12:30 公開日:2023-10-20
# ICU:タスクをイメージキャプションと言語理解に分割した視覚・言語モデリングにおける言語バリアの検索

ICU: Conquering Language Barriers in Vision-and-Language Modeling by Dividing the Tasks into Image Captioning and Language Understanding ( http://arxiv.org/abs/2310.12531v2 )

ライセンス: Link先を確認
Guojun Wu(参考訳) 多くの多言語視覚言語研究(v&l)は、1つのモデルで多言語および多言語機能を達成することを目的としている。 しかし、画像の多言語キャプションの不足が開発を妨げている。 この障害を克服するために、V&Lモデルが画像キャプションを英語で実行し、マルチリンガル言語モデル(mLM)がaltテキストとしてキャプションを取り、クロスリンガル言語理解を行う、V&Lタスクを2つのステージに分割するICU、画像キャプション理解(Image Caption Understanding)を提案する。 多言語処理の負担はV&Lモデルから引き上げられ、mLM上に置かれる。 多言語テキストデータが比較的豊富で品質が高いため、ICUはV&Lモデルの言語障壁の克服を容易にすることができる。 iglueベンチマークで9つの言語にまたがる2つのタスクに関する実験で、icuは5つの言語で最新の結果を達成でき、他の言語でも同様の結果が得られることを示した。

Most multilingual vision-and-language (V&L) research aims to accomplish multilingual and multimodal capabilities within one model. However, the scarcity of multilingual captions for images has hindered the development. To overcome this obstacle, we propose ICU, Image Caption Understanding, which divides a V&L task into two stages: a V&L model performs image captioning in English, and a multilingual language model (mLM), in turn, takes the caption as the alt text and performs crosslingual language understanding. The burden of multilingual processing is lifted off V&L model and placed on mLM. Since the multilingual text data is relatively of higher abundance and quality, ICU can facilitate the conquering of language barriers for V&L models. In experiments on two tasks across 9 languages in the IGLUE benchmark, we show that ICU can achieve new state-of-the-art results for five languages, and comparable results for the rest.
翻訳日:2023-10-23 11:12:13 公開日:2023-10-20
# MedAI Dialog Corpus (MEDIC):医療相談における医師とAI反応のゼロショット分類

MedAI Dialog Corpus (MEDIC): Zero-Shot Classification of Doctor and AI Responses in Health Consultations ( http://arxiv.org/abs/2310.12489v2 )

ライセンス: Link先を確認
Olumide E. Ojo, Olaronke O. Adebanji, Alexander Gelbukh, Hiram Calvo, Anna Feldman(参考訳) ゼロショット分類では、トレーニング中に見えないクラスにテキストを分類することができる。 本研究では,ゼロショット学習による健康相談における医師とaiの反応を正確に分類する事前学習言語モデルの有効性について検討する。 本研究の目的は、テキストが特定のコーパストレーニングなしで人間またはAIモデルに由来するかどうかを効果的に検出できるかどうかを判断することである。 医師から患者の健康に関する質問に対する回答を収集し、AIモデルに同じ質問/回答を提示する。 ゼロショット言語モデルは一般的に言語をよく理解しているが、医療相談における医師とAIの反応の分類には限界がある。 本研究は、この医学テキスト分類分野のさらなる研究の基盤を築き、医療相談における医師生成テキストとAI生成テキストを正確に分類するための、より効果的なアプローチの開発を促す。

Zero-shot classification enables text to be classified into classes not seen during training. In this research, we investigate the effectiveness of pre-trained language models to accurately classify responses from Doctors and AI in health consultations through zero-shot learning. Our study aims to determine whether these models can effectively detect if a text originates from human or AI models without specific corpus training. We collect responses from doctors to patient inquiries about their health and pose the same question/response to AI models. While zero-shot language models show a good understanding of language in general, they have limitations in classifying doctor and AI responses in healthcare consultations. This research lays the groundwork for further research into this field of medical text classification, informing the development of more effective approaches to accurately classify doctor-generated and AI-generated text in health consultations.
翻訳日:2023-10-23 11:11:53 公開日:2023-10-20
# Image Super resolution Via Latent Diffusion: エキスパートのサンプリング空間と周波数拡張デコーダアプローチ

Image Super-resolution Via Latent Diffusion: A Sampling-space Mixture Of Experts And Frequency-augmented Decoder Approach ( http://arxiv.org/abs/2310.12004v2 )

ライセンス: Link先を確認
Feng Luo, Jinxi Xiang, Jun Zhang, Xiao Han, Wei Yang(参考訳) 近年、事前訓練されたテキストイメージモデルによって強化された拡散先行利用により、画像超解像(SR)の性能が著しく向上した。 画素ベースの拡散SRで必要とされる膨大な計算コストを軽減するため、ラテントベースの手法では特徴エンコーダを用いて画像を変換し、コンパクトなラテント空間でSR画像を生成する。 それでも、潜伏拡散の性能を制限する2つの大きな問題がある。 まず、遅延空間の圧縮は通常、再構成歪みを引き起こす。 第二に、膨大な計算コストは拡散モデルのパラメータスケールを制約する。 これらの問題を解決するため,我々はまず,周波数成分を潜在空間から画素空間へ拡張する周波数補償モジュールを提案する。 再構成歪み(特に高周波情報)は著しく低減することができる。 次に,より強力な潜在性に基づくsrを実現するために,ss-moeのサンプル空間混合モデル(ss-moe)を用いて,推定コストを大幅に増加させることなく,モデルのキャパシティを着実に向上させる手法を提案する。 これらの慎重に設計された設計は、主に調査された4倍高解像度のベンチマークの性能向上に貢献し、8倍画像SRベンチマークのような大きな倍率係数にまで拡張した。 コードはhttps://github.com/amandaluof/moe_srで入手できる。

The recent use of diffusion prior, enhanced by pre-trained text-image models, has markedly elevated the performance of image super-resolution (SR). To alleviate the huge computational cost required by pixel-based diffusion SR, latent-based methods utilize a feature encoder to transform the image and then implement the SR image generation in a compact latent space. Nevertheless, there are two major issues that limit the performance of latent-based diffusion. First, the compression of latent space usually causes reconstruction distortion. Second, huge computational cost constrains the parameter scale of the diffusion model. To counteract these issues, we first propose a frequency compensation module that enhances the frequency components from latent space to pixel space. The reconstruction distortion (especially for high-frequency information) can be significantly decreased. Then, we propose to use Sample-Space Mixture of Experts (SS-MoE) to achieve more powerful latent-based SR, which steadily improves the capacity of the model without a significant increase in inference costs. These carefully crafted designs contribute to performance improvements in largely explored 4x blind super-resolution benchmarks and extend to large magnification factors, i.e., 8x image SR benchmarks. The code is available at https://github.com/amandaluof/moe_sr.
翻訳日:2023-10-23 11:11:37 公開日:2023-10-20