このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231116となっている論文です。

PDF登録状況(公開日: 20231116)

TitleAuthorsAbstract論文公表日・翻訳日
# MirrorNet: デバイス上でセキュアなDNN推論のためのTEEフレンドリーなフレームワーク

MirrorNet: A TEE-Friendly Framework for Secure On-device DNN Inference ( http://arxiv.org/abs/2311.09489v1 )

ライセンス: Link先を確認
Ziyu Liu, Yukui Luo, Shijin Duan, Tong Zhou, Xiaolin Xu, (参考訳) ディープニューラルネットワーク(DNN)モデルは、リアルタイム推論のためのエッジデバイスで普及している。 しかし、それらはモデル抽出攻撃に対して脆弱であり、保護を必要とする。 既存の防御アプローチでは、モデルの機密性を完全に保護できないか、あるいは重大なレイテンシの問題が発生する。 これらの課題を克服するために,Trusted Execution Environment(TEE)を活用してデバイス上でセキュアなDNN推論を実現するMirrorNetを提案する。 任意のDNNモデルのTEEフレンドリな実装を生成し、TEEの厳密な計算とストレージ制約を満たしながら、モデルの機密性を保護する。 フレームワークは2つの重要なコンポーネントで構成されている。バックボーンモデル(BackboneNet)は通常の世界で保存されるが、推論精度は低い。 推論中、CPMはBackboneNetから中間結果を監視し、分類出力を修正してより高い精度を達成する。 柔軟性を高めるためにMirrorNetは、さまざまな保護戦略を生成するCPM Strategy Generatorと、各戦略のパフォーマンスを見積り、最も最適なものを選択するPerformance Emulatorという2つのモジュールを組み込んでいる。 大規模な実験では、MirrorNetが低い計算レイテンシを維持しながらセキュリティ保証を提供することで、デバイス上でセキュアなDNN推論のための実用的で有望なソリューションであることを実証している。 評価のために、MirrorNetは認証と違法使用の間に18.6%の精度差を達成でき、ハードウェアオーバーヘッドは0.99%に過ぎなかった。

Deep neural network (DNN) models have become prevalent in edge devices for real-time inference. However, they are vulnerable to model extraction attacks and require protection. Existing defense approaches either fail to fully safeguard model confidentiality or result in significant latency issues. To overcome these challenges, this paper presents MirrorNet, which leverages Trusted Execution Environment (TEE) to enable secure on-device DNN inference. It generates a TEE-friendly implementation for any given DNN model to protect the model confidentiality, while meeting the stringent computation and storage constraints of TEE. The framework consists of two key components: the backbone model (BackboneNet), which is stored in the normal world but achieves lower inference accuracy, and the Companion Partial Monitor (CPM), a lightweight mirrored branch stored in the secure world, preserving model confidentiality. During inference, the CPM monitors the intermediate results from the BackboneNet and rectifies the classification output to achieve higher accuracy. To enhance flexibility, MirrorNet incorporates two modules: the CPM Strategy Generator, which generates various protection strategies, and the Performance Emulator, which estimates the performance of each strategy and selects the most optimal one. Extensive experiments demonstrate the effectiveness of MirrorNet in providing security guarantees while maintaining low computation latency, making MirrorNet a practical and promising solution for secure on-device DNN inference. For the evaluation, MirrorNet can achieve a 18.6% accuracy gap between authenticated and illegal use, while only introducing 0.99% hardware overhead.
翻訳日:2024-03-18 23:12:35 公開日:2023-11-16
# LightEMU:信頼されたアプリケーションのファジィングを支援するハードウェア

LightEMU: Hardware Assisted Fuzzing of Trusted Applications ( http://arxiv.org/abs/2311.09532v1 )

ライセンス: Link先を確認
Haoqi Shan, Sravani Nissankararao, Yujia Liu, Moyao Huang, Shuo Wang, Yier Jin, Dean Sullivan, (参考訳) Trusted Execution Environments(TEE)は多くのCPU設計にデプロイされている。 ARM TrustZoneは、スマートフォン、IoTデバイス、ノートブックに広くデプロイされたTEEである。 具体的には、TrustZoneは、コード実行とデータを2つの世界、通常の世界と安全な世界に分離するために使用される。 しかし, この分離は, 従来からのファジィングのアプローチを本質的に阻害するものであり, 既存のファジィングの研究は極めて限定的である。 本稿では,ARM CoreSightを用いたTrusted Applications(TA)上で,効率的でスケーラブルなフィードバック駆動ファジリングを実現するための,ネイティブで汎用的な手法を提案する。 我々は、信頼されたTEEから分離することで、TAをファジできる新しいファジリングフレームワークであるLightEMUを提案する。 LightEMUは,TAコード自体にTrustZoneバグの大部分が存在しているため,システム全体のTEE評価に投資する前に,TA脆弱性を迅速に発見するための,有望な第1段階のアプローチである,と我々は主張する。 We implement LightEMU and adapt it to Teegris, Trusty, OP-TEE and QSEE and evaluate 8 real-world TAs while triggering three unique crashs and achieved x10 time speedup when fuzzing TAs using the State-of-the-the-art TrustZone fuzzing framework。

Trusted Execution Environments (TEEs) are deployed in many CPU designs because of the confidentiality and integrity guarantees they provide. ARM TrustZone is a TEE extensively deployed on smart phones, IoT devices, and notebooks. Specifically, TrustZone is used to separate code execution and data into two worlds, normal world and secure world. However, this separation inherently prevents traditional fuzzing approaches which rely upon coverage-guided feedback and existing fuzzing research is, therefore, extremely limited. In this paper, we present a native and generic method to perform efficient and scalable feedback-driven fuzzing on Trusted Applications (TAs) using ARM CoreSight. We propose LightEMU, a novel fuzzing framework that allows us to fuzz TAs by decoupling them from relied TEE. We argue that LightEMU is a promising first-stage approach for rapidly discovering TA vulnerabilities prior to investing effort in whole system TEE evaluation precisely because the majority of publicly disclosed TrustZone bugs reside in the TA code itself. We implement LightEMU and adapt it to Teegris, Trusty, OP-TEE and QSEE and evaluate 8 real-world TAs while triggering 3 unique crashes and achieving x10 time speedup when fuzzing TAs using the state-of-the-art TrustZone fuzzing framework.
翻訳日:2024-03-18 23:12:35 公開日:2023-11-16
# SynDiffix: より正確な合成構造化データ

SynDiffix: More accurate synthetic structured data ( http://arxiv.org/abs/2311.09628v1 )

ライセンス: Link先を確認
Paul Francis, Cristian Berneanu, Edon Gashi, (参考訳) 本稿では,構造化データに対して統計的に正確な匿名合成データを生成する機構であるSynDiffixを紹介する。 近年のオープンソースおよび商用システムは、データ合成にGenerative Adversarial NetworksまたはTransformed Auto Encoderを使用し、オーバーフィット回避を通じて匿名性を実現する。 対照的にSynDiffixは、アグリゲーション、ノイズ追加、抑圧といった従来のメカニズムを利用している。 CTGANと比較して、SynDiffixから生成されたMLモデルは2倍正確であり、境界対と列対のデータ品質は1〜2桁、実行時間は2桁高速である。 私たちが測定した最高の商用製品(MostlyAI)と比較すると、MLモデルの精度は同等で、限界があり、ペアの精度は5倍から10倍、実行時間は桁違いに速くなります。 他のアプローチと同様に、SynDiffixの匿名化は非常に強力である。 本稿では、SynDiffixについて述べ、その性能を他の人気のあるオープンソースおよび商用システムと比較する。

This paper introduces SynDiffix, a mechanism for generating statistically accurate, anonymous synthetic data for structured data. Recent open source and commercial systems use Generative Adversarial Networks or Transformed Auto Encoders to synthesize data, and achieve anonymity through overfitting-avoidance. By contrast, SynDiffix exploits traditional mechanisms of aggregation, noise addition, and suppression among others. Compared to CTGAN, ML models generated from SynDiffix are twice as accurate, marginal and column pairs data quality is one to two orders of magnitude more accurate, and execution time is two orders of magnitude faster. Compared to the best commercial product we measured (MostlyAI), ML model accuracy is comparable, marginal and pairs accuracy is 5 to 10 times better, and execution time is an order of magnitude faster. Similar to the other approaches, SynDiffix anonymization is very strong. This paper describes SynDiffix and compares its performance with other popular open source and commercial systems.
翻訳日:2024-03-18 23:12:35 公開日:2023-11-16
# IIoT標準準拠監視プロバイダの市場調査とIIoT準拠監視への属性の導出

Market Research on IIoT Standard Compliance Monitoring Providers and deriving Attributes for IIoT Compliance Monitoring ( http://arxiv.org/abs/2311.09991v1 )

ライセンス: Link先を確認
Daniel Oberhofer, Markus Hornsteiner, Stefan Schönig, (参考訳) IEC 62443やISO 27000のようなIIoT(Industrial Internet of Things)の共通標準にセキュリティアーキテクチャを適用するには、複雑なプロセスとコンプライアンスレポートが必要になる。 コンプライアンス状態の自動監視により、このプロセスが強化される。 研究は限られているが、実用的応用は存在する。 本稿では、IIoTにIEC 62443を実装しているプロバイダについて市場調査を行い、標準に準拠した監視可能な属性のカタログを定式化することを目的とする。 この研究は、セキュリティアーキテクチャの正式な分離の欠如、可視性を制限するといった課題を明らかにしている。 これらの課題にもかかわらず、実践的な実装は共通点を共有し、実行可能な監視特性に関する洞察を提供する。 この研究は、IIoTでIEC 62443標準の監視可能な属性の包括的なカタログを開発する上で、重要なエントリポイントとなる。 IEC 62443 SR catalog of document 3-3と並行して、監視可能な属性は、IIoTセキュリティと知識に関する現在の研究に基づいて導出される。 提供されるテーブルは、模範抽出として機能し、排他的ではなく、生成の原点に基づいて3種類の属性を定義する。

Adapting security architectures to common standards like IEC 62443 or ISO 27000 in the Industrial Internet of Things (IIoT) involves complex processes and compliance reports. Automatic monitoring of compliance status would enhance this process. Despite limited research, practical applications exist. This paper conducts a market study on providers implementing IEC 62443 in IIoT, aiming to formulate a catalog of monitorable attributes aligned with the standard. The study reveals challenges, such as a lack of formal separation in security architectures, limiting visibility. Despite these challenges, practical implementations share commonalities, providing insights into viable monitoring properties. The research serves as a crucial entry point into developing a comprehensive catalog of monitorable attributes for IEC 62443 standards in IIoT. Aligned with the IEC 62443 SR catalog of document 3-3, monitorable attributes are derived based on current research about IIoT security and Expert Knowledge. The provided tables serve as an exemplary extract, not exhaustive, defining three types of attributes based on their origin of creation.
翻訳日:2024-03-18 23:12:35 公開日:2023-11-16
# サイバーセキュリティのためのグラフモデル - サーベイ

Graph models for Cybersecurity -- A Survey ( http://arxiv.org/abs/2311.10050v1 )

ライセンス: Link先を確認
Jasmin Wachter, (参考訳) グラフモデルは、セキュリティのための複雑なシステムアーキテクチャと同様に、コンピュータネットワークを分析するのに役立つ。 本稿では,攻撃グラフ(AG)フォーマリズムのグラフモデルを用いて,サイバー攻撃を表現・解析する研究の現状を評価する。 本稿では,70のモデルに基づく攻撃グラフ形式論の分類法を提案する。 さらに、フォーマリズムが生データやプロセスデータからの攻撃グラフの自動生成を可能にする。 我々の分類学は、ユーザーや応用研究者が自分のニーズに適したAGモデルを特定するのに特に役立ちます。 個別のAGフォーマリズムの要約は補足資料として提供される。

Graph models are helpful means of analyzing computer networks as well as complex system architectures for security. In this paper we evaluate the current state of research for representing and analysing cyber-attack using graph models, i.e. attack graph (AG) formalisms. We propose a taxonomy on attack graph formalisms, based on 70 models, which we analysed with respect to their \textit{graph semantic}, involved agents and analysis features. Additionally, we adress which formalisms allow for automatic attack graph generation from raw or processes data inputs. Our taxonomy is especially designed to help users and applied researchers identify a suitable AG model for their needs. A summary of the individual AG formalisms is provided as supplementary material.
翻訳日:2024-03-18 23:12:35 公開日:2023-11-16
# サイバーセキュリティの実践的倫理:CyBOKを倫理的懸念にマッピング

Practical Cybersecurity Ethics: Mapping CyBOK to Ethical Concerns ( http://arxiv.org/abs/2311.10165v1 )

ライセンス: Link先を確認
Ivan Flechais, George Chalhoub, (参考訳) サイバーセキュリティの倫理に関する研究は確立された研究のトピックであるが、この研究の実践への翻訳は欠落している: サイバーセキュリティにおける倫理の専門的な規範や実践の規範は少数存在するが、これらは非常に広く、特定のサイバーセキュリティ活動を行う際に直面する倫理的ジレンマについて多くの洞察を与えていない。 このギャップに対処するため、サイバーセキュリティ・ボディー・オブ・ナレッジ(Cyber Security Body of Knowledge, CyBOK)の現在進行中の作業を活用し、専門職の責任と倫理を抽出し文書化する。 サイバーセキュリティの倫理に関する文献レビューに基づいて、サイバーセキュリティの専門家との15回のインタビューを通じて、サイバーセキュリティの専門職における倫理的課題の探求をCyBOKを使って進めています。 我々のアプローチは質的で探索的であり、「サイバーセキュリティの様々な領域で倫理的課題、洞察、解決策が生まれるか」という研究の質問に答えることを目的としている。 我々の研究結果は、サイバーセキュリティには幅広い倫理的課題があることを示しているが、同時に、サイバーセキュリティのさまざまな分野が特定の倫理的配慮に直面し、より詳細なガイダンスがそれらの分野のプロフェッショナルに役立ち得ることを示唆している。 特に、我々の調査結果は、セキュリティ決定はすべてのセキュリティ専門家に期待されるが、技術的、客観的、主観的な複雑な視点のバランスをとる必要があること、紛争の解決が倫理的ジレンマを引き起こすことを示唆している。 我々は、サイバーセキュリティの実践に倫理的考慮事項を探求し、地図化し、統合するためには、より多くの作業が必要であると結論付け、サイバーセキュリティAIの倫理に関するさらなる研究を緊急に行う必要があること、そして、サイバーセキュリティの専門職を開発し、成熟させようとする個人や専門機関にとって、この作業の重要性を強調している。

Research into the ethics of cybersecurity is an established and growing topic of investigation, however the translation of this research into practice is lacking: there exists a small number of professional codes of ethics or codes of practice in cybersecurity, however these are very broad and do not offer much insight into the ethical dilemmas that can be faced while performing specific cybersecurity activities. In order to address this gap, we leverage ongoing work on the Cyber Security Body of Knowledge (CyBOK) to help elicit and document the responsibilities and ethics of the profession. Based on a literature review of the ethics of cybersecurity, we use CyBOK to frame the exploration of ethical challenges in the cybersecurity profession through a series of 15 interviews with cybersecurity experts. Our approach is qualitative and exploratory, aiming to answer the research question "What ethical challenges, insights, and solutions arise in different areas of cybersecurity?". Our findings indicate that there are broad ethical challenges across the whole of cybersecurity, but also that different areas of cybersecurity can face specific ethical considerations for which more detailed guidance can help professionals in those areas. In particular, our findings indicate that security decision-making is expected of all security professionals, but that this requires them to balance a complex mix of technical, objective and subjective points of view, and that resolving conflicts raises challenging ethical dilemmas. We conclude that more work is needed to explore, map, and integrate ethical considerations into cybersecurity practice; the urgent need to conduct further research into the ethics of cybersecurity AI; and highlight the importance of this work for individuals and professional bodies who seek to develop and mature the cybersecurity profession in a responsible manner.
翻訳日:2024-03-18 23:02:51 公開日:2023-11-16
# PINE:シークレット共有ベクトルの効率的なノルム境界検証

PINE: Efficient Norm-Bound Verification for Secret-Shared Vectors ( http://arxiv.org/abs/2311.10237v1 )

ライセンス: Link先を確認
Guy N. Rothblum, Eran Omri, Junye Chen, Kunal Talwar, (参考訳) 高次元ベクトルのセキュアアグリゲーションは、フェデレートされた統計学と学習における基本的なプリミティブである。 PRIOのような2サーバシステムは、秘密共有ベクトルのスケーラブルな集約を可能にする。 敵のクライアントは集約を操作しようとするかもしれないので、それぞれの(秘密の共有された)コントリビューションが適切に形成されていることを保証することが重要です。 本研究では、各寄与ベクトルがユークリッドノルムに有界であることを保証するという、重要かつよく研究された目標に焦点を当てる。 有界ノルム寄与を保証するための既存のプロトコルは、大きな通信オーバーヘッドを発生させるか、ノルム境界の近似的な検証しかできない。 通信オーバーヘッドの少ない正確な標準検証を可能にする新しいプロトコルであるPrivate Inexpensive Norm Enforcement (PINE)を提案する。 高次元ベクトルの場合、従来の16-32倍のオーバヘッドに比べて通信オーバヘッドは数パーセントである。

Secure aggregation of high-dimensional vectors is a fundamental primitive in federated statistics and learning. A two-server system such as PRIO allows for scalable aggregation of secret-shared vectors. Adversarial clients might try to manipulate the aggregate, so it is important to ensure that each (secret-shared) contribution is well-formed. In this work, we focus on the important and well-studied goal of ensuring that each contribution vector has bounded Euclidean norm. Existing protocols for ensuring bounded-norm contributions either incur a large communication overhead, or only allow for approximate verification of the norm bound. We propose Private Inexpensive Norm Enforcement (PINE): a new protocol that allows exact norm verification with little communication overhead. For high-dimensional vectors, our approach has a communication overhead of a few percent, compared to the 16-32x overhead of previous approaches.
翻訳日:2024-03-18 23:02:51 公開日:2023-11-16
# IncepSE:ECG分析におけるSqueezeとExcitationメカニズムによるInceptionTimeのパフォーマンス向上

IncepSE: Leveraging InceptionTime's performance with Squeeze and Excitation mechanism in ECG analysis ( http://arxiv.org/abs/2312.09445v1 )

ライセンス: Link先を確認
Tue Minh Cao, Nhat Hong Tran, Le Phi Nguyen, Hieu Huy Pham, Hung Thanh Nguyen(参考訳) 本研究は心電図(ECG)領域におけるインセプション様アーキテクチャの変更の可能性に焦点を当てた。 この目的のために,InceptionTimeとチャネルアテンション機構の双方の長所を生かした戦略的アーキテクチャを特徴とする新しいネットワークIncepSEを紹介する。 さらに, 重度不均衡データセット PTB-XL と勾配汚損の深刻な問題に対処するために, 安定化技術を用いたトレーニング手法を提案する。 これにより、タスクの大部分にわたって教師付き学習方法で、ディープラーニングモデルの新たな高さを設定することができる。 我々のモデルは、この領域の他の最先端技術と比較して、インセプションタイムをはるかに上回り、"オール"タスクにおける0.013のAUROCスコアの改善と、トレーニング中に固有のデータセットの変動を緩和します。

Our study focuses on the potential for modifications of Inception-like architecture within the electrocardiogram (ECG) domain. To this end, we introduce IncepSE, a novel network characterized by strategic architectural incorporation that leverages the strengths of both InceptionTime and channel attention mechanisms. Furthermore, we propose a training setup that employs stabilization techniques that are aimed at tackling the formidable challenges of severe imbalance dataset PTB-XL and gradient corruption. By this means, we manage to set a new height for deep learning model in a supervised learning manner across the majority of tasks. Our model consistently surpasses InceptionTime by substantial margins compared to other state-of-the-arts in this domain, noticeably 0.013 AUROC score improvement in the "all" task, while also mitigating the inherent dataset fluctuations during training.
翻訳日:2024-01-15 14:26:39 公開日:2023-11-16
# vEEGNet:変動オートエンコーダによる脳波生データ再構成のための潜在表現学習

vEEGNet: learning latent representations to reconstruct EEG raw data via variational autoencoders ( http://arxiv.org/abs/2312.09449v1 )

ライセンス: Link先を確認
Alberto Zancanaro, Giulia Cisotto, Italo Zoppis, Sara Lucia Manzoni(参考訳) eeg(electroencephalografic)データは複雑な多次元時系列であり、診断から脳-コンピューターインタフェースシステム駆動まで、多くのアプリケーションで非常に有用である。 彼らの分類は、内部および物体間の変動と信号対雑音比の低いため、依然として難しい課題である。 一方、これらの信号の高時間分解能のため、生の脳波データの再構成はさらに困難である。 最近の文献では、様々なタイプの動作を70%から80%(4つのクラス)の精度で分類できる多くの機械学習モデルとディープラーニングモデルが提案されている。 一方、再建問題に焦点をあてた作品は限られており、その結果は非常に限られていた。 本稿では,2つのモジュールからなるdlアーキテクチャであるveegnet,すなわち,データの潜在表現を抽出するための変分オートエンコーダに基づく教師なしモジュールと,異なる動きを分類するためのフィードフォワードニューラルネットワークに基づく教師付きモジュールを提案する。 VAEのエンコーダとデコーダを構築するために、よく知られたEEGNetネットワークを利用した。 veegnetの2つのアーキテクチャを実装し,最先端の分類性能を示し,脳波の低周波成分と中距離成分の両方を再構成する能力を示した。 予備的ではあるが, 低周波再構成信号は, いわゆる運動関連皮質電位, 有名な運動関連脳波パターンと一致しており, より高速な脳波成分の再構成により, これまでの文献よりも改善できる可能性が示唆された。 完全な脳波データを再構成し、新しいサンプルを生成し、分類と再構成性能の関係を研究する上で、vEEGNetの可能性についてさらなる調査が必要である。

Electroencephalografic (EEG) data are complex multi-dimensional time-series that are very useful in many applications, from diagnostics to driving brain-computer interface systems. Their classification is still a challenging task, due to the inherent within- and between-subject variability and their low signal-to-noise ratio. On the other hand, the reconstruction of raw EEG data is even more difficult because of the high temporal resolution of these signals. Recent literature has proposed numerous machine and deep learning models that could classify, e.g., different types of movements, with an accuracy in the range 70% to 80% (with 4 classes). On the other hand, a limited number of works targeted the reconstruction problem, with very limited results. In this work, we propose vEEGNet, a DL architecture with two modules, i.e., an unsupervised module based on variational autoencoders to extract a latent representation of the data, and a supervised module based on a feed-forward neural network to classify different movements. To build the encoder and the decoder of VAE we exploited the well-known EEGNet network. We implemented two slightly different architectures of vEEGNet, thus showing state-of-the-art classification performance, and the ability to reconstruct both low-frequency and middle-range components of the raw EEG. Although preliminary, this work is promising as we found out that the low-frequency reconstructed signals are consistent with the so-called motor-related cortical potentials, well-known motor-related EEG patterns and we could improve over previous literature by reconstructing faster EEG components, too. Further investigations are needed to explore the potentialities of vEEGNet in reconstructing the full EEG data, generating new samples, and studying the relationship between classification and reconstruction performance.
翻訳日:2024-01-15 14:10:32 公開日:2023-11-16
# FedDiff: マルチモーダルおよびマルチクライアントのための拡散モデル駆動型フェデレーションラーニング

FedDiff: Diffusion Model Driven Federated Learning for Multi-Modal and Multi-Clients ( http://arxiv.org/abs/2401.02433v1 )

ライセンス: Link先を確認
DaiXun Li, Weiying Xie, ZiXuan Wang, YiBing Lu, Yunsong Li, Leyuan Fang(参考訳) リモートセンシング分野における画像センサ技術の急速な発展に伴い、マルチモーダルリモートセンシングデータ融合は、土地被覆分類タスクにおける重要な研究方向として現れてきた。 拡散モデルは生成モデルと画像分類タスクにおいて大きな進歩を遂げてきたが、既存のモデルは主に単一モードと単一クライアント制御に焦点を当てており、拡散過程は単一計算ノードの単一モードによって駆動される。 クライアントからの異種データの安全な融合を容易にするためには,各基地局クライアント上で,組織Aのハイパースペクトルデータと組織BのLiDARデータをプライベートにマージするなど,分散マルチモーダル制御を実現する必要がある。 本研究では,FedDiffと呼ばれる多モード協調拡散型学習フレームワークを提案する。 本フレームワークは,2つのモーダルデータをエンコーダの別々の分岐に入力するデュアルブランチ拡散モデル特徴抽出設定を確立する。 我々の重要な洞察は、異なるモダリティによって駆動される拡散モデルは本質的に両側接続を構築できる潜在的デノイジングステップの点で補完的であるということである。 複数のクライアント間のプライベートかつ効率的なコミュニケーションの課題を考慮し,連合学習コミュニケーション構造に拡散モデルを埋め込み,軽量通信モジュールを導入する。 定性的かつ定量的な実験は、画像品質と条件整合性の観点から、我々のフレームワークの優位性を検証する。

With the rapid development of imaging sensor technology in the field of remote sensing, multi-modal remote sensing data fusion has emerged as a crucial research direction for land cover classification tasks. While diffusion models have made great progress in generative models and image classification tasks, existing models primarily focus on single-modality and single-client control, that is, the diffusion process is driven by a single modal in a single computing node. To facilitate the secure fusion of heterogeneous data from clients, it is necessary to enable distributed multi-modal control, such as merging the hyperspectral data of organization A and the LiDAR data of organization B privately on each base station client. In this study, we propose a multi-modal collaborative diffusion federated learning framework called FedDiff. Our framework establishes a dual-branch diffusion model feature extraction setup, where the two modal data are inputted into separate branches of the encoder. Our key insight is that diffusion models driven by different modalities are inherently complementary in terms of potential denoising steps on which bilateral connections can be built. Considering the challenge of private and efficient communication between multiple clients, we embed the diffusion model into the federated learning communication structure, and introduce a lightweight communication module. Qualitative and quantitative experiments validate the superiority of our framework in terms of image quality and conditional consistency.
翻訳日:2024-01-15 09:42:28 公開日:2023-11-16
# bergeron: 良心に基づくアライメントフレームワークによる敵の攻撃と戦う

Bergeron: Combating Adversarial Attacks through a Conscience-Based Alignment Framework ( http://arxiv.org/abs/2312.00029v1 )

ライセンス: Link先を確認
Matthew Pisano, Peter Ly, Abraham Sanders, Bingsheng Yao, Dakuo Wang, Tomek Strzalkowski, Mei Si(参考訳) 現代の大規模言語モデル(llm)は、人間の期待や価値と一致しない可能性のある応答を生成することができる。 多くの重みに基づくアライメント法が提案されているが、その多くが単独で使用すると攻撃に弱いモデルを残している。 この問題を軽減するために,敵攻撃に対するLDMの堅牢性向上を目的としたフレームワークであるBergeronを紹介する。 Bergeronは2層アーキテクチャを採用している。 ここで、セカンダリllmは、プライマリllmを保護するシミュレートされた良心として機能する。 本手法では, 初期LLMのインプット入力と出力出力の両方において, 潜在的に有害なテキストの監視と修正を行う。 経験的評価により、ベルジェロンはコストのかかる微調整なしにいくつかの人気のあるllmのアライメントとロバスト性を向上させることができる。 既存のアライメントトレーニングを補完し強化することで、オープンソースとブラックボックスのLLMを支援する。

Modern Large language models (LLMs) can still generate responses that may not be aligned with human expectations or values. While many weight-based alignment methods have been proposed, many of them still leave models vulnerable to attacks when used on their own. To help mitigate this issue, we introduce Bergeron, a framework designed to improve the robustness of LLMs against adversarial attacks. Bergeron employs a two-tiered architecture. Here, a secondary LLM serves as a simulated conscience that safeguards a primary LLM. We do this by monitoring for and correcting potentially harmful text within both the prompt inputs and the generated outputs of the primary LLM. Empirical evaluation shows that Bergeron can improve the alignment and robustness of several popular LLMs without costly fine-tuning. It aids both open-source and black-box LLMs by complementing and reinforcing their existing alignment training.
翻訳日:2023-12-11 03:53:05 公開日:2023-11-16
# tagged sentential decision diagram の変種

Variants of Tagged Sentential Decision Diagrams ( http://arxiv.org/abs/2312.00793v1 )

ライセンス: Link先を確認
Deyuan Zhong, Mingwei Zhang, Quanlong Guan, Liangda Fang, Zhaorong Lai, Yong Lai(参考訳) 最近提案されたブール関数の標準形式、すなわちタグ付き逐次決定図(TSDD)は、標準およびゼロ抑圧トリミングルールの両方を利用する。 標準決定図 (sedential decision diagram, sdds) のサイズは最小であるが、ゼロ抑制決定図 (zero-suppressed sentential decision diagram, zsdds) は標準決定図と同じ目的を持つ。 従来のTSDDはゼロ抑圧TSDD(ZTSDD)と呼ばれ、まずゼロ抑圧トリミングルールをフル活用し、次に標準のTSDDを利用する。 本稿では,トリミング規則の順序を逆転することで,標準TSDD(STSDD)と呼ぶTSDDの変種について述べる。 次に、STSDDの正準性を証明し、TSDD上でのバイナリ演算のアルゴリズムを示す。 さらに、STSDDとZTSDDの2種類の実装を提供し、元のTSDDの3つのバリエーションを取得する。 実験により、TSDDの4つのバージョンはSDDやZSDDよりも大きな利点があることが示された。

A recently proposed canonical form of Boolean functions, namely tagged sentential decision diagrams (TSDDs), exploits both the standard and zero-suppressed trimming rules. The standard ones minimize the size of sentential decision diagrams (SDDs) while the zero-suppressed trimming rules have the same objective as the standard ones but for zero-suppressed sentential decision diagrams (ZSDDs). The original TSDDs, which we call zero-suppressed TSDDs (ZTSDDs), firstly fully utilize the zero-suppressed trimming rules, and then the standard ones. In this paper, we present a variant of TSDDs which we call standard TSDDs (STSDDs) by reversing the order of trimming rules. We then prove the canonicity of STSDDs and present the algorithms for binary operations on TSDDs. In addition, we offer two kinds of implementations of STSDDs and ZTSDDs and acquire three variations of the original TSDDs. Experimental evaluations demonstrate that the four versions of TSDDs have the size advantage over SDDs and ZSDDs.
翻訳日:2023-12-11 03:44:13 公開日:2023-11-16
# セキュリティ脆弱性検出における大規模言語モデルの有効性の理解

Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities ( http://arxiv.org/abs/2311.16169v1 )

ライセンス: Link先を確認
Avishree Khare, Saikat Dutta, Ziyang Li, Alaia Solko-Breslin, Rajeev Alur, Mayur Naik(参考訳) 現代のソフトウェアにおけるセキュリティの脆弱性は広く、有害である。 自動脆弱性検出ツールは有望な進歩を遂げているが、スケーラビリティと適用性は依然として難しい。 近年, GPT-4 や CodeLlama などの大規模言語モデル (LLM) がコード関連タスクにおいて顕著な性能を示した。 しかし、そのようなLSMがコードに対して複雑な推論ができるかどうかは不明である。 本研究では,LLMがセキュリティ上の脆弱性を検出し,既存のツールの限界に対処できるかどうかを検討する。 我々は,Java と C/C++ という2つの言語にまたがる5種類のセキュリティベンチマークに対して,事前学習した LLM の有効性を評価する。 その性能,説明可能性,堅牢性の観点から,LLMの有効性を評価する。 効果的なプロンプト戦略を設計することによって、gpt-4を用いた合成データセットの最良の結果を得る: f1スコアはowaspで0.79、juliet javaで0.86、juliet c/c++で0.89である。 CVEFixes JavaとCVEFixes C/C++、GPT-4のレポートF1スコアはそれぞれ0.48と0.62である。 llmは,既存の静的解析や深層学習に基づく脆弱性検出ツール,特に脆弱性のクラスよりもよく機能する。 さらに、LLMはコード内の脆弱なデータフローを識別し、信頼できる説明を提供することが多い。 微調整された小さなLLMは、合成データセットにおいてより大きなLLMよりも優れるが、実世界のデータセットでは限られた利得が得られる。 コードに対する敵攻撃を受けると、LLMはわずかに劣化し、平均精度は12.67%まで低下する。 最後に、脆弱性検出にllmを活用するための今後の取り組みについての洞察と推奨を共有します。

Security vulnerabilities in modern software are prevalent and harmful. While automated vulnerability detection tools have made promising progress, their scalability and applicability remain challenging. Recently, Large Language Models (LLMs), such as GPT-4 and CodeLlama, have demonstrated remarkable performance on code-related tasks. However, it is unknown whether such LLMs can do complex reasoning over code. In this work, we explore whether pre-trained LLMs can detect security vulnerabilities and address the limitations of existing tools. We evaluate the effectiveness of pre-trained LLMs on a set of five diverse security benchmarks spanning two languages, Java and C/C++, and including code samples from synthetic and real-world projects. We evaluate the effectiveness of LLMs in terms of their performance, explainability, and robustness. By designing a series of effective prompting strategies, we obtain the best results on the synthetic datasets with GPT-4: F1 scores of 0.79 on OWASP, 0.86 on Juliet Java, and 0.89 on Juliet C/C++. Expectedly, the performance of LLMs drops on the more challenging real-world datasets: CVEFixes Java and CVEFixes C/C++, with GPT-4 reporting F1 scores of 0.48 and 0.62, respectively. We show that LLMs can often perform better than existing static analysis and deep learning-based vulnerability detection tools, especially for certain classes of vulnerabilities. Moreover, LLMs also often provide reliable explanations, identifying the vulnerable data flows in code. We find that fine-tuning smaller LLMs can outperform the larger LLMs on synthetic datasets but provide limited gains on real-world datasets. When subjected to adversarial attacks on code, LLMs show mild degradation, with average accuracy reduction of up to 12.67%. Finally, we share our insights and recommendations for future work on leveraging LLMs for vulnerability detection.
翻訳日:2023-12-03 13:05:31 公開日:2023-11-16
# 長期短期記憶型音声分類器の形式的検証:スターベースアプローチ

Formal Verification of Long Short-Term Memory based Audio Classifiers: A Star based Approach ( http://arxiv.org/abs/2311.12130v1 )

ライセンス: Link先を確認
Neelanjana Pal (Institute for Software Integrated Systems, Vanderbilt University,), Taylor T Johnson (Institute for Software Integrated Systems, Vanderbilt University)(参考訳) 音声分類システムの形式的検証は、監視、自動車音声コマンド、マルチメディアコンテンツ管理といった現実世界のアプリケーション間での正確な信号分類を保証するために不可欠であり、重大な結果を招く可能性のあるエラーを防ぐ。 近年の研究では,Long Short-Term Memory アーキテクチャと音声分類領域における畳み込み変化に特化して,リーチビリティ解析を通じて拡張された星集合に基づく形式検証の利用を推し進めている。 分類過程を一連の集合演算として概念化することにより、星の集合に基づく到達可能性アプローチは、システムによって達成可能な潜在的操作状態の探索を合理化する。 本論文は、実世界の文脈におけるシーケンス音声分類分析の検証と検証を含むケーススタディとして機能する。 これは、特にノイズが出力分類の精度に与える影響を考慮して、正確で信頼できる予測を保証するための堅牢性検証の必要性を強調する。

Formally verifying audio classification systems is essential to ensure accurate signal classification across real-world applications like surveillance, automotive voice commands, and multimedia content management, preventing potential errors with serious consequences. Drawing from recent research, this study advances the utilization of star-set-based formal verification, extended through reachability analysis, tailored explicitly for Long Short-Term Memory architectures and their Convolutional variations within the audio classification domain. By conceptualizing the classification process as a sequence of set operations, the star set-based reachability approach streamlines the exploration of potential operational states attainable by the system. The paper serves as an encompassing case study, validating and verifying sequence audio classification analytics within real-world contexts. It accentuates the necessity for robustness verification to ensure precise and dependable predictions, particularly in light of the impact of noise on the accuracy of output classifications.
翻訳日:2023-11-27 00:35:17 公開日:2023-11-16
# 不均衡データ分類のためのスキューセンシティブ評価フレームワーク

A Skew-Sensitive Evaluation Framework for Imbalanced Data Classification ( http://arxiv.org/abs/2010.05995v2 )

ライセンス: Link先を確認
Min Du, Nesime Tatbul, Brian Rivers, Akhilesh Kumar Gupta, Lucas Hu, Wei Wang, Ryan Marcus, Shengtian Zhou, Insup Lee, Justin Gottschlich(参考訳) 不均衡データセットのクラス分布スキューは、多数クラスに対する予測バイアスを伴うモデルにつながり、分類器の公平な評価が難しい課題となる。 平衡精度のようなメトリクスは、そのようなシナリオ下で分類器の予測性能を評価するために一般的に用いられる。 しかし、これらの指標は、クラスが重要度が異なるときに不足する。 本稿では,クラス濃度と重要度における任意の歪に敏感な不均衡データ分類のための簡易かつ汎用的な評価フレームワークを提案する。 3つの異なるドメインの実際のデータセットでテストされた最先端の分類器を使った実験は、我々のフレームワークの有効性を示している。

Class distribution skews in imbalanced datasets may lead to models with prediction bias towards majority classes, making fair assessment of classifiers a challenging task. Metrics such as Balanced Accuracy are commonly used to evaluate a classifier's prediction performance under such scenarios. However, these metrics fall short when classes vary in importance. In this paper, we propose a simple and general-purpose evaluation framework for imbalanced data classification that is sensitive to arbitrary skews in class cardinalities and importances. Experiments with several state-of-the-art classifiers tested on real-world datasets from three different domains show the effectiveness of our framework - not only in evaluating and ranking classifiers, but also training them.
翻訳日:2023-11-22 21:36:30 公開日:2023-11-16
# 逐次評価におけるバイアスのモデル化と補正

Modeling and Correcting Bias in Sequential Evaluation ( http://arxiv.org/abs/2205.01607v3 )

ライセンス: Link先を確認
Jingyan Wang and Ashwin Pananjady(参考訳) 本研究では, 逐次評価の問題点について考察し, 評価者が複数の候補を連続的に観察し, それらの候補に得点を割り当てる手法を提案する。 このような状況における逐次バイアス、すなわち、評価結果と候補者が現れる順序の依存関係を研究する心理学文献に動機づけられた我々は、そのような課題に固有の校正の欠如を捉えた評価者の評価過程の自然なモデルを提案する。 クラウドソーシング実験を行い,モデルのさまざまな側面を実証する。 そして、これを統計的推論問題として、モデルの下でシーケンシャルバイアスを補正する方法を研究する。 本稿では,この課題に対する近似時間オンラインアルゴリズムを提案し,2つの正準ランキング指標による保証を証明する。 また,両指標の一致した下界を確立することにより,アルゴリズムが理論的に最適であることを示す。 最後に,シミュレーションとクラウドソーシングデータの両方において,報告されたスコアによって引き起こされるランキングを用いたデファクト手法よりもアルゴリズムが優れていることを示すために,数値実験を多数実施した。

We consider the problem of sequential evaluation, in which an evaluator observes candidates in a sequence and assigns scores to these candidates in an online, irrevocable fashion. Motivated by the psychology literature that has studied sequential bias in such settings -- namely, dependencies between the evaluation outcome and the order in which the candidates appear -- we propose a natural model for the evaluator's rating process that captures the lack of calibration inherent to such a task. We conduct crowdsourcing experiments to demonstrate various facets of our model. We then proceed to study how to correct sequential bias under our model by posing this as a statistical inference problem. We propose a near-linear time, online algorithm for this task and prove guarantees in terms of two canonical ranking metrics. We also prove that our algorithm is information theoretically optimal, by establishing matching lower bounds in both metrics. Finally, we perform a host of numerical experiments to show that our algorithm often outperforms the de facto method of using the rankings induced by the reported scores, both in simulation and on the crowdsourcing data that we collected.
翻訳日:2023-11-22 21:13:45 公開日:2023-11-16
# 非定常曲率空間上のダンクル振動子:反射を伴う正確に解ける量子モデル

The Dunkl oscillator on a space of nonconstant curvature: an exactly solvable quantum model with reflections ( http://arxiv.org/abs/2212.13575v2 )

ライセンス: Link先を確認
Angel Ballesteros, Amene Najafizade, Hossein Panahi, Hassan Hassanabadi, Shi-Hai Dong(参考訳) N次元のDunkl-Darboux III発振器は、N次元のDunkl発振器の$\lambda-$deformationとして定義される。 この変形は、基底空間上の$\lambda$に関連する非定数曲率の導入、あるいはそれと同等に、位置依存質量関数を持つダンクル振動子として解釈することができる。 この新しい量子モデルは任意の次元 n において正確に解くことができ、その固有値と固有関数は明示的に示される。 さらに、Darboux III と Dunkl 振動子の両方の2次元の場合において、一定の磁場と分離して結合できることが示され、そこでは、位置依存質量と Dunkl 誘導体がランドー準位の構造に与える影響を明示的に研究できる2つの全く解ける量子系が生まれる。 最後に、2d dunkl-darboux iii 発振器全体が磁場と結合され、正確に可解なハミルトニアンを定義することが示され、ここでは$\lambda$-deformation と磁場との相互作用が明示的に示される。

We introduce the Dunkl-Darboux III oscillator Hamiltonian in N dimensions, defined as a $\lambda-$deformation of the N-dimensional Dunkl oscillator. This deformation can be interpreted either as the introduction of a non-constant curvature related to $\lambda$ on the underlying space or, equivalently, as a Dunkl oscillator with a position-dependent mass function. This new quantum model is shown to be exactly solvable in arbitrary dimension N, and its eigenvalues and eigenfunctions are explicitly presented. Moreover, it is shown that in the two-dimensional case both the Darboux III and the Dunkl oscillators can be separately coupled with a constant magnetic field, thus giving rise to two new exactly solvable quantum systems in which the effect of a position-dependent mass and the Dunkl derivatives on the structure of the Landau levels can be explicitly studied. Finally, the whole 2D Dunkl-Darboux III oscillator is coupled with the magnetic field and shown to define an exactly solvable Hamiltonian, where the interplay between the $\lambda$-deformation and the magnetic field is explicitly illustrated.
翻訳日:2023-11-22 20:37:24 公開日:2023-11-16
# NeuS2:多視点再構成のためのニューラルネットワーク表面の高速学習

NeuS2: Fast Learning of Neural Implicit Surfaces for Multi-view Reconstruction ( http://arxiv.org/abs/2212.05231v3 )

ライセンス: Link先を確認
Yiming Wang, Qin Han, Marc Habermann, Kostas Daniilidis, Christian Theobalt, Lingjie Liu(参考訳) ニューラルサーフェス表現とレンダリングの最近の手法、例えばNeuSは、静的シーンの驚くほど高品質な再構成を実証している。 しかし、NeuSのトレーニングには非常に時間がかかる(8時間)ため、数千フレームのダイナミックなシーンに適用することはほとんど不可能である。 そこで本研究では, 高速神経表面再構成法であるneus2を提案し, 再構成品質を損なうことなく2桁の高速化を実現する。 トレーニングプロセスを高速化するために,マルチレゾリューションハッシュエンコーディングによる神経表面表現のパラメータ化を行い,ネットワークに調整された2次微分の新たな軽量計算を行い,cuda並列性を利用し,2倍の高速化を実現する。 さらに訓練の安定化と迅速化を図るため,多解像度ハッシュ符号化を粗い値から細かい値に最適化するプログレッシブラーニング戦略を提案する。 提案手法は,動的シーンを高速に訓練するための手法を拡張し,新しいグローバルトランスフォーメーション予測コンポーネントとインクリメンタルなトレーニング戦略を提案する。 各種データセットを用いた実験により,NuS2は静的シーンと動的シーンの両方において,表面再構成精度とトレーニング速度の両方において,最先端の技術を著しく上回っていることが示された。 コードは、私たちのWebサイトで入手できる。

Recent methods for neural surface representation and rendering, for example NeuS, have demonstrated the remarkably high-quality reconstruction of static scenes. However, the training of NeuS takes an extremely long time (8 hours), which makes it almost impossible to apply them to dynamic scenes with thousands of frames. We propose a fast neural surface reconstruction approach, called NeuS2, which achieves two orders of magnitude improvement in terms of acceleration without compromising reconstruction quality. To accelerate the training process, we parameterize a neural surface representation by multi-resolution hash encodings and present a novel lightweight calculation of second-order derivatives tailored to our networks to leverage CUDA parallelism, achieving a factor two speed up. To further stabilize and expedite training, a progressive learning strategy is proposed to optimize multi-resolution hash encodings from coarse to fine. We extend our method for fast training of dynamic scenes, with a proposed incremental training strategy and a novel global transformation prediction component, which allow our method to handle challenging long sequences with large movements and deformations. Our experiments on various datasets demonstrate that NeuS2 significantly outperforms the state-of-the-arts in both surface reconstruction accuracy and training speed for both static and dynamic scenes. The code is available at our website: https://vcai.mpi-inf.mpg.de/projects/NeuS2/ .
翻訳日:2023-11-22 20:34:46 公開日:2023-11-16
# シャープ校正ガウス過程

Sharp Calibrated Gaussian Processes ( http://arxiv.org/abs/2302.11961v2 )

ライセンス: Link先を確認
Alexandre Capone, Geoff Pleiss, Sandra Hirche(参考訳) ガウス過程は様々な工学や科学的応用の主軸であるが、不確実性推定は頻繁な保証を満たさず、実際は誤解されることがある。 キャリブレーションされたモデルを設計するための最先端のアプローチは、ガウス過程の後方分散を膨らませることに頼っている。 これを改善するために,バニラガウス過程の後方分散に着想を得た計算を用いて予測量子化を生成するキャリブレーション手法を提案するが,経験的キャリブレーション制約を満たすために選択された異なるハイパーパラメータセットを用いる。 これにより、既存のアプローチよりもかなり柔軟なキャリブレーションアプローチが実現され、我々は厳密な予測量子化を得られるように最適化する。 我々のアプローチは合理的な仮定の下で校正されたモデルが得られることを示す。 さらに、キャリブレーション回帰に使用する場合、既存のアプローチよりもシャープネスが優れている。

While Gaussian processes are a mainstay for various engineering and scientific applications, the uncertainty estimates don't satisfy frequentist guarantees and can be miscalibrated in practice. State-of-the-art approaches for designing calibrated models rely on inflating the Gaussian process posterior variance, which yields confidence intervals that are potentially too coarse. To remedy this, we present a calibration approach that generates predictive quantiles using a computation inspired by the vanilla Gaussian process posterior variance but using a different set of hyperparameters chosen to satisfy an empirical calibration constraint. This results in a calibration approach that is considerably more flexible than existing approaches, which we optimize to yield tight predictive quantiles. Our approach is shown to yield a calibrated model under reasonable assumptions. Furthermore, it outperforms existing approaches in sharpness when employed for calibrated regression.
翻訳日:2023-11-22 20:26:24 公開日:2023-11-16
# 言語モデルはコンピュータのタスクを解決できる

Language Models can Solve Computer Tasks ( http://arxiv.org/abs/2303.17491v3 )

ライセンス: Link先を確認
Geunwoo Kim, Pierre Baldi, Stephen McAleer(参考訳) コンピュータ上で一般的なタスクを実行することができるエージェントは、繰り返しタスクを自動化し、複雑な問題解決を支援することにより、効率と生産性を向上させることができる。 理想的には、そのようなエージェントは自然言語コマンドを通じて、それらに提示される新しいコンピュータタスクを解決できるはずだ。 しかし、この問題に対する従来のアプローチでは、多くの専門家によるデモンストレーションとタスク固有の報酬関数が必要であり、どちらも新しいタスクには実用的ではない。 本研究では、学習済みの大規模言語モデル(LLM)エージェントが、エージェントが再帰的批判を行い、その出力を改善する単純なプロンプトスキームを用いて、自然言語で案内されたコンピュータタスクを実行できることを示す。 RCIアプローチは、コンピュータタスクの自動化のための既存のLLMメソッドよりも大幅に優れており、MiniWoB++ベンチマークにおける教師付き学習(SL)および強化学習(RL)アプローチを上回る。 複数のllmを比較して、rciとinstructgpt-3+rlhf llmはminiwob++の最先端であり、数万ではなく1タスクあたりのデモンストレーションで、タスク固有の報酬機能がないことを発見した。 さらに,自然言語推論タスクのスイート上でのLLMの推論能力向上におけるRCIの促進効果を実証し,思考連鎖(CoT)に優れ,外部からのフィードバックが促進されることを示した。 RCIとCoTの組み合わせは、どちらよりもパフォーマンスが優れています。 私たちのコードは、https://github.com/posgnu/rci-agent.comで参照できます。

Agents capable of carrying out general tasks on a computer can improve efficiency and productivity by automating repetitive tasks and assisting in complex problem-solving. Ideally, such agents should be able to solve new computer tasks presented to them through natural language commands. However, previous approaches to this problem require large amounts of expert demonstrations and task-specific reward functions, both of which are impractical for new tasks. In this work, we show that a pre-trained large language model (LLM) agent can execute computer tasks guided by natural language using a simple prompting scheme where the agent Recursively Criticizes and Improves its output (RCI). The RCI approach significantly outperforms existing LLM methods for automating computer tasks and surpasses supervised learning (SL) and reinforcement learning (RL) approaches on the MiniWoB++ benchmark. We compare multiple LLMs and find that RCI with the InstructGPT-3+RLHF LLM is state-of-the-art on MiniWoB++, using only a handful of demonstrations per task rather than tens of thousands, and without a task-specific reward function. Furthermore, we demonstrate RCI prompting's effectiveness in enhancing LLMs' reasoning abilities on a suite of natural language reasoning tasks, outperforming chain of thought (CoT) prompting with external feedback. We find that RCI combined with CoT performs better than either separately. Our code can be found here: https://github.com/posgnu/rci-agent.
翻訳日:2023-11-22 20:00:22 公開日:2023-11-16
# ICU外傷患者の早期発作発症予測のためのNPRL:夜間プロファイル表現学習

NPRL: Nightly Profile Representation Learning for Early Sepsis Onset Prediction in ICU Trauma Patients ( http://arxiv.org/abs/2304.12737v3 )

ライセンス: Link先を確認
Tucker Stewart, Katherine Stern, Grant O'Keefe, Ankur Teredesai, Juhua Hu(参考訳) セプシス(Sepsis)は、感染の有無に応じて体内で発症する症候群である。 重度の臓器機能不全を特徴とする敗血症は、世界中の集中治療室(ICUs)の死因の1つである。 これらの合併症は抗生物質の早期使用によって軽減することができる。 したがって、敗血症の発症を早期に予測する能力は患者の生存と幸福に不可欠である。 医療インフラ内に展開されている現在の機械学習アルゴリズムは、パフォーマンスが悪く、早期の敗血症を予測できない。 近年、深層学習法は敗血症を予測するために提案されているが、発症時期(例えば、患者の全訪問を発症病期と分類するなど)を把握できないものや、臨床環境(例えば、発症に固定時間を使うトレーニングインスタンスを作成する場合、発症時期をアプリオリと呼ぶ必要がある場合など)が提案されている。 本報告では, 患者と患者との交叉率が高い場合, 患者間の観察時間に制限がある場合, 最新のデータを用いて, 毎朝24時間以内に発症するかどうかを予測できる新しい, 現実的な予測枠組みを提案する。 しかし、予測率を日々増加させるにつれて、負のインスタンスの数が増える一方、正のインスタンスの数は同じである。 これにより、これらの稀な敗血症の症例をつかむのが難しくなるクラス不均衡の問題が発生する。 そこで本研究では,夜間プロファイル表現学習(NPRL)手法を提案する。 nprlがレアイベント問題を理論的に軽減できることを証明し, レベル1トラウマセンターのデータを用いた実験により, 提案手法の有効性を実証した。

Sepsis is a syndrome that develops in the body in response to the presence of an infection. Characterized by severe organ dysfunction, sepsis is one of the leading causes of mortality in Intensive Care Units (ICUs) worldwide. These complications can be reduced through early application of antibiotics. Hence, the ability to anticipate the onset of sepsis early is crucial to the survival and well-being of patients. Current machine learning algorithms deployed inside medical infrastructures have demonstrated poor performance and are insufficient for anticipating sepsis onset early. Recently, deep learning methodologies have been proposed to predict sepsis, but some fail to capture the time of onset (e.g., classifying patients' entire visits as developing sepsis or not) and others are unrealistic for deployment in clinical settings (e.g., creating training instances using a fixed time to onset, where the time of onset needs to be known apriori). In this paper, we first propose a novel but realistic prediction framework that predicts each morning whether sepsis onset will occur within the next 24 hours using the most recent data collected the previous night, when patient-provider ratios are higher due to cross-coverage resulting in limited observation to each patient. However, as we increase the prediction rate into daily, the number of negative instances will increase, while that of positive instances remain the same. This causes a severe class imbalance problem making it hard to capture these rare sepsis cases. To address this, we propose a nightly profile representation learning (NPRL) approach. We prove that NPRL can theoretically alleviate the rare event problem and our empirical study using data from a level-1 trauma center demonstrates the effectiveness of our proposal.
翻訳日:2023-11-22 19:46:45 公開日:2023-11-16
# sasha: 大きな言語モデルを持つスマートホームにおける創造的目標指向推論

Sasha: creative goal-oriented reasoning in smart homes with large language models ( http://arxiv.org/abs/2305.09802v2 )

ライセンス: Link先を確認
Evan King, Haoxiang Yu, Sangsu Lee, Christine Julien(参考訳) スマートホームアシスタントは、ユーザーコマンドが直接的でよく特定されたとき(例えば「キッチンライトをオン」)、またはハードコードされたルーチンが応答を指定するときに最もよく機能する。 しかし、より自然なコミュニケーションでは、人間のスピーチは訓練されていないため、特定のターゲットデバイスやそれらのデバイスで実行するアクションを示すのではなく、目標(例えば「ここを快適にする」や「省エネを手助けする」など)を記述することが多い。 現在のシステムは、人間の状況に関連するデバイスや設定を推論できないため、これらの未特定コマンドを理解できない。 我々は,この問題空間に大規模言語モデル(LLM)を導入し,スマートホームにおける不特定ユーザコマンドへの対応として,デバイス制御と自動化ルーチン作成の活用を探求する。 LLMによるアクションプランのベースライン品質と障害モードを年齢差ユーザを対象に実証研究を行った。 LLMは創造的に挑戦的な目標を達成することができるが、その有用性を損なうような失敗のパターンを経験する。 スマートホームアシスタントのSashaでは、これらのギャップに対処しています。 sashaは、例えば利用可能なデバイスで気分を設定する、自動化ルーチンを開発するなど、ユーザの目標を達成するための計画を実行することで、ゆるやかに制約されたコマンドに応答する。 我々は,制約のないユーザ生成シナリオに直面すると,その能力と限界を示すとともに,sashaの実装をハンズオンユーザスタディで評価した。

Smart home assistants function best when user commands are direct and well-specified (e.g., "turn on the kitchen light"), or when a hard-coded routine specifies the response. In more natural communication, however, human speech is unconstrained, often describing goals (e.g., "make it cozy in here" or "help me save energy") rather than indicating specific target devices and actions to take on those devices. Current systems fail to understand these under-specified commands since they cannot reason about devices and settings as they relate to human situations. We introduce large language models (LLMs) to this problem space, exploring their use for controlling devices and creating automation routines in response to under-specified user commands in smart homes. We empirically study the baseline quality and failure modes of LLM-created action plans with a survey of age-diverse users. We find that LLMs can reason creatively to achieve challenging goals, but they experience patterns of failure that diminish their usefulness. We address these gaps with Sasha, a smarter smart home assistant. Sasha responds to loosely-constrained commands like "make it cozy" or "help me sleep better" by executing plans to achieve user goals, e.g., setting a mood with available devices, or devising automation routines. We evaluate our implementation of Sasha in a hands-on user study, showing its capabilities and limitations when faced with unconstrained user-generated scenarios.
翻訳日:2023-11-22 19:34:47 公開日:2023-11-16
# 非弾性原子-表面散乱への完全ab initioアプローチ

A fully ab initio approach to inelastic atom-surface scattering ( http://arxiv.org/abs/2306.01892v3 )

ライセンス: Link先を確認
Michelle M. Kelley, Ravishankar Sundararaman, Tom\'as A. Arias(参考訳) 我々は、任意の表面励起単一フォノンからの原子の非弾性散乱に対する完全なab慣性理論を導入し、nb(100) からのヘリウム散乱に適用する。 我々のアプローチを一般化する重要な側面は、散乱原子-電子頂点の直接第一原理評価である。 現在の最先端理論の誤解を招く結果を修正することで、この完全な初期的アプローチは次世代の非破壊原子ビーム散乱を採用する実験の導出と解釈において重要である。

We introduce a fully ab initio theory for inelastic scattering of any atom from any surface exciting single phonons, and apply the theory to helium scattering from Nb(100). The key aspect making our approach general is a direct first-principles evaluation of the scattering atom-electron vertex. By correcting misleading results from current state-of-the-art theories, this fully ab initio approach will be critical in guiding and interpreting experiments that adopt next-generation, non-destructive atomic beam scattering.
翻訳日:2023-11-22 19:26:04 公開日:2023-11-16
# EventCLIP: イベントベースのオブジェクト認識のためのCLIP適応

EventCLIP: Adapting CLIP for Event-based Object Recognition ( http://arxiv.org/abs/2306.06354v3 )

ライセンス: Link先を確認
Ziyi Wu, Xudong Liu, Igor Gilitschenski(参考訳) ゼロショットと少数ショット分類の最近の進歩は、CLIPのような事前訓練された視覚言語モデル(VLM)の成功に大きく依存している。 大規模データセットが不足しているため、イベントカメラデータのトレーニングは実現不可能である。 したがって、既存のVLMをイベントビジョンに適用することは重要な研究課題である。 本稿では,ゼロショットおよび少数ショットのイベントベースオブジェクト認識にCLIPを利用する新しいアプローチであるEventCLIPを紹介する。 まず、生イベントを2次元グリッドベース表現に変換することで、CLIPのイメージエンコーダをイベントデータに一般化する。 性能向上のために,イベントフレーム上の時間情報を集約し,テキスト埋め込みを改良し,視覚的入力との整合性を向上する機能アダプタを提案する。 N-Caltech、N-Cars、N-ImageNetのデータセット上でEventCLIPを評価し、最先端のショットパフォーマンスを実現する。 データセット全体を微調整すると、既存のすべてのイベント分類器を上回ってしまう。 さらに,より堅牢なイベント分類やラベルなしイベント認識など,EventCLIPの実践的応用についても検討する。

Recent advances in zero-shot and few-shot classification heavily rely on the success of pre-trained vision-language models (VLMs) such as CLIP. Due to a shortage of large-scale datasets, training such models for event camera data remains infeasible. Thus, adapting existing VLMs across modalities to event vision is an important research challenge. In this work, we introduce EventCLIP, a novel approach that utilizes CLIP for zero-shot and few-shot event-based object recognition. We first generalize CLIP's image encoder to event data by converting raw events to 2D grid-based representations. To further enhance performance, we propose a feature adapter to aggregate temporal information over event frames and refine text embeddings to better align with the visual inputs. We evaluate EventCLIP on N-Caltech, N-Cars, and N-ImageNet datasets, achieving state-of-the-art few-shot performance. When fine-tuned on the entire dataset, our method outperforms all existing event classifiers. Moreover, we explore practical applications of EventCLIP including robust event classification and label-free event recognition, where our approach surpasses previous baselines designed specifically for these tasks.
翻訳日:2023-11-22 19:12:52 公開日:2023-11-16
# 何でもマッティングする

Matting Anything ( http://arxiv.org/abs/2306.05399v2 )

ライセンス: Link先を確認
Jiachen Li, Jitesh Jain, Humphrey Shi(参考訳) 本稿では,画像中の任意のインスタンスのアルファマットを,柔軟かつインタラクティブな視覚的あるいは言語的ユーザプロンプトガイダンスで推定する,効率的で汎用的なフレームワークであるmatting anything model(mam)を提案する。 MAMは、以前の特殊な画像マッチングネットワークよりもいくつかの大きな利点を提供している。 (i)MAMは、セマンティック、例、単一のモデルのみでの画像マッチングを参照するなど、さまざまな種類の画像マッチングを扱うことができる。 (ii)MAMはSegment Anything Model (SAM)の機能マップを活用し、軽量のMask-to-Matte (M2M) モジュールを採用し、反復的改良によりアルファ行列を予測する。 三 SAMを組み込むことにより、MAMはトリマップからボックス、ポイント、テキストプロンプトへのインタラクティブな画像マッチングの使用に必要なユーザの介入を単純化する。 各種画像マッチングベンチマークにおけるMAMの性能評価を行い, 実験結果から, MAMは各ベンチマークにおいて, 異なる測定値の下で, 最先端の特殊画像マッチングモデルと同等の性能を達成できることを示した。 全体としては、mamは優れた一般化能力を示し、より少ないパラメータで様々なイメージマットングタスクを効果的に処理できる。 私たちのコードとモデルは、https://github.com/shi-labs/matting-anythingでオープンソースです。

In this paper, we propose the Matting Anything Model (MAM), an efficient and versatile framework for estimating the alpha matte of any instance in an image with flexible and interactive visual or linguistic user prompt guidance. MAM offers several significant advantages over previous specialized image matting networks: (i) MAM is capable of dealing with various types of image matting, including semantic, instance, and referring image matting with only a single model; (ii) MAM leverages the feature maps from the Segment Anything Model (SAM) and adopts a lightweight Mask-to-Matte (M2M) module to predict the alpha matte through iterative refinement, which has only 2.7 million trainable parameters. (iii) By incorporating SAM, MAM simplifies the user intervention required for the interactive use of image matting from the trimap to the box, point, or text prompt. We evaluate the performance of MAM on various image matting benchmarks, and the experimental results demonstrate that MAM achieves comparable performance to the state-of-the-art specialized image matting models under different metrics on each benchmark. Overall, MAM shows superior generalization ability and can effectively handle various image matting tasks with fewer parameters, making it a practical solution for unified image matting. Our code and models are open-sourced at https://github.com/SHI-Labs/Matting-Anything.
翻訳日:2023-11-22 19:11:17 公開日:2023-11-16
# 分析用Sマトリックスの物理

Physics of the Analytic S-Matrix ( http://arxiv.org/abs/2306.05395v2 )

ライセンス: Link先を確認
Sebastian Mizera(参考訳) 解析性、シート、枝切り、不連続性など、散乱振幅の様々な数学的性質について聞いたことがあるかもしれません。 どういう意味ですか? これらの講義では、単純な散乱問題を通じて、そのような特性を直接物理に遡ることができるガイド付きツアーを行ないます。 S-行列の異なる解析的特徴が、因果関係、相互作用の局所性、一元的伝播などの結果、いかに異なるかを学ぶ。 これらのノートは、2023年春にプリンストン高等研究所とエディンバラのヒッグス・センター理論物理学学校で行われた一連の講義に基づいている。

You might've heard about various mathematical properties of scattering amplitudes such as analyticity, sheets, branch cuts, discontinuities, etc. What does it all mean? In these lectures, we'll take a guided tour through simple scattering problems that will allow us to directly trace such properties back to physics. We'll learn how different analytic features of the S-matrix are really consequences of causality, locality of interactions, unitary propagation, and so on. These notes are based on a series of lectures given in Spring 2023 at the Institute for Advanced Study in Princeton and the Higgs Centre School of Theoretical Physics in Edinburgh.
翻訳日:2023-11-22 19:10:53 公開日:2023-11-16
# 依存クラスタマッピング(DCMAP):統計的推測のための有向非巡回グラフの最適クラスタリング

Dependent Cluster Mapping (DCMAP): Optimal clustering of directed acyclic graphs for statistical inference ( http://arxiv.org/abs/2308.03970v2 )

ライセンス: Link先を確認
Paul Pao-Yen Wu, Fabrizio Rggeri, Kerrie Mengersen(参考訳) Directed Acyclic Graph (DAG) は、ベイジアン・ネットワーク(BN)やマルコフ・プロセスやその他のモデルにおいて、推論をより効率的にするためのクラスタに分割またはマッピングすることができる。 しかしながら、局所クラスタコストはクラスタ内の両方のノードに依存し、依存クラスタと呼ばれる親ノードおよび/または子ノードを介して接続されるクラスタのマッピングであるため、任意のコスト関数による最適分割は特に難しい。 本稿では,依存クラスタを用いた最適なクラスタマッピングのためのDCMAPアルゴリズムを提案する。 DAGに基づいて任意に定義された正のコスト関数が与えられた場合、DCMAPはすべての最適なクラスタを見つけるために収束し、その過程でほぼ最適解を返すことを示す。 実験により,計算コスト関数を用いた海草複合体系の動的BN(DBN)モデルに対して,アルゴリズムは時間効率が高いことがわかった。 25ノードと50ノードのdbnでは、検索空間のサイズは9.91\times 10^9$と1.51\times10^{21}$ でクラスタマッピングが可能であり、最初の最適解は反復 934 $(\text{95\% ci } 926,971)$ と 2256 $(2150,2271)$ で、それぞれ平均的なヒューリスティックコストの 4\% と 0.2\% である。

A Directed Acyclic Graph (DAG) can be partitioned or mapped into clusters to support and make inference more computationally efficient in Bayesian Network (BN), Markov process and other models. However, optimal partitioning with an arbitrary cost function is challenging, especially in statistical inference as the local cluster cost is dependent on both nodes within a cluster, and the mapping of clusters connected via parent and/or child nodes, which we call dependent clusters. We propose a novel algorithm called DCMAP for optimal cluster mapping with dependent clusters. Given an arbitrarily defined, positive cost function based on the DAG, we show that DCMAP converges to find all optimal clusters, and returns near-optimal solutions along the way. Empirically, we find that the algorithm is time-efficient for a Dynamic BN (DBN) model of a seagrass complex system using a computation cost function. For a 25 and 50-node DBN, the search space size was $9.91\times 10^9$ and $1.51\times10^{21}$ possible cluster mappings, and the first optimal solution was found at iteration 934 $(\text{95\% CI } 926,971)$, and 2256 $(2150,2271)$ with a cost that was 4\% and 0.2\% of the naive heuristic cost, respectively.
翻訳日:2023-11-22 18:37:11 公開日:2023-11-16
# 1対1顔認証におけるぼやけと解像度が人口差に及ぼす影響

Impact of Blur and Resolution on Demographic Disparities in 1-to-Many Facial Identification ( http://arxiv.org/abs/2309.04447v2 )

ライセンス: Link先を確認
Aman Bhatta, Gabriella Pangelinan, Michael C. King, and Kevin W. Bowyer(参考訳) 顔の認識精度の変動を調査したほとんどの研究は、1対1のマッチング精度を分析し、「政府id品質」と表現できる画像を用いている。 本稿では,「監視カメラの品質」画像に現れる可能性のある1対1の顔認証の精度と,プローブ画像におけるぼやけや解像度低下の有無について分析した。 Cumulative match characteristic curves (CMC) are not appropriate for comparing propensity for rank-one recognition errors across demographics, and so we use three metrics for our analysis: (1) the well-known d' metric between mated and non-mated score distributions, and introduced in this work, (2) absolute score difference between thresholds in the high-similarity tail of the non-mated and the low-similarity tail of the mated distribution, and (3) distribution of (mated - non-mated rank-one scores) across the set of probe images. 1対多の精度における人口変動は、1対1のマッチング精度で観測された結果に完全に従わないことがわかった。 また、1対1の精度とは異なり、1対1の精度の人口統計学的比較は、人口統計学的に異なるアイデンティティとイメージの数に影響される可能性がある。 さらに,プローブ画像のぼやけの増大や,プローブ画像中の顔の解像度の低下は,偽陽性の識別率を著しく上昇させる可能性がある。 そして,この高ぼかし条件や低解像度条件の人口変動は,アフリカ系アメリカ人やコーカサス人よりも男性や女性の方がはるかに大きいことを示す。 1対多の精度が「監視カメラの品質」プローブ画像の「政府IDの品質」ギャラリーに対する処理の文脈で崩壊する可能性がある点が重要である。

Most studies to date that have examined demographic variations in face recognition accuracy have analyzed 1-to-1 matching accuracy, using images that could be described as "government ID quality". This paper analyzes the accuracy of 1-to-many facial identification across demographic groups, and in the presence of blur and reduced resolution in the probe image as might occur in "surveillance camera quality" images. Cumulative match characteristic curves (CMC) are not appropriate for comparing propensity for rank-one recognition errors across demographics, and so we use three metrics for our analysis: (1) the well-known d' metric between mated and non-mated score distributions, and introduced in this work, (2) absolute score difference between thresholds in the high-similarity tail of the non-mated and the low-similarity tail of the mated distribution, and (3) distribution of (mated - non-mated rank-one scores) across the set of probe images. We find that demographic variation in 1-to-many accuracy does not entirely follow what has been observed in 1-to-1 matching accuracy. Also, different from 1-to-1 accuracy, demographic comparison of 1-to-many accuracy can be affected by different numbers of identities and images across demographics. More importantly, we show that increased blur in the probe image, or reduced resolution of the face in the probe image, can significantly increase the false positive identification rate. And we show that the demographic variation in these high blur or low resolution conditions is much larger for male / female than for African-American / Caucasian. The point that 1-to-many accuracy can potentially collapse in the context of processing "surveillance camera quality" probe images against a "government ID quality" gallery is an important one.
翻訳日:2023-11-22 18:10:44 公開日:2023-11-16
# 開量子系の対称性試験のための効率的な量子アルゴリズム

Efficient quantum algorithms for testing symmetries of open quantum systems ( http://arxiv.org/abs/2309.02515v2 )

ライセンス: Link先を確認
Rahul Bandyopadhyay, Alex H. Rubin, Marina Radulaski, Mark M. Wilde(参考訳) 対称性は物理学の多くの分野において重要かつ統一的な概念である。 量子力学では、対称性を利用して可能な物理的遷移を識別することで、システムから自由度を取り除くことができる。 これにより、計算を単純化し、システムの複雑なダイナミクスを比較的簡単に特徴付けることができます。 従来の研究は、忠実度に基づく対称性測定によって対称性を確かめるための量子アルゴリズムの考案に重点を置いてきた。 本研究では,量子コンピュータ上で効率よく実装可能な量子アルゴリズムの代替対称性試験法を開発した。 提案手法は, フィルベルト-シュミット距離に基づく非対称性測度を, 距離として忠実度を用いるよりも計算的にはるかに容易である。 この方法は、状態、チャネル、リンドブラジアンおよび測定値の対称性を測定するために導かれる。 この手法を、振幅減衰チャネルやスピンチェーンを含む開量子システムを含む多くのシナリオに適用し、ハミルトニアンおよびリンドブラッド作用素の有限対称性群内外における対称性を検証した。

Symmetry is an important and unifying notion in many areas of physics. In quantum mechanics, it is possible to eliminate degrees of freedom from a system by leveraging symmetry to identify the possible physical transitions. This allows us to simplify calculations and characterize potentially complicated dynamics of the system with relative ease. Previous works have focused on devising quantum algorithms to ascertain symmetries by means of fidelity-based symmetry measures. In our present work, we develop alternative symmetry testing quantum algorithms that are efficiently implementable on quantum computers. Our approach estimates asymmetry measures based on the Hilbert--Schmidt distance, which is significantly easier, in a computational sense, than using fidelity as a metric. The method is derived to measure symmetries of states, channels, Lindbladians, and measurements. We apply this method to a number of scenarios involving open quantum systems, including the amplitude damping channel and a spin chain, and we test for symmetries within and outside the finite symmetry group of the Hamiltonian and Lindblad operators.
翻訳日:2023-11-22 18:10:04 公開日:2023-11-16
# ニューラル演算子による散乱

Scattering with Neural Operators ( http://arxiv.org/abs/2308.14789v2 )

ライセンス: Link先を確認
Sebastian Mizera(参考訳) 機械学習の最近の進歩は、ニューラルネットワークと呼ばれる特定のニューラルネットワークアーキテクチャが関数空間間のマップを近似する能力を確立する。 基礎物理学における応用の可能性から、量子力学における散乱過程の応用について検討する。 我々は、初期波動関数とポテンシャルの空間から最終波動関数へ写像するシュリンガー作用素の物理学を学ぶために、フーリエ作用素の反復変法を用いる。 これらの深層演算子学習のアイデアは、中心電位から1+1$次元に散乱する波のパケットの時間的進化を予測するニューラル演算子と、2+1$次元のダブルスリット実験という2つの具体的な問題でテストされる。 推論において、ニューラルネットワークは従来の有限差分ソルバよりも桁違いに効率的になる。

Recent advances in machine learning establish the ability of certain neural-network architectures called neural operators to approximate maps between function spaces. Motivated by a prospect of employing them in fundamental physics, we examine applications to scattering processes in quantum mechanics. We use an iterated variant of Fourier neural operators to learn the physics of Schr\"odinger operators, which map from the space of initial wave functions and potentials to the final wave functions. These deep operator learning ideas are put to test in two concrete problems: a neural operator predicting the time evolution of a wave packet scattering off a central potential in $1+1$ dimensions, and the double-slit experiment in $2+1$ dimensions. At inference, neural operators can become orders of magnitude more efficient compared to traditional finite-difference solvers.
翻訳日:2023-11-22 18:06:05 公開日:2023-11-16
# エージェント・イン・セルモデルにおける地理空間的テッセルレーション:パンデミックのエージェントベースモデリングのためのフレームワーク

Geospatial Tessellation in the Agent-In-Cell Model: A Framework for Agent-Based Modeling of Pandemic ( http://arxiv.org/abs/2309.07055v3 )

ライセンス: Link先を確認
Amir Mohammad Esmaieeli Sikaroudi, Alon Efrat, Michael Chertkov(参考訳) 複雑なシステムを分析する強力なツールであるエージェントベースシミュレーションは、計算要求の増加により地理的要素を統合する際の課題に直面している。 本研究は,safegraphの地理的特徴と実世界のモビリティデータを利用して,都市における新型コロナウイルス感染をシミュレートするエージェントベースモデルについて紹介する。 我々は, 物理学に基づく伝送研究により, 直接対人接触確率に着目した従来型の伝送確率から脱却する。 我々の手法は革新的な戦略を通じて計算複雑性に対処する。 メタエイジェント(meta-agents)と呼ばれるエージェントは、都市のテッセレーションにおける特定のホームセルと関連している。 種々のテッセルレーションとエージェント密度を探索し,特定の道路ネットワーク位置に基づくボロノイ・ダイアグラム・テッセルレーションが,ダイナミックス保存におけるセンサス・ブロック・グループ・テッセルレーションより優れていることを示した。 さらに、Voronoi DiagramsとCensus Block Groupsを組み合わせたハイブリッドテッセルレーションは、より少ないメタエージェントで有効であり、都市動態の正確な表現を維持している。 分析は米国内の都市規模を対象とし,エージェント数削減効果,感度指標,都市固有の要因について考察した。 当社のモデルを既存のABMに対してベンチマークし、実行時とエージェント数の削減に重点を置いています。 主な最適化は、メタエージェントの使用法、高度なテッセレーション法、並列化技術である。 本研究はエージェントベースモデリングの分野,特に地理的特異性と高い計算効率を必要とするシナリオに寄与する。

Agent-based simulation, a powerful tool for analyzing complex systems, faces challenges when integrating geographic elements due to increased computational demands. This study introduces a series of 'agent-in-the-cell' Agent-Based Models to simulate COVID spread in a city, utilizing geographical features and real-world mobility data from Safegraph. We depart from traditional aggregated transmission probabilities, focusing on direct person-to-person contact probabilities, informed by physics-based transmission studies. Our approach addresses computational complexities through innovative strategies. Agents, termed 'meta-agents', are linked to specific home cells in a city's tessellation. We explore various tessellations and agent densities, finding that Voronoi Diagram tessellations, based on specific street network locations, outperform Census Block Group tessellations in preserving dynamics. Additionally, a hybrid tessellation combining Voronoi Diagrams and Census Block Groups proves effective with fewer meta-agents, maintaining an accurate representation of city dynamics. Our analysis covers diverse city sizes in the U.S., offering insights into agent count reduction effects, sensitivity metrics, and city-specific factors. We benchmark our model against an existing ABM, focusing on runtime and reduced agent count implications. Key optimizations include meta-agent usage, advanced tessellation methods, and parallelization techniques. This study's findings contribute to the field of agent-based modeling, especially in scenarios requiring geographic specificity and high computational efficiency.
翻訳日:2023-11-22 17:54:08 公開日:2023-11-16
# 多ビット系における動的特異点の分類のための量子カーネル

Quantum kernels for classifying dynamical singularities in a multiqubit system ( http://arxiv.org/abs/2310.04300v2 )

ライセンス: Link先を確認
Diego Tancara, Jos\'e Fredes, and Ariel Norambuena(参考訳) 動的量子相転移(英: dynamical quantum phase transition)は、古典的アナロジーを伴わない平衡状態と破断対称性を含む臨界現象である。 しかし、有限サイズの系を解析すると、速度関数の動的特異点が現れ、パラメータが変化したときの物理的特徴付けが困難になる。 本稿では,量子カーネルを用いてマルチ量子ビットシステムのレート関数の動的特異点を分類する量子サポートベクトルマシン(qsvm)アルゴリズムについて報告する。 我々は,任意の磁場を受ける長距離相互作用量子ビットを用いて,クエンチダイナミクスを誘導する手法を示す。 物理引数に着想を得て、基底状態多様体に着想を得た2つの異なる量子カーネルと、単一状態トモグラフィーに基づく2つの量子カーネルを導入する。 その結果, この量子力学的臨界問題は, 物理的に誘導する量子カーネルを用いて効率的に解くことができることがわかった。 さらに, 時間依存場, 量子マスター方程式, 量子ビット数を増加させる場合の結果を拡張した。

Dynamical quantum phase transition is a critical phenomenon involving out-of-equilibrium states and broken symmetries without classical analogy. However, when finite-sized systems are analyzed, dynamical singularities of the rate function can appear, leading to a challenging physical characterization when parameters are changed. Here, we report a quantum support vector machine (QSVM) algorithm that uses quantum Kernels to classify dynamical singularities of the rate function for a multiqubit system. We illustrate our approach using $N$ long-range interacting qubits subjected to an arbitrary magnetic field, which induces a quench dynamics. Inspired by physical arguments, we introduce two different quantum Kernels, one inspired by the ground state manifold and the other based on a single state tomography. Our accuracy and adaptability results show that this quantum dynamical critical problem can be efficiently solved using physically inspiring quantum Kernels. Moreover, we extend our results for the case of time-dependent fields, quantum master equation, and when we increase the number of qubits.
翻訳日:2023-11-22 17:46:13 公開日:2023-11-16
# 多点テキストスーパービジョンによるオープンセット画像タギング

Open-Set Image Tagging with Multi-Grained Text Supervision ( http://arxiv.org/abs/2310.15200v2 )

ライセンス: Link先を確認
Xinyu Huang, Yi-Jie Huang, Youcai Zhang, Weiwei Tian, Rui Feng, Yuejie Zhang, Yanchun Xie, Yaqian Li, Lei Zhang(参考訳) 本稿では,多粒度テキスト管理を効果的に活用するオープンセット画像タグ付けモデルであるRecognize Anything Plus Model (RAM++)を紹介する。 以前のアプローチ(例えばCLIP)は、主に画像と組み合わせたグローバルテキストの監督を利用しており、複数の個別のセマンティックタグを認識する際の準最適性能をもたらす。 対照的に、ram++は個々のタグの監督をグローバルテキストの監督とシームレスに統合する。 この統合により、事前定義されたタグカテゴリの効率的な認識が保証されるだけでなく、様々なオープンセットカテゴリの一般化機能も強化される。 さらに、RAM++は大きな言語モデル(LLM)を使用して、セマンティック制約付きタグ管理をより拡張的なタグ記述管理に変換することで、オープンセットの視覚的記述概念のスコープを強化する。 様々な画像認識ベンチマークに関する総合的な評価は、RAM++が既存の最先端(SOTA)イメージタグモデルを超えることを証明している。 具体的には、定義済みのタグカテゴリに対して、RAM++は、OpenImagesとImageNet上のCLIPよりも10.2mAPと15.4mAPの強化を示す。 事前定義された以上のオープンセットカテゴリでは、RAM++はCLIPとRAMに対する5.0mAPと6.4mAPの改善を記録している。 多様なヒューマンオブジェクトのインタラクションフレーズに対して、RAM++はHICOベンチマークで7.8mAPと4.7mAPの改善を達成した。 コード、データセット、事前学習されたモデルは \url{https://github.com/xinyu1205/recognize-anything} で利用可能である。

In this paper, we introduce the Recognize Anything Plus Model (RAM++), an open-set image tagging model effectively leveraging multi-grained text supervision. Previous approaches (e.g., CLIP) primarily utilize global text supervision paired with images, leading to sub-optimal performance in recognizing multiple individual semantic tags. In contrast, RAM++ seamlessly integrates individual tag supervision with global text supervision, all within a unified alignment framework. This integration not only ensures efficient recognition of predefined tag categories, but also enhances generalization capabilities for diverse open-set categories. Furthermore, RAM++ employs large language models (LLMs) to convert semantically constrained tag supervision into more expansive tag description supervision, thereby enriching the scope of open-set visual description concepts. Comprehensive evaluations on various image recognition benchmarks demonstrate RAM++ exceeds existing state-of-the-art (SOTA) open-set image tagging models on most aspects. Specifically, for predefined commonly used tag categories, RAM++ showcases 10.2 mAP and 15.4 mAP enhancements over CLIP on OpenImages and ImageNet. For open-set categories beyond predefined, RAM++ records improvements of 5.0 mAP and 6.4 mAP over CLIP and RAM respectively on OpenImages. For diverse human-object interaction phrases, RAM++ achieves 7.8 mAP and 4.7 mAP improvements on the HICO benchmark. Code, datasets and pre-trained models are available at \url{https://github.com/xinyu1205/recognize-anything}.
翻訳日:2023-11-22 17:21:57 公開日:2023-11-16
# 4次時間畳み込みマスター方程式のオープン量子システムへの応用:1/fノイズの量子極限

Application of the Fourth-Order Time Convolutionless Master Equation to Open Quantum Systems: Quantum Limit of 1/f-Noise ( http://arxiv.org/abs/2310.15089v2 )

ライセンス: Link先を確認
Elyana Crowder, Lance Lampert, Grihith Manchanda, Brian Shoffeitt, Srikar Gadamsetty, Yiting Pei, Shantanu Chaudhary, Dragomir Davidovi\'c(参考訳) 浴槽に弱結合した開放量子系の密集集合において、正確な4階時間畳み込みマスター方程式(TCL4)を最適化し、単純化する。 マスター方程式は、系のスペクトル密度の微分に比例する項を持ち、熱力学極限のゼロ温度で1/f^{1-s}$ノイズを示す。 $s$はスペクトル密度の小さな周波数$f$の電力法則であり、ノイズは$s\to 0_+$のときに1/f$のノイズに近づく。 ノイズは4次緩和強調ハイブリッドプロセスによって駆動される。 s<1$の場合、縮小されたダイナミクスは長い時間制限で分散する。 しかし,物理的赤外線遮断時間を設定することで,微小量子系(硬質物質)と浴中の軟質粒子(軟質物質)との絡み合いエントロピーを推定する。 また、マスター方程式が基底状態へのアプローチをどのように表現するかを、ゼロ温度および基底状態における力学の漸近状態と相互作用における4次状態とを比較して検討する。 基底状態へのアプローチは, 浴槽とのカップリングの2次でのみ, 数値的に正確であることが判明した。 TCL4マスター方程式は、量子場理論から赤外線問題を具現化し、量子コンピューティングにおける赤外線発散ノイズを緩和し、光合成光の効率への影響を研究する。

We optimize and simplify the exact 4th-order time-convolutionless master equation (TCL4), in a dense set of open quantum systems weakly coupled to the bath. The master equation has a term proportional to the derivative of the system's spectral density and exhibits $1/f^{1-s}$ noise at zero temperature in the thermodynamic limit. $s$ is the power law in the spectral density at a small frequency $f$ and the noise approaches $1/f$ noise when $s\to 0_+$. The noise is driven by the fourth-order relaxation-dephasing hybrid processes. When $s<1$, the reduced dynamics diverges in the long time limit. However, by imposing a physical infrared cut-off time, we estimate the entanglement entropy between the small quantum system (hard matter) and the emitted soft bosons in the bath (soft matter). We also examine how the master equation represents the approach to a ground state, by comparing the asymptotic states of the dynamics at zero temperature and ground states, both computed to fourth order in the interaction. We find that the approach to ground state is numerically exact only in the second order of coupling to the bath. The TCL4 master equation embodies the infrared problem from quantum field theory, opening up possibilities to mitigate infrared divergent noise in quantum computing and to study its impact on the efficiency of photosynthetic light harvesting.
翻訳日:2023-11-22 17:20:42 公開日:2023-11-16
# 没入環境におけるコラボレーション:課題と解決策

Collaboration in Immersive Environments: Challenges and Solutions ( http://arxiv.org/abs/2311.00689v2 )

ライセンス: Link先を確認
Shahin Doroudian(参考訳) 仮想現実(vr)と拡張現実(ar)ツールは、物理的プロトタイプの使用を回避し、ハイリスクな状況下でトレーニングし、現実やシミュレーションの結果を解釈するために、あらゆるエンジニアリング分野に適用されている。 このような没入的な環境で共有タスクを完了したり、エージェントにタスクを割り当てるには、コラボレーションや共有協調活動が必要である。 没入型環境におけるコラボレーションは、人々がバーチャルおよび拡張現実の環境で対話し、一緒に働く方法を研究することを目的とした、新たな研究分野である。 没入型環境におけるコラボレーションは、コミュニケーション、コーディネーション、社会的存在など様々な要因を含む複雑なプロセスである。 本稿では,没入環境におけるコラボレーション研究の現状について概説する。 vrやarなど、没入環境のさまざまなタイプや、これらの環境で発生するさまざまなタイプのコラボレーションについて論じている。 この論文は、物理的な手がかりの欠如、コストとユーザビリティ、この分野におけるさらなる研究の必要性など、没入環境におけるコラボレーションの課題と限界についても強調する。 全体として、没入型環境におけるコラボレーションは、教育から産業まで幅広い潜在的な応用分野を持つ有望な分野であり、効果的に協力する能力を高めることで、個人とグループの両方に利益をもたらすことができる。

Virtual Reality (VR) and Augmented Reality (AR) tools have been applied in all engineering fields in order to avoid the use of physical prototypes, to train in high-risk situations, and to interpret real or simulated results. In order to complete a shared task or assign tasks to the agents in such immersive environments, collaboration or Shared Cooperative Activities are a necessity. Collaboration in immersive environments is an emerging field of research that aims to study and enhance the ways in which people interact and work together in Virtual and Augmented Reality settings. Collaboration in immersive environments is a complex process that involves different factors such as communication, coordination, and social presence. This paper provides an overview of the current state of research on collaboration in immersive environments. It discusses the different types of immersive environments, including VR and AR, and the different forms of collaboration that can occur in these environments. The paper also highlights the challenges and limitations of collaboration in immersive environments, such as the lack of physical cues, cost and usability and the need for further research in this area. Overall, collaboration in immersive environments is a promising field with a wide range of potential applications, from education to industry, and it can benefit both individuals and groups by enhancing their ability to work together effectively.
翻訳日:2023-11-22 16:54:33 公開日:2023-11-16
# シナリオ拡散:拡散を伴う制御可能なシナリオ生成

Scenario Diffusion: Controllable Driving Scenario Generation With Diffusion ( http://arxiv.org/abs/2311.02738v2 )

ライセンス: Link先を確認
Ethan Pronovost, Meghana Reddy Ganesina, Noureldin Hendy, Zeyu Wang, Andres Morales, Kai Wang, Nicholas Roy(参考訳) 合成交通シナリオの自動作成は、自動運転車(AV)の安全性を検証する重要な部分である。 本稿では,制御可能なシナリオ生成を実現するための,新しい拡散型アーキテクチャであるScenario Diffusionを提案する。 本研究では, 潜在拡散, 物体検出, 軌道回帰を組み合わせることで, 合成剤のポーズ, 方向, 軌跡の分布を同時に生成する。 生成されたシナリオを制御し、この分布を所望のシナリオを記述するトークンの集合とマップに条件付けする。 本手法は,多様な交通パターンをモデル化し,異なる地理的領域に一般化するのに十分な表現能力を有することを示す。

Automated creation of synthetic traffic scenarios is a key part of validating the safety of autonomous vehicles (AVs). In this paper, we propose Scenario Diffusion, a novel diffusion-based architecture for generating traffic scenarios that enables controllable scenario generation. We combine latent diffusion, object detection and trajectory regression to generate distributions of synthetic agent poses, orientations and trajectories simultaneously. To provide additional control over the generated scenario, this distribution is conditioned on a map and sets of tokens describing the desired scenario. We show that our approach has sufficient expressive capacity to model diverse traffic patterns and generalizes to different geographical regions.
翻訳日:2023-11-22 16:41:38 公開日:2023-11-16
# In-context Vectors:潜時空間ステアリングによる文脈学習の効率化と制御性

In-context Vectors: Making In Context Learning More Effective and Controllable Through Latent Space Steering ( http://arxiv.org/abs/2311.06668v2 )

ライセンス: Link先を確認
Sheng Liu, Lei Xing, James Zou(参考訳) 大規模言語モデル(LLM)は、実例に基づく新しいタスクに適応する、創発的なコンテキスト内学習能力を示す。 しかし、コンテキスト内学習は多くの設定において限定的な効果を示しており、定量的に制御することは困難であり、コンテキストウィンドウスペースを取る。 これらの制限を克服するために,文脈内学習を文脈内ベクトル(icv)として再キャストする手法を提案する。 ICVの使用には2つのステップがある。 まず、実演例のフォワードパスを使用して、LCMの潜伏埋め込みからコンテキスト内ベクトルを生成する。 このベクトルは、意図したタスクに関する重要な情報をキャプチャする。 新しいクエリでは、プロンプトにデモを追加する代わりに、ICVを使ってLCMの潜伏状態を変更する。 icvアプローチにはいくつかの利点があります 1) LLM は,より効果的に実演例に従うことができる。 2)ICVの大きさを調整することで制御が容易である。 3) インコンテキストのデモを取り除き,プロンプトの長さを短縮する。 4) ICVは微調整よりも計算効率が高い。 安全,スタイル転送,ロールプレイング,フォーマッティングなど多種多様なタスクに対して,標準のコンテキスト内学習や微調整よりも優れた性能を実現することを実証した。 さらに,対応するISV上の単純ベクトル演算により,LLMに異なる命令を同時に追従するように柔軟に教えることができることを示す。

Large language models (LLMs) demonstrate emergent in-context learning capabilities, where they adapt to new tasks based on example demonstrations. However, in-context learning has seen limited effectiveness in many settings, is difficult to quantitatively control and takes up context window space. To overcome these limitations, we propose an alternative approach that recasts in-context learning as in-context vectors (ICV). Using ICV has two steps. We first use a forward pass on demonstration examples to create the in-context vector from the latent embedding of the LLM. This vector captures essential information about the intended task. On a new query, instead of adding demonstrations to the prompt, we shift the latent states of the LLM using the ICV. The ICV approach has several benefits: 1) it enables the LLM to more effectively follow the demonstration examples; 2) it's easy to control by adjusting the magnitude of the ICV; 3) it reduces the length of the prompt by removing the in-context demonstrations; 4) ICV is computationally much more efficient than fine-tuning. We demonstrate that ICV achieves better performance compared to standard in-context learning and fine-tuning on diverse tasks including safety, style transfer, role-playing and formatting. Moreover, we show that we can flexibly teach LLM to simultaneously follow different types of instructions by simple vector arithmetics on the corresponding ICVs.
翻訳日:2023-11-22 16:31:25 公開日:2023-11-16
# マイクロ波-光周波数変換用光機械リング共振器

Optomechanical ring resonator for efficient microwave-optical frequency conversion ( http://arxiv.org/abs/2311.06435v2 )

ライセンス: Link先を確認
I-Tung Chen, Bingzhao Li, Seokhyeong Lee, Srivatsa Chakravarthi, Kai-Mei Fu, Mo Li(参考訳) 固体デバイスで移動するフォノンは、機械的な相互作用によって異なる物理系に結合できる普遍的な励起として登場している。 マイクロ波および固体材料において、フォノンは光子と似た波長を持ち、光と効率的に相互作用し、光とマイクロ波の間の古典的および量子的信号伝達に非常に好ましい強い光学効果を生じる。 光子とフォノンの両方を誘導し、分離フォトニックとフォノニックデバイスを相互接続する光機械集積回路(omic)を構築することが考えられる。 ここでは、赤外線光子とGHzフォノンが共振して大幅に拡張された変換を誘導するOMRを含むOMICを実証する。 omicは、広帯域gap半導体ガリウムリン化ガリウム(gap)を導波材料として、圧電酸化亜鉛(zno)をフォノン生成に用いるハイブリッドプラットフォーム上に構築されている。 OMRは、それぞれ$>1\times10^5$と$.2\times10^3$のフォトニック品質係数を特徴とし、内部変換効率$\eta_i=(2.1\pm0.1)%$とトータルデバイス効率$\eta_{tot}=0.57\times10^{-6}$を1.6mWの低音響ポンプパワーで、フォトニックモード間の光力学的変換を強化する。 OMICの効率的な変換により、量子情報処理やマイクロ波フォトニクスにおいて多くの用途にマイクロ波光変換が可能である。

Phonons traveling in solid-state devices are emerging as a universal excitation that can couple to different physical systems through mechanical interaction. At microwave frequencies and in solid-state materials, phonons have a similar wavelength to optical photons, enabling them to interact efficiently with light and produce strong optomechanical effects that are highly desirable for classical and quantum signal transduction between optical and microwave. It becomes conceivable to build optomechanical integrated circuits (OMIC) that guide both photons and phonons and interconnect discrete photonic and phononic devices. Here, we demonstrate an OMIC including an optomechanical ring resonator (OMR), in which infrared photons and GHz phonons co-resonate to induce significantly enhanced interconversion. The OMIC is built on a hybrid platform where wide bandgap semiconductor gallium phosphide (GaP) is used as the waveguiding material and piezoelectric zinc oxide (ZnO) is used for phonon generation. The OMR features photonic and phononic quality factors of $>1\times10^5$ and $3.2\times10^3$, respectively, and resonantly enhances the optomechanical conversion between photonic modes to achieve an internal conversion efficiency $\eta_i=(2.1\pm0.1)%$ and a total device efficiency $\eta_{tot}=0.57\times10^{-6}$ at a low acoustic pump power of 1.6 mW. The efficient conversion in OMICs enables microwave-optical transduction for many applications in quantum information processing and microwave photonics.
翻訳日:2023-11-22 16:30:16 公開日:2023-11-16
# OW-SLR:超解像のための半局所領域上でのWindowsの重複

OW-SLR: Overlapping Windows on Semi-Local Region for Image Super-Resolution ( http://arxiv.org/abs/2311.05146v2 )

ライセンス: Link先を確認
Rishav Bhardwaj, Janarthanam Jothi Balaji, Vasudevan Lakshminarayanan(参考訳) 任意の解像度に画像をスケールアップするために、暗黙の神経表現はかなり進歩した。 しかし、既存の手法は、赤、緑、青(RGB)の値を4つの特定の軌跡から予測する関数を定義することに基づいている。 わずか4つのlociに依存するだけでは、隣接する領域から詳細を失うことになるため不十分である。 半局所領域を考慮することで性能が向上することを示す。 本稿では、半局所領域(ow-slr)上のオーバーラップウインドウという新しい手法を画像に適用し、半局所領域の座標を潜在空間の一点付近で取り込むことにより任意の解像度を得る。 この抽出された詳細は、点のRGB値を予測するために使用される。 光コヒーレンス・トモグラフィー・アンジオグラフィー(OCT-A)画像にアルゴリズムを適用し,それらをランダムな解像度にスケールアップできることを示す。 この技術は、OCT500データセットに適用した場合、既存の最先端メソッドよりも優れている。 OW-SLRは、糖尿病網膜症や正常なOCT-A画像から健康および疾患の網膜像を分類するためのより良い結果を提供する。 プロジェクトページはhttps://rishavbb.github.io/ow-slr/index.htmlで閲覧できます。

There has been considerable progress in implicit neural representation to upscale an image to any arbitrary resolution. However, existing methods are based on defining a function to predict the Red, Green and Blue (RGB) value from just four specific loci. Relying on just four loci is insufficient as it leads to losing fine details from the neighboring region(s). We show that by taking into account the semi-local region leads to an improvement in performance. In this paper, we propose applying a new technique called Overlapping Windows on Semi-Local Region (OW-SLR) to an image to obtain any arbitrary resolution by taking the coordinates of the semi-local region around a point in the latent space. This extracted detail is used to predict the RGB value of a point. We illustrate the technique by applying the algorithm to the Optical Coherence Tomography-Angiography (OCT-A) images and show that it can upscale them to random resolution. This technique outperforms the existing state-of-the-art methods when applied to the OCT500 dataset. OW-SLR provides better results for classifying healthy and diseased retinal images such as diabetic retinopathy and normals from the given set of OCT-A images. The project page is available at https://rishavbb.github.io/ow-slr/index.html
翻訳日:2023-11-22 16:27:46 公開日:2023-11-16
# PadChannel: 明示的なパディングエンコーディングによるCNNのパフォーマンス向上

PadChannel: Improving CNN Performance through Explicit Padding Encoding ( http://arxiv.org/abs/2311.07623v2 )

ライセンス: Link先を確認
Juho Kim(参考訳) 畳み込みニューラルネットワーク(cnns)では、パディングは層全体の空間次元を保存する上で重要な役割を果たす。 従来のパディング技術は、実際の画像の内容とパッド領域を明確に区別しないため、CNNが境界画素や境界に類似した領域を誤って解釈する可能性がある。 この曖昧さは、最適でない特徴抽出につながる可能性がある。 そこで本研究では,パディング状態を付加的な入力チャネルとしてエンコードする新しいパディング手法であるpadchannelを提案する。 padchannel をいくつかの著名な cnn アーキテクチャに組み込むことで,imagenet-1k 画像分類タスクのばらつきを計算コストの限界値に低減し,性能の向上がみられた。 ソースコードはhttps://github.com/AussieSeaweed/pad- channelで入手できる。

In convolutional neural networks (CNNs), padding plays a pivotal role in preserving spatial dimensions throughout the layers. Traditional padding techniques do not explicitly distinguish between the actual image content and the padded regions, potentially causing CNNs to incorrectly interpret the boundary pixels or regions that resemble boundaries. This ambiguity can lead to suboptimal feature extraction. To address this, we propose PadChannel, a novel padding method that encodes padding statuses as an additional input channel, enabling CNNs to easily distinguish genuine pixels from padded ones. By incorporating PadChannel into several prominent CNN architectures, we observed small performance improvements and notable reductions in the variances on the ImageNet-1K image classification task at marginal increases in the computational cost. The source code is available at https://github.com/AussieSeaweed/pad-channel
翻訳日:2023-11-22 16:15:29 公開日:2023-11-16
# ノイズの存在下でのシャドウトモグラフィの最適回転深さ

Optimal twirling depths for shadow tomography in the presence of noise ( http://arxiv.org/abs/2311.10137v1 )

ライセンス: Link先を確認
Pierre-Gabriel Rozon, Ning Bao and Kartiek Agarwal(参考訳) 古典的なシャドウプロトコルは、少数の状態コピーと測定値を用いて未知の状態$\rho$のプロパティを推定するための効率的な戦略である。 元々の形式では、いくつかのアンサンブルからのユニタリで状態を回転させ、一定の基底で回転状態を測定する。 近年, 局所特性の計算において, 局所密閉ゲートからなる浅層深度回路から引き出されたユニタリに対して, 局所的(ゼロ深度) あるいは大域的ツイリング(無限深度)アンサンブルに対して, 最適なサンプル複雑性(必要状態のコピー)が著しく達成されることが示されている。 ここでは、サンプルの複雑さをノイズの存在下での回路の深さの関数とみなす。 このノイズは最適なtwirlingアンサンブルを決定する上で重要な意味を持つ。 かなり一般的な条件下では i) 適切な減衰パラメータ$f$;の非分極ノイズチャネルを使用することにより、任意のシングルサイトノイズを説明できることを示す。 二 任意の作用素及び任意の作用素の局所トワイルリングに最適なトワイルリングを還元する値の計算しきい値$f_{\text{th}}$ iii) $n^{\text{th}}$ order Renyi entropies$n \ge 2$); そして iv)任意の有限ノイズ強度$f$に対する最適回路深さに有意義な上限$t_{\text{max}}$を与え、すべての演算子と絡み合いエントロピー測定に適用する。 これらの閾値はシャドウトモグラフィを実装するための最適戦略の探索を強く制限し、手元の実験システムに容易に調整できる。

The classical shadows protocol is an efficient strategy for estimating properties of an unknown state $\rho$ using a small number of state copies and measurements. In its original form, it involves twirling the state with unitaries from some ensemble and measuring the twirled state in a fixed basis. It was recently shown that for computing local properties, optimal sample complexity (copies of the state required) is remarkably achieved for unitaries drawn from shallow depth circuits composed of local entangling gates, as opposed to purely local (zero depth) or global twirling (infinite depth) ensembles. Here we consider the sample complexity as a function of the depth of the circuit, in the presence of noise. We find that this noise has important implications for determining the optimal twirling ensemble. Under fairly general conditions, we i) show that any single-site noise can be accounted for using a depolarizing noise channel with an appropriate damping parameter $f$; ii) compute thresholds $f_{\text{th}}$ at which optimal twirling reduces to local twirling for arbitrary operators and iii) $n^{\text{th}}$ order Renyi entropies ($n \ge 2$); and iv) provide a meaningful upper bound $t_{\text{max}}$ on the optimal circuit depth for any finite noise strength $f$, which applies to all operators and entanglement entropy measurements. These thresholds strongly constrain the search for optimal strategies to implement shadow tomography and can be easily tailored to the experimental system at hand.
翻訳日:2023-11-22 15:54:45 公開日:2023-11-16
# グラフィックゲームアセットのインテリジェント生成:概念的枠組みと最先端の体系的レビュー

Intelligent Generation of Graphical Game Assets: A Conceptual Framework and Systematic Review of the State of the Art ( http://arxiv.org/abs/2311.10129v1 )

ライセンス: Link先を確認
Kaisei Fukaya, Damon Daylamani-Zad, Harry Agius(参考訳) 手続き的コンテンツ生成(PCG)は、物語、レベル、音から木や武器まで、ゲーム内の様々なタスクに適用することができる。 大量のゲームコンテンツは、クラウド、建物、植生などのグラフィカルな資産で構成されており、ゲームプレイ機能の考慮を必要としない。 ゲーム以外の目的のために、そのような要素の手続き的生成を調べる文献も数多く存在する。 特定の資産を生成する特定の方法に焦点を当てた研究機関は、利用可能な可能性の狭義の見解を提供する。 したがって、すべてのアプローチや可能性を明確に把握することは困難であり、関係者がニーズに対して可能な方法やアプローチを発見するためのガイドや、それらを使用するプロセスをマップアウトするための各テクニックやアプローチを通じてそれらをガイドする機能がない。 そのため、体系的な文献レビューが行われ、200の論文が受け入れられている。 本稿では,ゲーム内外の幅広いアプリケーションからの研究を通して,グラフィカルアセット生成に対する最先端のアプローチについて検討する。 文献から、上記のギャップに対処するための概念的枠組みが導出されている。

Procedural content generation (PCG) can be applied to a wide variety of tasks in games, from narratives, levels and sounds, to trees and weapons. A large amount of game content is comprised of graphical assets, such as clouds, buildings or vegetation, that do not require gameplay function considerations. There is also a breadth of literature examining the procedural generation of such elements for purposes outside of games. The body of research, focused on specific methods for generating specific assets, provides a narrow view of the available possibilities. Hence, it is difficult to have a clear picture of all approaches and possibilities, with no guide for interested parties to discover possible methods and approaches for their needs, and no facility to guide them through each technique or approach to map out the process of using them. Therefore, a systematic literature review has been conducted, yielding 200 accepted papers. This paper explores state-of-the-art approaches to graphical asset generation, examining research from a wide range of applications, inside and outside of games. Informed by the literature, a conceptual framework has been derived to address the aforementioned gaps.
翻訳日:2023-11-22 15:54:14 公開日:2023-11-16
# バンディットとGPT-4による人間の創造性を高めるための学習相互作用

Learning interactions to boost human creativity with bandits and GPT-4 ( http://arxiv.org/abs/2311.10127v1 )

ライセンス: Link先を確認
Ara Vartanian, Xiaoxi Sun, Yun-Shiuan Chuang, Siddharth Suresh, Xiaojin Zhu, Timothy T. Rogers(参考訳) 本稿では,AIアルゴリズムとのインタラクションが人間の創造的思考をいかに促進するかを検討する。 私たちは、人間の創造性、すなわち意味的特徴生成の限界を示す心理的タスクを採用しています。 人間の参加者は通常、"stuck"を得る前に知っている機能のごく一部しか生成しない。 人間と言語ai(gpt-4)の実験では、標準タスクの振る舞いと、参加者がアルゴリズムで生成されたヒントを求めることができる変種を対比します。 アルゴリズムの選択は、ヒントがより多くの機能を生み出すのに役立つかどうかを示す、マルチアームのバンディットによって管理される。 人間とAIはヒントから同様の利点を示しており、驚くほど、AIの反応から学ぶバンドイットは、人間の行動から学ぶものと同じプロンプト戦略を好む。 この結果から,シミュレーション参加者群を対象とするバンドイットによって,コンピュータインタラクションによる創造性向上戦略が学べることが示唆された。

This paper considers how interactions with AI algorithms can boost human creative thought. We employ a psychological task that demonstrates limits on human creativity, namely semantic feature generation: given a concept name, respondents must list as many of its features as possible. Human participants typically produce only a fraction of the features they know before getting "stuck." In experiments with humans and with a language AI (GPT-4) we contrast behavior in the standard task versus a variant in which participants can ask for algorithmically-generated hints. Algorithm choice is administered by a multi-armed bandit whose reward indicates whether the hint helped generating more features. Humans and the AI show similar benefits from hints, and remarkably, bandits learning from AI responses prefer the same prompting strategy as those learning from human behavior. The results suggest that strategies for boosting human creativity via computer interactions can be learned by bandits run on groups of simulated participants.
翻訳日:2023-11-22 15:53:55 公開日:2023-11-16
# I&S-ViT:ポストトレーニングViTs量子化の限界を押し上げる包括的で安定な方法

I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of Post-Training ViTs Quantization ( http://arxiv.org/abs/2311.10126v1 )

ライセンス: Link先を確認
Yunshan Zhong, Jiawei Hu, Mingbao Lin, Mengzhao Chen, Rongrong Ji(参考訳) 視覚変換器(ViT)のスケーラブルな性能に加えて、密度の高い計算コスト(トレーニングと推論)は産業応用におけるその位置を損なう。 トレーニング後の量子化(PTQ)、小さなデータセットでViTをチューニングし、低ビットフォーマットで実行することで、コスト問題に対処するが、低ビットケースではパフォーマンスの低下は残念だ。 本稿では,ViTのPTQを包括的かつ安定した方法で制御する新しい手法であるI&S-ViTを紹介する。 i&s-vit はまず,(1) post-softmax アクティベーションのための既定 log2 量子化器の量子化非効率,(2) 粗粒量子化粒度における粗粒度および拡大損失景観,の2つの問題を vits の ptq で特定した。 I&S-ViTは、(1)シフト機構を組み込んだ新しいシフトユニフォームlog2量子化器(SULQ)、(2)チャネルワイドおよび層ワイド量子化の強みを相殺して安定した学習を可能にする3段階スムーズな最適化戦略(SOS)を導入して、これらの課題に対処する。 様々な視覚タスクに対する総合的な評価は、特に低ビットシナリオにおいて、既存のVTのPTQよりもI&S-ViTの優位性を検証する。 例えば、I&S-ViTは3ビットのViT-Bの性能を50.68%向上させる。

Albeit the scalable performance of vision transformers (ViTs), the dense computational costs (training & inference) undermine their position in industrial applications. Post-training quantization (PTQ), tuning ViTs with a tiny dataset and running in a low-bit format, well addresses the cost issue but unluckily bears more performance drops in lower-bit cases. In this paper, we introduce I&S-ViT, a novel method that regulates the PTQ of ViTs in an inclusive and stable fashion. I&S-ViT first identifies two issues in the PTQ of ViTs: (1) Quantization inefficiency in the prevalent log2 quantizer for post-Softmax activations; (2) Rugged and magnified loss landscape in coarse-grained quantization granularity for post-LayerNorm activations. Then, I&S-ViT addresses these issues by introducing: (1) A novel shift-uniform-log2 quantizer (SULQ) that incorporates a shift mechanism followed by uniform quantization to achieve both an inclusive domain representation and accurate distribution approximation; (2) A three-stage smooth optimization strategy (SOS) that amalgamates the strengths of channel-wise and layer-wise quantization to enable stable learning. Comprehensive evaluations across diverse vision tasks validate I&S-ViT' superiority over existing PTQ of ViTs methods, particularly in low-bit scenarios. For instance, I&S-ViT elevates the performance of 3-bit ViT-B by an impressive 50.68%.
翻訳日:2023-11-22 15:53:40 公開日:2023-11-16
# UnifiedVisionGPT:汎用マルチモーダルフレームワークによる視覚指向AIの合理化

UnifiedVisionGPT: Streamlining Vision-Oriented AI through Generalized Multimodal Framework ( http://arxiv.org/abs/2311.10125v1 )

ライセンス: Link先を確認
Chris Kelly, Luhui Hu, Cindy Yang, Yu Tian, Deshun Yang, Bang Yang, Zaoshan Huang, Zihao Li, Yuexian Zou(参考訳) 現在の人工知能のランドスケープでは、基盤モデルが言語領域と視覚領域の両方における進歩の基盤となっている。 OpenAI GPT-4は大規模言語モデル(LLM)の頂点として現れ、コンピュータビジョン(CV)ドメインにはMeta's SAMやDINO、YOLOSといった最先端(SOTA)モデルが多数ある。 しかしながら、新しいモデルをスクラッチからトレーニングする金銭的および計算的負担は、進歩への重要な障壁である。 この課題に対して、我々は、SOTAビジョンモデルの統合と自動化を目的として設計された新しいフレームワークであるUnifiedVisionGPTを導入し、ビジョン指向AIの開発を容易にする。 UnifiedVisionGPT distinguishes itself through four key features: (1) provides a versatile multimodal framework adaptable to a wide range of applications, building upon the strengths of multimodal foundation models; (2) seamlessly integrates various SOTA vision models to create a comprehensive multimodal platform, capitalizing on the best components of each model; (3) prioritizes vision-oriented AI, ensuring a more rapid progression in the CV domain compared to the current trajectory of LLMs; and (4) introduces automation in the selection of SOTA vision models, generating optimal results based on diverse multimodal inputs such as text prompts and images. 本稿では,unifiedvisiongptのアーキテクチャと能力について概説し,効率,汎用性,一般化,性能の向上を通じて,コンピュータビジョンの分野に革命をもたらす可能性を示す。 我々の実装は、統合マルチモーダルフレームワークと包括的なデータセットと共に、https://github.com/LHBuilder/SA-Segment-Anythingで公開されています。

In the current landscape of artificial intelligence, foundation models serve as the bedrock for advancements in both language and vision domains. OpenAI GPT-4 has emerged as the pinnacle in large language models (LLMs), while the computer vision (CV) domain boasts a plethora of state-of-the-art (SOTA) models such as Meta's SAM and DINO, and YOLOS. However, the financial and computational burdens of training new models from scratch remain a significant barrier to progress. In response to this challenge, we introduce UnifiedVisionGPT, a novel framework designed to consolidate and automate the integration of SOTA vision models, thereby facilitating the development of vision-oriented AI. UnifiedVisionGPT distinguishes itself through four key features: (1) provides a versatile multimodal framework adaptable to a wide range of applications, building upon the strengths of multimodal foundation models; (2) seamlessly integrates various SOTA vision models to create a comprehensive multimodal platform, capitalizing on the best components of each model; (3) prioritizes vision-oriented AI, ensuring a more rapid progression in the CV domain compared to the current trajectory of LLMs; and (4) introduces automation in the selection of SOTA vision models, generating optimal results based on diverse multimodal inputs such as text prompts and images. This paper outlines the architecture and capabilities of UnifiedVisionGPT, demonstrating its potential to revolutionize the field of computer vision through enhanced efficiency, versatility, generalization, and performance. Our implementation, along with the unified multimodal framework and comprehensive dataset, is made publicly available at https://github.com/LHBuilder/SA-Segment-Anything.
翻訳日:2023-11-22 15:53:12 公開日:2023-11-16
# MetaDreamer: 拡張幾何学とテクスチャを用いた効率的なテキストから3D作成

MetaDreamer: Efficient Text-to-3D Creation With Disentangling Geometry and Texture ( http://arxiv.org/abs/2311.10123v1 )

ライセンス: Link先を確認
Lincong Feng, Muyu Wang, Maoyu Wang, Kuo Xu, Xiaoli Liu(参考訳) 3次元オブジェクト合成のための生成モデルは、2次元拡散モデルから抽出された事前知識を取り入れることで著しく進歩した。 それでも、課題は既存の3D合成フレームワークにおける多視点幾何学的不整合と遅い生成速度という形で持続する。 まず, 従来の3次元生成手法における幾何的事前知識の不足, および, 幾何とテクスチャの絡み合いという2つの要因に起因し, よりリッチな2次元および3次元事前知識を活用する2段階最適化手法であるメタドレーマーを導入する。 第一段階では、3Dオブジェクトの多視点整合性と精度を確保するため、幾何学的表現の最適化に重点を置いている。 第2段階では、幾何学の微調整とテクスチャの最適化に集中し、より洗練された3Dオブジェクトを実現する。 2次元と3次元の事前知識を2段階に活用することにより,幾何学とテクスチャの相互依存性を効果的に緩和する。 metadreamerは各ステージの明確な最適化目標を確立し、3d生成プロセスでかなりの時間を節約する。 最終的に、MetaDreamerは20分以内にテキストプロンプトに基づいて高品質な3Dオブジェクトを生成することができ、私たちの知る限り、最も効率的なテキスト・ツー・3D生成方法である。 さらに,このプロセスに画像制御を導入し,3次元生成の制御性を向上させる。 大規模な実証実験により,本手法は高効率であるだけでなく,現在最先端の3D生成技術の最前線にある品質レベルも達成できることが示された。

Generative models for 3D object synthesis have seen significant advancements with the incorporation of prior knowledge distilled from 2D diffusion models. Nevertheless, challenges persist in the form of multi-view geometric inconsistencies and slow generation speeds within the existing 3D synthesis frameworks. This can be attributed to two factors: firstly, the deficiency of abundant geometric a priori knowledge in optimization, and secondly, the entanglement issue between geometry and texture in conventional 3D generation methods.In response, we introduce MetaDreammer, a two-stage optimization approach that leverages rich 2D and 3D prior knowledge. In the first stage, our emphasis is on optimizing the geometric representation to ensure multi-view consistency and accuracy of 3D objects. In the second stage, we concentrate on fine-tuning the geometry and optimizing the texture, thereby achieving a more refined 3D object. Through leveraging 2D and 3D prior knowledge in two stages, respectively, we effectively mitigate the interdependence between geometry and texture. MetaDreamer establishes clear optimization objectives for each stage, resulting in significant time savings in the 3D generation process. Ultimately, MetaDreamer can generate high-quality 3D objects based on textual prompts within 20 minutes, and to the best of our knowledge, it is the most efficient text-to-3D generation method. Furthermore, we introduce image control into the process, enhancing the controllability of 3D generation. Extensive empirical evidence confirms that our method is not only highly efficient but also achieves a quality level that is at the forefront of current state-of-the-art 3D generation techniques.
翻訳日:2023-11-22 15:52:44 公開日:2023-11-16
# Slide-SAM:医療SAMがスライディングウィンドウを発表

Slide-SAM: Medical SAM Meets Sliding Window ( http://arxiv.org/abs/2311.10121v1 )

ライセンス: Link先を確認
Quan Quan, Fenghe Tang, Zikang Xu, Heqin Zhu, S.Kevin Zhou(参考訳) Segment Anything Model (SAM) は自然画像の2次元画像分割において顕著な結果をもたらす。 しかし、医用画像と自然画像との間の大きなギャップは、医用画像分割タスクに直接適用できない。 特に3D医療画像では,SAMは実シナリオでの応用を制限するスライス間のコンテキスト関係を学習できない。 さらに、最近の研究では、2D SAMを3D画像に適用するには、時間とラベルの合計であるボリューム全体を推し進める必要があることが示されている。 以上の問題を解決するために,SAMを3次元画像に拡張したSlide-SAMを導入した。 具体的には、ボリューム全体を分離するために単一のスライスプロンプトを使用するだけで、プロの作業負荷を大幅に削減できる。 第二に、従来の3d医療画像セグメンテーションとは異なり、私たちは計算リソースの影響を受けず、小さなターゲットに対して最適な学習を達成するために3dイメージのトレーニングに高い解像度(h$ \times $w = 1024$ \times 1024)を使うことができる。 これは3Dボリューム全体をトレーニングの範囲を超えて組み合わせることである。 最後に,大規模な3Dパブリックおよびプライベートデータセットから多数の3D画像を収集し,また,境界ボックスと点プロンプトを含むSAMから3D医療画像セグメンテーションを拡張した。 最後に,異なる形態,解剖,臓器の医用画像分割におけるSlide-SAMの性能を総合的に評価し,解析を行った。 複数のデータセット上でSlide-SAMのセグメンテーション機能を検証し、最小限のプロンプトを維持しながら、最も高度な3Dセグメンテーション性能を実現した。 コードはもうすぐオープンソースになる。

Segment Anything Model (SAM) achieves remarkable results in 2D image segmentation of natural images. However, the huge gap between medical images and natural images prevents it directly applied to medical image segmentation tasks. Especially in 3D medical image, SAM cannot learn the contextual relationship between slices, which limites application in real scenarios. In addition, recent research shows that applying 2D SAM to 3D images requires prompting the entire volume, which is time and label comsuming. In order to solve the above problems, we introduced Slide-SAM which extended SAM to 3D medical images. Specifically, you only need to use a single slice prompt to segement the entire volume, which greatly reduces the prompt workload for professionals. Secondly, unlike traditional 3D medical image segmentation, we are free from the influence of computing resources and can still use high resolution (H$ \times $W = 1024$ \times $1024) for training in 3D images to achieve optimal learning for small targets. This is to combine the entire 3D volume is beyond the reach of training. Finally, we collected a large number of 3D images from large-scale 3D public and private datasets, and extended SAM to 3D medical image segmentation involving bounding box and point prompts. Finally, we perform a comprehensive evaluation and analysis investigating the performance of Slide-SAM in medical image segmentation of different modalities, anatomy, and organs. We have verified Slide-SAM's segmentation capabilities on multiple datasets, achieving the most advanced 3D segmentation performance while maintaining the minimum prompt. Code will be open source soon.
翻訳日:2023-11-22 15:51:49 公開日:2023-11-16
# 時間連続マルチモーダル感情認識における欠如モダリティの適応

Accommodating Missing Modalities in Time-Continuous Multimodal Emotion Recognition ( http://arxiv.org/abs/2311.10119v1 )

ライセンス: Link先を確認
Juan Vazquez-Rodriguez (M-PSI), Gr\'egoire Lefebvre, Julien Cumin, James L. Crowley (M-PSI)(参考訳) 研究は、複数のモーダルから情報を引き出す場合、感情認識がより効果的であることを示している。 しかし、あるモダリティが欠けている場合はどうだろう? そこで本研究では,入力モダリティの欠如にともなって,バレンスと覚醒を時間連続的に認識するトランスフォーマーアーキテクチャを提案する。 クロス・アテンションと自己アテンションの結合を用いて,時間間のモダリティ間の関係を強調し,弱いサルエント入力に対する学習プロセスを強化する。 ulm-tsstデータセットにおける実験結果から, 本モデルでは, 覚醒値予測時37%, 原子価値予測時30%の一致相関係数評価が, 後期流下基準法と比較して改善されていることが示された。

Decades of research indicate that emotion recognition is more effective when drawing information from multiple modalities. But what if some modalities are sometimes missing? To address this problem, we propose a novel Transformer-based architecture for recognizing valence and arousal in a time-continuous manner even with missing input modalities. We use a coupling of cross-attention and self-attention mechanisms to emphasize relationships between modalities during time and enhance the learning process on weak salient inputs. Experimental results on the Ulm-TSST dataset show that our model exhibits an improvement of the concordance correlation coefficient evaluation of 37% when predicting arousal values and 30% when predicting valence values, compared to a late-fusion baseline approach.
翻訳日:2023-11-22 15:51:23 公開日:2023-11-16
# 人工知能を用いたシグネットリング細胞診断の現状と将来:調査

Now and Future of Artificial Intelligence-based Signet Ring Cell Diagnosis: A Survey ( http://arxiv.org/abs/2311.10118v1 )

ライセンス: Link先を確認
Zhu Meng, Junhao Dong, Limei Guo, Fei Su, Guangxi Wang, Zhicheng Zhao(参考訳) シグネトリング細胞(SRC)は、高い末梢転移率と解離生存率に関連しているため、外科的アプローチや予後を決定する上で重要な役割を担っているが、経験豊富な病理学者でも容易に見逃すことができる。 深層学習に基づく自動診断SRCは、診断効率と精度を向上させるために病理医に注目が集まっているが、既存の研究は体系的に概観されていないため、アルゴリズムと臨床応用のギャップの評価が妨げられている。 本稿では,2008年から2023年8月までのディープラーニングによるSRC分析に関する調査を行う。 具体的には,srcの生物学的特性と自動同定の課題を体系的に要約する。 次に、代表的なアルゴリズムを分類、検出、分割に分けて分析比較する。 最後に,既存手法の性能と臨床支援の要件を総合的に検討するために,SRC分析のオープン課題と今後の動向について考察する。 この振り返り研究は、関連分野の研究者、特に医学のバックグラウンドを持たない研究者にとって、src分析の概要を明確に把握するだけでなく、インテリジェントな診断の展望を得る上で役立ち、インテリジェントなアルゴリズムの実践と応用を加速させる。

Since signet ring cells (SRCs) are associated with high peripheral metastasis rate and dismal survival, they play an important role in determining surgical approaches and prognosis, while they are easily missed by even experienced pathologists. Although automatic diagnosis SRCs based on deep learning has received increasing attention to assist pathologists in improving the diagnostic efficiency and accuracy, the existing works have not been systematically overviewed, which hindered the evaluation of the gap between algorithms and clinical applications. In this paper, we provide a survey on SRC analysis driven by deep learning from 2008 to August 2023. Specifically, the biological characteristics of SRCs and the challenges of automatic identification are systemically summarized. Then, the representative algorithms are analyzed and compared via dividing them into classification, detection, and segmentation. Finally, for comprehensive consideration to the performance of existing methods and the requirements for clinical assistance, we discuss the open issues and future trends of SRC analysis. The retrospect research will help researchers in the related fields, particularly for who without medical science background not only to clearly find the outline of SRC analysis, but also gain the prospect of intelligent diagnosis, resulting in accelerating the practice and application of intelligent algorithms.
翻訳日:2023-11-22 15:51:07 公開日:2023-11-16
# ロングプロンプトの自動工学

Automatic Engineering of Long Prompts ( http://arxiv.org/abs/2311.10117v1 )

ライセンス: Link先を確認
Cho-Jui Hsieh, Si Si, Felix X. Yu, Inderjit S. Dhillon(参考訳) 大規模言語モデル(LLM)は、プロンプトの形式で提供される包括的な命令とデモによって導かれる複雑なオープンドメインタスクを解く際、顕著な能力を示した。 しかし、これらのプロンプトは長く、数百の線と数千のトークンで構成されており、その設計にはかなりの人的労力を要することが多い。 最近の研究では、短いプロンプトのための自動プロンプトエンジニアリングが研究されている。 しかし、長いプロンプトの自動設計は、その膨大な検索スペースのために依然として難しい問題である。 本稿では,自動ロングプロンプトエンジニアリングのためのグリージーアルゴリズムと遺伝的アルゴリズムの性能について検討する。 ビーム探索による単純な欲求アプローチは,探索効率の点で他の手法よりも優れていることを示す。 さらに,検索履歴を用いて検索アルゴリズムにおけるllmに基づく突然変異の有効性を高める手法を2つ紹介する。 この結果から,提案アルゴリズムはBig Bench Hardの8つのタスクにおいて,平均9.2%の精度向上を実現し,LLMの能力をフル活用するプロンプト設計の自動化の重要性を浮き彫りにした。

Large language models (LLMs) have demonstrated remarkable capabilities in solving complex open-domain tasks, guided by comprehensive instructions and demonstrations provided in the form of prompts. However, these prompts can be lengthy, often comprising hundreds of lines and thousands of tokens, and their design often requires considerable human effort. Recent research has explored automatic prompt engineering for short prompts, typically consisting of one or a few sentences. However, the automatic design of long prompts remains a challenging problem due to its immense search space. In this paper, we investigate the performance of greedy algorithms and genetic algorithms for automatic long prompt engineering. We demonstrate that a simple greedy approach with beam search outperforms other methods in terms of search efficiency. Moreover, we introduce two novel techniques that utilize search history to enhance the effectiveness of LLM-based mutation in our search algorithm. Our results show that the proposed automatic long prompt engineering algorithm achieves an average of 9.2% accuracy gain on eight tasks in Big Bench Hard, highlighting the significance of automating prompt designs to fully harness the capabilities of LLMs.
翻訳日:2023-11-22 15:50:46 公開日:2023-11-16
# クロスコントラストパッチ埋め込みによる山火事煙検出

Wildfire Smoke Detection with Cross Contrast Patch Embedding ( http://arxiv.org/abs/2311.10116v1 )

ライセンス: Link先を確認
Chong Wang, Cheng Xu, Adeel Akram, Zhilin Shan, Qixing Zhang(参考訳) Transformerベースのディープネットワークは、CNNに対して大きな優位性を示している。 いくつかの既存の研究は、山火事の認識や検知の分野に適用している。 しかし,バニラ変圧器は煙の特徴抽出に適していないことがわかった。 色、透明性、テクスチャなどの低レベル情報は煙認識にとって非常に重要であり、トランスフォーマーは中・高レベル特徴間の意味的関連性に注意を払っており、空間における低レベル特徴の微妙な変化には敏感ではない。 この問題を解決するために,Swin Transformerに基づくCross Contrast Patch Embedding(CCPE)モジュールを提案する。 煙のファジィ境界は、ジレンマにおけるインスタンスの正のラベルと負のラベルを割り当てる。 この問題を解決するために,分離型負サンプリング機構(SNSM)を提案する。 正のイメージと負のイメージに対する2つの異なる負のインスタンスサンプリング戦略を用いることで、ネットワークトレーニングの過程でラベルの多様性に起因する信号の混乱が軽減される。 本稿では,提案手法の評価と今後の研究を促進するために,これまでで最大の実火試験セットであるRealFire Testをリリースする。 ビデオクリップは3,649枚から50,535枚である。 提案手法は,RealFire Testデータセット上で広範囲に検証および評価され,ベースライン検出モデルと比較して性能が大幅に向上した。

The Transformer-based deep networks have increasingly shown significant advantages over CNNs. Some existing work has applied it in the field of wildfire recognition or detection. However, we observed that the vanilla Transformer is not friendly for extracting smoke features. Because low-level information such as color, transparency and texture is very important for smoke recognition, and transformer pays more attention to the semantic relevance between middle- or high-level features, and is not sensitive to the subtle changes of low-level features along the space. To solve this problem, we propose the Cross Contrast Patch Embedding(CCPE) module based on the Swin Transformer, which uses the multi-scales spatial frequency contrast information in both vertical and horizontal directions to improve the discrimination of the network on the underlying details. The fuzzy boundary of smoke makes the positive and negative label assignment for instances in a dilemma, which is another challenge for wildfires detection. To solve this problem, a Separable Negative Sampling Mechanism(SNSM) is proposed. By using two different negative instance sampling strategies on positive images and negative images respectively, the problem of supervision signal confusion caused by label diversity in the process of network training is alleviated. This paper also releases the RealFire Test, the largest real wildfire test set so far, to evaluate the proposed method and promote future research. It contains 50,535 images from 3,649 video clips. The proposed method has been extensively tested and evaluated on RealFire Test dataset, and has a significant performance improvement compared with the baseline detection models.
翻訳日:2023-11-22 15:50:28 公開日:2023-11-16
# Stella Nera: 近似行列乗算に基づくマルチプライヤフリーDNN高速化による161TOp/s/Wの実現

Stella Nera: Achieving 161 TOp/s/W with Multiplier-free DNN Acceleration based on Approximate Matrix Multiplication ( http://arxiv.org/abs/2311.10207v1 )

ライセンス: Link先を確認
Jannis Sch\"onleber, Lukas Cavigelli, Renzo Andri, Matteo Perotti, Luca Benini(参考訳) 古典的なHPCからディープラーニングまで、MatMulは今日のコンピューティングの中心にある。 最近のマッドネス法は、ルックアップテーブル (LUT) にハッシュベースの製品量子化 (PQ) インデックス化を用いて、乗法を必要とせずに、MatMul を近似する。 ステラ・ネラは最初のマドネス加速器であり、15倍の面積効率(GMAC/s/mm^2)と25倍以上のエネルギー効率(TMAC/s/W)を達成する。 ハッシュ関数は決定木であり、乗算累積演算が決定木パスとLUTルックアップに置き換えられるため、効率的なハードウェア実装を可能にする。 Maddness MatMulの全体は、小さなコンピュータユニットとメモリによる効果的な実装を可能にする部分に分割され、MatMulタスクに汎用的に適用されながら、極端に効率が向上する。 市販の14nm技術で3nmにスケールし、161TOp/s/W@0.55Vのエネルギー効率を実現し、ResNet9を用いて92.5%以上のCIFAR-10のTop-1精度を実現した。

From classical HPC to deep learning, MatMul is at the heart of today's computing. The recent Maddness method approximates MatMul without the need for multiplication by using a hash-based version of product quantization (PQ) indexing into a look-up table (LUT). Stella Nera is the first Maddness accelerator and it achieves 15x higher area efficiency (GMAC/s/mm^2) and more than 25x higher energy efficiency (TMAC/s/W) than direct MatMul accelerators implemented in the same technology. The hash function is a decision tree, which allows for an efficient hardware implementation as the multiply-accumulate operations are replaced by decision tree passes and LUT lookups. The entire Maddness MatMul can be broken down into parts that allow an effective implementation with small computing units and memories, allowing it to reach extreme efficiency while remaining generically applicable for MatMul tasks. In a commercial 14nm technology and scaled to 3nm, we achieve an energy efficiency of 161 TOp/s/W@0.55V with a Top-1 accuracy on CIFAR-10 of more than 92.5% using ResNet9.
翻訳日:2023-11-22 15:42:04 公開日:2023-11-16
# インテリジェントマシンの時代におけるベイズ

Bayes in the age of intelligent machines ( http://arxiv.org/abs/2311.10206v1 )

ライセンス: Link先を確認
Thomas L. Griffiths, Jian-Qiao Zhu, Erin Grant and R. Thomas McCoy(参考訳) インテリジェントマシン作成における人工知能ニューラルネットワークに基づく手法の成功は、ベイズ推論の観点からの人間の認知の説明に挑戦するかもしれない。 これはそうではなく、実際にこれらのシステムはベイズ的モデリングに新たな機会を与えている、と我々は主張する。 具体的には、ベイズモデルの認知モデルとニューラルネットワークは、異なる分析レベルにあり、相補的なモデリングアプローチであり、これらレベルにまたがる人間の認知を理解する手段を提供する。 ベイズ的アプローチは、プロプライエタリなデータに基づいてトレーニングされた大規模で不透明な人工ニューラルネットワークの振る舞いを理解する上で、一意に価値があるかもしれない。

The success of methods based on artificial neural networks in creating intelligent machines seems like it might pose a challenge to explanations of human cognition in terms of Bayesian inference. We argue that this is not the case, and that in fact these systems offer new opportunities for Bayesian modeling. Specifically, we argue that Bayesian models of cognition and artificial neural networks lie at different levels of analysis and are complementary modeling approaches, together offering a way to understand human cognition that spans these levels. We also argue that the same perspective can be applied to intelligent machines, where a Bayesian approach may be uniquely valuable in understanding the behavior of large, opaque artificial neural networks that are trained on proprietary data.
翻訳日:2023-11-22 15:41:43 公開日:2023-11-16
# 機械学習のための適応最適化アルゴリズム

Adaptive Optimization Algorithms for Machine Learning ( http://arxiv.org/abs/2311.10203v1 )

ライセンス: Link先を確認
Slavom\'ir Hanzely(参考訳) 機械学習は、データ駆動の世界において重要な役割を担います。 モデルとデータセットのスケールの増大は、モデルのトレーニングに迅速で信頼性の高いアルゴリズムを必要とする。 この論文は機械学習オプティマイザの適応性を調べる。 以下の章は、適応性の様々な側面に捧げられている。 1.パーソナライズによるパーソナライズとユーザ固有モデル 2.メタラーニングによる強化後モデル適応 3.ハイパーパラメータ分散による未知のハイパーパラメータのリアルタイム学習 4.初期化と選択基底によらず、ステップ化ニュートン法による二次法の高速o(1/k^2)大域収束 5.低次元更新による高速でスケーラブルな二階法 この論文は新しい洞察に寄与し、収束保証を改善した新しいアルゴリズムを導入し、人気のある実用的なアルゴリズムの分析を改善する。

Machine learning assumes a pivotal role in our data-driven world. The increasing scale of models and datasets necessitates quick and reliable algorithms for model training. This dissertation investigates adaptivity in machine learning optimizers. The ensuing chapters are dedicated to various facets of adaptivity, including: 1. personalization and user-specific models via personalized loss, 2. provable post-training model adaptations via meta-learning, 3. learning unknown hyperparameters in real time via hyperparameter variance reduction, 4. fast O(1/k^2) global convergence of second-order methods via stepsized Newton method regardless of the initialization and choice basis, 5. fast and scalable second-order methods via low-dimensional updates. This thesis contributes novel insights, introduces new algorithms with improved convergence guarantees, and improves analyses of popular practical algorithms.
翻訳日:2023-11-22 15:41:31 公開日:2023-11-16
# 大学情報工学教育におけるジェネレーティブAI -9科目からの考察-

Generative AI in Undergraduate Information Technology Education -- Insights from nine courses ( http://arxiv.org/abs/2311.10199v1 )

ライセンス: Link先を確認
Anh Nguyen Duc, Tor L{\o}nnestad, Ingrid Sundb{\o}, Marius Rohde Johannessen, Veralia Gabriela, Salah Uddin Ahmed and Rania El-Gazzar(参考訳) デジタル教育と新興技術、特にChatGPTのようなAIベースのツールの利用の増加は、高等教育に必然的かつ重大な影響を与えている。 テキストの処理と生成能力は、学習評価や学習経験など、いくつかの領域に変化をもたらす可能性がある。 否定的な影響、すなわち試験の不正行為に加えて、ChatGPTが教育にもたらすポジティブな側面も見受けられる。 本研究は,ノルウェーの大学における9つの独身itコースから報告された組織的リフレクションと経験から,chatgptに関する現在の議論に貢献することを目的としている。 そこで我々は,9つの異なるITコースから,反射音と集中型講師グループによるインダクティブ実証研究を行った。 これらの知見は,IT科目における多くのユースケースをテーマとして整理された。 我々の議論は、高等教育におけるAIアシスタントの利用の破壊的な影響を強調し、この変革を形作る教育者の必要性を強調している。

The increasing use of digital teaching and emerging technologies, particularly AI-based tools, such as ChatGPT, is presenting an inevitable and significant impact on higher education. The capability of processing and generating text could bring change to several areas, such as learning assessments or learning experiences. Besides the negative impact, i.e exam cheating, we also see a positive side that ChatGPT can bring to education. This research article aims to contribute to the current debate on ChatGPT by systematic reflection and experience reported from nine bachelor IT courses at a Norwegian university. We conducted inductive empirical research with reflective notes and focused groups of lecturers from nine different IT courses. The findings were thematically organized with numerous use cases in teaching IT subjects. Our discussion highlights the disruptive implications of AI assistant usage in higher education and emphasizes the need for educators to shape this transformation.
翻訳日:2023-11-22 15:41:23 公開日:2023-11-16
# 基本(he)物理のための量子技術

Quantum technologies for fundamental (HE) physics ( http://arxiv.org/abs/2311.10187v1 )

ライセンス: Link先を確認
D. Blas(参考訳) この短い貢献では、(量子)メトロロジーのフロンティアにおける発展が基本高エネルギー物理学(hep)の鍵となるかもしれないいくつかの方向性を強調する。 ダークマターと重力波の検出に重点を置き、原子時計や磁力計、大きな原子干渉計、電磁空洞内の小さな磁場の検出といったアイデアを紹介します。 包括的とは程遠いが、この貢献は、興味深いトピックを探求するために、HEPと量子技術コミュニティの全員に招待される。

In this brief contribution I will highlight some directions where the developments in the frontier of (quantum) metrology may be key for fundamental high energy physics (HEP). I will focus on the detection of dark matter and gravitational waves, and introduce ideas from atomic clocks and magnetometers, large atomic interferometers and detection of small fields in electromagnetic cavities. Far from being comprehensive, this contribution is an invitation to everyone in the HEP and quantum technologies communities to explore this fascinating topic.
翻訳日:2023-11-22 15:41:09 公開日:2023-11-16
# ナーミング変化に対する親密性の影響--中国語における対象ナーミングについて

The Impact of Familiarity on Naming Variation: A Study on Object Naming in Mandarin Chinese ( http://arxiv.org/abs/2311.10181v1 )

ライセンス: Link先を確認
Yunke He, Xixian Liao, Jialing Liang, Gemma Boleda(参考訳) 異なる話者は、同じ対象または実体(例えば、女性観光客の「女性」と「ツーリスト」)に対して異なる名前を作ることが多い。 命名のバリエーションの背後にある理由はよく分かっていない。 マンダリン中国語の言語と視覚データセットを作成し、1319の自然主義的画像に対して平均20個の名前を提供し、特定の種類のオブジェクトへの親近性が、被写体間で引き起こされる命名の変動の程度にどのように関係しているかを調査した。 親しみの増大は語彙を拡大したり、変化の増大につながるか、あるいは従来の名前への収束を促進し、バリエーションを減らすことができる。 両方の要因が作用している証拠が見つかる。 本研究は認知科学における研究課題に対する計算資源の利用方法を示す。

Different speakers often produce different names for the same object or entity (e.g., "woman" vs. "tourist" for a female tourist). The reasons behind variation in naming are not well understood. We create a Language and Vision dataset for Mandarin Chinese that provides an average of 20 names for 1319 naturalistic images, and investigate how familiarity with a given kind of object relates to the degree of naming variation it triggers across subjects. We propose that familiarity influences naming variation in two competing ways: increasing familiarity can either expand vocabulary, leading to higher variation, or promote convergence on conventional names, thereby reducing variation. We find evidence for both factors being at play. Our study illustrates how computational resources can be used to address research questions in Cognitive Science.
翻訳日:2023-11-22 15:41:00 公開日:2023-11-16
# クラス特定専門家の混在による共用破壊に対するロバスト性向上に向けて

Towards Improving Robustness Against Common Corruptions using Mixture of Class Specific Experts ( http://arxiv.org/abs/2311.10177v1 )

ライセンス: Link先を確認
Shashank Kotyan and Danilo Vasconcellos Vargas(参考訳) ニューラルネットワークは様々な領域でかなりの精度を示してきたが、微妙な入力変更に対する脆弱性は依然として持続的な課題である。 データ拡張のような従来の方法は、ある程度有効ではあるが、予期せぬ腐敗に対処するには不足し、現実世界のシナリオにおけるニューラルネットワークの適応性を制限する。 そこで,本稿では,クラス固有のエキスパートアーキテクチャの混合として知られる新しいパラダイムを提案する。 このアプローチでは、個々のクラスで機能学習を分離し、スケーラビリティと全体的なパフォーマンスの微妙な向上を提供する。 各クラスの専用ネットワークセグメントをトレーニングし、その後出力を集約することにより、提案されたアーキテクチャは、共通のニューラルネットワーク構造に関連する脆弱性を軽減することを目指している。 この研究は包括的な評価手法の重要性を強調し、共通腐敗ベンチマークのようなベンチマークの導入を提唱している。 この包含は、ニューラルネットワークの脆弱性、特にその一般化能力と予期せぬ歪みに対する堅牢性に関する微妙な洞察を提供する。 この研究は、多様で挑戦的な現実世界のシナリオにまたがる推論をニュアンスできる、高度に堅牢な学習システムの開発を進めるという、より広い目標と一致している。 この貢献を通じて、ニューラルネットワークの限界をより深く理解し、進化的かつ予測不能な状況に直面したレジリエンスを高めるための実践的なアプローチを提案する。

Neural networks have demonstrated significant accuracy across various domains, yet their vulnerability to subtle input alterations remains a persistent challenge. Conventional methods like data augmentation, while effective to some extent, fall short in addressing unforeseen corruptions, limiting the adaptability of neural networks in real-world scenarios. In response, this paper introduces a novel paradigm known as the Mixture of Class-Specific Expert Architecture. The approach involves disentangling feature learning for individual classes, offering a nuanced enhancement in scalability and overall performance. By training dedicated network segments for each class and subsequently aggregating their outputs, the proposed architecture aims to mitigate vulnerabilities associated with common neural network structures. The study underscores the importance of comprehensive evaluation methodologies, advocating for the incorporation of benchmarks like the common corruptions benchmark. This inclusion provides nuanced insights into the vulnerabilities of neural networks, especially concerning their generalization capabilities and robustness to unforeseen distortions. The research aligns with the broader objective of advancing the development of highly robust learning systems capable of nuanced reasoning across diverse and challenging real-world scenarios. Through this contribution, the paper aims to foster a deeper understanding of neural network limitations and proposes a practical approach to enhance their resilience in the face of evolving and unpredictable conditions.
翻訳日:2023-11-22 15:40:42 公開日:2023-11-16
# JWSign: 手話処理の多様性向上を目的とした多言語翻訳コーパス

JWSign: A Highly Multilingual Corpus of Bible Translations for more Diversity in Sign Language Processing ( http://arxiv.org/abs/2311.10174v1 )

ライセンス: Link先を確認
Shester Gueuwou, Sophie Siake, Colin Leong and Mathias M\"uller(参考訳) 手話処理の進歩は、十分なデータ不足によって妨げられ、認識、翻訳、生産作業の進捗を妨げている。 世界の手話言語全体にわたる包括的な手話データセットの欠如は、この分野のギャップを拡大し、いくつかの手話言語が他よりも研究され、この研究領域は、高所得国の手話に大きく偏っている。 本稿では,手話翻訳のための新しい大規模多言語データセット「jwsign」を提案する。 このデータセットは98の手話言語で2,530時間の聖書翻訳で構成され、1500人以上の署名者が参加している。 本データセットでは,ニューラルマシン翻訳実験について報告する。 バイリンガルベースラインシステムとは別に、署名された言語や話し言葉の類型的関連性を考慮した多言語システムも訓練している。 実験の結果,多言語システムはバイリンガルベースラインよりも優れており,高リソースのシナリオでは関連するクラスタリング言語ペアが翻訳品質を向上させることがわかった。

Advancements in sign language processing have been hindered by a lack of sufficient data, impeding progress in recognition, translation, and production tasks. The absence of comprehensive sign language datasets across the world's sign languages has widened the gap in this field, resulting in a few sign languages being studied more than others, making this research area extremely skewed mostly towards sign languages from high-income countries. In this work we introduce a new large and highly multilingual dataset for sign language translation: JWSign. The dataset consists of 2,530 hours of Bible translations in 98 sign languages, featuring more than 1,500 individual signers. On this dataset, we report neural machine translation experiments. Apart from bilingual baseline systems, we also train multilingual systems, including some that take into account the typological relatedness of signed or spoken languages. Our experiments highlight that multilingual systems are superior to bilingual baselines, and that in higher-resource scenarios, clustering language pairs that are related improves translation quality.
翻訳日:2023-11-22 15:40:13 公開日:2023-11-16
# マルチモーダルトランスフォーマーによるユニモーダル推論の改善

Improving Unimodal Inference with Multimodal Transformers ( http://arxiv.org/abs/2311.10170v1 )

ライセンス: Link先を確認
Kateryna Chumachenko, Alexandros Iosifidis, Moncef Gabbouj(参考訳) 本稿では,マルチモーダルトレーニングによるユニモーダルモデルの性能向上手法を提案する。 提案手法は,マルチモーダルトランスフォーマタに基づく分岐にユニモーダルモデルを組み込んだマルチブランチアーキテクチャである。 これらの枝を共に訓練することにより、より強いマルチモーダル分岐は、その知識をより弱いユニモーダル分岐にマルチタスクの目的を通して伝達し、結果として得られるユニモーダルモデルの性能を向上させることができる。 提案手法は,rgbと深度に基づく動的手ジェスチャ認識,音声と顔の映像に基づく視聴覚感情認識,音声テキストに基づく感情分析の課題について評価した。 我々のアプローチは、従来の訓練された単調な手法よりも優れています。 興味深いことに、一助分枝の最適化は、スクラッチから訓練された同様のマルチモーダルモデルと比較して、マルチモーダル分枝を改善する。

This paper proposes an approach for improving performance of unimodal models with multimodal training. Our approach involves a multi-branch architecture that incorporates unimodal models with a multimodal transformer-based branch. By co-training these branches, the stronger multimodal branch can transfer its knowledge to the weaker unimodal branches through a multi-task objective, thereby improving the performance of the resulting unimodal models. We evaluate our approach on tasks of dynamic hand gesture recognition based on RGB and Depth, audiovisual emotion recognition based on speech and facial video, and audio-video-text based sentiment analysis. Our approach outperforms the conventionally trained unimodal counterparts. Interestingly, we also observe that optimization of the unimodal branches improves the multimodal branch, compared to a similar multimodal model trained from scratch.
翻訳日:2023-11-22 15:39:40 公開日:2023-11-16
# K空間冷拡散:音のない加速MRIの再構成を学ぶ

K-space Cold Diffusion: Learning to Reconstruct Accelerated MRI without Noise ( http://arxiv.org/abs/2311.10162v1 )

ライセンス: Link先を確認
Guoyao Shen, Mengyu Li, Chad W. Farris, Stephan Anderson, Xin Zhang(参考訳) ディープラーニングに基づくMRI再構成モデルは、近年、優れたパフォーマンスを実現している。 最近の拡散モデルは、画像生成、インペイント、超解像度、画像編集などにおいて顕著な性能を示している。 一般化拡散モデルとして、冷拡散はさらに範囲を広げ、ぼやけやダウンサンプリングなどの任意の画像変換を中心に構築されたモデルを考える。 本稿では,ガウス雑音を必要とせず,k空間で画像劣化と復元を行うk空間冷拡散モデルを提案する。 複数のディープラーニングベースのMRI再構成モデルとの比較を行い、よく知られたオープンソースのMRIデータセットでテストを行う。 以上の結果から, 高速MRIのための高画質再構成画像が生成できることが示唆された。

Deep learning-based MRI reconstruction models have achieved superior performance these days. Most recently, diffusion models have shown remarkable performance in image generation, in-painting, super-resolution, image editing and more. As a generalized diffusion model, cold diffusion further broadens the scope and considers models built around arbitrary image transformations such as blurring, down-sampling, etc. In this paper, we propose a k-space cold diffusion model that performs image degradation and restoration in k-space without the need for Gaussian noise. We provide comparisons with multiple deep learning-based MRI reconstruction models and perform tests on a well-known large open-source MRI dataset. Our results show that this novel way of performing degradation can generate high-quality reconstruction images for accelerated MRI.
翻訳日:2023-11-22 15:39:15 公開日:2023-11-16
# 局所ホモロジーシーフを用いた代数的トポロジカルネットワーク

Algebraic Topological Networks via the Persistent Local Homology Sheaf ( http://arxiv.org/abs/2311.10156v1 )

ライセンス: Link先を確認
Gabriele Cesa, Arash Behboodi(参考訳) 本稿では,データの局所位相的性質を取り入れることでグラフ畳み込みとアテンション加群を強化するための代数トポロジーに基づく新しいアプローチを提案する。 そこで我々は,これまでグラフニューラルネットワークの機能に付加的な構造を導入し,より表現力のある非等方的メッセージを構築するために利用されてきた,せん断ニューラルネットワークの枠組みを検討する。 具体的には、入力単純複体(例えば、点クラウド内のグラフまたは近傍のクランクによって生成される)が与えられたとき、その局所ホモロジー層を構築し、各ノードに局所ホモロジーのベクトル空間を割り当てる。 ネットワークの中間的特徴はベクトル空間に存在し、関連する層ラプラシアンを利用してそれらの間のより複雑な線形メッセージを構築する。 さらに、重み付き単純複体(例えば、ノード埋め込みの対距離から構築される)に関連する局所ホモロジーの永続バージョンを考えることにより、このアプローチを拡張する。 これ 一 局所ホモロジーベクトル空間に対する基底の自然な選択の欠如の問題とその解決 ii) せん断自体を識別可能にすることにより, 我々のモデルでは, 中間特徴の位相を直接最適化することができる。

In this work, we introduce a novel approach based on algebraic topology to enhance graph convolution and attention modules by incorporating local topological properties of the data. To do so, we consider the framework of sheaf neural networks, which has been previously leveraged to incorporate additional structure into graph neural networks' features and construct more expressive, non-isotropic messages. Specifically, given an input simplicial complex (e.g. generated by the cliques of a graph or the neighbors in a point cloud), we construct its local homology sheaf, which assigns to each node the vector space of its local homology. The intermediate features of our networks live in these vector spaces and we leverage the associated sheaf Laplacian to construct more complex linear messages between them. Moreover, we extend this approach by considering the persistent version of local homology associated with a weighted simplicial complex (e.g., built from pairwise distances of nodes embeddings). This i) solves the problem of the lack of a natural choice of basis for the local homology vector spaces and ii) makes the sheaf itself differentiable, which enables our models to directly optimize the topology of their intermediate features.
翻訳日:2023-11-22 15:38:54 公開日:2023-11-16
# ブリルアン光散乱によるマグノンの量子トモグラフィー

Quantum tomography of magnons using Brillouin light scattering ( http://arxiv.org/abs/2311.10152v1 )

ライセンス: Link先を確認
Sanchar Sharma and Silvia Viola Kusminskiy and Victor ASV Bittencourt(参考訳) 量子マグノン学(quantum magnonics)は、量子応用のためのマグノンの研究に焦点を当てた新興分野であり、単一のマグノンを分解する正確な測定方法を必要とする。 既存の技術は、余分な散逸チャネルを導入し、自由空間の磁石には適応しない。 ブリルアン光散乱(BLS)は、高感度と時間分解能で知られている磁化を探索するための確立された技術である。 マグノンと光子の結合はレーザー入力によって制御されるため、測定が不要な場合にはオフにすることができる。 本稿では,マグノンの量子トモグラフィーにおけるBLSの有効性について理論的に検討する。 誘電体によって付加される光ノイズを含む有限光導波路をモデル化し、信号対雑音比(SNR)を算出する。 また,SNRは小型の磁気光学結合により低いが,導波路に圧縮真空を注入することで著しく高めることができることがわかった。 最大推定値を用いて出力光子の統計値からマグノンの密度行列を再構成する。 正のウィグナー関数の領域として定義されるマグノン状態の古典的成分は高精度に再構成でき、非古典的成分はより高いSNRまたはより大きなデータセットを必要とする。 後者は、よりコンパクトなデータ構造と後処理のための高度なアルゴリズムを必要とする。 SNRは入力レーザーパワーによって部分的に制限されており、ヒートシンクでオポマグニックキャビティを設計することで増大させることができる。

Quantum magnonics, an emerging field focusing on the study of magnons for quantum applications, requires precise measurement methods capable of resolving single magnons. Existing techniques introduce additional dissipation channels and are not apt for magnets in free space. Brillouin light scattering (BLS) is a well-established technique for probing the magnetization known for its high sensitivity and temporal resolution. The coupling between magnons and photons is controlled by a laser input, so it can be switched off when a measurement is not needed. In this article, we theoretically investigate the efficacy of BLS for quantum tomography of magnons. We model a finite optomagnonic waveguide, including the optical noise added by the dielectric, to calculate the signal-to-noise ratio (SNR). We find that the SNR is typically low due to a small magneto-optical coupling; nevertheless, it can be significantly enhanced by injecting squeezed vacuum into the waveguide. We reconstruct the density matrix of the magnons from the statistics of the output photons using a maximum likelihood estimate. The classical component of a magnon state, defined as the regions of positive Wigner function, can be reconstructed with a high accuracy while the non-classical component necessitates either a higher SNR or a larger dataset. The latter requires more compact data structures and advanced algorithms for post-processing. The SNR is limited partially by the input laser power that can be increased by designing the optomagnonic cavity with a heat sink.
翻訳日:2023-11-22 15:38:10 公開日:2023-11-16
# $\beta$アンサンブルにおける基底状態のロバストな非エルゴディティ

Robust non-ergodicity of ground state in the $\beta$ ensemble ( http://arxiv.org/abs/2311.10150v1 )

ライセンス: Link先を確認
Adway Kumar Das, Anandamohan Ghosh, Ivan M. Khaymovich(参考訳) 様々なカオス量子多体系において、基底状態は熱化を示すバルク状態にもかかわらず非自明な熱的挙動を示す。 このような熱水状態は、量子情報理論とその応用において重要な役割を果たす。 さらに、クリロフ基底の任意の一般量子多体系は三対角形ランチョス・ハミルトニアン(英語版)によって表現され、これはパラメータ$\beta$を介してレベル反発を調整可能なよく研究されたランダム行列モデルである$\beta$アンサンブルの行列に類似している。 これを動機として、ここでは、$\beta$アンサンブルの接地状態と反接地状態の局在性に焦点を当てる。 解析的にも数値的にも、両辺の状態はいずれも非エルゴード(フラクタル)な性質を、典型的なバルク状態がエルゴードであるのに対し、$\beta\sim\mathcal{o}(1)$ に対して示している。 驚くべきことに、エッジ状態のフラクタル次元は$\beta$アンサンブルの大域的な位相に関係なく、バルク状態のフラクタル次元の3倍小さいままである。 フラクタル次元に加えて、スペクトルエッジ状態の局在中心の分布、それらの相互分離、および最初の励起状態の空間的および相関性についても考察する。

In various chaotic quantum many-body systems, the ground states show non-trivial athermal behavior despite the bulk states exhibiting thermalization. Such athermal states play a crucial role in quantum information theory and its applications. Moreover, any generic quantum many-body system in the Krylov basis is represented by a tridiagonal Lanczos Hamiltonian, which is analogous to the matrices from the $\beta$ ensemble, a well-studied random matrix model with level repulsion tunable via the parameter $\beta$. Motivated by this, here we focus on the localization properties of the ground and anti-ground states of the $\beta$ ensemble. Both analytically and numerically, we show that both the edge states demonstrate non-ergodic (fractal) properties for $\beta\sim\mathcal{O}(1)$ while the typical bulk states are ergodic. Surprisingly, the fractal dimension of the edge states remain three time smaller than that of the bulk states irrespective of the global phase of the $\beta$ ensemble. In addition to the fractal dimensions, we also consider the distribution of the localization centers of the spectral edge states, their mutual separation, as well as the spatial and correlation properties of the first excited states.
翻訳日:2023-11-22 15:37:39 公開日:2023-11-16
# デジタル量子コンピュータにおける非エルミート皮膚効果とフェルミ皮膚の観察

Observation of the non-Hermitian skin effect and Fermi skin on a digital quantum computer ( http://arxiv.org/abs/2311.10143v1 )

ライセンス: Link先を確認
Ruizhe Shen, Tianqi Chen, Bo Yang, Ching Hua Lee(参考訳) 非エルミート物理学は近年、特に極度感度と非局所性に対する非エルミート皮膚効果(NHSE)に大きな注目を集めている。 NHSEは様々な古典的メタマテリアルや超低温原子配列で物理的に観察されているが、多体力学における非常に非自明な影響は実験的に研究されていない。 本研究では,汎用量子プロセッサ上でnhseを初めて観測し,その特性について報告する。 量子コンピュータ上でnhseダイナミクスを実装するには、有効な時間発展回路は非相反的かつ非ユニタリであるだけでなく、空間的非局所性を達成するために十分な数の格子量子ビットまでスケールする必要がある。 本稿では,無対称空間伝搬と多体フェルミ皮膚の蓄積の明確なシグネチャを持つ,うるさいibm量子プロセッサ上の2つのパラダイム的非相反モデルを用いて,複数のアンシラキュービットを後選択することにより,そのような非ユニタリ操作が系統的に実現可能であることを示す。 不可避なデバイスノイズからの誤差を最小限に抑えるために、変分量子アルゴリズムで生成された学習可能な最適化量子回路を用いて時間発展を行う。 本研究は、現在の量子コンピュータにおける非エルミート格子現象の量子シミュレーションにおける重要なマイルストーンであり、量子コンピュータの顕著なプログラム性を持つより洗練された多体モデルに容易に一般化することができる。

Non-Hermitian physics has attracted considerable attention in the recent years, in particular the non-Hermitian skin effect (NHSE) for its extreme sensitivity and non-locality. While the NHSE has been physically observed in various classical metamaterials and even ultracold atomic arrays, its highly-nontrivial implications in many-body dynamics have never been experimentally investigated. In this work, we report the first observation of the NHSE on a universal quantum processor, as well as its characteristic but elusive Fermi skin from many-fermion statistics. To implement NHSE dynamics on a quantum computer, the effective time-evolution circuit not only needs to be non-reciprocal and non-unitary, but must also be scaled up to a sufficient number of lattice qubits to achieve spatial non-locality. We show how such a non-unitary operation can be systematically realized by post-selecting multiple ancilla qubits, as demonstrated through two paradigmatic non-reciprocal models on a noisy IBM quantum processor, with clear signatures of asymmetric spatial propagation and many-body Fermi skin accumulation. To minimize errors from inevitable device noise, time evolution is performed using a trainable optimized quantum circuit produced with variational quantum algorithms. Our study represents a critical milestone in the quantum simulation of non-Hermitian lattice phenomena on present-day quantum computers, and can be readily generalized to more sophisticated many-body models with the remarkable programmability of quantum computers.
翻訳日:2023-11-22 15:36:56 公開日:2023-11-16
# 粒子とフェルミオンの散逸性輸送のための統一インターフェースモデル

A Unified Interface Model for Dissipative Transport of Bosons and Fermions ( http://arxiv.org/abs/2311.10138v1 )

ライセンス: Link先を確認
Y. Minoguchi, J. Huber, L. Garbe, A. Gambassi, P. Rabl(参考訳) 散逸的な一次元格子に沿ったボソンの有向輸送について検討し, ホッピングはマルコフ貯水池への結合によってのみ促進される。 数値シミュレーションとフィールド理論解析を組み合わせることで, この過程の電流ゆらぎを解析し, 漸近的挙動を推定する。 これらの結果から, 散逸性ボゾン輸送はKPZ普遍性クラスに属することが示され, 基礎粒子統計学の急激な違いにもかかわらず, フェルミオンに対する非対称単純な排除過程 (ASEP) と同じ粗い粒度の挙動を特徴としている。 しかし、現在の変動の完全なカウント統計に注目すると、2つのプロセスの間に重要な違いが現れる。 どちらのモデルも変動する界面の物理にマッピングすることにより、ボソンとフェルミオンの散逸輸送は、それぞれ表面成長と浸食過程として理解することができる。 この統一された記述の中で、輸送の完全な計数統計の間の類似性と不一致の両方が和解される。 純粋に理論的な関心の他に、これらの発見は低温原子やナノフォトニック格子中の長寿命準粒子の実験に関係しており、そのような輸送シナリオを実現することができる。

We study the directed transport of bosons along a one dimensional lattice in a dissipative setting, where the hopping is only facilitated by coupling to a Markovian reservoir. By combining numerical simulations with a field-theoretic analysis, we investigate the current fluctuations for this process and determine its asymptotic behavior. These findings demonstrate that dissipative bosonic transport belongs to the KPZ universality class and therefore, in spite of the drastic difference in the underlying particle statistics, it features the same coarse grained behavior as the corresponding asymmetric simple exclusion process (ASEP) for fermions. However, crucial differences between the two processes emerge when focusing on the full counting statistics of current fluctuations. By mapping both models to the physics of fluctuating interfaces, we find that dissipative transport of bosons and fermions can be understood as surface growth and erosion processes, respectively. Within this unified description, both the similarities and discrepancies between the full counting statistics of the transport are reconciled. Beyond purely theoretical interest, these findings are relevant for experiments with cold atoms or long-lived quasi-particles in nanophotonic lattices, where such transport scenarios can be realized.
翻訳日:2023-11-22 15:36:27 公開日:2023-11-16
# 一般化評価を改善するための潜在特徴に基づくデータ分割:ヘイトスピーチ検出事例

Latent Feature-based Data Splits to Improve Generalisation Evaluation: A Hate Speech Detection Case Study ( http://arxiv.org/abs/2311.10236v1 )

ライセンス: Link先を確認
Maike Z\"ufle, Verna Dankers and Ivan Titov(参考訳) ソーシャルメディアプラットフォームの存在が拡大するにつれ、有害コンテンツの普及と、堅牢なヘイトスピーチ検出システムの必要性が高まっている。 このようなシステムは、特定のターゲットやキーワードに簡単に過剰に適合し、トレーニングデータとテストデータの間で発生する分散シフトを考慮せずに評価することができる。 モデルの隠れた表現のクラスタリングに依存する既存のデータセットの新しいトレインテスト分割を通じて、ヘイトスピーチモデルに挑戦する。 4つの事前訓練されたモデルを用いて2つのデータセットに適用した場合、モデルが潜在空間の盲点で破滅的に失敗することを示す2つの分割変種(Subset-Sum-Split と Closest-Split )を示す。 この結果は、あるモデルで分割を開発し、別のモデルで評価する際に一般化される。 解析の結果,データ分割の面面的特性は明らかになく,処理の難易度が必ずしも人間的に解釈可能であるとは限らないことが示唆された。 潜在的な機能ベースの分割をモデル開発に取り入れ、genbenchベンチマークを通じて2つの分割をリリースすることを推奨します。

With the ever-growing presence of social media platforms comes the increased spread of harmful content and the need for robust hate speech detection systems. Such systems easily overfit to specific targets and keywords, and evaluating them without considering distribution shifts that might occur between train and test data overestimates their benefit. We challenge hate speech models via new train-test splits of existing datasets that rely on the clustering of models' hidden representations. We present two split variants (Subset-Sum-Split and Closest-Split) that, when applied to two datasets using four pretrained models, reveal how models catastrophically fail on blind spots in the latent space. This result generalises when developing a split with one model and evaluating it on another. Our analysis suggests that there is no clear surface-level property of the data split that correlates with the decreased performance, which underscores that task difficulty is not always humanly interpretable. We recommend incorporating latent feature-based splits in model development and release two splits via the GenBench benchmark.
翻訳日:2023-11-22 15:27:11 公開日:2023-11-16
# 組織図からの構造の分析と抽出

The Analysis and Extraction of Structure from Organizational Charts ( http://arxiv.org/abs/2311.10234v1 )

ライセンス: Link先を確認
Nikhil Manali, David Doermann, and Mahesh Desai(参考訳) orgチャート(org chart)とも呼ばれる組織チャートは、組織の構造と、その構成要素と位置の間の階層的関係の批判的な表現である。 しかし、orgチャートから手動で情報を抽出することは、エラーを起こしやすく、時間がかかる。 これを解決するために,コンピュータビジョン,ディープラーニング,自然言語処理技術を用いたエンドツーエンドの自動化手法を提案する。 さらに,抽出した情報の完全性と階層的精度を評価する指標を提案する。 このアプローチは、組織構造の明確で簡潔な表現を提供することで、組織再編とリソース利用を改善する可能性がある。 本研究は,階層的チャート分析に関するさらなる研究の基盤を築いている。

Organizational charts, also known as org charts, are critical representations of an organization's structure and the hierarchical relationships between its components and positions. However, manually extracting information from org charts can be error-prone and time-consuming. To solve this, we present an automated and end-to-end approach that uses computer vision, deep learning, and natural language processing techniques. Additionally, we propose a metric to evaluate the completeness and hierarchical accuracy of the extracted information. This approach has the potential to improve organizational restructuring and resource utilization by providing a clear and concise representation of the organizational structure. Our study lays a foundation for further research on the topic of hierarchical chart analysis.
翻訳日:2023-11-22 15:26:52 公開日:2023-11-16
# ハリケーン避難行動のグラフモデル

A Graphical Model of Hurricane Evacuation Behaviors ( http://arxiv.org/abs/2311.10228v1 )

ライセンス: Link先を確認
Hui Sophie Wang, Nutchanon Yongsatianchot and Stacy Marsella(参考訳) ハリケーンなどの自然災害が増加し、広範囲の荒廃を引き起こしている。 避難するかどうかに関する人々の決定と行動は重要であり、緊急の計画と対応に大きな影響を与える。 我々の関心は、避難決定に影響を与える様々な要因の複雑な関係を計算的にモデル化することである。 2017年大西洋ハリケーンシーズンのハリケーンirmaの避難状況について調査を行った。 この研究は、潜在的な脅威に対する人々の反応を理解するために広く使われている枠組みである保護モチベーション理論(PMT)によって導かれた。 関連する要因と避難決定の間の複雑な関係を表現したグラフモデルを構築した。 Irmaデータを用いて,条件付き独立性テストに基づく異なるグラフィカル構造の評価を行った。 最終モデルはPMTとほぼ一致している。 リスク認知(評価)と避難困難(評価)の両方が直接的かつ独立に避難決定に影響を及ぼすことを示す。 メディアから受信された情報によってリスクの知覚に影響を与え、間接的に避難行動に影響を及ぼすことが判明した。 さらに,家族や友人の提言,近隣住民の避難行動,職員からの避難通知など,リスク認知と避難行動に直接影響を及ぼす変数がいくつか見出された。

Natural disasters such as hurricanes are increasing and causing widespread devastation. People's decisions and actions regarding whether to evacuate or not are critical and have a large impact on emergency planning and response. Our interest lies in computationally modeling complex relationships among various factors influencing evacuation decisions. We conducted a study on the evacuation of Hurricane Irma of the 2017 Atlantic hurricane season. The study was guided by the Protection motivation theory (PMT), a widely-used framework to understand people's responses to potential threats. Graphical models were constructed to represent the complex relationships among the factors involved and the evacuation decision. We evaluated different graphical structures based on conditional independence tests using Irma data. The final model largely aligns with PMT. It shows that both risk perception (threat appraisal) and difficulties in evacuation (coping appraisal) influence evacuation decisions directly and independently. Certain information received from media was found to influence risk perception, and through it influence evacuation behaviors indirectly. In addition, several variables were found to influence both risk perception and evacuation behaviors directly, including family and friends' suggestions, neighbors' evacuation behaviors, and evacuation notices from officials.
翻訳日:2023-11-22 15:26:41 公開日:2023-11-16
# Think Twice: パースペクティブ・タイキングは大規模言語モデルの理論を改良する

Think Twice: Perspective-Taking Improves Large Language Models' Theory-of-Mind Capabilities ( http://arxiv.org/abs/2311.10227v1 )

ライセンス: Link先を確認
Alex Wilf, Sihyun Shawn Lee, Paul Pu Liang, Louis-Philippe Morency(参考訳) 人間との相互作用は、思考、信念、欲望の相互作用に深く根ざしており、心の理論(tom)によって実現されている。 ToMは自然界に現れるかもしれませんが、それをエミュレートすることは、最も先進的なLarge Language Models(LLMs)にも挑戦します。 チェイン・オブ・サート(Chain-of-Thought)のようなシンプルで効果的なプロンプト技術によるLSMの推論能力の最近の改善は、ToMに限定的な適用性を示した。 本稿では,このギャップを埋めるために,著名な認知科学理論「シミュレーション理論」に目を向ける。 シミュレーション理論の視点取りの概念に触発された新しい2段階プロンプトフレームワークであるSimToMを紹介する。 現在のToMベンチマークでこのアイデアを実装するために、SimToMはまず、問題のキャラクターが精神状態に関する質問に答える前に知っていることに基づいてコンテキストをフィルタリングする。 提案手法は,追加のトレーニングや最小限のプロンプトチューニングを必要とせず,既存の手法よりも大幅に改善することを示す。 llmsのtom能力向上に向けた今後の研究の有望な方向性として,今後の展望を示唆する。

Human interactions are deeply rooted in the interplay of thoughts, beliefs, and desires made possible by Theory of Mind (ToM): our cognitive ability to understand the mental states of ourselves and others. Although ToM may come naturally to us, emulating it presents a challenge to even the most advanced Large Language Models (LLMs). Recent improvements to LLMs' reasoning capabilities from simple yet effective prompting techniques such as Chain-of-Thought have seen limited applicability to ToM. In this paper, we turn to the prominent cognitive science theory "Simulation Theory" to bridge this gap. We introduce SimToM, a novel two-stage prompting framework inspired by Simulation Theory's notion of perspective-taking. To implement this idea on current ToM benchmarks, SimToM first filters context based on what the character in question knows before answering a question about their mental state. Our approach, which requires no additional training and minimal prompt-tuning, shows substantial improvement over existing methods, and our analysis reveals the importance of perspective-taking to Theory-of-Mind capabilities. Our findings suggest perspective-taking as a promising direction for future research into improving LLMs' ToM capabilities.
翻訳日:2023-11-22 15:26:25 公開日:2023-11-16
# cv-attention unet : tof-mra画像の3次元脳血管セグメンテーションのための注意に基づくunet

CV-Attention UNet: Attention-based UNet for 3D Cerebrovascular Segmentation of Enhanced TOF-MRA Images ( http://arxiv.org/abs/2311.10224v1 )

ライセンス: Link先を確認
Syed Farhan Abbas, Nguyen Thanh Duc, Yoonguu Song, Kyungwon Kim, Boreom Lee(参考訳) 脳血管疾患の診断には自動化方法がないため、tof-mra(time-of-flight magnetic resonance angiography)が視覚的に評価され、時間がかかる。 脳血管のセグメンテーションによく使われるエンコーダ・デコーダアーキテクチャは冗長な特徴を利用し、最終的には複数の低レベルの特徴を抽出する。 さらに、畳み込みニューラルネットワーク(CNN)はバッチサイズが小さくなると性能劣化に悩まされ、より深いネットワークは消滅する勾配問題を経験する。 方法: 本論文では, 脳血管画像の正確な抽出のために, CV-AttentionUNetと呼ばれる3次元脳血管注意UNet法を提案する。 脳卒中につながる脳血管のセグメンテーションの精度を向上させるために,我々は一連の前処理手法の提案を行った。 低と高のセマンティクスを組み合わせるために,注意機構を適用した。 このメカニズムは関連する関連性に注目し、無関係な解剖情報を無視する。 さらに、深層監視機能の導入は、ネットワークの収束に有益であることを示す様々なレベルの機能を取り入れている。 結果: ラベルのないデータセットを相互検証することで, 提案手法の有効性を実証した。 このアルゴリズムの目新しさは、画像処理ベースの拡張によってラベル付きデータとラベルなしデータの両方でうまく機能する能力にあると信じている。 以上の結果から,本手法は既存のTuneTKデータセットの最先端手法よりも優れた性能を示した。 結論】脳卒中に至る脳血管構造の正確なセグメンテーションを支援する手法の提案

Due to the lack of automated methods, to diagnose cerebrovascular disease, time-of-flight magnetic resonance angiography (TOF-MRA) is assessed visually, making it time-consuming. The commonly used encoder-decoder architectures for cerebrovascular segmentation utilize redundant features, eventually leading to the extraction of low-level features multiple times. Additionally, convolutional neural networks (CNNs) suffer from performance degradation when the batch size is small, and deeper networks experience the vanishing gradient problem. Methods: In this paper, we attempt to solve these limitations and propose the 3D cerebrovascular attention UNet method, named CV-AttentionUNet, for precise extraction of brain vessel images. We proposed a sequence of preprocessing techniques followed by deeply supervised UNet to improve the accuracy of segmentation of the brain vessels leading to a stroke. To combine the low and high semantics, we applied the attention mechanism. This mechanism focuses on relevant associations and neglects irrelevant anatomical information. Furthermore, the inclusion of deep supervision incorporates different levels of features that prove to be beneficial for network convergence. Results: We demonstrate the efficiency of the proposed method by cross-validating with an unlabeled dataset, which was further labeled by us. We believe that the novelty of this algorithm lies in its ability to perform well on both labeled and unlabeled data with image processing-based enhancement. The results indicate that our method performed better than the existing state-of-the-art methods on the TubeTK dataset. Conclusion: The proposed method will help in accurate segmentation of cerebrovascular structure leading to stroke
翻訳日:2023-11-22 15:26:03 公開日:2023-11-16
# 機械学習モデルにおける漸近的に公平な参加--最適制御視点

Asymptotically Fair Participation in Machine Learning Models: an Optimal Control Perspective ( http://arxiv.org/abs/2311.10223v1 )

ライセンス: Link先を確認
Zhuotong Chen and Qianxiao Li and Zheng Zhang(参考訳) 最先端の機械学習モデルのパフォーマンスは、トレーニングデータセットで表現されていない人口層をテストすると、しばしば低下する。 この問題は、データ分布が静的な教師あり学習環境で主に研究されている。 しかし、現実世界のアプリケーションは、しばしばデプロイされたモデルによって引き起こされる分散シフトを伴う。 例えば、監視対象ユーザに対するパフォーマンス格差は、高い顧客チャーン率につながる可能性があるため、アクティブユーザによって提供されるデータは、少数ユーザの欠如によって歪められる。 このフィードバック効果は、将来の段階における異なる人口集団間の格差をさらに悪化させる。 この問題に対処するため,全人口集団における長期モデル性能を維持する条件として,漸近的公正参加を提案する。 本研究では,最適制御の定式化による漸近的公正な参加の実現を課題とする。 さらに, アクティブユーザ数における分布シフトのダイナミクスを近似し, 漸近的に公平に参加する目的を最適制御問題として定式化し, 制御変数をモデルパラメータとして考えるように, 既存の進化的集団動態に基づくサーロゲート保持システムを設計する。 最適制御解を推定するために,pontryaginの最大原理の効率的な実装を適用する。 提案手法の有効性を評価するために,ユーザ保持とモデル性能のフィードバック効果の個体群動態をシミュレートする汎用シミュレーション環境を設計した。 結果のモデルをシミュレーション環境にデプロイする場合、最適制御ソリューションは長期計画に責任を持ち、既存のベースライン手法と比較して優れた性能をもたらす。

The performance of state-of-the-art machine learning models often deteriorates when testing on demographics that are under-represented in the training dataset. This problem has predominately been studied in a supervised learning setting where the data distribution is static. However, real-world applications often involve distribution shifts caused by the deployed models. For instance, the performance disparity against monitory users can lead to a high customer churn rate, thus the available data provided by active users are skewed due to the lack of minority users. This feedback effect further exacerbates the disparity among different demographic groups in future steps. To address this issue, we propose asymptotically fair participation as a condition to maintain long-term model performance over all demographic groups. In this work, we aim to address the problem of achieving asymptotically fair participation via optimal control formulation. Moreover, we design a surrogate retention system based on existing literature on evolutionary population dynamics to approximate the dynamics of distribution shifts on active user counts, from which the objective of achieving asymptotically fair participation is formulated as an optimal control problem, and the control variables are considered as the model parameters. We apply an efficient implementation of Pontryagin's maximum principle to estimate the optimal control solution. To evaluate the effectiveness of the proposed method, we design a generic simulation environment that simulates the population dynamics of the feedback effect between user retention and model performance. When we deploy the resulting models to the simulation environment, the optimal control solution accounts for long-term planning and leads to superior performance compared with existing baseline methods.
翻訳日:2023-11-22 15:25:33 公開日:2023-11-16
# 量子デコヒーレンスによるイオンチャネルの古典的ノイズの緩和

Mimicking Classical Noise in Ion Channels by Quantum Decoherence ( http://arxiv.org/abs/2311.10222v1 )

ライセンス: Link先を確認
Mina Seifi, Ali Soltanmanesh, and Afshin Shafiee(参考訳) イオンチャネルにおける選択性のメカニズムは、生物学における未解決の問題である。 最近の提案によると、チャネルの関数において重要な役割を果たすイオンチャネルの選択性フィルターは、イオンの選択機構と伝導を説明する上で役割を果たす量子コヒーレンスを示す可能性がある。 しかし、デコヒーレンス理論により、環境ノイズの存在はデコヒーレンスと量子効果の喪失を引き起こす。 時として、イオンチャネルにおける環境のカルシカルノイズの効果は、量子デコヒーレンス理論が提示する画像を通してモデル化できることを期待している。 本稿では,古典的雑音モデルに基づく確率ハミルトニアン作用素のユニタリ進化を用いて,スピンボーソン模型におけるイオンチャネル系の挙動をシミュレーションした。 また、異なるアプローチで、デコヒーレンス理論を用いて、高調波発振器の浴とトンネルが相互作用する2レベルスピンボーソンモデルとしてシステム進化をモデル化した。 このシステムの結果は、古典的および量子的レジームで議論された。 その結果, ポタシウムイオンのホッピング速度が高いスピンボソンモデルでは, 古典的ノイズ法で系の挙動をシミュレートできることがわかった。 この結果は、イオンチャネルが高速な選択性を必要とすることの別の証明である。

The mechanism of selectivity in ion channels is still an open question in biology. According to recent proposals, it seems that the selectivity filter of the ion channel, which plays a key role in the channel's function, may show quantum coherence, which can play a role in explaining the selection mechanism and conduction of ions. However, due to decoherence theory, the presence of environmental noise causes decoherence and loss of quantum effects. Sometimes we hope that the effect of calssical noise of the environment in ion channels can be modeled through a picture whose the quantum decoherence theory presents. In this paper, we simulated the behavior of the ion channel system in the Spin-Boson model using the unitary evolution of a stochastic Hamiltonian operator under the classical noise model. Also, in a different approach, we modeled the system evolution as a two-level Spin-Boson model with tunneling interacting with a bath of harmonic oscillators, using decoherence theory. The results of this system were discussed in different classical and quantum regimes. By examining the results it was found that the Spin-Boson model at a high hopping rate of Potassium ions can simulate the behavior of the system in the classical noise approach. This result is another proof for the fact that ion channels need high speed for high selectivity.
翻訳日:2023-11-22 15:25:07 公開日:2023-11-16
# 予測的思考:非定型的アクティブ推論エージェントとしてのLLM

Predictive Minds: LLMs As Atypical Active Inference Agents ( http://arxiv.org/abs/2311.10215v1 )

ライセンス: Link先を確認
Jan Kulveit, Clem von Stengel and Roman Leventov(参考訳) GPTのような大きな言語モデル(LLM)は、しばしば受動的予測器、シミュレータ、あるいは確率オウムとして概念化される。 代わりに、認知科学と神経科学を起源とする能動推論理論に基づいて、LSMを概念化する。 従来の能動推論システムとllmの類似性と相違について検討し,現在,llmは世界の行動と行動の影響を知覚する上での密接なフィードバックループを欠いているが,それ以外は能動推論パラダイムに適合していると結論づけている。 このループがすぐにクローズされる理由をリストアップし、拡張されたモデル自己認識や、世界を変えることによって予測エラーを最小限に抑える駆動など、この結果の可能性を挙げる。

Large language models (LLMs) like GPT are often conceptualized as passive predictors, simulators, or even stochastic parrots. We instead conceptualize LLMs by drawing on the theory of active inference originating in cognitive science and neuroscience. We examine similarities and differences between traditional active inference systems and LLMs, leading to the conclusion that, currently, LLMs lack a tight feedback loop between acting in the world and perceiving the impacts of their actions, but otherwise fit in the active inference paradigm. We list reasons why this loop may soon be closed, and possible consequences of this including enhanced model self-awareness and the drive to minimize prediction error by changing the world.
翻訳日:2023-11-22 15:24:23 公開日:2023-11-16
# 閉系のシステム理論形式化

A Systems-Theoretical Formalization of Closed Systems ( http://arxiv.org/abs/2311.10786v1 )

ライセンス: Link先を確認
Niloofar Shadab, Tyler Cody, Alejandro Salado, Peter Beling(参考訳) システム工学における重要な基礎概念には形式主義の欠如がある。 最近認められた欠陥の1つは、エンジニアリングインテリジェントシステムのためのシステムエンジニアリングプラクティスの不十分さである。 先程の研究では,知的システムのシステム工学に必要となるパラダイムシフトを達成するために,クローズドシステム規範を用いることを提案した。 しかし、そのようなシフトを可能にするためには、システム工学の理論を拡張する閉じたシステム規範の正式な基礎が必要である。 閉包の概念は閉系規範に基づく形式主義において重要な概念である。 本稿では,閉包の形式的,システム的,情報論的定義を提供し,異なる種類の閉体系を識別・識別する。 次に,そのようなシステムの境界と制約の主観的形成を評価する数学的枠組みを主張する。 最後に、インテリジェントなシステムのエンジニアリングは、システムの抽象化の多レベルにおいて、適切な閉じたオープンシステムパラダイムの恩恵を受けることができると論じる。 主に、このフレームワークはインテリジェントシステムのシステムエンジニアリングを支援するために必要な基礎を提供する。

There is a lack of formalism for some key foundational concepts in systems engineering. One of the most recently acknowledged deficits is the inadequacy of systems engineering practices for engineering intelligent systems. In our previous works, we proposed that closed systems precepts could be used to accomplish a required paradigm shift for the systems engineering of intelligent systems. However, to enable such a shift, formal foundations for closed systems precepts that expand the theory of systems engineering are needed. The concept of closure is a critical concept in the formalism underlying closed systems precepts. In this paper, we provide formal, systems- and information-theoretic definitions of closure to identify and distinguish different types of closed systems. Then, we assert a mathematical framework to evaluate the subjective formation of the boundaries and constraints of such systems. Finally, we argue that engineering an intelligent system can benefit from appropriate closed and open systems paradigms on multiple levels of abstraction of the system. In the main, this framework will provide the necessary fundamentals to aid in systems engineering of intelligent systems.
翻訳日:2023-11-22 14:39:24 公開日:2023-11-16
# 特定のドメインを超えたテキストのサニタイズ:大言語モデルによるゼロショット冗長化と置換

Text Sanitization Beyond Specific Domains: Zero-Shot Redaction & Substitution with Large Language Models ( http://arxiv.org/abs/2311.10785v1 )

ライセンス: Link先を確認
Federico Albanese and Daniel Ciolek and Nicolas D'Ippolito(参考訳) 情報システムの文脈では、セキュリティや規制要件に適合する機密データを識別および削除するために、テキスト衛生技術が使用される。 プライバシー保護のための多くの方法が提案されているが、そのほとんどは特定のドメイン(クレジットカード番号、社会保障番号など)からのエンティティの検出に焦点が当てられている。 さらに、単語の除去は、テキストコヒーレンスや文脈情報を分解できるため、一般的には劇的な手段である。 より厳格な措置には、安全な代替品のための単語の置換が含まれるが、意味のある代替品を自動的に見つけることは困難である。 本稿では,大規模言語モデルを用いて潜在的に敏感な情報を検出・置換するゼロショットテキスト衛生手法を提案する。 提案手法は,テキストコヒーレンスとコンテキスト情報を維持しながら,下流タスクのためのデータユーティリティを保ちながら,プライバシ保護に優れることを示す。

In the context of information systems, text sanitization techniques are used to identify and remove sensitive data to comply with security and regulatory requirements. Even though many methods for privacy preservation have been proposed, most of them are focused on the detection of entities from specific domains (e.g., credit card numbers, social security numbers), lacking generality and requiring customization for each desirable domain. Moreover, removing words is, in general, a drastic measure, as it can degrade text coherence and contextual information. Less severe measures include substituting a word for a safe alternative, yet it can be challenging to automatically find meaningful substitutions. We present a zero-shot text sanitization technique that detects and substitutes potentially sensitive information using Large Language Models. Our evaluation shows that our method excels at protecting privacy while maintaining text coherence and contextual information, preserving data utility for downstream tasks.
翻訳日:2023-11-22 14:39:08 公開日:2023-11-16
# ExFake:コンテンツとソーシャルコンテキスト情報に基づく説明可能なフェイクニュース検出を目指して

ExFake: Towards an Explainable Fake News Detection Based on Content and Social Context Information ( http://arxiv.org/abs/2311.10784v1 )

ライセンス: Link先を確認
Sabrine Amri, Henri-Cedric Mputu Boleilanga, Esma A\"imeur(参考訳) ExFakeは、コンテンツとコンテキストレベルの情報に基づく説明可能な偽ニュース検知システムである。 オンライン投稿の内容、社会的文脈(オンラインユーザの信頼性と過去の行動)、および事実確認ウェブサイトや名前付きエンティティなどの信頼できるエンティティから来るデータに基づいて、オンライン投稿の正確性を分析する。 最先端のシステムとは異なり、説明可能なAI(XAI)アシスタントも採用され、オンラインソーシャルネットワーク(OSN)ユーザーがソーシャルネットワークに広まる疑わしい情報に直面した場合に、良好な反射を発達させるのに役立つ。 OSNユーザーの信頼性はまた、偽ニュースを広める主要な原因の1つとして、OSNユーザーに信頼性スコアを割り当てることによって解決される。 実世界のデータセットの実験的分析は、exfakeがフェイクニュース検出の他のベースラインメソッドを大きく上回っていることを示している。

ExFake is an explainable fake news detection system based on content and context-level information. It is concerned with the veracity analysis of online posts based on their content, social context (i.e., online users' credibility and historical behaviour), and data coming from trusted entities such as fact-checking websites and named entities. Unlike state-of-the-art systems, an Explainable AI (XAI) assistant is also adopted to help online social networks (OSN) users develop good reflexes when faced with any doubted information that spreads on social networks. The trustworthiness of OSN users is also addressed by assigning a credibility score to OSN users, as OSN users are one of the main culprits for spreading fake news. Experimental analysis on a real-world dataset demonstrates that ExFake significantly outperforms other baseline methods for fake news detection.
翻訳日:2023-11-22 14:38:51 公開日:2023-11-16
# 電場または磁場中で加速された荷電粒子とゼロ点ゆらぎの相互作用における真空からの放射の影響

Effect of radiation from vacuum in the interaction of zero-point fluctuations with charged particles accelerated in electric or magnetic fields ( http://arxiv.org/abs/2311.10783v1 )

ライセンス: Link先を確認
Ya.B. Ulanovsky, A.M. Frolov(参考訳) 電場や磁場の相対論的速度で加速される自由荷電粒子とゼロ点真空揺らぎの相互作用による電磁放射(以下、真空からの放射)の効果を理論的に証明し、計算により確認する。 提案された効果は、水素原子におけるラムシフト効果と動的カシミール効果における放射の出現と類似している。 しかし、これらの効果とは異なり、放射特性は電場や磁場の誘導に依存する。 さらに、運動量保存の法則に従うため、荷電粒子の制動放射は「第三体」と見なされる。 このブレムスストラルングとは対照的に、真空からの放射は好ましい方向を持たない。 半古典的手法を用いて放射特性の解析式を得た。 真空から放射されるエネルギーと強度の計算値は、強い電場や磁場における放射の特性を決定するための光学的手法を用いることの可能性を示している。 この研究の結果は、強力な電場や磁場を持つ天体の研究や、実験室の条件下での物理的真空状態の研究に利用できる。

The possibility of the effect of electromagnetic radiation (hereinafter - radiation from vacuum) due to the interaction of zero-point vacuum fluctuations with free charged particles accelerated at relativistic speeds in electric or magnetic fields is theoretically demonstrated and confirmed by calculations. The proposed effect is similar to the appearance of radiation in the Lamb shift effect in the hydrogen atom and the dynamical Casimir effect. However, unlike these effects, the radiation characteristics depend on the induction of electric or magnetic fields. Moreover, in order to comply with the law of conservation of momentum, the braking radiation of charged particles is considered as the "third body". As opposed to this bremsstrahlung, radiation from vacuum will not have a preferred direction. Analytical expressions describing the radiation characteristics were obtained using a semi-classical method. The calculated values of the energy and intensity of radiation from vacuum demonstrate the possibility of using optical methods to determine the characteristics of such radiation in strong electric or magnetic fields. The results of the work can be used in studies of astrophysical objects with powerful electric or magnetic fields, as well as in investigations of physical vacuum states under laboratory conditions.
翻訳日:2023-11-22 14:38:36 公開日:2023-11-16
# 顧客レビューの感性分類のためのBERTに基づくアンサンブルアプローチと電子商取引におけるNudge Marketingへの応用

A BERT based Ensemble Approach for Sentiment Classification of Customer Reviews and its Application to Nudge Marketing in e-Commerce ( http://arxiv.org/abs/2311.10782v1 )

ライセンス: Link先を確認
Sayan Putatunda and Anwesha Bhowmik and Girish Thiruvenkadam and Rahul Ghosh(参考訳) 文献によると、 製品レビューは、顧客が購入決定をサポートするための重要な情報源である。 製品レビューは顧客の信頼と忠誠を改善します。 レビューは、顧客が他の顧客が特定の製品について何を考えているかを理解するのに役立つ。 したがって、eコマースプラットフォームでは、製品やサービスを理解するために、顧客レビューの感情を理解することが重要です。 レビューはまた、Eコマース企業の製品を販売する革新的な方法を提供する。 そのようなアプローチのひとつがNudge Marketingです。 nudge marketingは、顧客が迷わずにより良い意思決定をしてくれるeコマース企業にとって、微妙な方法だ。

According to the literature, Product reviews are an important source of information for customers to support their buying decision. Product reviews improve customer trust and loyalty. Reviews help customers in understanding what other customers think about a particular product and helps in driving purchase decisions. Therefore, for an e-commerce platform it is important to understand the sentiments in customer reviews to understand their products and services, and it also allows them to potentially create positive consumer interaction as well as long lasting relationships. Reviews also provide innovative ways to market the products for an ecommerce company. One such approach is Nudge Marketing. Nudge marketing is a subtle way for an ecommerce company to help their customers make better decisions without hesitation.
翻訳日:2023-11-22 14:38:20 公開日:2023-11-16
# 言語モデルモデレーターはオンライン談話の健康を改善するか?

Can Language Model Moderators Improve the Health of Online Discourse? ( http://arxiv.org/abs/2311.10781v1 )

ライセンス: Link先を確認
Hyundong Cho, Shuai Liu, Taiwei Shi, Darpan Jain, Basem Rizk, Yuyang Huang, Zixun Lu, Nuan Wen, Jonathan Gratch, Emilio Ferrara, Jonathan May(参考訳) オンライン会話の人間のモデレーションは、市民性を維持し、対話に集中するために不可欠であるが、モデレーターにとってスケールし、有害である。 高度な自然言語生成モジュールを力の乗算支援モデレーターとして組み込むことは、驚くべき見通しであるが、適切な評価アプローチは、これまでは解明されてきた。 本稿では,社会科学の知見を取り入れた多分野レンズによる会話モデレーションの有効性の体系的定義を確立する。 次に,この定義を用いて,人間の介入とは無関係にモデルのモデレーション能力を評価する総合評価フレームワークを提案する。 本フレームワークでは,対話型対話モデルをモデレーターとして初となる研究を行い,有害な行動に対して適切なフィードバックを与えることができるが,ユーザの尊敬度や協力度を高めるのに苦慮していることが分かった。

Human moderation of online conversation is essential to maintaining civility and focus in a dialogue, but is challenging to scale and harmful to moderators. The inclusion of sophisticated natural language generation modules as a force multiplier aid moderators is a tantalizing prospect, but adequate evaluation approaches have so far been elusive. In this paper, we establish a systematic definition of conversational moderation effectiveness through a multidisciplinary lens that incorporates insights from social science. We then propose a comprehensive evaluation framework that uses this definition to asses models' moderation capabilities independently of human intervention. With our framework, we conduct the first known study of conversational dialogue models as moderators, finding that appropriately prompted models can provide specific and fair feedback on toxic behavior but struggle to influence users to increase their levels of respect and cooperation.
翻訳日:2023-11-22 14:38:07 公開日:2023-11-16
# ピアスワイズ線形活性化関数の大ファミリーへのニューラルネットワーク検証の拡張

Extending Neural Network Verification to a Larger Family of Piece-wise Linear Activation Functions ( http://arxiv.org/abs/2311.10780v1 )

ライセンス: Link先を確認
L\'aszl\'o Antal (RWTH Aachen University), Hana Masara (RWTH Aachen University), Erika \'Abrah\'am (RWTH Aachen University)(参考訳) 本稿では,より広い範囲の線形活性化関数をサポートするために,利用可能なニューラルネットワーク検証手法を拡張する。 さらに,開始集合として表される有界入力集合に対して,元の形式を正確にオーバー近似するアルゴリズムを拡張し,非有界入力集合も許容する。 我々はアルゴリズムを実装し、いくつかのケーススタディでその効果を実証した。

In this paper, we extend an available neural network verification technique to support a wider class of piece-wise linear activation functions. Furthermore, we extend the algorithms, which provide in their original form exact respectively over-approximative results for bounded input sets represented as start sets, to allow also unbounded input set. We implemented our algorithms and demonstrated their effectiveness in some case studies.
翻訳日:2023-11-22 14:37:51 公開日:2023-11-16
# 知識プラグイン:ドメイン特化レコメンデーションのための大規模言語モデルの強化

Knowledge Plugins: Enhancing Large Language Models for Domain-Specific Recommendations ( http://arxiv.org/abs/2311.10779v1 )

ライセンス: Link先を確認
Jing Yao, Wei Xu, Jianxun Lian, Xiting Wang, Xiaoyuan Yi and Xing Xie(参考訳) 大規模言語モデル(LLM)の大幅な進歩は、様々な実用アプリケーションのための人間のようなシステムを構築するための有望な機会を提供する。 しかし、特定のタスク領域に適用される場合、汎用コーパスで事前訓練されたllmは、2種類のドメイン固有の知識において不足または不足を示す可能性がある。 ひとつは包括的なドメインデータの集合で、通常は大規模で継続的に進化する。 もうひとつは、データに反映されたこのドメインの特定のワーキングパターンです。 このような知識の欠如や不十分さはLLMのパフォーマンスに影響を及ぼす。 本稿では,DOmain-specific KnowledgE を用いて LLM を拡張し,その実用性,すなわち DOKE の性能を向上させるための一般化パラダイムを提案する。 このパラダイムはドメイン知識抽出に頼り、3つのステップで作業します。 1) 業務に有効な知識を準備すること 2) 特定のサンプルごとに知識を選択すること,及び 3) LLMで理解可能な方法で知識を表現すること。 そして、抽出した知識は、モデル微調整の計算コストを伴わず、プロンプトを通じて組み込まれる。 批判的項目属性と協調的フィルタリング信号が組み込まれている,広範なアプリケーション,すなわちレコメンダシステム上で,一般的なパラダイムをインスタンス化する。 実験により,DOKEは特定の領域におけるLLMの性能を大幅に向上できることが示された。

The significant progress of large language models (LLMs) provides a promising opportunity to build human-like systems for various practical applications. However, when applied to specific task domains, an LLM pre-trained on a general-purpose corpus may exhibit a deficit or inadequacy in two types of domain-specific knowledge. One is a comprehensive set of domain data that is typically large-scale and continuously evolving. The other is specific working patterns of this domain reflected in the data. The absence or inadequacy of such knowledge impacts the performance of the LLM. In this paper, we propose a general paradigm that augments LLMs with DOmain-specific KnowledgE to enhance their performance on practical applications, namely DOKE. This paradigm relies on a domain knowledge extractor, working in three steps: 1) preparing effective knowledge for the task; 2) selecting the knowledge for each specific sample; and 3) expressing the knowledge in an LLM-understandable way. Then, the extracted knowledge is incorporated through prompts, without any computational cost of model fine-tuning. We instantiate the general paradigm on a widespread application, i.e. recommender systems, where critical item attributes and collaborative filtering signals are incorporated. Experimental results demonstrate that DOKE can substantially improve the performance of LLMs in specific domains.
翻訳日:2023-11-22 14:37:44 公開日:2023-11-16
# uHD:軽量・動的超次元計算のための一元処理

uHD: Unary Processing for Lightweight and Dynamic Hyperdimensional Computing ( http://arxiv.org/abs/2311.10778v1 )

ライセンス: Link先を確認
Sercan Aygun, Mehran Shoushtari Moghadam, M. Hassan Najafi(参考訳) hyperdimensional computing (hdc) は超ベクトルと呼ばれる長次元ベクトルを操作する新しい計算パラダイムである。 ハイパーベクターは長いビットストリームとして構築され、HDCシステムの基本的な構成要素を形成する。 hdcでは、超ベクトルはビットの意味を考慮せずにスカラー値から生成される。 HDCはコンピュータビジョンタスクを含む様々なデータ処理アプリケーションにおいて効率的で堅牢であることが示されている。 視覚アプリケーションのためのhdcモデルを構築するために、現在の最先端のプラクティスでは、データエンコーディングに2つのパラメータ(ピクセル強度とピクセル位置)を使用している。 しかし、高次元ベクトルに埋め込まれた強度と位置情報は一般にHDCモデルでは動的に生成されない。 したがって、モデル精度の高いハイパーベクトルの最適設計には、トレーニングのための強力なコンピューティングプラットフォームが必要である。 ハイパーベクトルを生成するためのより効率的なアプローチは、トレーニングフェーズ中に動的に生成することで、精度が高く、低コストで、高性能なベクトルを生成する。 この目的のために, 位置超ベクトルを回避しつつ, 低分散配列を用いて強度超ベクトルのみを生成する。 これにより、ベクトル符号化における乗算ステップが排除され、電力効率の良いhdcシステムとなる。 本稿では,従来のコンパレータベースジェネレータの代わりに,単一ビットストリームを用いた軽量なベクトルジェネレータを用いて,データの効率的な符号化を行う。

Hyperdimensional computing (HDC) is a novel computational paradigm that operates on long-dimensional vectors known as hypervectors. The hypervectors are constructed as long bit-streams and form the basic building blocks of HDC systems. In HDC, hypervectors are generated from scalar values without taking their bit significance into consideration. HDC has been shown to be efficient and robust in various data processing applications, including computer vision tasks. To construct HDC models for vision applications, the current state-of-the-art practice utilizes two parameters for data encoding: pixel intensity and pixel position. However, the intensity and position information embedded in high-dimensional vectors are generally not generated dynamically in the HDC models. Consequently, the optimal design of hypervectors with high model accuracy requires powerful computing platforms for training. A more efficient approach to generating hypervectors is to create them dynamically during the training phase, which results in accurate, low-cost, and highly performable vectors. To this aim, we use low-discrepancy sequences to generate intensity hypervectors only, while avoiding position hypervectors. By doing so, the multiplication step in vector encoding is eliminated, resulting in a power-efficient HDC system. For the first time in the literature, our proposed approach employs lightweight vector generators utilizing unary bit-streams for efficient encoding of data instead of using conventional comparator-based generators.
翻訳日:2023-11-22 14:37:26 公開日:2023-11-16
# 化学合成における反応条件推薦のための自動aiエージェントの開発

Towards an Automatic AI Agent for Reaction Condition Recommendation in Chemical Synthesis ( http://arxiv.org/abs/2311.10776v1 )

ライセンス: Link先を確認
Kexin Chen, Junyou Li, Kunyi Wang, Yuyang Du, Jiahui Yu, Jiamin Lu, Guangyong Chen, Lanqing Li, Jiezhong Qiu, Qun Fang, Pheng Ann Heng(参考訳) 反応条件最適化のための人工知能(AI)は、データ駆動型AIモデルが医薬品の発見と反応設計の加速を支援することを考えると、製薬業界において重要なトピックとなっている。 しかし、既存のAIモデルは、経験豊富な化学者の化学的洞察とリアルタイム知識獲得能力に欠ける。 本稿では,このギャップを埋めるために,Large Language Model (LLM) を利用したAIエージェントを提案する。 そこで我々は,AIエージェントが人間の洞察を借り,最新の化学文献を検索して知識を更新できるように,新しい3段階のパラダイムを提案し,インコンテキスト学習やマルチLLM議論のような高度な知能向上手法を適用した。 また, 反応条件の最適化において, エージェントの性能を大幅に向上させる新しい粗ラベルコントラスト学習(ccl)ベースの化学指紋を導入する。 上記の取り組みにより、提案したAIエージェントは、人間の相互作用なしに最適な反応条件の推薦を自律的に生成することができる。 さらに、この剤は化学反応の点で非常にプロフェッシブである。 乾板実験と湿板実験の両方において、人間に近い性能と強い一般化能力を示す。 化学AIエージェントの最初の試みとして、この研究は「化学のためのAI」の分野をさらに前進させ、コンピュータ支援合成計画の新しい可能性を開く。

Artificial intelligence (AI) for reaction condition optimization has become an important topic in the pharmaceutical industry, given that a data-driven AI model can assist drug discovery and accelerate reaction design. However, existing AI models lack the chemical insights and real-time knowledge acquisition abilities of experienced human chemists. This paper proposes a Large Language Model (LLM) empowered AI agent to bridge this gap. We put forth a novel three-phase paradigm and applied advanced intelligence-enhancement methods like in-context learning and multi-LLM debate so that the AI agent can borrow human insight and update its knowledge by searching the latest chemical literature. Additionally, we introduce a novel Coarse-label Contrastive Learning (CCL) based chemical fingerprint that greatly enhances the agent's performance in optimizing the reaction condition. With the above efforts, the proposed AI agent can autonomously generate the optimal reaction condition recommendation without any human interaction. Further, the agent is highly professional in terms of chemical reactions. It demonstrates close-to-human performance and strong generalization capability in both dry-lab and wet-lab experiments. As the first attempt in the chemical AI agent, this work goes a step further in the field of "AI for chemistry" and opens up new possibilities for computer-aided synthesis planning.
翻訳日:2023-11-22 14:36:37 公開日:2023-11-16
# 展開型継続的学習システムの保証

Assurance for Deployed Continual Learning Systems ( http://arxiv.org/abs/2311.10787v1 )

ライセンス: Link先を確認
Ari Goodman, Ryan O'Shea, Noam Hirschorn, Hubert Chrostowski(参考訳) 将来の海軍の成功は、部分的には人工知能に依存するだろう。 実際、多くの人工知能アルゴリズム、特にディープラーニングモデルは、動的環境におけるパフォーマンスを維持するために連続的な学習に依存している。 ソフトウェアは、目に見えない状況で最初のレベルのパフォーマンスを維持するために適応が必要である。 しかし、適切に監視されていない場合、継続学習は、トレーニングされたモデルが新しいデータで再訓練された際に、以前の学習されたタスクを忘れてしまう破滅的な忘れ込みなど、いくつかの問題を引き起こす可能性がある。 著者らは、この安全性フレームワークをディープラーニングコンピュータビジョンアルゴリズムと組み合わせることで、空母や水陸両用攻撃船の安全かつ高性能な自動デッキトラッキングを可能にする、安全な継続的学習のための新しいフレームワークを開発した。 安全性フレームワークには、画像分類を行うための畳み込みニューラルネットワークのアンサンブル、自信を記録し、アンサンブルから最良の回答を決定するマネージャ、システムが最小パフォーマンスのメトリクスを満たすことができないかどうかを予測する環境のモデル、ログシステムへのパフォーマンスモニタとドメインパフォーマンスと要求に対するチェック、アンサンブルとマネージャを更新してパフォーマンスを維持するリトレーニングコンポーネントなど、いくつかの機能が含まれている。 著者らは動的画像分類に基づく広範囲なシミュレーション研究を用いて提案手法を検証した。 著者らは、安全フレームワークが分布データから確率的に検出できることを示した。 結果は、システムがもはや正常に動作していないことを検知し、画像分類器の動作エンベロープを著しく拡張することができることも示している。

The future success of the Navy will depend, in part, on artificial intelligence. In practice, many artificially intelligent algorithms, and in particular deep learning models, rely on continual learning to maintain performance in dynamic environments. The software requires adaptation to maintain its initial level of performance in unseen situations. However, if not monitored properly, continual learning may lead to several issues including catastrophic forgetting in which a trained model forgets previously learned tasks when being retrained on new data. The authors created a new framework for safely performing continual learning with the goal of pairing this safety framework with a deep learning computer vision algorithm to allow for safe and high-performing automatic deck tracking on carriers and amphibious assault ships. The safety framework includes several features, such as an ensemble of convolutional neural networks to perform image classification, a manager to record confidences and determine the best answer from the ensemble, a model of the environment to predict when the system may fail to meet minimum performance metrics, a performance monitor to log system and domain performance and check against requirements, and a retraining component to update the ensemble and manager to maintain performance. The authors validated the proposed method using extensive simulation studies based on dynamic image classification. The authors showed the safety framework could probabilistically detect out of distribution data. The results also show the framework can detect when the system is no longer performing safely and can significantly extend the working envelope of an image classifier.
翻訳日:2023-11-22 14:22:08 公開日:2023-11-16
# medagents: ゼロショット医療推論のコラボレータとしての大規模言語モデル

MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning ( http://arxiv.org/abs/2311.10537v1 )

ライセンス: Link先を確認
Xiangru Tang, Anni Zou, Zhuosheng Zhang, Yilun Zhao, Xingyao Zhang, Arman Cohan, Mark Gerstein(参考訳) 大きな言語モデル(LLM)は、様々な一般領域で顕著な進歩を遂げているが、医療や医療において大きな障壁に直面している。 この分野はドメイン固有の用語や専門知識に対する推論といったユニークな課題に直面します。 これらの課題に対処するため、我々は、協調的な多ラウンド議論に参加するロールプレイング LLM エージェントを活用した医療領域のための新しい多分野連携(MC)フレームワークを提案する。 このトレーニングフリーで解釈可能なフレームワークは、ドメインエキスパートの収集、個人分析の提案、これらの分析をレポートにまとめ、コンセンサスに達するまで議論を反復し、最終的に決定する、という5つの重要なステップを包含する。 我々の研究は,9つのデータセット(MedQA, MedMCQA, PubMedQA, MMLUの6つのサブタスク)について行った結果から, LLMにおける医学的専門知識のマイニングと活用に優れたMCフレームワークであることが確認された。 これらの結果に基づいて,本手法の一般的な誤りの特定と分類を行うとともに,様々な要因が全体的な性能に与える影響を理解するためのアブレーション研究を行う。 我々のコードは \url{https://github.com/gersteinlab/MedAgents} にある。

Large Language Models (LLMs), despite their remarkable progress across various general domains, encounter significant barriers in medicine and healthcare. This field faces unique challenges such as domain-specific terminologies and the reasoning over specialized knowledge. To address these obstinate issues, we propose a novel Multi-disciplinary Collaboration (MC) framework for the medical domain that leverages role-playing LLM-based agents who participate in a collaborative multi-round discussion, thereby enhancing LLM proficiency and reasoning capabilities. This training-free and interpretable framework encompasses five critical steps: gathering domain experts, proposing individual analyses, summarising these analyses into a report, iterating over discussions until a consensus is reached, and ultimately making a decision. Our work particularly focuses on the zero-shot scenario, our results on nine data sets (MedQA, MedMCQA, PubMedQA, and six subtasks from MMLU) establish that our proposed MC framework excels at mining and harnessing the medical expertise in LLMs, as well as extending its reasoning abilities. Based on these outcomes, we further conduct a human evaluation to pinpoint and categorize common errors within our method, as well as ablation studies aimed at understanding the impact of various factors on overall performance. Our code can be found at \url{https://github.com/gersteinlab/MedAgents}.
翻訳日:2023-11-20 14:32:37 公開日:2023-11-16
# 単一量子回路の合成と算術

Synthesis and Arithmetic of Single Qutrit Circuits ( http://arxiv.org/abs/2311.08696v2 )

ライセンス: Link先を確認
Amolak Ratan Kalra, Dinesh Valluri, Michele Mosca(参考訳) 本稿では、clifford+$\mathcal{d}$ gate set 上の単語からなる単一量子回路について研究し、ここで $\mathcal{d}$ は、$\text{diag}(\pm\xi^{a},\pm\xi^{b},\pm\xi^{c}) という形のサイクロトミックゲートからなる。 我々は、$\chi := 1 - \xi に対して最小の分母指数(sde)を減少させる可能性に基づいて、$\mathbb{Z}[\xi, \frac{1}{\chi}]$のエントリを持つクォート単位ベクトルのクラス $z$ を Clifford+$\mathcal{D}$ の適切なゲートを作用させることにより特徴づける。 我々は、$\mathbb{Z}[\xi]$ の任意の元の ‘デリバティブ mod $3$' の概念を研究し、それを使って$HDz$ の最小の分母指数を研究し、$H$ は qutrit Hadamard gate と $D \in \mathcal{D} である。 さらに、与えられたスデーのすべての単位ベクトルを見つける問題は、いくつかの追加の制約とともに正定値二次形式の積分解を見つける問題に還元する。 その結果、clifford + $\mathcal{d}$ gates は sde $0$ と sde $ u(3,\mathbb{z}[\xi, \frac{1}{\chi}])$ of $3 \times 3$ unitaries with entry in $\mathbb{z}[\xi, \frac{1}{\chi}]$ のゲートとして自然に発生する。

In this paper we study single qutrit quantum circuits consisting of words over the Clifford+ $\mathcal{D}$ gate set, where $\mathcal{D}$ consists of cyclotomic gates of the form $\text{diag}(\pm\xi^{a},\pm\xi^{b},\pm\xi^{c}),$ where $\xi$ is a primitive $9$-th root of unity and $a,b,c$ are integers. We characterize classes of qutrit unit vectors $z$ with entries in $\mathbb{Z}[\xi, \frac{1}{\chi}]$ based on the possibility of reducing their smallest denominator exponent (sde) with respect to $\chi := 1 - \xi,$ by acting an appropriate gate in Clifford+$\mathcal{D}$. We do this by studying the notion of `derivatives mod $3$' of an arbitrary element of $\mathbb{Z}[\xi]$ and using it to study the smallest denominator exponent of $HDz$ where $H$ is the qutrit Hadamard gate and $D \in \mathcal{D}.$ In addition, we reduce the problem of finding all unit vectors of a given sde to that of finding integral solutions of a positive definite quadratic form along with some additional constraints. As a consequence we prove that the Clifford + $\mathcal{D}$ gates naturally arise as gates with sde $0$ and $3$ in the group $U(3,\mathbb{Z}[\xi, \frac{1}{\chi}])$ of $3 \times 3$ unitaries with entries in $\mathbb{Z}[\xi, \frac{1}{\chi}]$
翻訳日:2023-11-20 10:09:41 公開日:2023-11-16
# 臨床展開後のディープラーニングモデルの性能劣化 : 前立腺癌に対するオートセグメンテーションを応用した症例

Performance Deterioration of Deep Learning Models after Clinical Deployment: A Case Study with Auto-segmentation for Definitive Prostate Cancer Radiotherapy ( http://arxiv.org/abs/2210.05673v2 )

ライセンス: Link先を確認
Biling Wang, Michael Dohopolski, Ti Bai, Junjie Wu, Raquibul Hannan, Neil Desai, Aurelie Garant, Daniel Yang, Dan Nguyen, Mu-Han Lin, Robert Timmerman, Xinlei Wang, Steve Jiang(参考訳) 前立腺放射線治療における深層学習(DL)に基づく人工知能(AI)モデルの時間的性能評価を行い,その効果と臨床像の変化との関連性を検討した。 2006年1月から2022年8月まで,テキサス大学サウスウェスタン医療センターにて放射線治療を受けた前立腺癌1328例について検討した。 我々は、2006年から2011年までのデータに基づいてUNetベースのセグメンテーションモデルをトレーニングし、2012年から2022年までのデータに基づいて実世界の臨床展開をシミュレートした。 我々はDice similarity coefficient (DSC) を用いてモデル性能を測定し,指数重み付き移動平均(EMA)曲線を用いて輪郭品質の傾向を可視化した。 また,各期間間のdsc分布の差異を解析するためにウィルコクソンランクサムテストを行い,各種臨床因子の影響について検討した。 このモデルでは,前立腺,直腸,膀胱を分節する最初の段階(2012年から2014年まで)でピーク性能を示した。 しかし,2015年以降,前立腺と直腸のパフォーマンスは著しく低下し,膀胱の輪郭品質は安定していた。 前立腺輪郭品質に影響を及ぼす主な要因は,医師のコントラスト,ハイドロゲルスペーサの使用,ctスキャンスライス厚,mriガイドドコントーリング,静脈内コントラストの使用であった。 構造輪郭の品質はスライス厚,医師のコンチューリングスタイル,各種ハイドロゲルスペーサーの使用などの影響を受けていた。 膀胱の輪郭品質はIVコントラストによる影響が大きかった。 この研究は、動的臨床環境でAIモデルのパフォーマンス一貫性を維持する上での課題を強調する。 aiモデルの継続的な監視とアップデートの必要性を強調し、患者ケアにおける継続的な効果と妥当性を保証する。

We evaluated the temporal performance of a deep learning (DL) based artificial intelligence (AI) model for auto segmentation in prostate radiotherapy, seeking to correlate its efficacy with changes in clinical landscapes. Our study involved 1328 prostate cancer patients who underwent definitive radiotherapy from January 2006 to August 2022 at the University of Texas Southwestern Medical Center. We trained a UNet based segmentation model on data from 2006 to 2011 and tested it on data from 2012 to 2022 to simulate real world clinical deployment. We measured the model performance using the Dice similarity coefficient (DSC), visualized the trends in contour quality using exponentially weighted moving average (EMA) curves. Additionally, we performed Wilcoxon Rank Sum Test to analyze the differences in DSC distributions across distinct periods, and multiple linear regression to investigate the impact of various clinical factors. The model exhibited peak performance in the initial phase (from 2012 to 2014) for segmenting the prostate, rectum, and bladder. However, we observed a notable decline in performance for the prostate and rectum after 2015, while bladder contour quality remained stable. Key factors that impacted the prostate contour quality included physician contouring styles, the use of various hydrogel spacer, CT scan slice thickness, MRI-guided contouring, and using intravenous (IV) contrast. Rectum contour quality was influenced by factors such as slice thickness, physician contouring styles, and the use of various hydrogel spacers. The bladder contour quality was primarily affected by using IV contrast. This study highlights the challenges in maintaining AI model performance consistency in a dynamic clinical setting. It underscores the need for continuous monitoring and updating of AI models to ensure their ongoing effectiveness and relevance in patient care.
翻訳日:2023-11-18 02:54:39 公開日:2023-11-16
# 連続可変量子メモリの検証

Verification of Continuous-Variable Quantum Memories ( http://arxiv.org/abs/2305.07513v2 )

ライセンス: Link先を確認
Paolo Abiuso(参考訳) 適切な量子メモリは、測定の後に古典的情報ストレージと最終的な状態準備、すなわち絡み合い破壊(eb)チャネルでシミュレートできない量子チャネルを構成すると議論される。 量子メモリ(非EBチャネル)の検証は、誠実なユーザが信頼できないリモートプロバイダの量子メモリをテストしようとするタスクである。 このタスクは本質的に、信頼できる量子入力を持つプロトコルのクラスに適しており、しばしば測定デバイス非依存(MDI)プロトコルと呼ばれる。 本稿では,連続可変(CV)システムにおける非EBチャネルのMDI認証について検討する。 敵対的metrologyに基づく単純な証人を提供し、すべての非ガウス的非互換性破壊量子記憶の検証に使用できる実験的にフレンドリーなプロトコルを記述する。 我々の結果は現在の技術でテストでき、CV量子トランスデューサや伝送線路などの非EBチャネルを生じる他のデバイスをテストするために応用できる。

A proper quantum memory is argued to consist in a quantum channel which cannot be simulated with a measurement followed by classical information storage and a final state preparation, i.e. an entanglement breaking (EB) channel. The verification of quantum memories (non-EB channels) is a task in which an honest user wants to test the quantum memory of an untrusted, remote provider. This task is inherently suited for the class of protocols with trusted quantum inputs, sometimes called measurement-device-independent (MDI) protocols. Here, we study the MDI certification of non-EB channels in continuous variable (CV) systems. We provide a simple witness based on adversarial metrology, and describe an experimentally friendly protocol that can be used to verify all non Gaussian incompatibility breaking quantum memories. Our results can be tested with current technology and can be applied to test other devices resulting in non-EB channels, such as CV quantum transducers and transmission lines.
翻訳日:2023-11-18 01:19:52 公開日:2023-11-16
# 動的位相図探索のための制御パラメータとしての緩和時間

Relaxation time as a control parameter for exploring dynamical phase diagrams ( http://arxiv.org/abs/2305.04643v2 )

ライセンス: Link先を確認
\'Angel L. Corps, Pedro P\'erez-Fern\'andez, Armando Rela\~no(参考訳) 制御パラメータとして緩和時間に依存するダブルクエンチプロトコルを用いて,完全な動的位相図を探索する。 このプロトコルは、2つの固定クエンチと、量子状態が最終クエンチの後に置かれる位相を決定する中間緩和時間とからなる。 アンハーモニック・リプキン-メシュコフ-グリックモデルに適用する。 このモデルは、スペクトルを3つの異なる位相に分割する2つの励起状態量子相遷移を示す。 その結果,本プロトコルはいくつかの動的相転移を誘導する。 これら全てを、モデルの3つのフェーズ全てを特徴付ける動きの定数の観点から特徴づける。

We explore a full dynamical phase diagram by means of a double quench protocol that depends on a relaxation time as the only control parameter. The protocol comprises two fixed quenches and an intermediate relaxation time that determines the phase in which the quantum state is placed after the final quench. We apply it to an anharmonic Lipkin-Meshkov-Glick model. This model displays two excited-state quantum phase transitions which split the spectrum into three different phases: two of them are symmetry-breaking phases, and one is a disordered phase. As a consequence, our protocol induces several kind of dynamical phase transitions. We characterize all of them in terms of the constants of motion characterizing all three phases of the model.
翻訳日:2023-11-18 01:19:36 公開日:2023-11-16
# ai制御fes-rerestoration of movement--強化学習によるサイクリング刺激パターンの学習

Towards AI-controlled FES-restoration of movements: Learning cycling stimulation pattern with reinforcement learning ( http://arxiv.org/abs/2303.09986v3 )

ライセンス: Link先を確認
Nat Wannawas, A. Aldo Faisal(参考訳) 機能的電気刺激(fes)はロボットを含む他のリハビリデバイスと統合されつつある。 FESサイクリングはリハビリテーションにおける一般的なFES応用の1つであり、特定のパターンで脚の筋肉を刺激することによって行われる。 適切なパターンは個人によって異なり、個々のユーザにとって時間と困難を伴う手動チューニングが必要になる。 ここでは、余分なハードウェアやセンサーを必要としないパターンを見つけるためのAIベースの手法を提案する。 本手法は強化学習と詳細な筋骨格モデルを用いたモデルベースパターンの探索から始める2つのフェーズを有する。 モデルはオープンソースソフトウェアを使って構築されており、私たちの自動化されたスクリプトでカスタマイズすることができます。 次に,実際のサイクリングデータを用いてパターンを微調整する。 シミュレーションと実験の両方を定常三輪車でテストします。 シミュレーションテストでは,異なるサイクリング構成のモデルに基づくパターンを頑健に提供することができる。 実験により,本手法はEMGパターンよりも高速なサイクリング速度を誘導するモデルに基づくパターンを見つけることができることがわかった。 100秒のサイクリングデータを使用することで、より優れたサイクリングパフォーマンスを実現するための微調整パターンを提供できる。 FESサイクリング以外にも、この研究は実世界のリハビリテーションにおける人間のループ内AIの可能性と可能性を示す展示会である。

Functional electrical stimulation (FES) has been increasingly integrated with other rehabilitation devices, including robots. FES cycling is one of the common FES applications in rehabilitation, which is performed by stimulating leg muscles in a certain pattern. The appropriate pattern varies across individuals and requires manual tuning which can be time-consuming and challenging for the individual user. Here, we present an AI-based method for finding the patterns, which requires no extra hardware or sensors. Our method has two phases, starting with finding model-based patterns using reinforcement learning and detailed musculoskeletal models. The models, built using open-source software, can be customised through our automated script and can be therefore used by non-technical individuals without extra cost. Next, our method fine-tunes the pattern using real cycling data. We test our both in simulation and experimentally on a stationary tricycle. In the simulation test, our method can robustly deliver model-based patterns for different cycling configurations. The experimental evaluation shows that our method can find a model-based pattern that induces higher cycling speed than an EMG-based pattern. By using just 100 seconds of cycling data, our method can deliver a fine-tuned pattern that gives better cycling performance. Beyond FES cycling, this work is a showcase, displaying the feasibility and potential of human-in-the-loop AI in real-world rehabilitation.
翻訳日:2023-11-18 01:19:26 公開日:2023-11-16
# $\mathcal{pt}$-symmetric, non-hermitian quantum many-body physics --a methodological perspective

$\mathcal{PT}$-symmetric, non-Hermitian quantum many-body physics -- a methodological perspective ( http://arxiv.org/abs/2303.05956v2 )

ライセンス: Link先を確認
Volker Meden, Lukas Grunwald, Dante M. Kennes(参考訳) 我々は、パリティタイム($\mathcal{pt}$-)対称、非エルミート量子多体系を理論的に扱う方法について検討する。

We review the methodology to theoretically treat parity-time- ($\mathcal{PT}$-) symmetric, non-Hermitian quantum many-body systems... (For the full abstract see paper)
翻訳日:2023-11-18 01:19:04 公開日:2023-11-16
# 異常フロッケ位相相における波束のダイナミクスとエッジ輸送

Wave packet dynamics and edge transport in anomalous Floquet topological phases ( http://arxiv.org/abs/2302.08485v2 )

ライセンス: Link先を確認
Miguel F. Mart\'inez and F. Nur \"Unal(参考訳) 周期駆動下でのカイラルエッジモードの実現の可能性は、理論上も実験上も、特にチャーン数の消滅を特徴とするフラケット位相の異常により、大きな注目を集めている。 そこで我々は,ハニカム格子と実験的に関連する駆動プロトコルを周期的に変更し,様々なキャラクタのエッジモードを簡単なモデルで取得する。 幅広いパラメータの位相図を計算し、逆キラリティーを持つエッジ状態を含む準エネルギーギャップを持つ異常位相位相を復元する。 光学格子の単一部位制御の進歩により, 平衡では達成できないフロッケ位相構造において, エッジに局在する波状パケットのダイナミクスについて検討した。 我々は,同一バンド由来のエッジモードにおける輸送特性の解析を行うとともに,異なる準エネルギーとサブラティクスをサポートし,異なるキラル性を有する。 異常なフロケ位相は、一般にハルダン位相よりも強靭なキラルエッジ運動を生じさせる。 その結果,光格子中の超低温量子気体において,波束動力学と位相的エッジ状態の豊富な相互作用が多用できることがわかった。

The possibility of attaining chiral edge modes under periodic driving has spurred tremendous attention, both theoretically and experimentally, especially in light of anomalous Floquet topological phases that feature vanishing Chern numbers unlike any static counterpart. We here consider a periodically modulated honeycomb lattice and experimentally relevant driving protocols, which allows us to obtain edge modes of various character in a simple model. We calculate the phase diagram over a wide range of parameters and recover an anomalous topological phase with quasienergy gaps harbouring edge states with opposite chirality. Motivated by the advances in single-site control in optical lattices, we investigate wave packet dynamics localized at the edges in distinct Floquet topological regimes that cannot be achieved in equilibrium. We analyse transport properties in edge modes originating from the same bands, but with support at different quasienergies and sublattices as well as possessing different chiralities. We find that an anomalous Floquet topological phase can in general generate more robust chiral edge motion than a Haldane phase. Our results demonstrate that the rich interplay of wave packet dynamics and topological edge states can serve as a versatile tool in ultracold quantum gases in optical lattices.
翻訳日:2023-11-18 01:18:58 公開日:2023-11-16
# 低エネルギーQCDにおける最小絡み合いと創発対称性

Minimal Entanglement and Emergent Symmetries in Low-energy QCD ( http://arxiv.org/abs/2210.12085v2 )

ライセンス: Link先を確認
Qiaofeng Liu, Ian Low, Thomas Mehen(参考訳) 量子情報科学の観点からスピン1/2バリオンの低エネルギー散乱の研究を行い、絡み合い最小化と偶発的対称性の出現の相関に着目した。 SU(3)フレーバー対称性の下でオクテットとしてバリオン変換し、ピオン閾値以下の相互作用は、QCDの有効場理論(EFT)において接触作用素によって記述される。 2-to-2散乱には64のチャネルがあるにもかかわらず、EFT内の6つの独立演算子のみがSU(3)によって予測される。 我々は, SU(3) 対称チャネルにおける連続的絡み合い最小化が, EFT においてますます大きな励起対称性と相関していることを示す。 特に, 絡み込み抑制がSu(6), SO(8), SU(8), SU(16)対称性を示す散乱チャネルを同定した。 また,非相対論的共形不変性の出現を非自然に大きな散乱長を持つチャネルで観測した。 格子シミュレーションによる精度の向上は、低エネルギーQCDにおける絡み合い抑制の度合い、結果として偶然対称性の量を決定するのに役立つ。

We study low-energy scattering of spin-1/2 baryons from the perspective of quantum information science, focusing on the correlation between entanglement minimization and the appearance of accidental symmetries. The baryon transforms as an octet under the SU(3) flavor symmetry and its interactions below the pion threshold are described by contact operators in an effective field theory (EFT) of QCD. Despite there being 64 channels in the 2-to-2 scattering, only six independent operators in the EFT are predicted by SU(3). We show that successive entanglement minimization in SU(3)-symmetric channels are correlated with increasingly large emergent symmetries in the EFT. In particular, we identify scattering channels whose entanglement suppression are indicative of emergent SU(6), SO(8), SU(8), and SU(16) symmetries. We also observe the appearance of non-relativistic conformal invariance in channels with unnaturally large scattering lengths. Improved precision from lattice simulations could help determine the degree of entanglement suppression, and consequently the amount of accidental symmetry, in low-energy QCD.
翻訳日:2023-11-18 01:18:39 公開日:2023-11-16
# 乱れたハイゼンベルク鎖における生成状態の再生

Reviving product states in the disordered Heisenberg chain ( http://arxiv.org/abs/2210.03153v2 )

ライセンス: Link先を確認
Henrik Wilming, Tobias J. Osborne, Kevin S.C. Decker, Christoph Karrasch(参考訳) 一般的な量子系が単純な初期条件で準備された場合、通常は熱アンサンブルによって記述できる状態に向かって平衡する。 既知の例外は、非エルゴードで熱化しない局所的なシステムであるが、局所的な可観測性は依然として定常化していると考えられている。 ここでは、全波動関数の周期的高忠実度再現と無期限に振動する局所可観測性を備えた積状態を構築して、この全体像が不完全であることを示す。 システムは平衡も熱化もしない。 これは多体傷による弱いエルゴード性破壊現象と類似しており、絡み合いエントロピーの対数的成長のような現在のMBL現象学の課題である。 我々の主張を支持するために、解析的議論と、乱れたハイゼンベルク連鎖に対する大規模テンソルネットワーク数値を組み合わせる。 実験結果は,機械精度まで160箇所のチェーンで任意に長時間継続した。

When a generic quantum system is prepared in a simple initial condition, it typically equilibrates toward a state that can be described by a thermal ensemble. A known exception are localized systems which are non-ergodic and do not thermalize, however local observables are still believed to become stationary. Here we demonstrate that this general picture is incomplete by constructing product states which feature periodic high-fidelity revivals of the full wavefunction and local observables that oscillate indefinitely. The system neither equilibrates nor thermalizes. This is analogous to the phenomenon of weak ergodicity breaking due to many-body scars and challenges aspects of the current MBL phenomenology, such as the logarithmic growth of the entanglement entropy. To support our claim, we combine analytic arguments with large-scale tensor network numerics for the disordered Heisenberg chain. Our results hold for arbitrarily long times in chains of 160 sites up to machine precision.
翻訳日:2023-11-18 01:18:07 公開日:2023-11-16
# 量子スピンダイナミクスのための軌道分解ワイス場

Trajectory-Resolved Weiss Fields for Quantum Spin Dynamics ( http://arxiv.org/abs/2209.09409v2 )

ライセンス: Link先を確認
S. E. Begg, A. G. Green, and M. J. Bhaseen(参考訳) 古典的確率過程への厳密なマッピングを用いて、2次元および3次元の量子スピン系のダイナミクスを探索する。 近年の研究では、確率的に平均化されたWeiss場によって決定された平均場の進化に関するサンプリングの有効性について検討した。 ここでは,各確率軌跡を別々に取り込んだ即時ワイス場をサンプリングすることにより,このアプローチを著しく拡張できることを示す。 この軌道分解アプローチはサンプルをサンプルゆらぎに取り入れ、より長いシミュレーション時間を可能にする。 2次元および3次元量子イジングモデルにおけるクエンチに対するこのアプローチの有用性を実証する。 平均ワイス場が消滅する状況では特に有利であるが、軌道分解ワイス場はゼロではない。 我々は、軌跡分解されたワイス場をゲージ自由度として解釈できるゲージ-P位相空間アプローチへの接続について議論する。

We explore the dynamics of quantum spin systems in two and three dimensions using an exact mapping to classical stochastic processes. In recent work we explored the effectiveness of sampling around the mean field evolution as determined by a stochastically averaged Weiss field. Here, we show that this approach can be significantly extended by sampling around the instantaneous Weiss field associated with each stochastic trajectory taken separately. This trajectory-resolved approach incorporates sample to sample fluctuations and allows for longer simulation times. We demonstrate the utility of this approach for quenches in the two-dimensional and three-dimensional quantum Ising model. We show that the method is particularly advantageous in situations where the average Weiss-field vanishes, but the trajectory-resolved Weiss fields are non-zero. We discuss the connection to the gauge-P phase space approach, where the trajectory-resolved Weiss field can be interpreted as a gauge degree of freedom.
翻訳日:2023-11-18 01:17:50 公開日:2023-11-16
# マルコフ決定過程を用いた短期量子ネットワークプロトコルの設計と解析について

On the design and analysis of near-term quantum network protocols using Markov decision processes ( http://arxiv.org/abs/2207.03403v2 )

ライセンス: Link先を確認
Sumeet Khatri(参考訳) 量子インターネットは量子情報科学研究の最前線の1つである。 これは私たちのコミュニケーションや他のタスクの方法に革命をもたらし、現在の古典的なインターネットでは不可能なタスクを可能にするでしょう。 量子インターネットのバックボーンは、このような新しいアプリケーションを長距離で実行可能にするために、世界中に分散している。 現在、小さなスケールで量子ネットワークを実現するために実験的な進歩がなされているが、特に短期量子技術の限界を考慮して、絡み合いを分散する方法を理解するためには、多くの理論的研究が必要である。 この作業は、この目標への最初のステップを提供する。 本稿では,マルコフ決定過程(MDP)に基づく短期量子ネットワークの理論を概説し,MDPが特定の実装プラットフォームに依存しない短期量子ネットワークのプロトコルをモデル化するための,正確かつ体系的な数学的枠組みを提供することを示す。 まず,先行研究で導入された基本リンクに対するMDPの簡易化と,基本リンクに関するポリシーに関する新たな結果の提供から始める。 特に、よく知られたメモリ遮断ポリシーが最適であることを示す。 次に、基本リンクMDPを用いて量子ネットワークプロトコルを解析し、すべての基本リンクがアクティブになるのを待ち、エンドツーエンドリンクを作成する方法を示す。 次に、より洗練された量子ネットワークプロトコルを解析するのに有用な2つの基本リンクへのMDP形式の拡張を提供する。 ここでは、新しい結果として、期待された忠実度とエンドツーエンドリンクの待ち時間に関して最適な定常政策を与える線形プログラムを導出する。

The quantum internet is one of the frontiers of quantum information science research. It will revolutionize the way we communicate and do other tasks, and it will allow for tasks that are not possible using the current, classical internet. The backbone of a quantum internet is entanglement distributed globally in order to allow for such novel applications to be performed over long distances. Experimental progress is currently being made to realize quantum networks on a small scale, but much theoretical work is still needed in order to understand how best to distribute entanglement, especially with the limitations of near-term quantum technologies taken into account. This work provides an initial step towards this goal. In this work, we lay out a theory of near-term quantum networks based on Markov decision processes (MDPs), and we show that MDPs provide a precise and systematic mathematical framework to model protocols for near-term quantum networks that is agnostic to the specific implementation platform. We start by simplifying the MDP for elementary links introduced in prior work, and by providing new results on policies for elementary links. In particular, we show that the well-known memory-cutoff policy is optimal. Then we show how the elementary link MDP can be used to analyze a quantum network protocol in which we wait for all elementary links to be active before creating end-to-end links. We then provide an extension of the MDP formalism to two elementary links, which is useful for analyzing more sophisticated quantum network protocols. Here, as new results, we derive linear programs that give us optimal steady-state policies with respect to the expected fidelity and waiting time of the end-to-end link.
翻訳日:2023-11-18 01:17:30 公開日:2023-11-16
# SZXダイアグラムによる高レベル量子プログラムの符号化

Encoding High-level Quantum Programs as SZX-diagrams ( http://arxiv.org/abs/2206.09376v2 )

ライセンス: Link先を確認
Augustin Borgna (Universit\'e de Lorraine, Universit\'e Paris-Saclay), Rafael Romero (Universidad de Buenos Aires, Universidad de la Rep\'ublica-MEC)(参考訳) スケーラブルなZX計算は、量子状態間の線形写像を推論するために使われるコンパクトなグラフィカル言語である。 これらの図には複数のアプリケーションがありますが、ケースバイケースで構築する必要があります。 本稿では,線形依存型プロトキッパーd言語の断片として実装された量子プログラムをszxダイアグラムの族としてエンコードする手法を提案する。 我々は、変換可能なproto-quipper-dプログラムのサブセットを定義し、プログラムのサイズで線形に成長するダイアグラムとして非自明なアルゴリズムをエンコードできることを示す。

The Scalable ZX-calculus is a compact graphical language used to reason about linear maps between quantum states. These diagrams have multiple applications, but they frequently have to be constructed in a case-by-case basis. In this work we present a method to encode quantum programs implemented in a fragment of the linear dependently typed Proto-Quipper-D language as families of SZX-diagrams. We define a subset of translatable Proto-Quipper-D programs and show that our procedure is able to encode non-trivial algorithms as diagrams that grow linearly on the size of the program.
翻訳日:2023-11-18 01:17:03 公開日:2023-11-16
# 量子増幅望遠鏡のための最適量子ビット回路

Optimal qubit circuits for quantum-enhanced telescopes ( http://arxiv.org/abs/2108.01170v2 )

ライセンス: Link先を確認
Robert Czupryniak, John Steinmetz, Paul G. Kwiat, Andrew N. Jordan(参考訳) 量子エンハンス長ベースライン干渉法に使用できる2つの最適位相推定スキームを提案する。 分散エンタングルメントを用いることで、ベースライン上の伝送中に恒星光子の損失を除去することができる。 第一のプロトコルは非線形光学素子を用いたゲートのシーケンスであり、全ての可能な測定スキームに最適化され、クレージャ・ラオ境界を飽和させる。 第二のアプローチは既存のプロトコルの上に構築され、恒星光子の量子メモリへの到着時刻を符号化する。 改良したバージョンでは,アンシラキュービット数とゲート操作数を2倍に削減した。

We propose two optimal phase-estimation schemes that can be used for quantum-enhanced long-baseline interferometry. By using distributed entanglement, it is possible to eliminate the loss of stellar photons during transmission over the baselines. The first protocol is a sequence of gates using nonlinear optical elements, optimized over all possible measurement schemes to saturate the Cram\'er-Rao bound. The second approach builds on an existing protocol, which encodes the time of arrival of the stellar photon into a quantum memory. Our modified version reduces both the number of ancilla qubits and the number of gate operations by a factor of two.
翻訳日:2023-11-18 01:16:34 公開日:2023-11-16
# 実代数的品種数とそれを超えるもの:改良された境界と応用

Covering Number of Real Algebraic Varieties and Beyond: Improved Bounds and Applications ( http://arxiv.org/abs/2311.05116v2 )

ライセンス: Link先を確認
Yifan Zhang, Joe Kileel(参考訳) 実代数多様体の被覆数、多項式写像の像、半代数集合の上界を証明する。 境界はヨムディン・コンテの最もよく知られた一般化を著しく改善し、その証明ははるかに単純である。 その結果、この結果は多項式写像の像の管状近傍の体積と半代数集合の体積に新たな境界を与え、そこでは Lotz と Basu-Lerario の多様体は直接適用できない。 この理論を3つの主要なアプリケーションドメインに適用します。 まず、低ランクCPテンソルの被覆数に準最適境界を導出する。 次に,(一般)多項式最適化問題に対するスケッチ次元の境界を証明した。 最後に,本論文の最もよく知られた結果に合理性あるいはreluアクティベーションを用いたディープニューラルネットワークの一般化誤差境界を推定する。

We prove an upper bound on the covering number of real algebraic varieties, images of polynomial maps and semialgebraic sets. The bound remarkably improves the best known general bound by Yomdin-Comte, and its proof is much more straightforward. As a consequence, our result gives new bounds on the volume of the tubular neighborhood of the image of a polynomial map and a semialgebraic set, where results for varieties by Lotz and Basu-Lerario are not directly applicable. We apply our theory to three main application domains. Firstly, we derive a near-optimal bound on the covering number of low rank CP tensors. Secondly, we prove a bound on the sketching dimension for (general) polynomial optimization problems. Lastly, we deduce generalization error bounds for deep neural networks with rational or ReLU activations, improving or matching the best known results in the literature.
翻訳日:2023-11-18 01:08:07 公開日:2023-11-16
# ワッサーシュタイン空間における近似理論, 計算, 深層学習

Approximation Theory, Computing, and Deep Learning on the Wasserstein Space ( http://arxiv.org/abs/2310.19548v2 )

ライセンス: Link先を確認
Massimo Fornasier and Pascal Heid and Giacomo Enrico Sodini(参考訳) 有限標本からの無限次元空間における函数の近似の課題は、広く有意であると見なされている。 本研究では,確率空間上で定義されるソボレフ-滑らか関数の数値近似の難解問題を探索する。 我々の特に焦点は、関連する例となるワッサーシュタイン距離関数に焦点を当てている。 効率的なポイントワイズ評価に焦点をあてた既存の文献とは対照的に、我々は3つの機械学習に基づくアプローチを採用して機能近似を定義する新しいコースをグラフ化した。 1. 有限数の最適輸送問題の解法と対応するワッサーシュタインポテンシャルの計算。 2.wasserstein sobolev空間におけるtikhonov正規化による経験的リスク最小化 3. ティホノフ汎函数のオイラー・ラグランジュ方程式の弱形式を特徴づけるサドル点定式化による問題への対処。 理論的な貢献として,各解に対する一般化誤差に関する明示的かつ定量的な境界を与える。 証明では、計量ソボレフ空間の理論を利用し、最適な輸送法、変分計算法、大きな偏差境界法と組み合わせる。 数値実装では,ニューラルネットワークを基礎関数として適切に設計した。 これらのネットワークは多様な方法論を用いてトレーニングを行う。 このアプローチにより、トレーニング後に迅速に評価できる近似関数を得ることができる。 その結果, 構築的解は, 評価速度が同等の精度で著しく向上し, 最先端法を数桁上回った。

The challenge of approximating functions in infinite-dimensional spaces from finite samples is widely regarded as formidable. In this study, we delve into the challenging problem of the numerical approximation of Sobolev-smooth functions defined on probability spaces. Our particular focus centers on the Wasserstein distance function, which serves as a relevant example. In contrast to the existing body of literature focused on approximating efficiently pointwise evaluations, we chart a new course to define functional approximants by adopting three machine learning-based approaches: 1. Solving a finite number of optimal transport problems and computing the corresponding Wasserstein potentials. 2. Employing empirical risk minimization with Tikhonov regularization in Wasserstein Sobolev spaces. 3. Addressing the problem through the saddle point formulation that characterizes the weak form of the Tikhonov functional's Euler-Lagrange equation. As a theoretical contribution, we furnish explicit and quantitative bounds on generalization errors for each of these solutions. In the proofs, we leverage the theory of metric Sobolev spaces and we combine it with techniques of optimal transport, variational calculus, and large deviation bounds. In our numerical implementation, we harness appropriately designed neural networks to serve as basis functions. These networks undergo training using diverse methodologies. This approach allows us to obtain approximating functions that can be rapidly evaluated after training. Consequently, our constructive solutions significantly enhance at equal accuracy the evaluation speed, surpassing that of state-of-the-art methods by several orders of magnitude.
翻訳日:2023-11-18 01:07:52 公開日:2023-11-16
# 22nmFDSOICMOSの小型TIAによるモノリシック量子プロセッサのビット読み出し

A Compact TIA in 22nm FDSOI CMOS for Qubit Readout in Monolithic Quantum Processors ( http://arxiv.org/abs/2310.06792v2 )

ライセンス: Link先を確認
Domenico Zito, Tan Doan Nhut(参考訳) 本稿では,モノリシック量子プロセッサにおけるスピン量子ビット読み出し動作において,非常にコンパクトで十分な性能を有するインダクタレストランスインピーダンス増幅器(TIA)について報告する。 TIAは22nmのFDSOI CMOSファウントリー技術で設計され製造されている。 その結果、室温で13ghzの帯域幅を持つ103db{\omegaのトランインプデンスゲインを示し、極低温ではわずかに優れた性能を示すことが期待される。 消費電力は4.1mWである。 コア領域は0.00025mm2、すなわち、先行技術と比較して2桁ほど小さくなり、量子ビットサイズに近づくと、インダクタレスIAはモノリシック量子プロセッサのコンパクト化ソリューションとなる。

This paper reports an inductorless transimpedance amplifier (TIA) with very compact size and adequate performance for spin qubit readout operations in monolithic quantum processors. The TIA has been designed and fabricated in a 22nm FDSOI CMOS foundry technology commercially available. The measurement results show a transimpedance gain of 103 dB{\Omega} with a bandwidth of 13 GHz, at room temperature, and it is expected to exhibit slightly superior performance at cryogenic temperatures. The power consumption amounts to 4.1 mW. The core area amount to 0.00025 mm2, i.e., about two orders of magnitude smaller with respect to the prior-art works, and approaching the qubit size, which makes the inductorless TIA a compact enabling solution for monolithic quantum processors.
翻訳日:2023-11-18 01:07:29 公開日:2023-11-16
# 古典的暗号プリミティブにおける通信削減のための量子的アプローチ

A Quantum Approach for Reducing Communications in Classical Cryptographic Primitives ( http://arxiv.org/abs/2310.05213v2 )

ライセンス: Link先を確認
Jiayu Zhang(参考訳) 量子暗号は、古典的暗号では達成できないものを達成するのにどのように役立つのか? 本稿では,古典関数に対する簡潔なRSPV(succinct RSPV)という問題について考察する。 クライアントは関数入力としてランダムな$x$をサンプルし、プロトコルを使用して$f(x)$をサーバに送る。 さらに、(1)サーバが悪意のある場合には、パススペースで知っているものは、$f(x)$以下でなければならない; (2)通信は簡潔でなければならない(つまり、$f$を評価する実行時間とは独立している)。 この問題を古典暗号で解くには、強い暗号仮定が必要である。 意外なことに、より弱い仮定の下で量子技術でこの問題を解くことは可能である。 量子通信と計算を可能にすることで,ハッシュ関数の崩壊のみを仮定して,この問題に対するプロトコルを与える [unr16]。 我々の研究は、量子暗号が、新しいタイプの問題、すなわち、重大な古典暗号仮定を使わずに有意義なプリミティブにおける通信を減らすことで、古典暗号より優れているという興味深いメッセージを伝える。

How could quantum cryptography help us achieve what are not achievable in classical cryptography? In this work we consider the following problem, which we call succinct RSPV for classical functions (SRC). Suppose $f$ is a function described by a polynomial time classical Turing machine, which is public; the client would like to sample a random $x$ as the function input and use a protocol to send $f(x)$ to the server. What's more, (1) when the server is malicious, what it knows in the passing space should be no more than $f(x)$; (2) the communication should be succinct (that is, independent to the running time of evaluating $f$). Solving this problem in classical cryptography seems to require strong cryptographic assumptions. We show that, perhaps surprisingly, it's possible to solve this problem with quantum techniques under much weaker assumptions. By allowing for quantum communication and computations, we give a protocol for this problem assuming only collapsing hash functions [Unr16]. Our work conveys an interesting message that quantum cryptography could outperform classical cryptography in a new type of problems, that is, to reduce communications in meaningful primitives without using heavy classical cryptographic assumptions.
翻訳日:2023-11-18 01:07:15 公開日:2023-11-16
# 最適な契約を学習する:小さなアクションスペースを爆発させる方法

Learning Optimal Contracts: How to Exploit Small Action Spaces ( http://arxiv.org/abs/2309.09801v2 )

ライセンス: Link先を確認
Francesco Bacchiocchi, Matteo Castiglioni, Alberto Marchesi, Nicola Gatti(参考訳) 我々は、エージェントが好都合な結果につながるコストのかかる観察不能な行動を起こさせるために、プリンシパルが契約と呼ばれる成果依存の支払いスキームにコミットするプリンシパルエージェントの問題について検討する。 我々は、主成分が複数のラウンドの契約にコミットすることでエージェントと相互作用する問題の古典的(単ラウンド)バージョンの一般化を考える。 プリンシパルはエージェントに関する情報がなく、各ラウンドで達成された結果だけを観察することで最適な契約を学ばなければならない。 エージェントのアクション空間のサイズが小さい設定に焦点を当てる。 動作数が一定である場合,結果空間の大きさの多数の円多項式において,確率の高いほぼ最適契約を学習するアルゴリズムを設計する。 我々のアルゴリズムはZhuらによるオープンな問題を解く。 [2022]. さらに、プリンシパルが累積的効用を最大化することを目的とした関連するオンライン学習環境において、$\tilde{\mathcal{o}}(t^{4/5})$ regret boundを提供することもできる。

We study principal-agent problems in which a principal commits to an outcome-dependent payment scheme -- called contract -- in order to induce an agent to take a costly, unobservable action leading to favorable outcomes. We consider a generalization of the classical (single-round) version of the problem in which the principal interacts with the agent by committing to contracts over multiple rounds. The principal has no information about the agent, and they have to learn an optimal contract by only observing the outcome realized at each round. We focus on settings in which the size of the agent's action space is small. We design an algorithm that learns an approximately-optimal contract with high probability in a number of rounds polynomial in the size of the outcome space, when the number of actions is constant. Our algorithm solves an open problem by Zhu et al.[2022]. Moreover, it can also be employed to provide a $\tilde{\mathcal{O}}(T^{4/5})$ regret bound in the related online learning setting in which the principal aims at maximizing their cumulative utility, thus considerably improving previously-known regret bounds.
翻訳日:2023-11-18 01:06:54 公開日:2023-11-16
# Hilbert-P'olya Conjecture に対するハミルトニアン

A Hamiltonian for the Hilbert-P\'olya Conjecture ( http://arxiv.org/abs/2309.00405v2 )

ライセンス: Link先を確認
Enderalp Yakaboylu(参考訳) 半直線上の数作用素に基づいて、リーマンゼータ函数の零点によってディリクレ境界で固有函数が消えるベリー・ケイト・ハミルトンの類似性変換を導入する。 リーマン予想(RH)が真であれば、その固有値は非自明な零点の虚部に対応する。 さらに、導入されたハミルトニアンがヒルベルト-p\'olya予想におけるrhへのアプローチとして機能する可能性についても検討し、ハミルトニアンのすべての固有値の現実を証明できることを示した。 後者を示す試みとして、ディリクレ境界条件が自身を積分境界条件として表わすメルリン空間における有効ハミルトニアンを同定する。 実効的なハミルトニアンは berry-keating hamiltonian, $\hat{h}_\text{bk}$ に変換でき、$\hat{h}_\text{bk}$ が自己随伴である領域を変更することなく変換できる。 本質的に、リーマンゼータ函数の非自明な零点は自己随伴固有値問題 $\hat{H}_\text{BK} \, h_s (z) = \varepsilon_s \, h_s (z)$ から成り、積分境界条件 $\int_0^\infty dz \, (1+ e^z)^{-1} h_s(z) = 0$ に従う。

Based on the number operator on the half-line, we introduce a similarity transformation of the Berry-Keating Hamiltonian, whose eigenfunctions vanish at the Dirichlet boundary by the zeros of the Riemann zeta function. If the Riemann hypothesis (RH) holds true, then its eigenvalues correspond to the imaginary parts of the nontrivial zeros. Moreover, we explore the possibility of whether the introduced Hamiltonian can serve as an approach to the RH within the Hilbert-P\'olya conjecture, which can be shown by proving the reality of all the eigenvalues of the Hamiltonian. In an attempt to show the latter, we identify the effective Hamiltonian in the Mellin space, where the Dirichlet boundary condition manifests itself as an integral boundary condition. The effective Hamiltonian can be transformed into the Berry-Keating Hamiltonian, $\hat{H}_\text{BK}$, without altering the domain on which $\hat{H}_\text{BK}$ is self-adjoint. In essence, the nontrivial zeros of the Riemann zeta function follow from the self-adjoint eigenvalue problem, $\hat{H}_\text{BK} \, h_s (z) = \varepsilon_s \, h_s (z)$, subject to the integral boundary condition $\int_0^\infty dz \, (1+ e^z)^{-1} h_s(z) = 0$.
翻訳日:2023-11-18 01:05:45 公開日:2023-11-16
# 複製時間外相関器からの精製量子リアプノフ指数

Refined quantum Lyapunov exponents from replica out-of-time-order correlators ( http://arxiv.org/abs/2308.02392v3 )

ライセンス: Link先を確認
Dmitrii A. Trunin(参考訳) 対数的外秩序相関器に基づく量子カオスの新しい指標を提案する。 一方、この指標は半古典的極限における平均古典的リアプノフ指数を正しく再現し、量子カオスと古典的K系の定義を直接リンクする。 一方,2n$-fold keldysh輪郭上のレプリカトリックとシュウィンガー・ケルディッシュ図法を用いて解析的に計算することができる。 このアプローチを説明するために、量子猫マップを含むいくつかの1次元システムと、sachdev-ye-kitaevモデルを含む3つのパラダイム的大規模n$モデルを考える。 さらに、レプリカ間の相関関係は、従来の時間外コリケータに基づく推定よりもリアプノフ指数の大きさを小さくできることがわかった。

We suggest a new indicator of quantum chaos based on the logarithmic out-of-time-order correlator. On the one hand, this indicator correctly reproduces the average classical Lyapunov exponent in the semiclassical limit and directly links the definitions of quantum chaos and classical K-system. On the other hand, it can be analytically calculated using the replica trick and the Schwinger-Keldysh diagram technique on a $2n$-fold Keldysh contour. To illustrate this approach, we consider several one-dimensional systems, including the quantum cat map, and three paradigmatic large-$N$ models, including the Sachdev-Ye-Kitaev model. Furthermore, we find that correlations between replicas can reduce the magnitude of the Lyapunov exponent compared to estimates based on conventional out-of-time-order correlators.
翻訳日:2023-11-18 01:04:39 公開日:2023-11-16
# フルリングリンドラー真空におけるフェルミオン凝縮と平均エネルギー-運動量テンソル

Fermionic condensate and the mean energy-momentum tensor in the Fulling-Rindler vacuum ( http://arxiv.org/abs/2307.12809v2 )

ライセンス: Link先を確認
S. Bellucci, V. Kh. Kotanjyan, A. A. Saharian(参考訳) 一般空間次元における大規模ディラック場に対するフェルミオン型フリング・リンドラー真空の特性について検討する。 重要な局所特性として, フェルミイオン凝縮とエネルギー運動量テンソルの期待値を評価した。 再正規化はミンコフスキー真空に対する対応する期待値の減算に還元される。 フェルミオン凝縮は無質量場に対して消滅し、非零質量に対しては負であることが示されている。 スカラー場の場合とは異なり、フェルミイオン真空応力は質量場の一般的な場合では等方性である。 エネルギー密度と圧力は負である。 無質量場の場合、対応するスペクトル分布は標準unruh温度で熱的性質を示す。 しかし、状態密度係数は一般空間次元の平面数ではない。 もう一つの興味深い特徴は、熱分布が空間次元の偶数におけるボース=アインシュタイン型であることである。 この特徴は、ミンコフスキー真空を均一に加速する粒子検出器の応答で以前に観測された。 偶数の空間次元において、フェルミオン凝縮と平均エネルギー-運動量テンソルはクリフォード代数の2つの非同値な既約表現を実現する場に対して一致する。 無質量の場合、ミルヌ宇宙の共形真空におけるディラック場の真空エネルギー-モーメントテンソル、静的開宇宙におけるド・ジッター時空の双曲真空についても考察する。

We investigate the properties of the fermionic Fulling-Rindler vacuum for a massive Dirac field in a general number of spatial dimensions. As important local characteristics, the fermionic condensate and the expectation value of the energy-momentum tensor are evaluated. The renormalization is reduced to the subtraction of the corresponding expectation values for the Minkowski vacuum. It is shown that the fermion condensate vanishes for a massless field and is negative for nonzero mass. Unlike the case of scalar fields, the fermionic vacuum stresses are isotropic for general case of massive fields. The energy density and the pressures are negative. For a massless field the corresponding spectral distributions exhibit thermal properties with the standard Unruh temperature. However, the density-of-states factor is not Planckian for general number of spatial dimensions. Another interesting feature is that the thermal distribution is of the Bose-Einstein type in even number of spatial dimensions. This feature has been observed previously in the response of a particle detector uniformly accelerating through the Minkowski vacuum. In an even number of space dimensions the fermion condensate and the mean energy-momentum tensor coincide for the fields realizing two inequivalent irreducible representations of the Clifford algebra. In the massless case, we consider also the vacuum energy-momentum tensor for Dirac fields in the conformal vacuum of the Milne universe, in static open universe and in the hyperbolic vacuum of de Sitter spacetime.
翻訳日:2023-11-18 01:04:25 公開日:2023-11-16
# 固有値問題の量子技術

Quantum techniques for eigenvalue problems ( http://arxiv.org/abs/2307.03889v2 )

ライセンス: Link先を確認
Dean Lee(参考訳) 本稿では,量子多体系における固有値問題に対する量子アルゴリズムの簡単な紹介を行う。 トピックの広範な調査よりも、断熱進化の本質、変分法、位相検出アルゴリズム、その他いくつかのアプローチを網羅する、いくつかの量子アルゴリズムの概念的理解の提供に注力する。 各手法について,潜在的な利点と課題について考察する。

This article is a brief introduction to quantum algorithms for the eigenvalue problem in quantum many-body systems. Rather than a broad survey of topics, we focus on providing a conceptual understanding of several quantum algorithms that cover the essentials of adiabatic evolution, variational methods, phase detection algorithms, and several other approaches. For each method, we discuss the potential advantages and remaining challenges.
翻訳日:2023-11-18 01:04:06 公開日:2023-11-16
# 非線形変動境界値問題のニューラルネットワークサロゲートの精度と信頼性を高める残留型誤差補正演算子

Residual-Based Error Corrector Operator to Enhance Accuracy and Reliability of Neural Operator Surrogates of Nonlinear Variational Boundary-Value Problems ( http://arxiv.org/abs/2306.12047v3 )

ライセンス: Link先を確認
Prashant K. Jha(参考訳) この研究は、ニューラル作用素を介してパラメトリック偏微分方程式のクラスの解作用素を近似する手法の開発に焦点をあてる。 ニューラルネットワークには、適切なトレーニングデータの生成、コスト精度のトレードオフ、非自明なハイパーパラメータチューニングなど、いくつかの課題がある。 ニューラル演算子の精度の予測不可能性は、推論、最適化、制御といった下流問題のアプリケーションに影響を及ぼす。 ニューラルネットワークによって提供される予測を補正する線形変分問題に基づくフレームワークは、jcp 486 (2023) 112104の以前の作業に基づいて検討されている。 Residual-based Error Corrector Operator または単に Corrector Operator と呼ばれる演算子はさらに解析を行う。 PCANet型ニューラル演算子を持つ2次元の非線形反応拡散モデルを含む数値計算結果から,ニューラル演算子を補正した際の近似精度がほぼ2桁向上したことを示す。 さらに, 非線形反応拡散モデルを含むトポロジー最適化は, ニューラル演算子の限界と補正方式の有効性を強調していると考えられる。 神経オペレーターサロゲートによる最適化は、重大なエラー(最大80%)を発生させる。 しかし、ニューラルオペレーターが修正されるとエラーはずっと少なく(7%以下)なる。

This work focuses on developing methods for approximating the solution operators of a class of parametric partial differential equations via neural operators. Neural operators have several challenges, including the issue of generating appropriate training data, cost-accuracy trade-offs, and nontrivial hyperparameter tuning. The unpredictability of the accuracy of neural operators impacts their applications in downstream problems of inference, optimization, and control. A framework based on the linear variational problem that gives the correction to the prediction furnished by neural operators is considered based on earlier work in JCP 486 (2023) 112104. The operator, called Residual-based Error Corrector Operator or simply Corrector Operator, associated with the corrector problem is analyzed further. Numerical results involving a nonlinear reaction-diffusion model in two dimensions with PCANet-type neural operators show almost two orders of increase in the accuracy of approximations when neural operators are corrected using the correction scheme. Further, topology optimization involving a nonlinear reaction-diffusion model is considered to highlight the limitations of neural operators and the efficacy of the correction scheme. Optimizers with neural operator surrogates are seen to make significant errors (as high as 80 percent). However, the errors are much lower (below 7 percent) when neural operators are corrected.
翻訳日:2023-11-18 01:04:00 公開日:2023-11-16
# データ駆動戦略における認識的不確かさの表現とその知覚

Representations of epistemic uncertainty and its perception in data-driven strategies ( http://arxiv.org/abs/2110.11482v6 )

ライセンス: Link先を確認
Mario Angelelli, Massimiliano Gervasi(参考訳) aiとビッグデータの拡散は、意思決定を支援する情報量を増やしながら、データや実証的な証拠との直接的なインタラクションを削減し、意思決定プロセスを再構築している。 このパラダイムシフトは、データオブザーバビリティの制限があいまいさと解釈性の欠如をもたらすため、新しい不確実性源を導入する。 データ駆動戦略の適切な分析の必要性は、知識へのこの種の境界付きアクセスを記述できる新しいモデルの探索を動機付ける。 この貢献は、知識表現の不確実性とそのエージェントによる伝達に関する新しい理論モデルを示す。 モデルの比較と結合のための構造を内挿することで、知識状態の動的記述を提供する。 具体的には、更新は組み合わせによって表現され、その説明可能性は異なる次元表現における一貫性に基づいている。 我々は、推論、選好関係、情報尺度の多重性の観点から、非等価な知識表現を考察する。 さらに,非古典的不確実性(エルスバーグのモデル)と,他のエージェントがデータ(ウィグナーの友人)を観察することによる知識の推論という2つのシナリオとの形式的類似性を定義する。 最後に,提案モデルがデータ駆動戦略に与える影響について考察し,ビジネス価値次元の不確実性に基づく推論と,その評価のための計測ツールの設計に注目する。

The diffusion of AI and big data is reshaping decision-making processes by increasing the amount of information that supports decisions while reducing direct interaction with data and empirical evidence. This paradigm shift introduces new sources of uncertainty, as limited data observability results in ambiguity and a lack of interpretability. The need for the proper analysis of data-driven strategies motivates the search for new models that can describe this type of bounded access to knowledge. This contribution presents a novel theoretical model for uncertainty in knowledge representation and its transfer mediated by agents. We provide a dynamical description of knowledge states by endowing our model with a structure to compare and combine them. Specifically, an update is represented through combinations, and its explainability is based on its consistency in different dimensional representations. We look at inequivalent knowledge representations in terms of multiplicity of inferences, preference relations, and information measures. Furthermore, we define a formal analogy with two scenarios that illustrate non-classical uncertainty in terms of ambiguity (Ellsberg's model) and reasoning about knowledge mediated by other agents observing data (Wigner's friend). Finally, we discuss some implications of the proposed model for data-driven strategies, with special attention to reasoning under uncertainty about business value dimensions and the design of measurement tools for their assessment.
翻訳日:2023-11-17 23:21:15 公開日:2023-11-16
# 空間周波数制約が逆ロバスト性に及ぼす影響

Impact of Spatial Frequency Based Constraints on Adversarial Robustness ( http://arxiv.org/abs/2104.12679v3 )

ライセンス: Link先を確認
R\'emi Bernhard, Pierre-Alain Moellic, Martial Mermillod, Yannick Bourrier, Romain Cohendet, Miguel Solinas, Marina Reyboz(参考訳) 敵対的な例は、人間が敏感でない入力ピクセルの変更を主に利用し、モデルは解釈不能な特徴に基づいて決定するという事実から生じる。 興味深いことに、認知科学は人間の分類決定の解釈可能性の過程は、主に低空間周波数成分に依存していると報告している。 本稿では,学習中に強制されるモデルの逆摂動に対するロバスト性を調査し,異なる空間周波数範囲に対応する情報を活用する。 重み付けされたデータの空間周波数特性と密接に関連していることを示す。 実際、データセットによっては、同じ制約が全く異なるロバスト性(最大0.41対逆精度差)をもたらす可能性がある。 この現象を説明するために、高周波に対する感度のレベルや、オリジナルおよびローパスフィルタ入力間の逆摂動の伝達可能性など、いくつかの要因を啓蒙する実験を行った。

Adversarial examples mainly exploit changes to input pixels to which humans are not sensitive to, and arise from the fact that models make decisions based on uninterpretable features. Interestingly, cognitive science reports that the process of interpretability for human classification decision relies predominantly on low spatial frequency components. In this paper, we investigate the robustness to adversarial perturbations of models enforced during training to leverage information corresponding to different spatial frequency ranges. We show that it is tightly linked to the spatial frequency characteristics of the data at stake. Indeed, depending on the data set, the same constraint may results in very different level of robustness (up to 0.41 adversarial accuracy difference). To explain this phenomenon, we conduct several experiments to enlighten influential factors such as the level of sensitivity to high frequencies, and the transferability of adversarial perturbations between original and low-pass filtered inputs.
翻訳日:2023-11-17 23:20:52 公開日:2023-11-16
# 多部絡み合わせ生成へのショートカット:ボソン減算へのグラフアプローチ

Shortcut to Multipartite Entanglement Generation: A Graph Approach to Boson Subtractions ( http://arxiv.org/abs/2211.04042v4 )

ライセンス: Link先を確認
Seungbeom Chin and Yong-Su Kim and Marcin Karczewski(参考訳) 絡み合いは量子情報科学の核となる基本的な概念であり、その理論的基礎と実用的応用の両方の観点から考えられている。 絡み合いの研究および利用における重要な優先事項は、絡み合い状態の生成のための信頼性の高い手順を見つけることである。 本研究では,任意の$N$-partite線形ボソニックシステムにおいて,ポストセレクションなしで真の絡み合いを生成できるスキームを体系的に探索するグラフベースの手法を提案する。 ポストセレクションなしでの絡み合い生成は量子タスクに対してより許容可能なスキームを与えるが、一般に多数のパーティを持つシステムに対して適切な回路を見つけることは困難である。 本稿では,グラフ手法の実装を通じて限界を緩和する実践的戦略を提案する。 我々の物理的な構成は彫刻プロトコルに基づいており、これは1つのボソンの空間的に重なり合ったサブトラクションを1つのボソンのフォック状態に変換するものである。 キュービットN-パーティイトGHZおよびW状態の一般的なスキームを特定し、従来のスキームよりもはるかに効率的である。 さらに、$N=3$ GHZ と W の絡み合った状態の重ね合わせを生成するためのスキームは、より一般化された絡み合った状態の形式を導出するために我々のアプローチを拡張することができることを示している。 さらに,従来の提案よりもかなり少ない粒子を必要とするN-パーティイトGHZ状態生成方式が発見された。 これらの結果は、複雑な絡み合った状態を生成するための明確な解を見つけるためのアプローチの力を示している。 我々のスキームは、多くのボーソンシステムで直接実現可能である。 概念実証として,紋章検出によるベル状態生成のための線形光学スキームを提案する。

Entanglement is a fundamental concept at the core of quantum information science, both in terms of its theoretical underpinnings and practical applications. A key priority in studying and utilizing entanglement is to find reliable procedures for the generation of entangled states. In this research, we propose a graph-based method for systematically searching for schemes that can produce genuine entanglement in arbitrary $N$-partite linear bosonic systems, without postselection. While the entanglement generation without postselection renders more tolerable schemes for quantum tasks, it is in general more challenging to find appropriate circuits for systems with a large number of parties. We present a practical strategy to mitigate the limitation through the implementation of our graph technique. Our physical setup is based on the sculpting protocol, which utilizes an $ N$ spatially overlapped subtractions of single bosons to convert Fock states of evenly distributed bosons into entanglement. We have identified general schemes for qubit N-partite GHZ and W states, which are significantly more efficient than previous schemes. In addition, our scheme for generating the superposition of $N=3$ GHZ and W entangled states illustrates that our approach can be extended to derive more generalized forms of entangled states. Furthermore, we have found an N-partite GHZ state generation scheme for qudits, which requires substantially fewer particles than previous proposals. These results demonstrate the power of our approach in discovering clear solutions for the generation of intricate entangled states. Our schemes can be directly realizable in many-boson systems. As a proof of concept, we propose a linear optical scheme for the generation of the Bell state by heralding detections.
翻訳日:2023-11-17 23:16:27 公開日:2023-11-16
# Q-Exponential Processによるベイズ学習

Bayesian Learning via Q-Exponential Process ( http://arxiv.org/abs/2210.07987v3 )

ライセンス: Link先を確認
Shuyi Li, Michael O'Connor, and Shiwei Lan(参考訳) 正規化は最適化、統計、機械学習における最も基本的なトピックの1つである。 パラメータ $u\in\mathbb{R}^d$ を推定する際には、$\ell_q$ のペナルティ項 $\Vert u\Vert_q$ が通常目的関数に追加される。 そのような$\ell_q$のペナルティに対応する確率分布は? モデル関数 $u\in L^q$ のとき、$\Vert u\Vert_q$ に対応する正しい確率過程は何ですか? これは、画像のような大きな次元のオブジェクトを統計的にモデル化する上で重要であり、画像のエッジのような確実性を維持するためのペナルティがある。 本研究では、$q$-指数分布(密度比で)$\exp{(- \frac{1}{2}|u|^q)}$を、函数の正規化に対応する$Q$-指数(Q-EP)過程という確率過程に一般化する。 鍵となるステップは、楕円輪郭分布の大きな族から選ぶことで、一貫した多変量$q$指数分布を定義することである。 この研究は通常拡大級数によって定義されるベソフ過程と密接に関連している。 Q-EPは、明確な確率的定式化と相関長の直接制御によるベソフ過程の定義とみなすことができる。 ベイズの観点からは、Q-EPは一般的に使用されるガウス過程(GP)よりも鋭いペナルティ(q<2$)を持つ関数に対して柔軟な事前を与える。 GP, Besov および Q-EP を機能データのモデリング, 画像再構成, 逆問題解決において比較し, 提案手法の利点を実証する。

Regularization is one of the most fundamental topics in optimization, statistics and machine learning. To get sparsity in estimating a parameter $u\in\mathbb{R}^d$, an $\ell_q$ penalty term, $\Vert u\Vert_q$, is usually added to the objective function. What is the probabilistic distribution corresponding to such $\ell_q$ penalty? What is the correct stochastic process corresponding to $\Vert u\Vert_q$ when we model functions $u\in L^q$? This is important for statistically modeling large dimensional objects, e.g. images, with penalty to preserve certainty properties, e.g. edges in the image. In this work, we generalize the $q$-exponential distribution (with density proportional to) $\exp{(- \frac{1}{2}|u|^q)}$ to a stochastic process named $Q$-exponential (Q-EP) process that corresponds to the $L_q$ regularization of functions. The key step is to specify consistent multivariate $q$-exponential distributions by choosing from a large family of elliptic contour distributions. The work is closely related to Besov process which is usually defined by the expanded series. Q-EP can be regarded as a definition of Besov process with explicit probabilistic formulation and direct control on the correlation length. From the Bayesian perspective, Q-EP provides a flexible prior on functions with sharper penalty ($q<2$) than the commonly used Gaussian process (GP). We compare GP, Besov and Q-EP in modeling functional data, reconstructing images, and solving inverse problems and demonstrate the advantage of our proposed methodology.
翻訳日:2023-11-17 23:15:54 公開日:2023-11-16
# Spectral2 Spectral: Image-spectral similarity Assisted Spectral CT Deep Reconstruction without Reference

Spectral2Spectral: Image-spectral Similarity Assisted Spectral CT Deep Reconstruction without Reference ( http://arxiv.org/abs/2210.01125v3 )

ライセンス: Link先を確認
Xiaodong Guo, Longhui Li, Dingyue Chang, Peng He, Peng Feng, Hengyong Yu, Weiwen Wu(参考訳) 光子計数検出器(英語版)(PCD)に基づくスペクトル計算トモグラフィーは、バイオメディカル素材のより正確な同定と定量分析を提供する能力を持つため、ますます注目を集めている。 狭いエネルギービン内での光子数の制限は、低信号ノイズ比の撮像結果をもたらす。 既存のCT再建のための教師付き深層再構築ネットワークは,ノイズのない臨床像を基準として取得することは不可能であるため,これらの課題に対処するのは難しい。 本稿では,教師なし手法とデータ先行処理を,Spectral2Spectralという名前の統一フレームワークに相乗化するための反復的深層再構築ネットワークを提案する。 我々のSpectral2Spectralは、教師なしの深層学習戦略を用いて、ノイズの多いデータからエンドツーエンドで高品質な画像を得る。 画像スペクトル領域内の構造的類似性は、ネットワークトレーニングをさらに制約するために正規化項として洗練される。 ニューラルネットワークの重みは自動的に更新され、反復プロセス内の画像の特徴と構造をキャプチャする。 3つの大規模な前臨床データセット実験は、スペクトル2スペクトルが他の最先端の手法よりも優れた画質を再構成することを示した。

Spectral computed tomography based on a photon-counting detector (PCD) attracts more and more attentions since it has the capability to provide more accurate identification and quantitative analysis for biomedical materials. The limited number of photons within narrow energy bins leads to imaging results of low signal-noise ratio. The existing supervised deep reconstruction networks for CT reconstruction are difficult to address these challenges because it is usually impossible to acquire noise-free clinical images with clear structures as references. In this paper, we propose an iterative deep reconstruction network to synergize unsupervised method and data priors into a unified framework, named as Spectral2Spectral. Our Spectral2Spectral employs an unsupervised deep training strategy to obtain high-quality images from noisy data in an end-to-end fashion. The structural similarity prior within image-spectral domain is refined as a regularization term to further constrain the network training. The weights of neural network are automatically updated to capture image features and structures within the iterative process. Three large-scale preclinical datasets experiments demonstrate that the Spectral2spectral reconstructs better image quality than other the state-of-the-art methods.
翻訳日:2023-11-17 23:15:27 公開日:2023-11-16
# 政策最適化に対するリスク感作的アプローチ

A Risk-Sensitive Approach to Policy Optimization ( http://arxiv.org/abs/2208.09106v2 )

ライセンス: Link先を確認
Jared Markowitz, Ryan W. Gardner, Ashley Llorens, Raman Arora, I-Jeng Wang(参考訳) 標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。 これは人的意思決定と異なり、利得と損失を異なる価値で評価し、その結果が考慮される。 また、分散コンテキストの導入を通じて、安全性と/またはパフォーマンスを改善する機会を活かすことにも失敗している。 分布DRLに対するいくつかのアプローチが研究され、ある一般的な戦略は、可能なアクションに対するリターンの予測分布を評価することである。 本稿では,全報酬の分配の累積分布関数(cdf)で規定されるリスクに敏感な目標を最適化する,より直接的なアプローチを提案する。 このアプローチは、相対的な品質に基づいて結果を測定することができ、連続的および離散的なアクション空間の両方に使用することができ、自然に制約付きおよび制約なしの設定に適用することができる。 そこで本研究では,幅広いリスクに敏感な対象の政策勾配の漸近的に一貫した推定をサンプリングし,分散削減と正規化を組み込んで効果的なオンポリシー学習を促進する手法を提案する。 次に,エージェントの動作不良を強調する中程度に"悲観的"なリスクプロファイルの使用が,探索の促進と欠陥への継続的な対処に結びつくことを実証する。 我々は,6つのOpenAIセーフティガイム環境において,異なるリスクプロファイルを用いてアプローチをテストする。 コスト制約がなければ、悲観的なリスクプロファイルはコスト削減に有効であり、全体の報酬蓄積を改善することができる。 コスト制約により、それらは所定の許容コストでリスク中立アプローチよりも高いポジティブな報酬を提供する。

Standard deep reinforcement learning (DRL) aims to maximize expected reward, considering collected experiences equally in formulating a policy. This differs from human decision-making, where gains and losses are valued differently and outlying outcomes are given increased consideration. It also fails to capitalize on opportunities to improve safety and/or performance through the incorporation of distributional context. Several approaches to distributional DRL have been investigated, with one popular strategy being to evaluate the projected distribution of returns for possible actions. We propose a more direct approach whereby risk-sensitive objectives, specified in terms of the cumulative distribution function (CDF) of the distribution of full-episode rewards, are optimized. This approach allows for outcomes to be weighed based on relative quality, can be used for both continuous and discrete action spaces, and may naturally be applied in both constrained and unconstrained settings. We show how to compute an asymptotically consistent estimate of the policy gradient for a broad class of risk-sensitive objectives via sampling, subsequently incorporating variance reduction and regularization measures to facilitate effective on-policy learning. We then demonstrate that the use of moderately "pessimistic" risk profiles, which emphasize scenarios where the agent performs poorly, leads to enhanced exploration and a continual focus on addressing deficiencies. We test the approach using different risk profiles in six OpenAI Safety Gym environments, comparing to state of the art on-policy methods. Without cost constraints, we find that pessimistic risk profiles can be used to reduce cost while improving total reward accumulation. With cost constraints, they are seen to provide higher positive rewards than risk-neutral approaches at the prescribed allowable cost.
翻訳日:2023-11-17 23:14:28 公開日:2023-11-16
# 一階線形論理を生成文法とする

Making first order linear logic a generating grammar ( http://arxiv.org/abs/2206.08955v5 )

ライセンス: Link先を確認
Sergey Slavnov(参考訳) 異なる分類文法が一階乗法線形論理(MLL1)の断片において表面表現を持つことが知られている。 興味の断片は,最近導入された拡張テンソル型計算(ETTC)と等価であることを示す。 ETTCは、文字列のタプルを表す特定の型付き用語の計算であり、より正確には、文字列で装飾された二部グラフである。 型は線形論理式から導出され、規則はこれらの文字列ラベルグラフ上の具体的な操作に対応するので、都合よく視覚化できる。 上述したMLL1の断片は、代替構文や直感的な幾何学的表現だけでなく、本質的な推論システムが欠落している言語モデリングに関係している。 本研究では,より簡潔で透過的な計算を可能にするETTCの,非自明な表記に富んだ変種について考察する。 我々はカットフリーなシークエント計算と自然な推論形式の両方を提示する。

It is known that different categorial grammars have surface representation in a fragment of first order multiplicative linear logic (MLL1). We show that the fragment of interest is equivalent to the recently introduced extended tensor type calculus (ETTC). ETTC is a calculus of specific typed terms, which represent tuples of strings, more precisely bipartite graphs decorated with strings. Types are derived from linear logic formulas, and rules correspond to concrete operations on these string-labeled graphs, so that they can be conveniently visualized. This provides the above mentioned fragment of MLL1 that is relevant for language modeling not only with some alternative syntax and intuitive geometric representation, but also with an intrinsic deductive system, which has been absent. In this work we consider a non-trivial notationally enriched variation of the previously introduced ETTC, which allows more concise and transparent computations. We present both a cut-free sequent calculus and a natural deduction formalism.
翻訳日:2023-11-17 23:13:57 公開日:2023-11-16
# グローバルコントラストマスク自動エンコーダは強力な病理表現学習者である

Global Contrast Masked Autoencoders Are Powerful Pathological Representation Learners ( http://arxiv.org/abs/2205.09048v4 )

ライセンス: Link先を確認
Hao Quan, Xingyu Li, Weixing Chen, Qun Bai, Mingchen Zou, Ruijie Yang, Tingting Zheng, Ruiqun Qi, Xinghua Gao, Xiaoyu Cui(参考訳) デジタル病理スライススキャン技術に基づき、ディープラーニングで表現される人工知能アルゴリズムは、計算病理学の分野で驚くべき結果を得た。 他の医療画像と比較すると、病理画像は注釈が難しいため、堅牢なディープラーニングモデルをトレーニングするための教師付き学習を行うためのデータセットが極めて不足している。 本稿では,自己教師付き学習(SSL)モデルを提案する。このモデルでは,画像の局所的グローバルな特徴を表現できるようにエンコーダを訓練し,データセット間での移動学習の性能を大幅に向上させることができる。 本研究は,gcmaeが偏在表現を学習する能力について,camlyon16,nctcrc,breakhisの3種類の病特異的ヘマトキシリンおよびエオシン(he)持続性病理データを用いて広範な実験を行った。 本研究は,臨床応用のためのGCMAEに基づく効果的な自動病理診断プロセスを設計した。 本論文のソースコードはhttps://github.com/staruniversus/gcmaeで公開されている。

Based on digital pathology slice scanning technology, artificial intelligence algorithms represented by deep learning have achieved remarkable results in the field of computational pathology. Compared to other medical images, pathology images are more difficult to annotate, and thus, there is an extreme lack of available datasets for conducting supervised learning to train robust deep learning models. In this paper, we propose a self-supervised learning (SSL) model, the global contrast-masked autoencoder (GCMAE), which can train the encoder to have the ability to represent local-global features of pathological images, also significantly improve the performance of transfer learning across data sets. In this study, the ability of the GCMAE to learn migratable representations was demonstrated through extensive experiments using a total of three different disease-specific hematoxylin and eosin (HE)-stained pathology datasets: Camelyon16, NCTCRC and BreakHis. In addition, this study designed an effective automated pathology diagnosis process based on the GCMAE for clinical applications. The source code of this paper is publicly available at https://github.com/StarUniversus/gcmae.
翻訳日:2023-11-17 23:13:39 公開日:2023-11-16
# Sibyl: オンライン強化学習を用いたハイブリッドストレージシステムにおける適応的で拡張可能なデータ配置

Sibyl: Adaptive and Extensible Data Placement in Hybrid Storage Systems Using Online Reinforcement Learning ( http://arxiv.org/abs/2205.07394v2 )

ライセンス: Link先を確認
Gagandeep Singh, Rakesh Nadig, Jisung Park, Rahul Bera, Nastaran Hajinazar, David Novo, Juan G\'omez-Luna, Sander Stuijk, Henk Corporaal, Onur Mutlu(参考訳) ハイブリッドストレージシステム(HSS)は、複数の異なるストレージデバイスを使用して、高性能でスケーラブルなストレージ容量を提供する。 近年,「最適な」記憶装置に配置する性能クリティカルなデータを正確に識別する手法が提案されている。 残念なことに、これらの技術のほとんどは厳格であり、(1)幅広いワークロードやストレージデバイスの構成でうまく機能するように適応性を制限し、(2)デザイナーが設計した構成よりも異なるストレージシステム構成(例えば、異なる数や異なるタイプのストレージデバイス)にこれらの技術を拡張することが困難である。 ハイブリッドストレージシステムにおけるデータ配置に強化学習を利用する最初の手法であるSibylを紹介する。 Sibylは実行中のワークロードのさまざまな機能とストレージデバイスを観察して、システム対応のデータ配置決定を行う。 Sibylは、意思決定の長期的なパフォーマンスへの影響を評価し、データ配置ポリシーをオンラインで継続的に最適化するために、システムから報酬を受け取っている。 我々は様々なHSS構成で実システム上でSibylを実装している。 その結果、sibylはパフォーマンス指向/コスト指向のhss構成における21.6%/19.9%の性能改善を提供することがわかった。 3つの異なるストレージデバイスを備えたHSS構成を用いて評価したところ、Sibylは最先端のデータ配置ポリシーを23.9%-48.2%向上させ、同時に3つのストレージデバイスを組み込むデータ配置機構を設計する際のシステムアーキテクトの負担を大幅に低減した。 そこで我々は,Sibylが将来的なアクセスパターンを十分に把握し,ストレージのオーバーヘッドをわずか124.4KiBに抑えながら,その性能の80%をSibylが達成していることを示す。

Hybrid storage systems (HSS) use multiple different storage devices to provide high and scalable storage capacity at high performance. Recent research proposes various techniques that aim to accurately identify performance-critical data to place it in a "best-fit" storage device. Unfortunately, most of these techniques are rigid, which (1) limits their adaptivity to perform well for a wide range of workloads and storage device configurations, and (2) makes it difficult for designers to extend these techniques to different storage system configurations (e.g., with a different number or different types of storage devices) than the configuration they are designed for. We introduce Sibyl, the first technique that uses reinforcement learning for data placement in hybrid storage systems. Sibyl observes different features of the running workload as well as the storage devices to make system-aware data placement decisions. For every decision it makes, Sibyl receives a reward from the system that it uses to evaluate the long-term performance impact of its decision and continuously optimizes its data placement policy online. We implement Sibyl on real systems with various HSS configurations. Our results show that Sibyl provides 21.6%/19.9% performance improvement in a performance-oriented/cost-oriented HSS configuration compared to the best previous data placement technique. Our evaluation using an HSS configuration with three different storage devices shows that Sibyl outperforms the state-of-the-art data placement policy by 23.9%-48.2%, while significantly reducing the system architect's burden in designing a data placement mechanism that can simultaneously incorporate three storage devices. We show that Sibyl achieves 80% of the performance of an oracle policy that has complete knowledge of future access patterns while incurring a very modest storage overhead of only 124.4 KiB.
翻訳日:2023-11-17 23:13:19 公開日:2023-11-16
# 自己教師付き相互学習を用いた不均一グラフニューラルネットワーク

Heterogeneous Graph Neural Networks using Self-supervised Reciprocally Contrastive Learning ( http://arxiv.org/abs/2205.00256v2 )

ライセンス: Link先を確認
Cuiying Huo, Dongxiao He, Yawen Li, Di Jin, Jianwu Dang, Weixiong Zhang, Witold Pedrycz and Lingfei Wu(参考訳) 不均一グラフニューラルネットワーク(HGNN)は異種グラフのモデリングと解析において非常に一般的な手法である。 既存のHGNNベースのアプローチの多くは、グラフにアノテートを必要とする教師付きあるいは半教師付き学習手法である。 自己教師付きコントラスト学習は、与えられたデータ内に隠された本質的な情報をマイニングすることで、注釈付きデータを必要とする問題に対処するために提案されている。 しかし、既存のコントラスト学習法は、グラフデータ内のデータ摂動や事前定義された構造的性質(メタパスなど)に基づいてのみコントラストビューを構築し、ノード属性とグラフトポロジの両方に存在するノイズを無視しているため、ヘテロジニアスグラフでは不十分である。 ノード属性とグラフトポロジーの各ガイダンスについて2つの視点を導入し,相互に対比する機構によりそれらの統合と拡張を行い,不均一グラフのモデル化を改善するhgclという,新しいロバストなグラフコントラスト学習手法を初めて開発した。 この新しいアプローチでは,属性とトポロジに関連情報を別々にマイニングする手法として,異なるが最も適した属性とトポロジの融合機構を2つの視点に適用する。 さらに属性類似性とトポロジカル相関を併用して,高品質なコントラストサンプルを構築する。 3つの大きな実世界の異種グラフに対する大規模な実験は、最先端の手法よりもHGCLの優位性と堅牢性を示している。

Heterogeneous graph neural network (HGNN) is a very popular technique for the modeling and analysis of heterogeneous graphs. Most existing HGNN-based approaches are supervised or semi-supervised learning methods requiring graphs to be annotated, which is costly and time-consuming. Self-supervised contrastive learning has been proposed to address the problem of requiring annotated data by mining intrinsic information hidden within the given data. However, the existing contrastive learning methods are inadequate for heterogeneous graphs because they construct contrastive views only based on data perturbation or pre-defined structural properties (e.g., meta-path) in graph data while ignore the noises that may exist in both node attributes and graph topologies. We develop for the first time a novel and robust heterogeneous graph contrastive learning approach, namely HGCL, which introduces two views on respective guidance of node attributes and graph topologies and integrates and enhances them by reciprocally contrastive mechanism to better model heterogeneous graphs. In this new approach, we adopt distinct but most suitable attribute and topology fusion mechanisms in the two views, which are conducive to mining relevant information in attributes and topologies separately. We further use both attribute similarity and topological correlation to construct high-quality contrastive samples. Extensive experiments on three large real-world heterogeneous graphs demonstrate the superiority and robustness of HGCL over state-of-the-art methods.
翻訳日:2023-11-17 23:12:29 公開日:2023-11-16
# 第3タイプの確率:統計的関係学習と相対周波数による推論

Probabilities of the third type: Statistical Relational Learning and Reasoning with Relative Frequencies ( http://arxiv.org/abs/2202.10367v2 )

ライセンス: Link先を確認
Felix Weitk\"amper(参考訳) 関係データに対する確率的依存関係をモデル化する場合、ドメイン内の状態の相対周波数に対する依存関係は一般的です。 例えば、流行中の学校閉鎖の可能性は、感染した生徒の閾値を超える割合に依存する可能性がある。 例えば、病気を媒介する蚊の1匹が噛まれる確率は、キャリア蚊の割合に依存する。 現在のアプローチは通常、ドメイン要素自身ではなく、可能な世界上の確率のみを考える。 例外として最近導入された条件付き確率論理のための拡張ベイズネットワークがあり、確率データに対する離散依存を表現する。 これは、相対周波数に対する連続的な依存関係を統計的関係性人工知能に明示的に組み込む形式である。 ifted Bayesian Networks for Conditional Probability Logic と比較・比較する。 相対周波数を組み込むことはモデリングに有用であるだけでなく、トレーニングやテスト、アプリケーションドメインのサイズが異なる場合の学習問題に対してより厳密なアプローチを提供する。 そこで本研究では,関数型揚水ベイズネットワークによって引き起こされる漸近確率分布を,増大する領域に表現する。 この表現は、ドメインサイズ全体にわたるスケーリングの振る舞いをよく理解しているため、ランダムにサンプリングされたサブポピュレーションから、大きなドメインのパラメータを一貫した推定に使用できる。 さらに, flbn のパラメトリック族では, パラメータの収束が一様であることを示し, モデルのパラメータに対する漸近確率の有意な依存性を保証する。

Dependencies on the relative frequency of a state in the domain are common when modelling probabilistic dependencies on relational data. For instance, the likelihood of a school closure during an epidemic might depend on the proportion of infected pupils exceeding a threshold. Often, rather than depending on discrete thresholds, dependencies are continuous: for instance, the likelihood of any one mosquito bite transmitting an illness depends on the proportion of carrier mosquitoes. Current approaches usually only consider probabilities over possible worlds rather than over domain elements themselves. An exception are the recently introduced Lifted Bayesian Networks for Conditional Probability Logic, which express discrete dependencies on probabilistic data. We introduce functional lifted Bayesian networks, a formalism that explicitly incorporates continuous dependencies on relative frequencies into statistical relational artificial intelligence. and compare and contrast them with ifted Bayesian Networks for Conditional Probability Logic. Incorporating relative frequencies is not only beneficial to modelling; it also provides a more rigorous approach to learning problems where training and test or application domains have different sizes. To this end, we provide a representation of the asymptotic probability distributions induced by functional lifted Bayesian networks on domains of increasing sizes. Since that representation has well-understood scaling behaviour across domain sizes, it can be used to estimate parameters for a large domain consistently from randomly sampled subpopulations. Furthermore, we show that in parametric families of FLBN, convergence is uniform in the parameters, which ensures a meaningful dependence of the asymptotic probabilities on the parameters of the model.
翻訳日:2023-11-17 23:11:54 公開日:2023-11-16
# 低レベル契約による二レベル最適化:ウォームスタートなしの最適サンプル複雑度

Bilevel Optimization with a Lower-level Contraction: Optimal Sample Complexity without Warm-start ( http://arxiv.org/abs/2202.03397v4 )

ライセンス: Link先を確認
Riccardo Grazzi, Massimiliano Pontil, Saverio Salzo(参考訳) 両レベル問題の一般的なクラスを解析し、上層問題は滑らかな対象関数の最小化であり、下層問題は滑らかな縮約写像の固定点を見つけることである。 この種の問題には、メタラーニング、平衡モデル、ハイパーパラメータ最適化、データ中毒攻撃などがある。 低レベル問題を暖かく開始するアルゴリズム、すなわち、以前の低レベル近似解を低レベル解の凝視点として使用するアルゴリズムが提案されている。 このウォームスタート手順により、確率的および決定論的設定の両方においてサンプル複雑性を改善でき、場合によってはオーダーワイズ最適サンプル複雑性を達成することができる。 しかし、例えばメタラーニングや平衡モデルのような状況があり、ウォームスタート手順が適さないか非効率である。 この研究で、ウォームスタートなしでは、オーダーワイズ(ほぼ)の最適なサンプル複雑性を達成できることが示される。 特に,下層での(確率的な)不動点反復と上層での射影不動勾配勾配を用いた簡単な手法を提案する。これは,確率的および決定論的設定に対してそれぞれ$O(\epsilon^{-2})$および$\tilde{O}(\epsilon^{-1})$サンプルを用いて,$\epsilon$-定常点に達する。 最後に,ウォームスタートを用いた手法と比較して,上層レベルと下層レベルのイテレートの結合相互作用を研究する必要のない,より単純な分析手法を提案する。

We analyse a general class of bilevel problems, in which the upper-level problem consists in the minimization of a smooth objective function and the lower-level problem is to find the fixed point of a smooth contraction map. This type of problems include instances of meta-learning, equilibrium models, hyperparameter optimization and data poisoning adversarial attacks. Several recent works have proposed algorithms which warm-start the lower-level problem, i.e.~they use the previous lower-level approximate solution as a staring point for the lower-level solver. This warm-start procedure allows one to improve the sample complexity in both the stochastic and deterministic settings, achieving in some cases the order-wise optimal sample complexity. However, there are situations, e.g., meta learning and equilibrium models, in which the warm-start procedure is not well-suited or ineffective. In this work we show that without warm-start, it is still possible to achieve order-wise (near) optimal sample complexity. In particular, we propose a simple method which uses (stochastic) fixed point iterations at the lower-level and projected inexact gradient descent at the upper-level, that reaches an $\epsilon$-stationary point using $O(\epsilon^{-2})$ and $\tilde{O}(\epsilon^{-1})$ samples for the stochastic and the deterministic setting, respectively. Finally, compared to methods using warm-start, our approach yields a simpler analysis that does not need to study the coupled interactions between the upper-level and lower-level iterates.
翻訳日:2023-11-17 23:11:01 公開日:2023-11-16
# 認知訓練セッションにおける視覚に基づく疲労と関与の推定

Vision-based Estimation of Fatigue and Engagement in Cognitive Training Sessions ( http://arxiv.org/abs/2304.12470v3 )

ライセンス: Link先を確認
Yanchen Wang, Adam Turnbull, Yunlong Xu, Kathi Heffner, Feng Vankee Lin, Ehsan Adeli(参考訳) computerized cognitive training (cct) はスケーラブルで耐久性に富んだ介入であり、認知の低下を遅らせることを約束している。 cctの結果は効果的な関与の欠如によって制限され、特に認知症リスクのある高齢者では精神的疲労などの要因によって低下する。 CCT中に精神疲労をモニターできるスケーラブルで自動化された尺度が必要である。 そこで本研究では,CCT中に映像記録された顔のジェスチャーから軽度認知障害を有する高齢者の心的疲労をリアルタイムにモニタリングするための新しいリカレントビデオトランスフォーマー(RVT)法を開発した。 RVTモデルは,2値および多値の精神疲労分類における先行技術モデルと比較して,高いバランス精度(78%)と精度(0.82)を達成し,CCT反応時間と有意な相関(p=0.023)により検証した。 動的時間的情報を活用することで、RVTモデルはリアルタイムの精神的疲労を正確に測定する可能性を示し、効果的なエンゲージメントを高めるための将来のパーソナライズされたCCTの基礎を築いた。

Computerized cognitive training (CCT) is a scalable, well-tolerated intervention that has promise for slowing cognitive decline. Outcomes from CCT are limited by a lack of effective engagement, which is decreased by factors such as mental fatigue, particularly in older adults at risk for dementia. There is a need for scalable, automated measures that can monitor mental fatigue during CCT. Here, we develop and validate a novel Recurrent Video Transformer (RVT) method for monitoring real-time mental fatigue in older adults with mild cognitive impairment from video-recorded facial gestures during CCT. The RVT model achieved the highest balanced accuracy(78%) and precision (0.82) compared to the prior state-of-the-art models for binary and multi-class classification of mental fatigue and was additionally validated via significant association (p=0.023) with CCT reaction time. By leveraging dynamic temporal information, the RVT model demonstrates the potential to accurately measure real-time mental fatigue, laying the foundation for future personalized CCT that increase effective engagement.
翻訳日:2023-11-17 23:02:28 公開日:2023-11-16
# 多体ハミルトン学習における量子制御の利点

The advantage of quantum control in many-body Hamiltonian learning ( http://arxiv.org/abs/2304.07172v2 )

ライセンス: Link先を確認
Alicja Dutkiewicz, Thomas E. O'Brien and Thomas Schuster(参考訳) 実験データから多体量子システムのハミルトニアンを学習する問題について検討する。 学習速度は,実験中に利用可能な制御量に依存することを示す。 3つの制御モデルを考える: 時間進化を瞬時に量子演算で拡張できるもの、ハミルトン自身を定数項を追加して拡張できるもの、実験者がシステムの時間進化を制御できないもの。 連続量子制御では、ハイゼンベルク極限で多体ハミルトニアンを学習するための適応アルゴリズムが提供される: $T = \mathcal{O}(\epsilon^{-1})$, ここでは、$T$は全ての実験における時間進化の総量であり、$\epsilon$は目標精度である。 これは製品状態の調整、時間発展、および製品ベースでの計測のみを必要とする。 量子制御が存在しない場合、学習は標準的な量子制限であり、固有状態熱化仮説によって熱化するハミルトニアンを含む多体ハミルトニアンの大きなクラスに対して$t = \omega(\epsilon^{-2})$であることが証明される。 これらの結果は、量子制御による学習のための実験ランタイムにおいて二次的な利点を立証する。

We study the problem of learning the Hamiltonian of a many-body quantum system from experimental data. We show that the rate of learning depends on the amount of control available during the experiment. We consider three control models: one where time evolution can be augmented with instantaneous quantum operations, one where the Hamiltonian itself can be augmented by adding constant terms, and one where the experimentalist has no control over the system's time evolution. With continuous quantum control, we provide an adaptive algorithm for learning a many-body Hamiltonian at the Heisenberg limit: $T = \mathcal{O}(\epsilon^{-1})$, where $T$ is the total amount of time evolution across all experiments and $\epsilon$ is the target precision. This requires only preparation of product states, time-evolution, and measurement in a product basis. In the absence of quantum control, we prove that learning is standard quantum limited, $T = \Omega(\epsilon^{-2})$, for large classes of many-body Hamiltonians, including any Hamiltonian that thermalizes via the eigenstate thermalization hypothesis. These results establish a quadratic advantage in experimental runtime for learning with quantum control.
翻訳日:2023-11-17 23:02:10 公開日:2023-11-16
# 2成分測定による信号再構成の学習

Learning to Reconstruct Signals From Binary Measurements ( http://arxiv.org/abs/2303.08691v3 )

ライセンス: Link先を確認
Juli\'an Tachella and Laurent Jacques(参考訳) 教師なし学習の最近の進歩は、ノイズと不完全な線形測定のみから信号を再構成する学習の可能性を強調している。 これらの手法は、地上の真実データがほとんど得られず、入手が難しい、医学的、科学的な画像やセンシングにおいて重要な役割を担っている。 しかし実際には、測定はノイズが多く不完全であるだけでなく、定量化されている。 ここでは,二進法からの学習の極端な事例を考察し,不完全二進法データからの信号集合の同定に必要な測定回数について,必要十分条件を提示する。 以上の結果は,2値測定からの信号回復に関する既存の境界を補完するものである。 さらに,学習のためのバイナリデータのみを必要とするssbmと名づけた,新しい自己教師付き学習手法を提案する。 我々は,SSBMが教師付き学習と同等に行う実データセットを用いた一連の実験で示し,広いマージンで固定ウェーブレットベースでスパース再構成法より優れることを示した。

Recent advances in unsupervised learning have highlighted the possibility of learning to reconstruct signals from noisy and incomplete linear measurements alone. These methods play a key role in medical and scientific imaging and sensing, where ground truth data is often scarce or difficult to obtain. However, in practice, measurements are not only noisy and incomplete but also quantized. Here we explore the extreme case of learning from binary observations and provide necessary and sufficient conditions on the number of measurements required for identifying a set of signals from incomplete binary data. Our results are complementary to existing bounds on signal recovery from binary measurements. Furthermore, we introduce a novel self-supervised learning approach, which we name SSBM, that only requires binary data for training. We demonstrate in a series of experiments with real datasets that SSBM performs on par with supervised learning and outperforms sparse reconstruction methods with a fixed wavelet basis by a large margin.
翻訳日:2023-11-17 23:01:27 公開日:2023-11-16
# リモートセンシング画像における極小物体検出のための変換不変ネットワーク

Transformation-Invariant Network for Few-Shot Object Detection in Remote Sensing Images ( http://arxiv.org/abs/2303.06817v3 )

ライセンス: Link先を確認
Nanqing Liu, Xun Xu, Turgay Celik, Zongxin Gan, Heng-Chao Li(参考訳) リモートセンシング画像におけるオブジェクト検出は、トレーニングのために大量のラベル付きデータに依存する。 しかし、新しいカテゴリやクラス不均衡の増加は、徹底的なアノテーションを非現実的にする。 Few-shot Object Detection (FSOD)は、目に見えるベースクラスでのメタラーニングと、ラベル付きサンプルに制限のある新しいクラスでの微調整を活用することでこの問題に対処する。 それでも、リモートセンシング画像におけるオブジェクトの相当なスケールと向きの変化は、既存の少数ショットオブジェクト検出方法に重大な課題をもたらす。 これらの課題を克服するために,機能ピラミッドネットワークの統合と,クエリ機能の向上のためのプロトタイプ機能の利用を提案する。 我々は、この修正fsodアプローチを、元のベースラインと比較して大幅にパフォーマンスが向上した、強力なベースラインとして捉えている。 さらに,変換不変ネットワーク (tinet) を導入することで,クエリとサポート画像間の方向変化による空間的不均衡の問題に取り組む。 TINetは幾何学的不変性を保証し、クエリとサポートブランチの機能を明確に調整することで、Strong Baselineと同じ推論速度を維持しながら、さらなるパフォーマンス向上を実現している。 NWPU VHR-10.v2, DIOR, HRRSDの3つのリモートセンシングオブジェクト検出データセットの大規模な実験により,提案手法の有効性が示された。

Object detection in remote sensing images relies on a large amount of labeled data for training. However, the increasing number of new categories and class imbalance make exhaustive annotation impractical. Few-shot object detection (FSOD) addresses this issue by leveraging meta-learning on seen base classes and fine-tuning on novel classes with limited labeled samples. Nonetheless, the substantial scale and orientation variations of objects in remote sensing images pose significant challenges to existing few-shot object detection methods. To overcome these challenges, we propose integrating a feature pyramid network and utilizing prototype features to enhance query features, thereby improving existing FSOD methods. We refer to this modified FSOD approach as a Strong Baseline, which has demonstrated significant performance improvements compared to the original baselines. Furthermore, we tackle the issue of spatial misalignment caused by orientation variations between the query and support images by introducing a Transformation-Invariant Network (TINet). TINet ensures geometric invariance and explicitly aligns the features of the query and support branches, resulting in additional performance gains while maintaining the same inference speed as the Strong Baseline. Extensive experiments on three widely used remote sensing object detection datasets, i.e., NWPU VHR-10.v2, DIOR, and HRRSD demonstrated the effectiveness of the proposed method.
翻訳日:2023-11-17 23:01:10 公開日:2023-11-16
# 自動参照ベース要約評価の解釈と効率化に向けて

Towards Interpretable and Efficient Automatic Reference-Based Summarization Evaluation ( http://arxiv.org/abs/2303.03608v2 )

ライセンス: Link先を確認
Yixin Liu, Alexander R. Fabbri, Yilun Zhao, Pengfei Liu, Shafiq Joty, Chien-Sheng Wu, Caiming Xiong, Dragomir Radev(参考訳) 解釈可能性と効率性は、ニューラル自動メトリクスを採用する上で重要な2つの考慮事項である。 本研究では,まず1つのテキストシーケンスから基本情報単位を抽出し,抽出した単位を別のシーケンスで確認する2段階評価パイプラインに基づいて,参照ベース要約評価のための高性能自動メトリクスを開発する。 私たちが開発したメトリクスには、きめ細かい単位レベルとサマリーレベルの両方で高い解釈可能性を提供する2段階のメトリクスと、効率と解釈可能性のバランスを達成する1段階のメトリクスが含まれています。 開発ツールはhttps://github.com/Yale-LILY/AutoACUで公開しています。

Interpretability and efficiency are two important considerations for the adoption of neural automatic metrics. In this work, we develop strong-performing automatic metrics for reference-based summarization evaluation, based on a two-stage evaluation pipeline that first extracts basic information units from one text sequence and then checks the extracted units in another sequence. The metrics we developed include two-stage metrics that can provide high interpretability at both the fine-grained unit level and summary level, and one-stage metrics that achieve a balance between efficiency and interpretability. We make the developed tools publicly available at https://github.com/Yale-LILY/AutoACU.
翻訳日:2023-11-17 23:00:47 公開日:2023-11-16
# 奥行きとセマンティクスを考慮したマルチモーダル領域翻訳:lidar点雲からの3次元パノラマカラー画像の生成

Depth- and Semantics-aware Multi-modal Domain Translation: Generating 3D Panoramic Color Images from LiDAR Point Clouds ( http://arxiv.org/abs/2302.07661v3 )

ライセンス: Link先を確認
Tiago Cortinhal, Eren Erdal Aksoy(参考訳) 本研究は,LiDARとカメラセンサのマルチモーダル構成によるクロスドメイン画像・画像変換のための,深度とセマンティックスを考慮した新しい条件生成モデルTITAN-Nextを提案する。 提案モデルでは,シーンセマンティクスを中間レベル表現として活用し,シーンセグメントのみに依存して生のLiDAR点雲をRGB-Dカメラ画像に変換する。 我々は、これがこの種の最初のフレームワークであり、フェールセーフなメカニズムを提供し、ターゲット画像領域で利用可能なデータを増やすなど、自動運転車に実践的な応用があると主張している。 提案モデルは,大規模かつ挑戦的なセマンティック・キティデータセットに基づいて評価され,実験結果から,元のTITAN-Netや他の強力なベースラインよりも23.7$\%のマージンをかなり上回ることがわかった。

This work presents a new depth- and semantics-aware conditional generative model, named TITAN-Next, for cross-domain image-to-image translation in a multi-modal setup between LiDAR and camera sensors. The proposed model leverages scene semantics as a mid-level representation and is able to translate raw LiDAR point clouds to RGB-D camera images by solely relying on semantic scene segments. We claim that this is the first framework of its kind and it has practical applications in autonomous vehicles such as providing a fail-safe mechanism and augmenting available data in the target image domain. The proposed model is evaluated on the large-scale and challenging Semantic-KITTI dataset, and experimental findings show that it considerably outperforms the original TITAN-Net and other strong baselines by 23.7$\%$ margin in terms of IoU.
翻訳日:2023-11-17 23:00:16 公開日:2023-11-16
# 誰も残っていない:現実世界のフェデレーション・クラス・インクリメンタル・ラーニング

No One Left Behind: Real-World Federated Class-Incremental Learning ( http://arxiv.org/abs/2302.00903v3 )

ライセンス: Link先を確認
Jiahua Dong, Hongliu Li, Yang Cong, Gan Sun, Yulun Zhang, Luc Van Gool(参考訳) Federated Learning(FL)は、分散化されたローカルクライアントのモデルパラメータを集約する、ホットコラボレーティブなトレーニングフレームワークである。 しかし、ほとんどのFLメソッドは、FLフレームワークのデータカテゴリが事前に知られ、固定されていることを不当に仮定する。 さらに、他のクライアントが目に見えない新しいカテゴリを収集する新しいローカルクライアントも、FLトレーニングに不規則に導入することができる。 これらの問題により、グローバルモデルでは、古いカテゴリを記憶する限られたメモリの下で、ローカルクライアントが新しいカテゴリを連続的に受け取ると、古いカテゴリを壊滅的に忘れてしまう。 以上の課題に対処するため,我々はLGA(Local-Global Anti-forgetting)モデルを提案する。 ローカルおよびグローバルな破滅的な忘れ物に対処することで、新しいクラスを継続的に学習するローカルクライアントが残されることを保証します。 具体的には, 局所的クライアントの不均衡を克服し, 局所的リテインティングを克服するために, カテゴリー均衡勾配適応補償損失とカテゴリー勾配誘起意味蒸留損失について検討した。 それらは、異なるタスク内で一貫したクラス関係を確保しながら、忘れやすい、忘れやすいカテゴリの異種忘れ速度のバランスをとることができる。 さらに、プロキシサーバは、異なるクライアント間の非IIDクラス不均衡に起因するグローバルな忘れに対処するように設計されている。 ローカルクライアントから収集した新たなカテゴリを,自己監督型プロトタイプ拡張によりプロトタイプイメージに拡張し,局所側セマンティック蒸留損失の最良のグローバルモデルを選択するためのロバスト性を向上させる。 代表的なデータセットに関する実験は、比較手法に対するモデルの優れた性能を検証する。 コードはhttps://github.com/jiahuadong/lgaで入手できる。

Federated learning (FL) is a hot collaborative training framework via aggregating model parameters of decentralized local clients. However, most FL methods unreasonably assume data categories of FL framework are known and fixed in advance. Moreover, some new local clients that collect novel categories unseen by other clients may be introduced to FL training irregularly. These issues render global model to undergo catastrophic forgetting on old categories, when local clients receive new categories consecutively under limited memory of storing old categories. To tackle the above issues, we propose a novel Local-Global Anti-forgetting (LGA) model. It ensures no local clients are left behind as they learn new classes continually, by addressing local and global catastrophic forgetting. Specifically, considering tackling class imbalance of local client to surmount local forgetting, we develop a category-balanced gradient-adaptive compensation loss and a category gradient-induced semantic distillation loss. They can balance heterogeneous forgetting speeds of hard-to-forget and easy-to-forget old categories, while ensure consistent class-relations within different tasks. Moreover, a proxy server is designed to tackle global forgetting caused by Non-IID class imbalance between different clients. It augments perturbed prototype images of new categories collected from local clients via self-supervised prototype augmentation, thus improving robustness to choose the best old global model for local-side semantic distillation loss. Experiments on representative datasets verify superior performance of our model against comparison methods. The code is available at https://github.com/JiahuaDong/LGA.
翻訳日:2023-11-17 22:59:29 公開日:2023-11-16
# ForkMerge: 補助的タスク学習におけるネガティブトランスファーの軽減

ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning ( http://arxiv.org/abs/2301.12618v3 )

ライセンス: Link先を確認
Junguang Jiang, Baixu Chen, Junwei Pan, Ximei Wang, Liu Dapeng, Jie Jiang, Mingsheng Long(参考訳) 補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。 時には、複数のタスクを同時に学習することで、ターゲットタスクのみを学習するよりも精度が低くなります。 この問題は、しばしばタスク間の勾配衝突によって引き起こされ、前回の作業でタスク勾配を調整することでしばしば取り組まれる。 しかし、これらの最適化に基づく手法は、主に補助目標一般化能力を見落としている。 負転移の根本原因をよりよく理解するために,最適化と一般化の観点から実験的に検討した。 ForkMergeは、モデルを複数のブランチに周期的にフォークし、ターゲットの検証エラーを最小限にしてタスクの重みを自動的に検索し、すべてのブランチを動的にマージして、有害なタスクパラメータ更新をフィルタリングする新しいアプローチである。 一連の補助タスク学習ベンチマークでは、ForkMergeは既存の手法より優れ、負の転送を効果的に軽減する。

Auxiliary-Task Learning (ATL) aims to improve the performance of the target task by leveraging the knowledge obtained from related tasks. Occasionally, learning multiple tasks simultaneously results in lower accuracy than learning only the target task, which is known as negative transfer. This problem is often attributed to the gradient conflicts among tasks, and is frequently tackled by coordinating the task gradients in previous works. However, these optimization-based methods largely overlook the auxiliary-target generalization capability. To better understand the root cause of negative transfer, we experimentally investigate it from both optimization and generalization perspectives. Based on our findings, we introduce ForkMerge, a novel approach that periodically forks the model into multiple branches, automatically searches the varying task weights by minimizing target validation errors, and dynamically merges all branches to filter out detrimental task-parameter updates. On a series of auxiliary-task learning benchmarks, ForkMerge outperforms existing methods and effectively mitigates negative transfer.
翻訳日:2023-11-17 22:59:02 公開日:2023-11-16
# データ一貫性のある深部硬度mri動作補正

Data Consistent Deep Rigid MRI Motion Correction ( http://arxiv.org/abs/2301.10365v2 )

ライセンス: Link先を確認
Nalini M. Singh, Neel Dey, Malte Hoffmann, Bruce Fischl, Elfar Adalsteinsson, Robert Frost, Adrian V. Dalca, Polina Golland(参考訳) 運動アーティファクトはMRIの広範にわたる問題であり、人口レベルの画像研究において誤診や誤認を引き起こす。 現在の反射型剛性運動補正技術は、画像と運動パラメータの推定を共同で最適化する。 本稿では,厳密な動きパラメータのみを探索するために,深層ネットワークを用いて共同動画像パラメータ探索を削減した。 ネットワークは,k空間データと動きパラメータの2つの入力の関数として再構成を生成する。 我々は、既知の動きパラメータで生成された動乱k空間データを用いてネットワークを訓練する。 実験時には,運動パラメータとネットワークベースの画像再構成と取得した測定値とのデータの一貫性損失を最小化し,未知の動作パラメータを推定する。 シミュレーションおよび現実的な2次元高速スピンエコー脳MRIにおけるスライス内運動補正実験は、明示的なデータ一貫性最適化の利点を提供しながら、高い再構成精度を達成する。 私たちのコードはhttps://www.github.com/nalinimsingh/neuromocoで公開されています。

Motion artifacts are a pervasive problem in MRI, leading to misdiagnosis or mischaracterization in population-level imaging studies. Current retrospective rigid intra-slice motion correction techniques jointly optimize estimates of the image and the motion parameters. In this paper, we use a deep network to reduce the joint image-motion parameter search to a search over rigid motion parameters alone. Our network produces a reconstruction as a function of two inputs: corrupted k-space data and motion parameters. We train the network using simulated, motion-corrupted k-space data generated with known motion parameters. At test-time, we estimate unknown motion parameters by minimizing a data consistency loss between the motion parameters, the network-based image reconstruction given those parameters, and the acquired measurements. Intra-slice motion correction experiments on simulated and realistic 2D fast spin echo brain MRI achieve high reconstruction fidelity while providing the benefits of explicit data consistency optimization. Our code is publicly available at https://www.github.com/nalinimsingh/neuroMoCo.
翻訳日:2023-11-17 22:58:45 公開日:2023-11-16
# 確率ブロックモデルと混合モデルのプライベート推定アルゴリズム

Private estimation algorithms for stochastic block models and mixture models ( http://arxiv.org/abs/2301.04822v2 )

ライセンス: Link先を確認
Hongjie Chen, Vincent Cohen-Addad, Tommaso d'Orsi, Alessandro Epasto, Jacob Imola, David Steurer, Stefan Tiegel(参考訳) 我々は,非プライベートアルゴリズムの統計的保証とほぼ一致する高次元設定において,効率的なプライベート推定アルゴリズムを設計するための汎用ツールを導入する。 本手法を説明するために,確率ブロックモデルの復元と球状ガウスの混合学習という2つの問題を考える。 前者に対しては,弱い回復と正確な回復の両方のために,最初の効率的な$(\epsilon, \delta)$-differentially privateアルゴリズムを提案する。 従来知られていたアルゴリズムは、準多項時間を必要とする。 後者については、最小分離が少なくとも$ o(k^{1/t}\sqrt{t})$であるときに$k$-mixtureの中心を回復する$(\epsilon, \delta)$-微分的プライベートアルゴリズムを設計する。 t$のすべての選択に対して、このアルゴリズムはサンプル複雑性$n\geq k^{O(1)}d^{O(t)}$と時間複雑性$(nd)^{O(t)}$を必要とする。 以前の作業では、少なくとも$O(\sqrt{k})$の最小分離と、中心のユークリッドノルムの明示的な上限が必要だった。

We introduce general tools for designing efficient private estimation algorithms, in the high-dimensional settings, whose statistical guarantees almost match those of the best known non-private algorithms. To illustrate our techniques, we consider two problems: recovery of stochastic block models and learning mixtures of spherical Gaussians. For the former, we present the first efficient $(\epsilon, \delta)$-differentially private algorithm for both weak recovery and exact recovery. Previously known algorithms achieving comparable guarantees required quasi-polynomial time. For the latter, we design an $(\epsilon, \delta)$-differentially private algorithm that recovers the centers of the $k$-mixture when the minimum separation is at least $ O(k^{1/t}\sqrt{t})$. For all choices of $t$, this algorithm requires sample complexity $n\geq k^{O(1)}d^{O(t)}$ and time complexity $(nd)^{O(t)}$. Prior work required minimum separation at least $O(\sqrt{k})$ as well as an explicit upper bound on the Euclidean norm of the centers.
翻訳日:2023-11-17 22:58:11 公開日:2023-11-16
# ZXW計算におけるハミルトンの解法と指数化

How to Sum and Exponentiate Hamiltonians in ZXW Calculus ( http://arxiv.org/abs/2212.04462v2 )

ライセンス: Link先を確認
Razin A. Shaikh (Quantinuum Ltd), Quanlong Wang (Quantinuum Ltd), Richie Yeung (Quantinuum Ltd)(参考訳) 本稿では,ZXW計算において,ユニタリ時間進化などの量子力学を推論する実用的な和法を開発した。 まず、ZXW計算において任意の立方体ハミルトニアンを含む線型作用素の幅広いクラスの和を直接表現する。 応用として、シュレーディンガー方程式の線型性を示し、量子コンピューティングを用いた炭素捕獲をモデル化した最初の論文である Greene-Diniz et al において、ハミルトニアンの図式表現を与える。 次に、ケイリー=ハミルトンの定理を用いて、zxw計算において任意の量子ビットハミルトンを指数化する方法を原理的に示す。 最後に,ハミルトニアンシミュレーションのための実用的手法を開発し,テイラー展開とトロタライズを図式的に示す。 これにより、量子化学と凝縮物質物理学の問題にZXW計算を使用するための枠組みが確立される。

This paper develops practical summation techniques in ZXW calculus to reason about quantum dynamics, such as unitary time evolution. First we give a direct representation of a wide class of sums of linear operators, including arbitrary qubits Hamiltonians, in ZXW calculus. As an application, we demonstrate the linearity of the Schroedinger equation and give a diagrammatic representation of the Hamiltonian in Greene-Diniz et al, which is the first paper that models carbon capture using quantum computing. We then use the Cayley-Hamilton theorem to show in principle how to exponentiate arbitrary qubits Hamiltonians in ZXW calculus. Finally, we develop practical techniques and show how to do Taylor expansion and Trotterization diagrammatically for Hamiltonian simulation. This sets up the framework for using ZXW calculus to the problems in quantum chemistry and condensed matter physics.
翻訳日:2023-11-17 22:57:52 公開日:2023-11-16
# 軌道角運動量の固有状態を記述する経路分布

Path distributions for describing eigenstates of orbital angular momentum ( http://arxiv.org/abs/2308.02884v3 )

ライセンス: Link先を確認
Randall M. Feenstra(参考訳) 軌道角運動量固有状態の波動関数を形成するために経路の確率振幅が合計される方法について述べる。 定常相解析の一般化を用いて、任意の固有状態に対して経路がどのように寄与するかを測る分布が導出される。 長い旅行時間の極限において、これらの分布は、経路の終点の間の古典的移動を記述する運動量変数の実数値、非負関数であることが判明する(非古典的経路を含む経路は、弾力性(elastica)の項で記述される)。 分布は、この特性運動量の両方の関数であり、また、エンドポイントを接続する測地線の、選択された座標系のz軸に対して傾きを与える極角である。 結果として得られた記述は、軌道角運動量を記述するためによく知られた「ベクトルモデル」の代替となり、重要な点は、量子数 $\ell$ が 0 である場合(すなわち s-状態)の処理を含む。

The manner in which probability amplitudes of paths sum up to form wave functions of orbital angular momentum eigenstates is described. Using a generalization of stationary-phase analysis, distributions are derived that provide a measure of how paths contribute towards any given eigenstate. In the limit of long travel-time, these distributions turn out to be real-valued, non-negative functions of a momentum variable that describes classical travel between the endpoints of a path (with the paths explicitly including nonclassical ones, described in terms of elastica). The distributions are functions of both this characteristic momentum as well as a polar angle that provides a tilt, relative to the z-axis of the chosen coordinate system, of the geodesic that connects the endpoints. The resulting description provides a replacement for the well-known "vector model" for describing orbital angular momentum, and importantly, it includes treatment of the case when the quantum number $\ell$ is zero (i.e., s-states).
翻訳日:2023-11-17 22:50:33 公開日:2023-11-16
# MedLSAM:3次元CT画像の局所化とセグメンテーションモデル

MedLSAM: Localize and Segment Anything Model for 3D CT Images ( http://arxiv.org/abs/2306.14752v3 )

ライセンス: Link先を確認
Wenhui Lei, Xu Wei, Xiaofan Zhang, Kang Li, Shaoting Zhang(参考訳) Segment Anything Model (SAM)は画像セグメンテーションの分野で画期的なモデルとして最近登場した。 それでも、オリジナルのSAMとその医療適応はスライス・バイ・スライス・アノテーションを必要としており、データセットのサイズに応じてアノテーションのワークロードを直接増加させる。 この問題に対処するため,データセットのサイズに関わらず一定のアノテーション処理を確実にし,アノテーション処理を簡素化するMedLSAMを提案する。 本モデルでは,身体内の任意の対象解剖学的部位を局在化できる3次元局在基盤モデルを導入する。 そこで我々は, 統合解剖学的マッピング (UAM) とマルチスケール類似性 (MSS) の2つのセルフスーパービジョンタスクを, 14,012個のCTスキャンの包括的データセットに利用した3次元医用画像のローカライズアプライシングモデル(MedLAM)を開発した。 次に,MedLAMとSAMを統合することによって,正確なセグメンテーションの方法論を確立する。 いくつかのテンプレート上で3方向の極端な点をアノテートすることで、アノテーションのためにスケジュールされた全てのデータに基づいて、ターゲットの解剖学的領域を自律的に特定できる。 これにより、画像のスライス毎に2D bboxを生成し、SAMによってセグメンテーションを実行することができます。 我々は38個の異なる臓器を含む2つの3次元データセットの総合的な実験を行った。 私たちの発見は2つあります 1) MedLAMは、ほんの数個のテンプレートスキャンを用いて、解剖学的構造を直接局在させることができるが、その性能は、完全に教師されたモデルを上回る。 2)MedLSAMはSAMの性能と手動のプロンプトとを密接に一致させるだけでなく,データセット全体の極端点アノテーションに最小限の依存でこれを実現する。 さらに、MedLAMは将来の3D SAMモデルとシームレスに統合され、性能向上への道を開く可能性がある。

The Segment Anything Model (SAM) has recently emerged as a groundbreaking model in the field of image segmentation. Nevertheless, both the original SAM and its medical adaptations necessitate slice-by-slice annotations, which directly increase the annotation workload with the size of the dataset. We propose MedLSAM to address this issue, ensuring a constant annotation workload irrespective of dataset size and thereby simplifying the annotation process. Our model introduces a 3D localization foundation model capable of localizing any target anatomical part within the body. To achieve this, we develop a Localize Anything Model for 3D Medical Images (MedLAM), utilizing two self-supervision tasks: unified anatomical mapping (UAM) and multi-scale similarity (MSS) across a comprehensive dataset of 14,012 CT scans. We then establish a methodology for accurate segmentation by integrating MedLAM with SAM. By annotating several extreme points across three directions on a few templates, our model can autonomously identify the target anatomical region on all data scheduled for annotation. This allows our framework to generate a 2D bbox for every slice of the image, which is then leveraged by SAM to carry out segmentation. We carried out comprehensive experiments on two 3D datasets encompassing 38 distinct organs. Our findings are twofold: 1) MedLAM is capable of directly localizing any anatomical structure using just a few template scans, yet its performance surpasses that of fully supervised models; 2) MedLSAM not only aligns closely with the performance of SAM and its specialized medical adaptations with manual prompts but achieves this with minimal reliance on extreme point annotations across the entire dataset. Furthermore, MedLAM has the potential to be seamlessly integrated with future 3D SAM models, paving the way for enhanced performance.
翻訳日:2023-11-17 22:50:13 公開日:2023-11-16
# 大規模拡散モデルに対するより現実的なメンバーシップ推論攻撃に向けて

Towards More Realistic Membership Inference Attacks on Large Diffusion Models ( http://arxiv.org/abs/2306.12983v2 )

ライセンス: Link先を確認
Jan Dubi\'nski, Antoni Kowalczuk, Stanis{\l}aw Pawlak, Przemys{\l}aw Rokita, Tomasz Trzci\'nski, Pawe{\l} Morawiecki(参考訳) 安定拡散やミッドジャーニーを含む生成拡散モデルでは、様々な用途で視覚的に魅力的で多彩で高解像度な画像を生成することができる。 これらのモデルは、数十億ものインターネットソースイメージに基づいてトレーニングされ、著作権保護された画像の潜在的無許可使用に関する大きな懸念を提起する。 本稿では,特定のイメージがトレーニングセットで使用されたか,サイバーセキュリティコミュニティで知られ,メンバシップ推論攻撃として言及されているかを決定することができるかを検討する。 我々の焦点は安定拡散であり、このメンバーシップ問題に答えるために公正な評価フレームワークを設計することの課題に対処する。 本稿では,公平な評価設定を確立して安定拡散に適用し,他の生成モデルへの潜在的な拡張を可能にする手法を提案する。 この評価設定を利用して、メンバシップアタック(既知のものと新たに導入されたものの両方)を実行します。 本研究は,提案手法がメンバシップ推論攻撃の有効性を完全に理解していないことを明らかにする。 会員推測攻撃は、大きな拡散モデル(しばしばブラックボックスシステムとして展開される)にとって重要な課題であり、関連するプライバシーと著作権の問題は、当面続くと結論付けている。

Generative diffusion models, including Stable Diffusion and Midjourney, can generate visually appealing, diverse, and high-resolution images for various applications. These models are trained on billions of internet-sourced images, raising significant concerns about the potential unauthorized use of copyright-protected images. In this paper, we examine whether it is possible to determine if a specific image was used in the training set, a problem known in the cybersecurity community and referred to as a membership inference attack. Our focus is on Stable Diffusion, and we address the challenge of designing a fair evaluation framework to answer this membership question. We propose a methodology to establish a fair evaluation setup and apply it to Stable Diffusion, enabling potential extensions to other generative models. Utilizing this evaluation setup, we execute membership attacks (both known and newly introduced). Our research reveals that previously proposed evaluation setups do not provide a full understanding of the effectiveness of membership inference attacks. We conclude that the membership inference attack remains a significant challenge for large diffusion models (often deployed as black-box systems), indicating that related privacy and copyright issues will persist in the foreseeable future.
翻訳日:2023-11-17 22:49:39 公開日:2023-11-16
# GADBench: 改訂とベンチマークによるグラフ異常検出

GADBench: Revisiting and Benchmarking Supervised Graph Anomaly Detection ( http://arxiv.org/abs/2306.12251v2 )

ライセンス: Link先を確認
Jianheng Tang, Fengrui Hua, Ziqi Gao, Peilin Zhao, Jia Li(参考訳) 従来のグラフ異常検出(gad)アルゴリズムや最近普及したグラフニューラルネットワーク(gnns)の長い歴史から、(1)標準的な包括的設定の下でどのように振る舞うか、(2)gnnがツリーアンサンブルのような従来のアルゴリズムを上回ることができるか、(3)大規模グラフ上での効率性については、まだ明確ではない。 これに対して,静的グラフにおける異常ノード検出を教師するベンチマークツールであるGADBenchを紹介した。 GADBenchは、現実世界の10のGADデータセット上の29の異なるモデルに対して、数千から数百万のノードを含む詳細な比較を行う。 我々の主な発見は、GADタスクに適した最新のGNNよりも、単純な近所の集約によるツリーアンサンブルの方が優れたことだ。 我々は、GADの現在の進展に光を当て、この領域におけるその後の調査の確固たる基礎を築いた。 GADBenchはhttps://github.com/squareRoot3/GADBenchでオープンソース化されている。

With a long history of traditional Graph Anomaly Detection (GAD) algorithms and recently popular Graph Neural Networks (GNNs), it is still not clear (1) how they perform under a standard comprehensive setting, (2) whether GNNs can outperform traditional algorithms such as tree ensembles, and (3) how about their efficiency on large-scale graphs. In response, we introduce GADBench -- a benchmark tool dedicated to supervised anomalous node detection in static graphs. GADBench facilitates a detailed comparison across 29 distinct models on ten real-world GAD datasets, encompassing thousands to millions ($\sim$6M) nodes. Our main finding is that tree ensembles with simple neighborhood aggregation can outperform the latest GNNs tailored for the GAD task. We shed light on the current progress of GAD, setting a robust groundwork for subsequent investigations in this domain. GADBench is open-sourced at https://github.com/squareRoot3/GADBench.
翻訳日:2023-11-17 22:49:19 公開日:2023-11-16
# オープン問題:測度の変動目標を用いた学習

Open Problem: Learning with Variational Objectives on Measures ( http://arxiv.org/abs/2306.11928v2 )

ライセンス: Link先を確認
Vivien Cabannes, Carles Domingo-Enrich(参考訳) 統計的学習の理論は、関数に表される変分目的に焦点を当てている。 本稿では,分散一般化と弱い教師付き学習を議論するために,同様の目的を尺度で記述する動機について論じる。 通常の統計的学習結果を、測定値で表される目的に当てはめることができるか? その結果、実用的関心のある新しいアルゴリズムが生まれるだろうか?

The theory of statistical learning has focused on variational objectives expressed on functions. In this note, we discuss motivations to write similar objectives on measures, in particular to discuss out-of-distribution generalization and weakly-supervised learning. It raises a natural question: can one cast usual statistical learning results to objectives expressed on measures? Does the resulting construction lead to new algorithms of practical interest?
翻訳日:2023-11-17 22:48:59 公開日:2023-11-16
# 半教師付きOCT流体セグメンテーション改善のための超画素・信頼学習によるポイントアノテーションの強化

Enhancing Point Annotations with Superpixel and Confidence Learning Guided for Improving Semi-Supervised OCT Fluid Segmentation ( http://arxiv.org/abs/2306.02582v2 )

ライセンス: Link先を確認
Tengjin Weng, Yang Shen, Kai Jin, Zhiming Cheng, Yunxiang Li, Gewen Zhang, Shuai Wang and Yaqi Wang(参考訳) 光コヒーレンス・トモグラフィー(OCT)画像における流体の自動分画は眼科医が正確な診断に有用である。 半教師付きOCT流体セグメンテーションネットワークは、追加のラベル付きデータを導入して性能を向上するが、性能向上は限定的である。 そこで本研究では,教師-学生アーキテクチャに基づくSuperpixel and Confident Learning Guide Point Annotations Network (SCLGPA-Net)を提案する。 具体的には、未ラベルOCT画像中の流体領域に注釈をつけるためにポイントを使用し、Superpixel-Guided Pseudo-Label Generation (SGPLG)モジュールは、ポイントアノテーションから擬似ラベルとピクセルレベルのラベル信頼マップを生成する。 ラベル信頼マップは、擬似ラベルの信頼性を示す。 さらに,疑似ラベルの誤り情報を識別するCLGLR(Confident Learning Guided Label Refinement)モジュールを提案する。 RETOUCHデータセットの実験では、完全なアノテーション付きデータの必要性を94.22\%削減し、最高の完全な教師付きベースラインとのギャップを2\%の平均IoUに縮めることができた。 さらに,評価のための2次元CT流体セグメンテーションデータセットを構築した。 他の方法と比較して,提案手法がOCT流体セグメンテーションにおいて優れた性能を発揮することを示す。

Automatic segmentation of fluid in Optical Coherence Tomography (OCT) images is beneficial for ophthalmologists to make an accurate diagnosis. Although semi-supervised OCT fluid segmentation networks enhance their performance by introducing additional unlabeled data, the performance enhancement is limited. To address this, we propose Superpixel and Confident Learning Guide Point Annotations Network (SCLGPA-Net) based on the teacher-student architecture, which can learn OCT fluid segmentation from limited fully-annotated data and abundant point-annotated data. Specifically, we use points to annotate fluid regions in unlabeled OCT images and the Superpixel-Guided Pseudo-Label Generation (SGPLG) module generates pseudo-labels and pixel-level label trust maps from the point annotations. The label trust maps provide an indication of the reliability of the pseudo-labels. Furthermore, we propose the Confident Learning Guided Label Refinement (CLGLR) module identifies error information in the pseudo-labels and leads to further refinement. Experiments on the RETOUCH dataset show that we are able to reduce the need for fully-annotated data by 94.22\%, closing the gap with the best fully supervised baselines to a mean IoU of only 2\%. Furthermore, We constructed a private 2D OCT fluid segmentation dataset for evaluation. Compared with other methods, comprehensive experimental results demonstrate that the proposed method can achieve excellent performance in OCT fluid segmentation.
翻訳日:2023-11-17 22:48:52 公開日:2023-11-16
# ボトルの中のメッセージ - ゴールデンレコードの最新情報

Message in a Bottle -- An Update to the Golden Record ( http://arxiv.org/abs/2306.01765v3 )

ライセンス: Link先を確認
Jonathan H. Jiang, Anamaria Berea, Heather Bowden, Prithwis Das, Kristen A. Fahy, Joseph Ginsberg, Robert Jew, Xiaoming Jiang, Arik Kershenbaum, David Kipping, Graham Lau, Karen Lewis, C. Isabel Nunez Lendo, Philip E. Rosen, Nick Searra, Stuart F. Taylor, John Traphagan(参考訳) このシリーズの最初のパートでは、"Message in a Bottle"(以下、MIAB)の基礎的な側面を掘り下げています。 この研究は、1977年にボイジャー1号と2号で打ち上げられたボイジャー・ゴールデン・レコード(ボイジャー・ゴールデン・レコード)の遺産であり、我々の世界を超えた知的種との通信を目的としている。 これらの記録は、地球と人類のスナップショットとしてだけでなく、先進的なエイリアン文明との接触を確立するという我々の欲求も継続している。 相互に理解された記号、記号、記号がないことから、ミアーブは前任者と同様に、人類の物語をカプセル化する革新的なコミュニケーション手段を設計するために科学的手法を使おうとしている。 我々の目的は、人類社会の普遍的かつ文脈的理解、地球上の生命の進化、そして我々の将来への希望と関心を提供する方法で、我々の集合的知識、感情、革新、願望を伝えることである。 この時間と宇宙旅行カプセルを通じて、私たちは、現在と将来の世代を刺激し、統一し、共通の人間体験を祝福し、保護することに努めています。

In this first part of our series, we delve into the foundational aspects of the "Message in a Bottle" (henceforth referred to as MIAB). This study stands as a continuation of the legacy set by the Voyager Golden Records launched aboard Voyager 1 and 2 in 1977, which aimed to communicate with intelligent species beyond our world. These Records continue to serve not only as a snapshot of Earth and humanity but also carry forth our desire for establishing contact with advanced alien civilizations. Given the absence of mutually understood signs, symbols, and semiotic conventions, MIAB, like its predecessor, seeks to use scientific methods to design an innovative means of communication encapsulating the story of humanity. Our aim is to convey our collective knowledge, feelings, innovations, and aspirations in a manner that offers a universal, yet contextual understanding of human society, the evolution of life on Earth, and our hopes and concerns for the future. Through this time and space traveling capsule, we also strive to inspire and unify current and future generations to celebrate and safeguard our shared human experience.
翻訳日:2023-11-17 22:48:24 公開日:2023-11-16
# 動的コーパスにおける生成検索の実用性を探る

Exploring the Practicality of Generative Retrieval on Dynamic Corpora ( http://arxiv.org/abs/2305.18952v3 )

ライセンス: Link先を確認
Soyoung Yoon, Chaeeun Kim, Hyunji Lee, Joel Jang, Sohee Yang, Minjoon Seo(参考訳) 情報検索(IR)手法のパフォーマンスのベンチマークは、主に固定された文書(静的コーパス)を用いて行われるが、現実的なシナリオでは、これはまれであり、取得すべき文書は定期的に更新および追加される。 本稿では,検索対象のコーパスを更新する動的シナリオにおいて,現代検索システムの2つのカテゴリ,デュアルエンコーダ(DE)と生成検索(GR)を包括的に比較することに焦点を当てる。 また、実世界展開においてIRシステムにとって重要な要素である計算効率とメモリ効率を広範囲に評価する。 以上の結果から,GRは進化的知識(StreamingQAベンチマークでは+13-18%)に適応し,時間的情報(x10倍),メモリ(x4倍),インデックス時間(x6倍),推論フロップ(x10倍)の処理に堅牢であることが示された。 本稿では,実用赤外線システムにおけるGRの可能性について述べる。

Benchmarking the performance of information retrieval (IR) methods are mostly conducted with a fixed set of documents (static corpora); in realistic scenarios, this is rarely the case and the document to be retrieved are constantly updated and added. In this paper, we focus on conducting a comprehensive comparison between two categories of contemporary retrieval systems, Dual Encoders (DE) and Generative Retrievals (GR), in a dynamic scenario where the corpora to be retrieved is updated. We also conduct an extensive evaluation of computational and memory efficiency, crucial factors for IR systems for real-world deployment. Our results demonstrate that GR is more adaptable to evolving knowledge (+13-18% on the StreamingQA Benchmark), robust in handling data with temporal information (x 10 times), and efficient in terms of memory (x 4 times), indexing time (x 6 times), and inference flops (x 10 times). Our paper highlights GR's potential for future use in practical IR systems.
翻訳日:2023-11-17 22:48:02 公開日:2023-11-16
# BK-SDM:安定拡散の軽量・高速・チープ版

BK-SDM: A Lightweight, Fast, and Cheap Version of Stable Diffusion ( http://arxiv.org/abs/2305.15798v3 )

ライセンス: Link先を確認
Bo-Kyeong Kim, Hyoung-Kyu Song, Thibault Castells, Shinkook Choi(参考訳) 安定拡散モデル(SDM)を用いたテキスト・ツー・イメージ(T2I)生成は、数十億のパラメータによる高い計算要求を伴う。 効率を向上させるため、最近の研究ではサンプリングステップを減らし、元のアーキテクチャを維持しながらネットワーク量子化を適用している。 アーキテクチャ削減の試みの欠如は、このような大規模なモデルに対する高価な再トレーニングに対する懸念から生じる可能性がある。 本研究では,低コスト汎用T2Iのブロックプレーニングと特徴蒸留の可能性を明らかにする。 SDMのU-Netから残差ブロックや注目ブロックを取り除き、モデルサイズ、MAC、遅延を30%から50%削減する。 わずか13a100日と小さなデータセットを使用して、我々のコンパクトモデルは元のsdm(v1.4とv2.1ベースで6,000a100日以上)を模倣することができる。 我々のBK-SDMは、転送された知識により、より大規模なマルチビリオンパラメータモデルに対するゼロショットMS-COCO上での競合結果を提供する。 さらに、パーソナライズされた生成と画像間翻訳における軽量なバックボーンの適用性を示す。 エッジデバイスにモデルをデプロイすることで,4秒の推論が可能になります。 この作業が、トレーニング予算が実現可能な、小規模で強力な拡散モデルの構築に役立つことを願っています。 コードとモデルは、https://github.com/nota-netspresso/bk-sdmにある。

Text-to-image (T2I) generation with Stable Diffusion models (SDMs) involves high computing demands due to billion-scale parameters. To enhance efficiency, recent studies have reduced sampling steps and applied network quantization while retaining the original architectures. The lack of architectural reduction attempts may stem from worries over expensive retraining for such massive models. In this work, we uncover the surprising potential of block pruning and feature distillation for low-cost general-purpose T2I. By removing several residual and attention blocks from the U-Net of SDMs, we achieve 30%~50% reduction in model size, MACs, and latency. We show that distillation retraining is effective even under limited resources: using only 13 A100 days and a tiny dataset, our compact models can imitate the original SDMs (v1.4 and v2.1-base with over 6,000 A100 days). Benefiting from the transferred knowledge, our BK-SDMs deliver competitive results on zero-shot MS-COCO against larger multi-billion parameter models. We further demonstrate the applicability of our lightweight backbones in personalized generation and image-to-image translation. Deployment of our models on edge devices attains 4-second inference. We hope this work can help build small yet powerful diffusion models with feasible training budgets. Code and models can be found at: https://github.com/Nota-NetsPresso/BK-SDM
翻訳日:2023-11-17 22:47:13 公開日:2023-11-16
# 複数の顔反応生成のための可逆的グラフニューラルネットワークによる反応分布学習

Reversible Graph Neural Network-based Reaction Distribution Learning for Multiple Appropriate Facial Reactions Generation ( http://arxiv.org/abs/2305.15270v3 )

ライセンス: Link先を確認
Tong Xu, Micol Spitale, Hao Tang, Lu Liu, Hatice Gunes, Siyang Song(参考訳) 人間と人間の対話における顔反応の生成は複雑で、複数の顔反応が話者の行動に適しているため、文脈に大きく依存する。 これは既存の機械学習(ML)手法に挑戦し、トレーニング戦略では各入力話者の振る舞いから特定の(複数の)顔反応を再現するモデルを強制する。 本論文では, 顔反応生成問題を1対1マッピング問題として再定式化する, 顔反応生成フレームワークを提案する。 これは,複数の異なる適切な顔反応ではなく,聞き手の適切な顔反応の分布を,訓練中の「1」分布ラベルとして要約することにより,この問題にアプローチすることを意味する。 私たちのモデルは知覚プロセッサ、認知プロセッサ、運動プロセッサで構成されています。 モータプロセッサは、新しい可逆性多次元エッジグラフニューラルネットワーク(regnn)によって実装される。 これにより、トレーニングプロセス中に適切な顔反応の分布を得ることができ、認知プロセッサを訓練して適切な顔反応分布を予測することができる。 推論段階では、REGNNは、この分布を入力として、適切な顔反応を復号する。 実験の結果,提案手法は既存のモデルよりも,より適切で現実的で,同期的な顔反応を生成できることがわかった。 改善された性能は、提案された適切な顔反応分布学習戦略とREGNNの使用に起因する。 コードはhttps://github.com/TongXu-05/REGNN-Multiple-Appropriate-Facial-Reaction-Generationで公開されている。

Generating facial reactions in a human-human dyadic interaction is complex and highly dependent on the context since more than one facial reactions can be appropriate for the speaker's behaviour. This has challenged existing machine learning (ML) methods, whose training strategies enforce models to reproduce a specific (not multiple) facial reaction from each input speaker behaviour. This paper proposes the first multiple appropriate facial reaction generation framework that re-formulates the one-to-many mapping facial reaction generation problem as a one-to-one mapping problem. This means that we approach this problem by considering the generation of a distribution of the listener's appropriate facial reactions instead of multiple different appropriate facial reactions, i.e., 'many' appropriate facial reaction labels are summarised as 'one' distribution label during training. Our model consists of a perceptual processor, a cognitive processor, and a motor processor. The motor processor is implemented with a novel Reversible Multi-dimensional Edge Graph Neural Network (REGNN). This allows us to obtain a distribution of appropriate real facial reactions during the training process, enabling the cognitive processor to be trained to predict the appropriate facial reaction distribution. At the inference stage, the REGNN decodes an appropriate facial reaction by using this distribution as input. Experimental results demonstrate that our approach outperforms existing models in generating more appropriate, realistic, and synchronized facial reactions. The improved performance is largely attributed to the proposed appropriate facial reaction distribution learning strategy and the use of a REGNN. The code is available at https://github.com/TongXu-05/REGNN-Multiple-Appropriate-Facial-Reaction-Generation.
翻訳日:2023-11-17 22:46:48 公開日:2023-11-16
# 時代遅れの要素を識別する時間的過失

Mitigating Temporal Misalignment by Discarding Outdated Facts ( http://arxiv.org/abs/2305.14824v2 )

ライセンス: Link先を確認
Michael J.Q. Zhang and Eunsol Choi(参考訳) 大規模な言語モデルは、事前トレーニング中に見られる膨大な量の知識を保持できるが、そのような知識は時代遅れになりがちであり、更新するのは簡単ではない。 さらに、これらのモデルは、過去に収集されたデータについてのみ訓練されたにもかかわらず、現在に関する質問に答えるタスクとして、時間的ミスアライメントの下でしばしば使用される。 時間的ミスアライメントの効果を軽減するために,与えられた事実がいつまで真実であるかを予測するタスクとして,実時間予測を提案する。 実験では、どの事実が急速に変化しやすいかを特定することで、モデルが時代遅れの情報を引用することを避け、どの予測が最新の知識ソースを求める必要があるかを判断するのに役立つことを実証する。 また,時間的ミスアライメントの下では,知識集約型タスクのキャリブレーションのモデル化により,不安定な事実を排除し,知識集約型タスクのキャリブレーションが向上することを示す。 私たちのデータとコードはhttps://github.com/mikejqzhang/mitigating_misalignmentで公開されています。

While large language models are able to retain vast amounts of world knowledge seen during pretraining, such knowledge is prone to going out of date and is nontrivial to update. Furthermore, these models are often used under temporal misalignment, tasked with answering questions about the present, despite having only been trained on data collected in the past. To mitigate the effects of temporal misalignment, we propose fact duration prediction: the task of predicting how long a given fact will remain true. In our experiments, we demonstrate that identifying which facts are prone to rapid change can help models avoid reciting outdated information and determine which predictions require seeking out up-to-date knowledge sources. We also show how modeling fact duration improves calibration for knowledge-intensive tasks, such as open-retrieval question answering, under temporal misalignment, by discarding volatile facts. Our data and code are released publicly at https://github.com/mikejqzhang/mitigating_misalignment.
翻訳日:2023-11-17 22:46:23 公開日:2023-11-16
# AWESOME: メモリ機構とグローバルサリアンコンテンツを用いたGPUメモリ制約長文書要約

AWESOME: GPU Memory-constrained Long Document Summarization using Memory Mechanism and Global Salient Content ( http://arxiv.org/abs/2305.14806v2 )

ライセンス: Link先を確認
Shuyang Cao and Lu Wang(参考訳) 長い文書要約システムは、長文およびjargonladenテキストを持つ領域では重要であるが、限られた計算資源を持つ研究者や開発者には重大な課題がある。 既存のソリューションは、主に効率的な注意力や配当戦略に重点を置いている。 前者は理論的な時間の複雑さを減らしますが、それでもメモリが重いです。 後者のメソッドはグローバルコンテキストを犠牲にし、非形式的で一貫性のない要約に繋がる。 本研究の目的は,グローバルなコンテキストを保ちながら分割・参照方式のメモリ効率性を活用することである。 具体的には,(1)外部メモリ機構が従来エンコードされていた文書セグメントとその要約を追跡し,グローバルな文書理解と要約コヒーレンスを強化する。 (2)グローバルサリエントコンテンツは、その要約をサポートするために各文書セグメントを補強するために事前に識別される。 政府報告書、写本、科学論文、小説など、多種多様な分野のテキストに関する広範な実験は、AWESOMEがより長いドキュメントの競合ベースラインよりも情報性、忠実性、一貫性を改善した要約を生成する一方で、GPUメモリフットプリントが小さくなっていることを示している。

Long document summarization systems are critical for domains with lengthy and jargonladen text, yet they present significant challenges to researchers and developers with limited computing resources. Existing solutions mainly focus on efficient attentions or divide-and-conquer strategies. The former reduces theoretical time complexity, but is still memory-heavy. The latter methods sacrifice global context, leading to uninformative and incoherent summaries. This work aims to leverage the memory-efficient nature of divide-and-conquer methods while preserving global context. Concretely, our framework AWESOME uses two novel mechanisms: (1) External memory mechanisms track previously encoded document segments and their corresponding summaries, to enhance global document understanding and summary coherence. (2) Global salient content is further identified beforehand to augment each document segment to support its summarization. Extensive experiments on diverse genres of text, including government reports, transcripts, scientific papers, and novels, show that AWESOME produces summaries with improved informativeness, faithfulness, and coherence than competitive baselines on longer documents, while having a smaller GPU memory footprint.
翻訳日:2023-11-17 22:46:05 公開日:2023-11-16
# 大規模言語モデルによる要約学習について

On Learning to Summarize with Large Language Models as References ( http://arxiv.org/abs/2305.14239v2 )

ライセンス: Link先を確認
Yixin Liu, Kejian Shi, Katherine S He, Longtian Ye, Alexander R. Fabbri, Pengfei Liu, Dragomir Radev, Arman Cohan(参考訳) 近年の研究では、大言語モデル(LLM)によって生成された要約は、一般的に使用される要約データセットの本来の参照要約よりも人間のアノテーションに好まれている。 そこで,本研究では,LLMを参照あるいはゴールドスタンダードのオラクルとみなすテキスト要約モデルの新たな学習環境について検討する。 この新たな学習環境と整合する標準手法を検討するため,モデルトレーニングのための2つのLCMに基づく要約品質評価手法を検証し,LLM誘導学習信号を活用するためのコントラスト学習訓練手法を採用する。 CNN/DailyMail と XSum のデータセットを用いた実験により,LLM を用いた評価では,より小さな要約モデルでも LLM と同様の性能が得られることが示された。 しかし,本モデルでは,提案手法による有望な改善にもかかわらず,人間による評価ではLLMレベルに到達できないことがわかった。 一方,この学習環境において,人間とllmに基づく評価の相違を明らかにするメタアナリシスを行い,検討したllm-as-reference設定の利点とリスクを強調する。

Recent studies have found that summaries generated by large language models (LLMs) are favored by human annotators over the original reference summaries in commonly used summarization datasets. Therefore, we investigate a new learning setting of text summarization models that considers the LLMs as the reference or the gold-standard oracle on these datasets. To examine the standard practices that are aligned with this new learning setting, we investigate two LLM-based summary quality evaluation methods for model training and adopt a contrastive learning training method to leverage the LLM-guided learning signals. Our experiments on the CNN/DailyMail and XSum datasets demonstrate that smaller summarization models can achieve similar performance as LLMs under LLM-based evaluation. However, we found that the smaller models can not yet reach LLM-level performance under human evaluation despite promising improvements brought by our proposed training methods. Meanwhile, we perform a meta-analysis on this new learning setting that reveals a discrepancy between human and LLM-based evaluation, highlighting the benefits and risks of this LLM-as-reference setting we investigated.
翻訳日:2023-11-17 22:45:43 公開日:2023-11-16
# ステップバイステップ:効率的な推論とllmsによるコーディングのための適応一貫性

Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning and Coding with LLMs ( http://arxiv.org/abs/2305.11860v2 )

ライセンス: Link先を確認
Pranjal Aggarwal, Aman Madaan, Yiming Yang, Mausam(参考訳) 大規模言語モデル(llm)からの出力の正確性を改善するための一般的なアプローチは、自己一貫性(self-consistency)である。 既存の自己一貫性技術は常に質問毎に一定の数のサンプルを生成します。そこでは、これまで生成されたサンプルの合意の量に基づいて、利用可能な予算を均一に分散する方がよいでしょう。 そこで,我々は,軽量な停止基準を用いて,質問毎のサンプル数を動的に調整するコスト効率の高いモデル非依存手法であるadaptive-consistencyを導入する。 17の推論とコード生成データセットと3つのLCMによる実験により、Adaptive-Consistencyはサンプル予算を最大7.9倍削減し、平均精度は0.1%未満であることが示された。 私たちのコードとデータはhttps://www.sample-step-by-step.infoで入手できます。

A popular approach for improving the correctness of output from large language models (LLMs) is Self-Consistency - poll the LLM multiple times and output the most frequent solution. Existing Self-Consistency techniques always generate a constant number of samples per question, where a better approach will be to non-uniformly distribute the available budget based on the amount of agreement in the samples generated so far. In response, we introduce Adaptive-Consistency, a cost-efficient, model-agnostic technique that dynamically adjusts the number of samples per question using a lightweight stopping criterion. Our experiments over 17 reasoning and code generation datasets and three LLMs demonstrate that Adaptive-Consistency reduces sample budget by up to 7.9 times with an average accuracy drop of less than 0.1%. Our code and data are available at https://www.sample-step-by-step.info
翻訳日:2023-11-17 22:45:14 公開日:2023-11-16
# 動的カシミール効果における熱力学的エントロピー生成

Thermodynamic entropy production in the dynamical Casimir effect ( http://arxiv.org/abs/2309.07847v2 )

ライセンス: Link先を確認
Gustavo de Oliveira and Lucas C. C\'eleri(参考訳) 本稿では,力学カシミール効果の文脈における熱力学的エントロピー生成の問題について述べる。 具体的には, 1次元イデアル空洞内に閉じ込められたスカラー量子場を, 空洞鏡の外部所定の軌道によって引き起こされる時変境界条件下で研究する。 中心となる問題は、場の熱力学的エントロピーが時間とともにどのように進化するかである。 効果的なハミルトニアンの手法を用いてエントロピー生成を計算し, 短時間で生成する粒子数に関するスケーリング挙動を明らかにした。 さらに、このアプローチは、このエントロピーと場のモード基底における量子コヒーレンスの発生との直接的な関係を解明する。 さらに、ガウス状態の時間発展に基づく別のアプローチを考えることにより、場の単一モードにおけるエントロピー生成の長期的極限について検討する。 このアプローチにより、単一フィールドモードにおける熱力学的エントロピー生成と、その特定のモードと他のすべてのモードとの絡み合いの接続が確立される。 その結果、2つの異なるアプローチを用いて、システムの短期的および長期的ダイナミクスを包括的に解決する。 この結果は、エントロピー生成によって測定され、動的カシミール効果によって誘導される、場の可逆的ダイナミクスと、コヒーレンスと絡み合いという2つの量子力学の基本的な側面を結びつける。

This paper address the question of thermodynamic entropy production in the context of the dynamical Casimir effect. Specifically, we study a scalar quantum field confined within a one-dimensional ideal cavity subject to time-varying boundary conditions dictated by an externally prescribed trajectory of one of the cavity mirrors. The central question is how the thermodynamic entropy of the field evolves over time. Utilizing an effective Hamiltonian approach, we compute the entropy production and reveal that it exhibits scaling behavior concerning the number of particles created in the short-time limit. Furthermore, this approach elucidates the direct connection between this entropy and the emergence of quantum coherence within the mode basis of the field. In addition, by considering a distinct approach based on the time evolution of Gaussian states we examine the long-time limit of entropy production within a single mode of the field. This approach results in establishing a connection between the thermodynamic entropy production in a single field mode and the entanglement between that particular mode and all other modes. Consequently, by employing two distinct approaches, we comprehensively address both the short-term and long-term dynamics of the system. Our results thus link the irreversible dynamics of the field, as measured by entropy production and induced by the dynamical Casimir effect, to two fundamental aspects of quantum mechanics: coherence and entanglement.
翻訳日:2023-11-17 22:37:26 公開日:2023-11-16
# JPEGの差別化:悪魔は細部にある

Differentiable JPEG: The Devil is in the Details ( http://arxiv.org/abs/2309.06978v2 )

ライセンス: Link先を確認
Christoph Reich, Biplob Debnath, Deep Patel, Srimat Chakradhar(参考訳) jpegは最も広く普及している画像符号化方法の1つである。 しかしながら、jpegの非微分性は、ディープラーニングパイプラインのアプリケーションを制限する。 JPEGのいくつかの異なる近似がこの問題に対処するために最近提案されている。 本稿では既存の差分を包括的に検討する。 JPEGは従来の方法で見逃された重要な詳細にアプローチし、識別する。 この目的のために、我々は新しい差分を提案する。 JPEGアプローチは、以前の制限を克服する。 我々のアプローチは、入力画像、jpeg品質、量子化テーブル、色変換パラメータを微分可能なw.r.tである。 我々は差分の前方および後方のパフォーマンスを評価する。 既存のメソッドに対するJPEGアプローチ。 さらに、重要な設計選択を評価するために広範なアブレーションが行われる。 我々の提案した差分。 JPEGは(非差分)参照実装に最も似ており、近年の差分をはるかに上回っている。 平均$3.47$dB (PSNR) のアプローチ。 強い圧縮率では、PSNRも9.51ドルdB改善できる。 強い敵攻撃の結果は差分によって得られる。 JPEGは、効果的な勾配近似を示す。 私たちのコードはhttps://github.com/necla-ml/Diff-JPEGで公開されています。

JPEG remains one of the most widespread lossy image coding methods. However, the non-differentiable nature of JPEG restricts the application in deep learning pipelines. Several differentiable approximations of JPEG have recently been proposed to address this issue. This paper conducts a comprehensive review of existing diff. JPEG approaches and identifies critical details that have been missed by previous methods. To this end, we propose a novel diff. JPEG approach, overcoming previous limitations. Our approach is differentiable w.r.t. the input image, the JPEG quality, the quantization tables, and the color conversion parameters. We evaluate the forward and backward performance of our diff. JPEG approach against existing methods. Additionally, extensive ablations are performed to evaluate crucial design choices. Our proposed diff. JPEG resembles the (non-diff.) reference implementation best, significantly surpassing the recent-best diff. approach by $3.47$dB (PSNR) on average. For strong compression rates, we can even improve PSNR by $9.51$dB. Strong adversarial attack results are yielded by our diff. JPEG, demonstrating the effective gradient approximation. Our code is available at https://github.com/necla-ml/Diff-JPEG.
翻訳日:2023-11-17 22:37:05 公開日:2023-11-16
# 腹部ctにおける高速・低リソース・高精度臓器・膵管セグメンテーションのための2段階ハイブリッド監督フレームワーク

Two-Stage Hybrid Supervision Framework for Fast, Low-resource, and Accurate Organ and Pan-cancer Segmentation in Abdomen CT ( http://arxiv.org/abs/2309.05405v2 )

ライセンス: Link先を確認
Wentao Liu, Tong Tian, Weijin Xu, Lemeng Wang, Haoyuan Li, Huihua Yang(参考訳) 腹部臓器と腫瘍の分節は、臓器の定量化、手術計画、疾患診断など、多くの重要な臨床応用がある。 しかし、手作業による評価は本質的に主観的であり、熟練者間および熟練者内変動性が高い。 本稿では,腹腔内臓器および腫瘍の分節化のための自己訓練と平均教師を統合し,部分的ラベル付きデータとラベルなしデータを用いた複合指導フレームワークであるstmtを提案する。 推定時間とgpuメモリ使用量の要件を満たしながら、セグメンテーション精度を最大化するために、2段階セグメンテーションパイプラインと全ボリュームベースの入力戦略を導入する。 FLARE2023の検証実験により,提案手法は高速かつ低リソースなモデル推論だけでなく,セグメンテーション性能にも優れることを示した。 検証セットでは, dsc平均スコア89.79\%, 45.55 \%, gpuメモリタイム治療時の走行時間と面積はそれぞれ11.25s, 9627.82mbであった。

Abdominal organ and tumour segmentation has many important clinical applications, such as organ quantification, surgical planning, and disease diagnosis. However, manual assessment is inherently subjective with considerable inter- and intra-expert variability. In the paper, we propose a hybrid supervised framework, StMt, that integrates self-training and mean teacher for the segmentation of abdominal organs and tumors using partially labeled and unlabeled data. We introduce a two-stage segmentation pipeline and whole-volume-based input strategy to maximize segmentation accuracy while meeting the requirements of inference time and GPU memory usage. Experiments on the validation set of FLARE2023 demonstrate that our method achieves excellent segmentation performance as well as fast and low-resource model inference. Our method achieved an average DSC score of 89.79\% and 45.55 \% for the organs and lesions on the validation set and the average running time and area under GPU memory-time cure are 11.25s and 9627.82MB, respectively.
翻訳日:2023-11-17 22:36:53 公開日:2023-11-16
# パッチバイパッチパラダイムによるganを用いた無限分解能テクスチャの生成

Generating Infinite-Resolution Texture using GANs with Patch-by-Patch Paradigm ( http://arxiv.org/abs/2309.02340v2 )

ライセンス: Link先を確認
Alhasan Abdellatif and Ahmed H. Elsheikh(参考訳) 本稿では,パッチ・バイ・パッチ・パラダイムに基づくGAN(Generative Adversarial Networks)を用いて,無限解像度のテクスチャ画像を生成する手法を提案する。 既存のテクスチャ合成技術では、生成モデルへのワンフォワードパスを使用して大規模なテクスチャを生成することが多いため、生成画像のスケーラビリティと柔軟性が制限される。 これとは対照的に、提案手法では、単一のテクスチャイメージ上のgansモデルをトレーニングして、ローカルに関連付けられ、シームレスに結合して大きなイメージを形成することができる比較的小さなパッチを生成する。 本手法は局所的なテクスチャ構造を学習し,任意のサイズのテクスチャを生成できると同時に,コヒーレンスや多様性も維持する。 提案手法は,パッチ間の一貫性を確保するためにジェネレータ内の局所パディングに依存し,空間的確率的変調を利用して大規模画像内の局所的な変動や多様性を実現する。 実験結果は,生成テクスチャの視覚的コヒーレンスを維持しつつ,既存のアプローチよりも優れたスケーラビリティを示す。

In this paper, we introduce a novel approach for generating texture images of infinite resolutions using Generative Adversarial Networks (GANs) based on a patch-by-patch paradigm. Existing texture synthesis techniques often rely on generating a large-scale texture using a one-forward pass to the generating model, this limits the scalability and flexibility of the generated images. In contrast, the proposed approach trains GANs models on a single texture image to generate relatively small patches that are locally correlated and can be seamlessly concatenated to form a larger image while using a constant GPU memory footprint. Our method learns the local texture structure and is able to generate arbitrary-size textures, while also maintaining coherence and diversity. The proposed method relies on local padding in the generator to ensure consistency between patches and utilizes spatial stochastic modulation to allow for local variations and diversity within the large-scale image. Experimental results demonstrate superior scalability compared to existing approaches while maintaining visual coherence of generated textures.
翻訳日:2023-11-17 22:36:33 公開日:2023-11-16
# WavMark: オーディオ生成のための透かし

WavMark: Watermarking for Audio Generation ( http://arxiv.org/abs/2308.12770v2 )

ライセンス: Link先を確認
Guangyu Chen, Yu Wu, Shujie Liu, Tao Liu, Xiaoyong Du, Furu Wei(参考訳) ゼロショット音声合成の最近の進歩は、高レベルのリアリズムを維持しながら、わずか数秒の録音で話者の声を模倣することを可能にする。 その潜在的なメリットに加えて、この強力な技術は、音声詐欺やスピーカーの偽造など、大きなリスクをもたらす。 従来の合成データ検出の受動的手法にのみ依存するアプローチとは異なり、ウォーターマーキングはこれらの略奪的リスクに対して積極的に堅牢な防御機構を示す。 本稿では,1秒間の音声スニペット内で最大32ビットの透かしを符号化する,革新的な音声透かしフレームワークを提案する。 透かしは人間の感覚に影響されず、様々な攻撃に対して強い抵抗力を示す。 合成音声の効果的な識別子として機能し、オーディオ著作権保護の幅広い応用の可能性を秘めている。 さらに、このフレームワークは柔軟性が高く、複数のウォーターマークセグメントを組み合わせることで、堅牢性と拡張容量を実現することができる。 10秒から20秒の音声をホストとして使用することで、平均ビットエラーレート(ber)が10回の一般的な攻撃で0.48\%となり、最先端のウォーターマーキングツールと比較して2800\%以上のberが著しく削減されることを示した。 私たちの作品のデモはhttps://aka.ms/wavmarkを参照。

Recent breakthroughs in zero-shot voice synthesis have enabled imitating a speaker's voice using just a few seconds of recording while maintaining a high level of realism. Alongside its potential benefits, this powerful technology introduces notable risks, including voice fraud and speaker impersonation. Unlike the conventional approach of solely relying on passive methods for detecting synthetic data, watermarking presents a proactive and robust defence mechanism against these looming risks. This paper introduces an innovative audio watermarking framework that encodes up to 32 bits of watermark within a mere 1-second audio snippet. The watermark is imperceptible to human senses and exhibits strong resilience against various attacks. It can serve as an effective identifier for synthesized voices and holds potential for broader applications in audio copyright protection. Moreover, this framework boasts high flexibility, allowing for the combination of multiple watermark segments to achieve heightened robustness and expanded capacity. Utilizing 10 to 20-second audio as the host, our approach demonstrates an average Bit Error Rate (BER) of 0.48\% across ten common attacks, a remarkable reduction of over 2800\% in BER compared to the state-of-the-art watermarking tool. See https://aka.ms/wavmark for demos of our work.
翻訳日:2023-11-17 22:36:04 公開日:2023-11-16
# 感情的なヌームか共感か? EmotionBench を用いた LLM の実用性評価

Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench ( http://arxiv.org/abs/2308.03656v2 )

ライセンス: Link先を確認
Jen-tse Huang, Man Ho Lam, Eric John Li, Shujie Ren, Wenxuan Wang, Wenxiang Jiao, Zhaopeng Tu, Michael R. Lyu(参考訳) 最近、コミュニティは大規模言語モデル(LLM)の進歩を目撃し、様々な下流タスクにおいて顕著なパフォーマンスを示した。 chatgptやclaudeのような強力なモデルに導かれ、llmは単なるツールではなくインテリジェントなアシスタントとして、ソフトウェアとの関わり方を革新している。 その結果、llmsの擬人化能力の評価は、現代の談話においてますます重要になっている。 感情評価理論を心理学から活用し, LLMの共感能力, すなわち, 特定の状況における感情の変化を評価することを提案する。 慎重に総合的な調査を行い、400以上の状況を含むデータセットを収集し、研究の中心となる8つの感情を解明した。 状況を36の要因に分類し,世界1200名以上の被験者を対象に,人間による評価を行った。 GPT-4 や LLaMA 2 のような最新のイテレーションを特徴とする,商用モデルとオープンソースモデルの両方をカバーする5つの LLM を参考として評価を行った。 結論は、いくつかの誤用にもかかわらず、llmは一般に特定の状況に適切に対応できるという結果から導き出される。 しかしながら、それらは人間の感情的な行動と一致せず、類似した状況間のつながりを確立できない。 EmotionBenchという名前の私たちのテストフレームワークのデータセットは、https://github.com/CUHK-ARISE/EmotionBenchで公開されています。 我々は,人間の感情行動との整合性を向上し,知的アシスタントとしての有用性と適用性を高めることを目的としている。

Recently, the community has witnessed the advancement of Large Language Models (LLMs), which have shown remarkable performance on various downstream tasks. Led by powerful models like ChatGPT and Claude, LLMs are revolutionizing how users engage with software, assuming more than mere tools but intelligent assistants. Consequently, evaluating LLMs' anthropomorphic capabilities becomes increasingly important in contemporary discourse. Utilizing the emotion appraisal theory from psychology, we propose to evaluate the empathy ability of LLMs, i.e., how their feelings change when presented with specific situations. After a careful and comprehensive survey, we collect a dataset containing over 400 situations that have proven effective in eliciting the eight emotions central to our study. Categorizing the situations into 36 factors, we conduct a human evaluation involving more than 1,200 subjects worldwide. With the human evaluation results as references, our evaluation includes five LLMs, covering both commercial and open-source models, including variations in model sizes, featuring the latest iterations, such as GPT-4 and LLaMA 2. A conclusion can be drawn from the results that, despite several misalignments, LLMs can generally respond appropriately to certain situations. Nevertheless, they fall short in alignment with the emotional behaviors of human beings and cannot establish connections between similar situations. Our collected dataset of situations, the human evaluation results, and the code of our testing framework, dubbed EmotionBench, is made publicly in https://github.com/CUHK-ARISE/EmotionBench. We aspire to contribute to the advancement of LLMs regarding better alignment with the emotional behaviors of human beings, thereby enhancing their utility and applicability as intelligent assistants.
翻訳日:2023-11-17 22:35:26 公開日:2023-11-16
# ニューラルネットワーク量子状態を用いたスケーラブルな想像時間発展

Scalable Imaginary Time Evolution with Neural Network Quantum States ( http://arxiv.org/abs/2307.15521v4 )

ライセンス: Link先を確認
Eimantas Ledinauskas and Egidijus Anisimovas(参考訳) ニューラルネットワーク量子状態(NQS)としての量子波関数の表現は、多体量子系の基底状態を見つけるための強力な変分アンサッツを提供する。 しかし、複雑な変動地形のため、従来の手法では量子幾何テンソルの計算を使い、その結果最適化技術が複雑になる。 代替手法の定式化への貢献として、計量テンソルの計算を回避し、ユークリッド計量による一階勾配勾配にのみ依存するアプローチを導入する。 これにより、より大きなニューラルネットワークの応用と、他の機械学習ドメインからのより標準的な最適化方法の利用が可能になる。 提案手法は,Schr\\odinger方程式から導かれるターゲット波動関数を構築し,ニューラルネットワークをトレーニングして,この目標を近似することで,虚時進化の原理を利用する。 我々は,NQSのエネルギーが減少するまで最適な時間ステップを決定し,目標を固定し,適応的に安定させる。 2次元J1-J2ハイゼンベルクモデルを用いた数値実験により, 直接エネルギー損失最小化と比較して, 安定性とエネルギー精度が向上した。 提案手法は,確率的再構成による密度行列再正規化法とNQS最適化との競合性を示す。

The representation of a quantum wave function as a neural network quantum state (NQS) provides a powerful variational ansatz for finding the ground states of many-body quantum systems. Nevertheless, due to the complex variational landscape, traditional methods often employ the computation of quantum geometric tensor, consequently complicating optimization techniques. Contributing to efforts aiming to formulate alternative methods, we introduce an approach that bypasses the computation of the metric tensor and instead relies exclusively on first-order gradient descent with Euclidean metric. This allows for the application of larger neural networks and the use of more standard optimization methods from other machine learning domains. Our approach leverages the principle of imaginary time evolution by constructing a target wave function derived from the Schr\"odinger equation, and then training the neural network to approximate this target. We make this method adaptive and stable by determining the optimal time step and keeping the target fixed until the energy of the NQS decreases. We demonstrate the benefits of our scheme via numerical experiments with 2D J1-J2 Heisenberg model, which showcase enhanced stability and energy accuracy in comparison to direct energy loss minimization. Importantly, our approach displays competitiveness with the well-established density matrix renormalization group method and NQS optimization with stochastic reconfiguration.
翻訳日:2023-11-17 22:34:57 公開日:2023-11-16
# 帯域選択に基づくエンドツーエンドハイパースペクトル画像変化検出ネットワーク

End-to-end Hyperspectral Image Change Detection Network Based on Band Selection ( http://arxiv.org/abs/2307.12327v2 )

ライセンス: Link先を確認
Qingren Yao, Yuan Zhou, Chang Tang and Wei Xiang(参考訳) ハイパースペクトル画像変化検出(HSI-CD)では、いくつかのバンドだけが変化検出に不可欠であり、他のバンドが悪影響を及ぼす可能性があるため、バンドの冗長性を低減することが課題である。 しかし,既存のHSI-CD法のほとんどは,特徴識別の劣化に悩まされているフル次元HSIから変化特徴を直接抽出する。 この問題に対処するために,帯域選択(ECDBS)を用いた終端から終端までのハイパースペクトル画像変化検出ネットワークを提案する。 ネットワークの主な構成要素は、深層学習に基づくバンド選択モジュールとカスケードバンド固有の空間的注意(BSA)ブロックである。 バンド選択モジュールは、変更検出から分離したステップとしてではなく、後続のCDモデルとシームレスに統合して、共同最適化とエンドツーエンド推論を行うことができる。 BSAブロックは、調整された戦略を用いて各バンドから特徴を抽出する。 すべての帯域を均一に処理する典型的な特徴抽出戦略とは異なり、BSAブロックは広帯域間の特徴分布の違いを考慮し、より十分な変化特徴を抽出する。 3種類のhsi-cdデータセットを用いた実験により,提案手法の有効性と優位性が実証された。

For hyperspectral image change detection (HSI-CD), one key challenge is to reduce band redundancy, as only a few bands are crucial for change detection while other bands may be adverse to it. However, most existing HSI-CD methods directly extract change feature from full-dimensional HSIs, suffering from a degradation of feature discrimination. To address this issue, we propose an end-to-end hyperspectral image change detection network with band selection (ECDBS), which effectively retains the critical bands to promote change detection. The main ingredients of the network are a deep learning based band selection module and cascading band-specific spatial attention (BSA) blocks. The band selection module can be seamlessly integrated with subsequent CD models for joint optimization and end-to-end reasoning, rather than as a step separate from change detection. The BSA block extracts features from each band using a tailored strategy. Unlike the typically used feature extraction strategy that uniformly processes all bands, the BSA blocks considers the differences in feature distributions among widely spaced bands, thereupon extracting more sufficient change feature. Experimental evaluations conducted on three widely used HSI-CD datasets demonstrate the effectiveness and superiority of our proposed method over other state-of-the-art techniques.
翻訳日:2023-11-17 22:34:34 公開日:2023-11-16
# 自己監視医用画像解析のための微調整戦略の再検討

Revisiting Fine-Tuning Strategies for Self-supervised Medical Imaging Analysis ( http://arxiv.org/abs/2307.10915v2 )

ライセンス: Link先を確認
Muhammad Osama Khan, Yi Fang(参考訳) 自己教師付き学習(SSL)の急速な進歩にもかかわらず、医用画像解析におけるエンド・ツー・エンドの微調整戦略は依然として主流である。 しかし、この手法が訓練済みの知識を効果的に活用するのに本当に最適なのか、特に異なるタイプの特徴を捉えたSSLの多様なカテゴリを考慮すると、はっきりしない。 本稿では,医療画像における自己教師あり学習における効果的な微調整戦略を初めて発見する包括的研究を行う。 4つのダウンストリームタスクにまたがるSOTAメソッドより優れた強力なコントラスト的かつ復元的なSSLベースラインを開発した後、複数の事前トレーニングおよび微調整データセット、および様々な微調整データセットサイズにわたる広範囲な微調整分析を行う。 トレーニング済みネットワークの最後の数層のみを微調整するという従来の知恵とは対照的に、細調整中間層はより効果的であり、ネットワークの第2四半期(25-50%)は対照的なSSLに最適であるのに対して、第3四半期(50-75%)は復元SSLに最適である。 エンドツーエンドファインチューニングのデファクト標準と比較すると、トレーニング済みネットワークの最初の3/3(0-75%)からなる浅層ネットワークを微調整し、最大5.48%の改善を実現しています。 さらに,これらの知見を用いて,複数のSSLモデルの相補的強みを利用した簡易かつ効果的な手法を提案する。 したがって,個々のsslモデルの性能を向上させるだけでなく,複数のsslモデルが提供する補完的強みを効果的に活用することで,自己監視型医用画像解析の大幅な改善を実現した。

Despite the rapid progress in self-supervised learning (SSL), end-to-end fine-tuning still remains the dominant fine-tuning strategy for medical imaging analysis. However, it remains unclear whether this approach is truly optimal for effectively utilizing the pre-trained knowledge, especially considering the diverse categories of SSL that capture different types of features. In this paper, we present the first comprehensive study that discovers effective fine-tuning strategies for self-supervised learning in medical imaging. After developing strong contrastive and restorative SSL baselines that outperform SOTA methods across four diverse downstream tasks, we conduct an extensive fine-tuning analysis across multiple pre-training and fine-tuning datasets, as well as various fine-tuning dataset sizes. Contrary to the conventional wisdom of fine-tuning only the last few layers of a pre-trained network, we show that fine-tuning intermediate layers is more effective, with fine-tuning the second quarter (25-50%) of the network being optimal for contrastive SSL whereas fine-tuning the third quarter (50-75%) of the network being optimal for restorative SSL. Compared to the de-facto standard of end-to-end fine-tuning, our best fine-tuning strategy, which fine-tunes a shallower network consisting of the first three quarters (0-75%) of the pre-trained network, yields improvements of as much as 5.48%. Additionally, using these insights, we propose a simple yet effective method to leverage the complementary strengths of multiple SSL models, resulting in enhancements of up to 3.57% compared to using the best model alone. Hence, our fine-tuning strategies not only enhance the performance of individual SSL models, but also enable effective utilization of the complementary strengths offered by multiple SSL models, leading to significant improvements in self-supervised medical imaging analysis.
翻訳日:2023-11-17 22:34:11 公開日:2023-11-16
# 多変量時系列異常検出のための相関対応時空間グラフ学習

Correlation-aware Spatial-Temporal Graph Learning for Multivariate Time-series Anomaly Detection ( http://arxiv.org/abs/2307.08390v2 )

ライセンス: Link先を確認
Yu Zheng, Huan Yee Koh, Ming Jin, Lianhua Chi, Khoa T. Phan, Shirui Pan, Yi-Ping Phoebe Chen, Wei Xiang(参考訳) 多変量時系列異常検出は、小売、輸送、電力網、水処理プラントを含む多くのアプリケーションにおいて極めて重要である。 既存のアプローチでは、非線形関係をうまく捉えられない統計モデルと、変数間のペア関係を明示的に学習しない従来のディープラーニングモデル(例えば、CNNやLSTM)が主に採用されている。 これらの制約を克服するため,時系列異常検出のための相関対応時空間グラフ学習(CST-GL)を提案する。 CST-GLは、空間時間グラフニューラルネットワーク(STGNN)を開発するための多変量時系列相関学習モジュールを介して、ペアワイズ相関を明示的にキャプチャする。 そして、一対一の隣接情報を利用するグラフ畳み込みネットワークを利用することにより、stgnnコンポーネントは、変数間の複雑な対数依存性からリッチな空間情報をエンコードすることができる。 拡張畳み込み関数からなる時間モジュールにより、STGNNは時間とともに長距離依存をさらに捉えることができる。 新規な異常スコアリング成分をさらにCST-GLに統合し、純粋に教師なしの方法で異常度を推定する。 実験の結果、CST-GLは一般的な設定で異常を効果的に検出し、異なる遅延時間で早期に検出できることがわかった。

Multivariate time-series anomaly detection is critically important in many applications, including retail, transportation, power grid, and water treatment plants. Existing approaches for this problem mostly employ either statistical models which cannot capture the non-linear relations well or conventional deep learning models (e.g., CNN and LSTM) that do not explicitly learn the pairwise correlations among variables. To overcome these limitations, we propose a novel method, correlation-aware spatial-temporal graph learning (termed CST-GL), for time series anomaly detection. CST-GL explicitly captures the pairwise correlations via a multivariate time series correlation learning module based on which a spatial-temporal graph neural network (STGNN) can be developed. Then, by employing a graph convolution network that exploits one- and multi-hop neighbor information, our STGNN component can encode rich spatial information from complex pairwise dependencies between variables. With a temporal module that consists of dilated convolutional functions, the STGNN can further capture long-range dependence over time. A novel anomaly scoring component is further integrated into CST-GL to estimate the degree of an anomaly in a purely unsupervised manner. Experimental results demonstrate that CST-GL can detect anomalies effectively in general settings as well as enable early detection across different time delays.
翻訳日:2023-11-17 22:33:35 公開日:2023-11-16
# Prompted Free-direction Knowledge Distillation によるグラフニューラルネットワークの共有成長

Shared Growth of Graph Neural Networks via Prompted Free-direction Knowledge Distillation ( http://arxiv.org/abs/2307.00534v3 )

ライセンス: Link先を確認
Kaituo Feng, Yikun Miao, Changsheng Li, Ye Yuan, Guoren Wang(参考訳) 知識蒸留(KD)は,より深い教師GNNからより浅い学生GNNへ知識を抽出することを目的としたグラフニューラルネットワーク(GNN)の性能向上に有効であることが示されている。 しかし、よく知られた過度にパラメータ化され過度にスムースな問題のために、十分に深いGNNを訓練することはしばしば困難であり、実用的なアプリケーションでは知識の伝達が無効になる。 本稿では,より高度に最適化された教師GNNを提供するのに不要な,GNNの強化学習(FreeKD)による初のフリーダイレクト知識蒸留フレームワークを提案する。 私たちの中核となる考え方は、より浅い2つのGNNを共同で学習し、それら間で知識を交換することです。 1つの典型的なGNNモデルは、トレーニング中に異なるノードでより良く、より悪いパフォーマンスを示すことが多いので、動的かつ自由方向の知識伝達戦略を考案する。 1)ノードレベル動作は、2つのネットワークの対応するノード間の知識伝達の方向を決定する。 2) 構造レベルアクションは、ノードレベルアクションが伝搬する局所構造のいずれかを決定する。 さらに,異なるグラフがグラフデータの異なる視点を捉えうることを考慮し,様々な知識を交換するための素早い学習に基づいて,非歪で多様な拡張を学習するFreeKD-Promptを提案する。 さらに、2つのGNN内で知識交換を精算する代わりに、複数のGNN間で自由方向の知識伝達を可能にするFreeKD++を開発した。 5つのベンチマークデータセットに対する大規模な実験は、我々のアプローチがベースGNNよりも大きなマージンで優れていることを示している。 さらに驚くべきことに、私たちのFreeKDは、より深く強力な教師GNNから知識を抽出する従来のKDアルゴリズムと比べて、同等か、さらに優れたパフォーマンスを持っています。

Knowledge distillation (KD) has shown to be effective to boost the performance of graph neural networks (GNNs), where the typical objective is to distill knowledge from a deeper teacher GNN into a shallower student GNN. However, it is often quite challenging to train a satisfactory deeper GNN due to the well-known over-parametrized and over-smoothing issues, leading to invalid knowledge transfer in practical applications. In this paper, we propose the first Free-direction Knowledge Distillation framework via reinforcement learning for GNNs, called FreeKD, which is no longer required to provide a deeper well-optimized teacher GNN. Our core idea is to collaboratively learn two shallower GNNs to exchange knowledge between them. As we observe that one typical GNN model often exhibits better and worse performances at different nodes during training, we devise a dynamic and free-direction knowledge transfer strategy that involves two levels of actions: 1) node-level action determines the directions of knowledge transfer between the corresponding nodes of two networks; and then 2) structure-level action determines which of the local structures generated by the node-level actions to be propagated. Additionally, considering that different augmented graphs can potentially capture distinct perspectives of the graph data, we propose FreeKD-Prompt that learns undistorted and diverse augmentations based on prompt learning for exchanging varied knowledge. Furthermore, instead of confining knowledge exchange within two GNNs, we develop FreeKD++ to enable free-direction knowledge transfer among multiple GNNs. Extensive experiments on five benchmark datasets demonstrate our approaches outperform the base GNNs in a large margin. More surprisingly, our FreeKD has comparable or even better performance than traditional KD algorithms that distill knowledge from a deeper and stronger teacher GNN.
翻訳日:2023-11-17 22:33:12 公開日:2023-11-16
# 持続可能性開示分析におけるパラダイムシフト: 言語モデルベースツールCHATREPORTによるステークホルダの活用

Paradigm Shift in Sustainability Disclosure Analysis: Empowering Stakeholders with CHATREPORT, a Language Model-Based Tool ( http://arxiv.org/abs/2306.15518v2 )

ライセンス: Link先を確認
Jingwei Ni, Julia Bingler, Chiara Colesanti-Senni, Mathias Kraus, Glen Gostlow, Tobias Schimanski, Dominik Stammbach, Saeid Ashraf Vaghefi, Qian Wang, Nicolas Webersinke, Tobias Wekhof, Tingyu Yu, Markus Leippold(参考訳) 本稿では,気候関連財務開示タスクフォース(TCFD)の勧告に対して,企業サステナビリティレポートの分析を自動化するために,LLM(Large Language Models)を専門知識で拡張する新たなアプローチを提案する。 企業サステナビリティレポートは、組織の環境や社会的リスクや影響を評価する上で不可欠である。 しかし、これらの報告の膨大な情報を分析することは、しばしば人的分析にコストがかかる。 その結果、これらのレポートを分析するリソースを持つ組織は世界中でごくわずかであり、透明性の欠如につながる可能性がある。 aiを利用するツールは自動的にデータを分析するが、ドメイン固有の専門知識がないため、不正確になる。 本稿では,企業サステナビリティレポートの分析を自動化するための専門家知識によるllm強化手法を提案する。 当社のツールであるCHATREPORTを認定し,TFD勧告に従って企業の気候リスク開示を評価するための第1のユースケースに適用する。 CHATREPORTは、気候科学、金融、経済政策、コンピュータサイエンスの専門家と共同で、ドメインの専門家がAIツールの開発にどのように関与できるかを実証する。 透明性を促進するために、プロンプトテンプレート、生成されたデータ、スコアを公開しています。

This paper introduces a novel approach to enhance Large Language Models (LLMs) with expert knowledge to automate the analysis of corporate sustainability reports by benchmarking them against the Task Force for Climate-Related Financial Disclosures (TCFD) recommendations. Corporate sustainability reports are crucial in assessing organizations' environmental and social risks and impacts. However, analyzing these reports' vast amounts of information makes human analysis often too costly. As a result, only a few entities worldwide have the resources to analyze these reports, which could lead to a lack of transparency. While AI-powered tools can automatically analyze the data, they are prone to inaccuracies as they lack domain-specific expertise. This paper introduces a novel approach to enhance LLMs with expert knowledge to automate the analysis of corporate sustainability reports. We christen our tool CHATREPORT, and apply it in a first use case to assess corporate climate risk disclosures following the TCFD recommendations. CHATREPORT results from collaborating with experts in climate science, finance, economic policy, and computer science, demonstrating how domain experts can be involved in developing AI tools. We make our prompt templates, generated data, and scores available to the public to encourage transparency.
翻訳日:2023-11-17 22:32:41 公開日:2023-11-16
# スポーツボール検出・追跡のための広く適用可能な強基線

Widely Applicable Strong Baseline for Sports Ball Detection and Tracking ( http://arxiv.org/abs/2311.05237v2 )

ライセンス: Link先を確認
Shuhei Tarashima, Muhammad Abdul Haq, Yushan Wang, Norio Tagawa(参考訳) 本稿では,様々なスポーツカテゴリに適用可能な新しいスポーツボール検出追跡法(sbdt)を提案する。 提案手法は,(1)高分解能特徴抽出,(2)位置認識モデルトレーニング,(3)時間的一貫性を考慮した推論から成り,これらすべてを新しいSBDTベースラインとしてまとめる。 さらに,本手法の適用性を検証するため,スポーツカテゴリーの5つのデータセットに対して,ベースラインを6つの最先端SBDT法と比較した。 2つのSBDTデータセットを新たに導入し、2つのデータセットに対して新しいボールアノテーションを提供し、拡張比較を容易にするためにすべてのメソッドを再実装することで、これを実現する。 実験の結果,本手法は,データセットでカバーされたすべてのスポーツカテゴリにおいて,既存の手法よりも大幅に優れていることがわかった。 提案手法はSBDTの広範適用性強いベースライン(WASB)として機能し,我々のデータセットとコードベースは将来のSBDT研究を促進するだろうと考えている。 データセットとコードはhttps://github.com/nttcom/WASB-SBDT で公開されている。

In this work, we present a novel Sports Ball Detection and Tracking (SBDT) method that can be applied to various sports categories. Our approach is composed of (1) high-resolution feature extraction, (2) position-aware model training, and (3) inference considering temporal consistency, all of which are put together as a new SBDT baseline. Besides, to validate the wide-applicability of our approach, we compare our baseline with 6 state-of-the-art SBDT methods on 5 datasets from different sports categories. We achieve this by newly introducing two SBDT datasets, providing new ball annotations for two datasets, and re-implementing all the methods to ease extensive comparison. Experimental results demonstrate that our approach is substantially superior to existing methods on all the sports categories covered by the datasets. We believe our proposed method can play as a Widely Applicable Strong Baseline (WASB) of SBDT, and our datasets and codebase will promote future SBDT research. Datasets and codes are available at https://github.com/nttcom/WASB-SBDT .
翻訳日:2023-11-17 22:24:04 公開日:2023-11-16
# マルチアノテータデータセットの損失モデリング

Loss Modeling for Multi-Annotator Datasets ( http://arxiv.org/abs/2311.00619v2 )

ライセンス: Link先を確認
Uthman Jinadu, Jesse Annan, Shanshan Wen, Yi Ding(参考訳) データセットのすべてのアノテータの意見に対する説明は公平性に不可欠である。 しかし、大規模なデータセットをアノテートする場合、個々のアノテータは、疲労につながる可能性のある数千のレーティングを頻繁に提供します。 さらに、これらのアノテーションプロセスは数日にわたって起こり、時間とともにアノテーションの意見の不正確な表現につながる可能性がある。 そこで本研究では,マルチタスク学習と損失に基づくラベル修正を併用することで,多様な意見のより正確な表現を実現することを提案する。 新規な定式化を用いることで、アノテーションの同意と反対をきれいに分離できることを示す。 さらに,この修正により,単一または複数アノテーション設定での予測性能が向上することを示す。 最後に,本手法は主観的データに適用されるラベルノイズに対して頑健であることを示す。

Accounting for the opinions of all annotators of a dataset is critical for fairness. However, when annotating large datasets, individual annotators will frequently provide thousands of ratings which can lead to fatigue. Additionally, these annotation processes can occur over multiple days which can lead to an inaccurate representation of an annotator's opinion over time. To combat this, we propose to learn a more accurate representation of diverse opinions by utilizing multitask learning in conjunction with loss-based label correction. We show that using our novel formulation, we can cleanly separate agreeing and disagreeing annotations. Furthermore, we demonstrate that this modification can improve prediction performance in a single or multi-annotator setting. Lastly, we show that this method remains robust to additional label noise that is applied to subjective data.
翻訳日:2023-11-17 22:23:31 公開日:2023-11-16
# 多層皮膚病変分類のための自己教師付きマルチモダリティ学習

Self-Supervised Multi-Modality Learning for Multi-Label Skin Lesion Classification ( http://arxiv.org/abs/2310.18583v2 )

ライセンス: Link先を確認
Hao Wang, Euijoon Ahn, Lei Bi, Jinman Kim(参考訳) 皮膚病変の臨床的診断には、皮膚内視鏡的および臨床的モダリティの分析が含まれる。 皮膚内視鏡像は表面構造を詳細に把握し,臨床像は相補的なマクロ画像を提供する。 メラノーマの視覚診断は、異なる視覚特性を識別する7点チェックリストにも基づいている。 近年,畳み込みニューラルネットワーク(cnns)などの教師付き学習手法が,皮膚内視鏡的・臨床的モダリティ(マルチモダリティ)の両方を用いた優れた性能を示している。 チェックリスト内の7つの異なる視覚的属性も、診断をさらに改善するために使用される。 しかし、これらの手法の性能は、大規模ラベル付きデータの可用性に依存している。 アノテーション付きデータセットの取得は、複数の属性をアノテートするよりも、高価で時間のかかる作業である。 この制限を克服するために,多モード皮膚病変分類のための自己教師付き学習(SSL)アルゴリズムを提案する。 本アルゴリズムは,異なる視点から両眼視像と臨床像の類似性を最大化することにより,マルチモーダリティ学習を実現する。 さらに,クラスタリング解析により7つの属性を表す擬似複数ラベルを生成する。 また,各擬似ラベル埋め込みを改良し,擬似複数ラベル間の相互関係を捉えるラベル対応モジュールを提案する。 7点皮膚病変データセットを用いて本アルゴリズムの有効性を検証した。 以上の結果から,我々のアルゴリズムは最先端のSSLよりも優れた性能を示した。

The clinical diagnosis of skin lesion involves the analysis of dermoscopic and clinical modalities. Dermoscopic images provide a detailed view of the surface structures whereas clinical images offer a complementary macroscopic information. The visual diagnosis of melanoma is also based on seven-point checklist which involves identifying different visual attributes. Recently, supervised learning approaches such as convolutional neural networks (CNNs) have shown great performances using both dermoscopic and clinical modalities (Multi-modality). The seven different visual attributes in the checklist are also used to further improve the the diagnosis. The performances of these approaches, however, are still reliant on the availability of large-scaled labeled data. The acquisition of annotated dataset is an expensive and time-consuming task, more so with annotating multi-attributes. To overcome this limitation, we propose a self-supervised learning (SSL) algorithm for multi-modality skin lesion classification. Our algorithm enables the multi-modality learning by maximizing the similarities between paired dermoscopic and clinical images from different views. In addition, we generate surrogate pseudo-multi-labels that represent seven attributes via clustering analysis. We also propose a label-relation-aware module to refine each pseudo-label embedding and capture the interrelationships between pseudo-multi-labels. We validated the effectiveness of our algorithm using well-benchmarked seven-point skin lesion dataset. Our results show that our algorithm achieved better performances than other state-of-the-art SSL counterparts.
翻訳日:2023-11-17 22:23:13 公開日:2023-11-16
# SonoSAMTrack -- 超音波画像のセグメンテーションと追跡

SonoSAMTrack -- Segment and Track Anything on Ultrasound Images ( http://arxiv.org/abs/2310.16872v3 )

ライセンス: Link先を確認
Hariharan Ravishankar, Rohan Patil, Vikram Melapudi, Harsh Suthar, Stephan Anzengruber, Parminder Bhatia, Kass-Hout Taha, Pavan Annangi(参考訳) 本稿では,2d+tおよび3d超音波データセットのセグメンテーションを伝搬する最先端の輪郭追跡モデルと,超音波画像に興味のある物体をセグメンテーションするための高速基礎モデルであるsomsamtrackを提案する。 精巧に調整され、テストされたのは、約200ドルの超音波画像マスクペアから、リッチで多様なオブジェクトセットのみであり、ソノサムは7つの未発見の超音波データセットで最先端のパフォーマンスを示し、競合する方法を大幅に上回るパフォーマンスを示している。 SonoSAMを2-D +tアプリケーションに拡張し、より優れた性能を示し、臨床ワークフローにおける高密度アノテーションの生成と解剖学的構造のセグメンテーションに有用なツールであることを示す。 さらに, 作業の実用性を高めるために, ファインチューニングと知識蒸留の2段階プロセスを, 性能を考慮せずにより小さなフットプリントモデルに導入することを提案する。 本研究は,ソノサムの質的,定量的比較を行い,その有効性を示す。 SonoSAMTrack を用いた成人心エコー検査における高密度ビデオアノテーション問題において, クリック回数の減少が示された。

In this paper, we present SonoSAMTrack - that combines a promptable foundational model for segmenting objects of interest on ultrasound images called SonoSAM, with a state-of-the art contour tracking model to propagate segmentations on 2D+t and 3D ultrasound datasets. Fine-tuned and tested exclusively on a rich, diverse set of objects from $\approx200$k ultrasound image-mask pairs, SonoSAM demonstrates state-of-the-art performance on 7 unseen ultrasound data-sets, outperforming competing methods by a significant margin. We also extend SonoSAM to 2-D +t applications and demonstrate superior performance making it a valuable tool for generating dense annotations and segmentation of anatomical structures in clinical workflows. Further, to increase practical utility of the work, we propose a two-step process of fine-tuning followed by knowledge distillation to a smaller footprint model without comprising the performance. We present detailed qualitative and quantitative comparisons of SonoSAM with state-of-the-art methods showcasing efficacy of the method. This is followed by demonstrating the reduction in number of clicks in a dense video annotation problem of adult cardiac ultrasound chamber segmentation using SonoSAMTrack.
翻訳日:2023-11-17 22:22:53 公開日:2023-11-16
# ベトナム一般教育における多言語問題に対する大言語モデルの記号結合能力の評価

Evaluating the Symbol Binding Ability of Large Language Models for Multiple-Choice Questions in Vietnamese General Education ( http://arxiv.org/abs/2310.12059v3 )

ライセンス: Link先を確認
Duc-Vu Nguyen, Quoc-Nam Nguyen(参考訳) 本稿では,大規模言語モデル(LLM)が複数選択質問応答(MCQA)タスクに対して,ゼロショット,ワンショット,少数ショット設定でMCSB(Multiple choice symbol binding)を実行する能力を評価する。 ベトナム語に焦点を当てており、英語よりも難しいMCQAデータセットが少ない。 既存の2つのデータセット、ViMMRC 1.0とViMMRC 2.0は文学に焦点を当てている。 ベトナムの自然言語処理(NLP)の最近の研究は、ChatGPTを評価するために、2019年から2023年までベトナム国立高校卒業試験(VNHSGE)に焦点を当てている。 しかしこれらの研究は主に、ChatGPTがVNHSGEを段階的に解く方法に焦点を当てている。 我々は,数学,物理,化学,生物学のLaTeX式を入力するための構造化されたガイドラインを提供することで,新しい高品質なデータセットを作ることを目指している。 このデータセットは、厳密なLaTeXスタイルでタイプされているため、LSMと小言語モデル(LM)のMCSB能力を評価するために使用できる。 質問の文脈を考えると、質問に対する最も可能性の高い答えである文字(A、B、C、またはD)を予測することに集中する。 ViMMRC 1.0 と ViMMRC 2.0 ベンチマークを用いて, BLOOMZ-7.1B-MT, LLaMA-2-7B, LLaMA-2-70B, GPT-3, GPT-3.5, GPT-4.0 の6つの有名な LLM の評価を行った。 データセットは研究目的でのみ利用できる。

In this paper, we evaluate the ability of large language models (LLMs) to perform multiple choice symbol binding (MCSB) for multiple choice question answering (MCQA) tasks in zero-shot, one-shot, and few-shot settings. We focus on Vietnamese, with fewer challenging MCQA datasets than in English. The two existing datasets, ViMMRC 1.0 and ViMMRC 2.0, focus on literature. Recent research in Vietnamese natural language processing (NLP) has focused on the Vietnamese National High School Graduation Examination (VNHSGE) from 2019 to 2023 to evaluate ChatGPT. However, these studies have mainly focused on how ChatGPT solves the VNHSGE step by step. We aim to create a novel and high-quality dataset by providing structured guidelines for typing LaTeX formulas for mathematics, physics, chemistry, and biology. This dataset can be used to evaluate the MCSB ability of LLMs and smaller language models (LMs) because it is typed in a strict LaTeX style. We focus on predicting the character (A, B, C, or D) that is the most likely answer to a question, given the context of the question. Our evaluation of six well-known LLMs, namely BLOOMZ-7.1B-MT, LLaMA-2-7B, LLaMA-2-70B, GPT-3, GPT-3.5, and GPT-4.0, on the ViMMRC 1.0 and ViMMRC 2.0 benchmarks and our proposed dataset shows promising results on the MCSB ability of LLMs for Vietnamese. The dataset is available for research purposes only.
翻訳日:2023-11-17 22:22:33 公開日:2023-11-16
# ニューラルネットワークからの属性依存バイアス除去に関する情報理論的境界

Information-Theoretic Bounds on The Removal of Attribute-Specific Bias From Neural Networks ( http://arxiv.org/abs/2310.04955v2 )

ライセンス: Link先を確認
Jiazhi Li, Mahyar Khayatkhoei, Jiageng Zhu, Hanchen Xie, Mohamed E. Hussein, Wael AbdAlmageed(参考訳) ニューラルネットワークの保証は、公正で信頼できるAIを進める上で、予測のために保護された属性(例えば、人種、性別、年齢)に依存していない。 ニューラルネットワークにおける属性バイアスを取り除くためのいくつかの有望な方法が提案されているが、その制限は未検討のままである。 本研究では,強いバイアスが存在する場合に,属性バイアス除去法の重要な限界を明らかにする。 具体的には, 属性バイアス除去法の性能を, バイアス強度の観点から, 一般の非空的情報理論上界を導出する。 我々は, 合成, 画像, および国勢調査のデータセットに関する広範な実験を行い, 理論的な境界とその実際の結果を検証する。 従来の属性バイアス除去法は,データセットの固有バイアスが比較的弱い場合にのみ有効であり,強い属性バイアスが発生する可能性のある小さなデータセットにおけるこれらの手法の使用に注意し,この制限を克服できる手法の必要性を主張する。

Ensuring a neural network is not relying on protected attributes (e.g., race, sex, age) for predictions is crucial in advancing fair and trustworthy AI. While several promising methods for removing attribute bias in neural networks have been proposed, their limitations remain under-explored. In this work, we mathematically and empirically reveal an important limitation of attribute bias removal methods in presence of strong bias. Specifically, we derive a general non-vacuous information-theoretical upper bound on the performance of any attribute bias removal method in terms of the bias strength. We provide extensive experiments on synthetic, image, and census datasets to verify the theoretical bound and its consequences in practice. Our findings show that existing attribute bias removal methods are effective only when the inherent bias in the dataset is relatively weak, thus cautioning against the use of these methods in smaller datasets where strong attribute bias can occur, and advocating the need for methods that can overcome this limitation.
翻訳日:2023-11-17 22:20:02 公開日:2023-11-16
# 複数の時間的基準を持つソート問題に対するデータ駆動型選好学習法

Data-driven Preference Learning Methods for Sorting Problems with Multiple Temporal Criteria ( http://arxiv.org/abs/2309.12620v2 )

ライセンス: Link先を確認
Yijun Li, Mengzhuo Guo, Mi{\l}osz Kadzi\'nski, Qingpeng Zhang(参考訳) 予測手法の出現は、さまざまなドメインにわたるデータ駆動意思決定サポートの出現を触媒している。 しかし、入力時系列データを効果的に処理できるモデルの開発は永続的な課題である。 本研究は,時間的基準の存在下での複数の条件分類問題に対する新しい選好学習手法を提案する。 まず,固定時間ディスカウント係数を特徴とする凸二次計画モデルを正規化フレームワーク内で定式化する。 スケーラビリティを向上し、学習可能な時間割引要素に対応するため、新しいモノトニックリカレントニューラルネットワーク(mRNN)を導入する。 標準単調性、選好独立性、クラスの自然順序付けなど、MCS問題に固有の重要な特性を保ちながら、時間とともに嗜好の進化するダイナミクスを捉えるように設計されている。 提案するmrnnは,時間とともに限界値関数とパーソナライズされた時間ディスカウント因子を表現し,従来のmcs法の解釈可能性と,深い選好学習モデルが提供する予測可能性とを効果的に融合することにより,選好ダイナミクスを記述することができる。 提案モデルに関する総合的な評価を行い, モバイルゲームアプリにおいて, 過去の動作シーケンスに基づいて, 有用なユーザを分類することを目的とした実例調査を行った。 実験的な知見は、ベースライン手法のスペクトル、機械学習、ディープラーニング、従来の複数の基準ソートアプローチと比較して、提案モデルが達成した顕著な性能改善を裏付けている。

The advent of predictive methodologies has catalyzed the emergence of data-driven decision support across various domains. However, developing models capable of effectively handling input time series data presents an enduring challenge. This study presents novel preference learning approaches to multiple criteria sorting problems in the presence of temporal criteria. We first formulate a convex quadratic programming model characterized by fixed time discount factors, operating within a regularization framework. To enhance scalability and accommodate learnable time discount factors, we introduce a novel monotonic Recurrent Neural Network (mRNN). It is designed to capture the evolving dynamics of preferences over time while upholding critical properties inherent to MCS problems, including criteria monotonicity, preference independence, and the natural ordering of classes. The proposed mRNN can describe the preference dynamics by depicting marginal value functions and personalized time discount factors along with time, effectively amalgamating the interpretability of traditional MCS methods with the predictive potential offered by deep preference learning models. Comprehensive assessments of the proposed models are conducted, encompassing synthetic data scenarios and a real-case study centered on classifying valuable users within a mobile gaming app based on their historical in-app behavioral sequences. Empirical findings underscore the notable performance improvements achieved by the proposed models when compared to a spectrum of baseline methods, spanning machine learning, deep learning, and conventional multiple criteria sorting approaches.
翻訳日:2023-11-17 22:19:45 公開日:2023-11-16
# ALYMPICS: 言語エージェントがゲーム理論を語る

ALYMPICS: Language Agents Meet Game Theory ( http://arxiv.org/abs/2311.03220v2 )

ライセンス: Link先を確認
Shaoguang Mao, Yuzhe Cai, Yan Xia, Wenshan Wu, Xun Wang, Fengyi Wang, Tao Ge, Furu Wei(参考訳) 本稿では,大規模言語モデル (llm) エージェントを活用したゲーム理論の研究を容易にするプラットフォーム alympics を紹介する。 LLMと自律エージェントを用いて人間の振る舞いをシミュレートし、マルチエージェントのコラボレーションを可能にすることにより、ゲーム理論仮説の定式化とテストのための人間のインタラクションの現実的および動的モデルを構築することができる。 そこで本研究では,資源不足に対する不平等競争を伴うサバイバルゲームについて紹介し,実装する。 リソースアベイラビリティとエージェントのパーソナリティの操作を通じて、さまざまなエージェントが競争にどう関与するかを観察し、その戦略を適応させる。 ゲーム理論研究におけるllmエージェントの使用は、現実的な動作のシミュレーション、制御され、スケーラブルで再現可能な環境の提供など、重要な利点を提供している。 我々の研究は、複雑な社会経済的文脈における戦略的意思決定の理解を深めるLLMエージェントの可能性を強調した。 すべてのコードはhttps://github.com/microsoft/alympicsで入手できる。

This paper introduces Alympics, a platform that leverages Large Language Model (LLM) agents to facilitate investigations in game theory. By employing LLMs and autonomous agents to simulate human behavior and enable multi-agent collaborations, we can construct realistic and dynamic models of human interactions for game theory hypothesis formulating and testing. To demonstrate this, we present and implement a survival game involving unequal competition for limited resources. Through manipulation of resource availability and agent personalities, we observe how different agents engage in the competition and adapt their strategies. The use of LLM agents in game theory research offers significant advantages, including simulating realistic behavior, providing a controlled, scalable, and reproducible environment. Our work highlights the potential of LLM agents in enhancing the understanding of strategic decision-making within complex socioeconomic contexts. All codes are available at https://github.com/microsoft/Alympics
翻訳日:2023-11-17 20:35:22 公開日:2023-11-16
# 実・AI生成画像分類におけるロバストな視覚概念による純粋相関の検出

Detecting Spurious Correlations via Robust Visual Concepts in Real and AI-Generated Image Classification ( http://arxiv.org/abs/2311.01655v2 )

ライセンス: Link先を確認
Preetam Prabhu Srikar Dammu, Chirag Shah(参考訳) 機械学習モデルは、その妥当性や適切性に疑問を呈することなく、トレーニングデータに存在する関連を自動的に学習する傾向がある。 この望ましくない性質はスプリアス相関の出現の根本原因であり、これはモデルが信頼できず、分布シフトの存在下で失敗する傾向がある。 研究によると、スプリアス相関を治療しようとするほとんどの方法は、モデルの既知のスプリアス関連にのみ有効である。 現在のスプリアス相関検出アルゴリズムは、広範囲の人間の注釈に依存するか、あるいはその定式化に制限的すぎる。 さらに、それらは、生成モデルによって生成されたデータには適用できないような視覚的アーティファクトの厳密な定義に依存しており、標準仕様に準拠しないコンテンツを幻覚させることが知られている。 本研究では, 潜在的にスプリアスな相関を効率的に検出し, 先行技術に比べて人的干渉を有意に少なくする汎用手法を提案する。 さらに,提案手法は,ピクセルレベルのアノテーションを不要にしながら,直感的な説明を提供する。 提案手法は,ai生成画像の特異性に対する耐性を示すものであり,既存の手法のほとんどが不足している課題である。 また,本手法は,生成モデルに基づく下流アプリケーションに伝播する急激な相関を検出するのにも適している。

Often machine learning models tend to automatically learn associations present in the training data without questioning their validity or appropriateness. This undesirable property is the root cause of the manifestation of spurious correlations, which render models unreliable and prone to failure in the presence of distribution shifts. Research shows that most methods attempting to remedy spurious correlations are only effective for a model's known spurious associations. Current spurious correlation detection algorithms either rely on extensive human annotations or are too restrictive in their formulation. Moreover, they rely on strict definitions of visual artifacts that may not apply to data produced by generative models, as they are known to hallucinate contents that do not conform to standard specifications. In this work, we introduce a general-purpose method that efficiently detects potential spurious correlations, and requires significantly less human interference in comparison to the prior art. Additionally, the proposed method provides intuitive explanations while eliminating the need for pixel-level annotations. We demonstrate the proposed method's tolerance to the peculiarity of AI-generated images, which is a considerably challenging task, one where most of the existing methods fall short. Consequently, our method is also suitable for detecting spurious correlations that may propagate to downstream applications originating from generative models.
翻訳日:2023-11-17 20:35:03 公開日:2023-11-16
# Resilient Multiple Choice Learning:学習したスコアリング方式と音声シーン解析への応用

Resilient Multiple Choice Learning: A learned scoring scheme with application to audio scene analysis ( http://arxiv.org/abs/2311.01052v2 )

ライセンス: Link先を確認
Victor Letzelter, Mathieu Fontaine, Micka\"el Chen, Patrick P\'erez, Slim Essid, Ga\"el Richard(参考訳) 本稿では,複数の対象を対象とする回帰分布推定のためのmcl手法の拡張である resilient multiple choice learning (rmcl) を提案する。 多重選択学習は、一連の仮説に対してWinner-Takes-All(WTA)損失を用いて、マルチモーダル密度推定に取り組むための単純なフレームワークである。 回帰設定では、既存のmcl変種は仮説を融合することに集中し、結果として予測の多様性を犠牲にする。 対照的に、本手法は、出力空間のボロノイテッセルレーションに基づく数学的枠組みに基づく新しい学習的スコアリング方式に依存しており、確率論的解釈を導出することができる。 合成データの実験でrMCLを実証的に検証した後、音源定位問題に対する効果をさらに評価し、その実用性と解釈の妥当性を実証した。

We introduce Resilient Multiple Choice Learning (rMCL), an extension of the MCL approach for conditional distribution estimation in regression settings where multiple targets may be sampled for each training input. Multiple Choice Learning is a simple framework to tackle multimodal density estimation, using the Winner-Takes-All (WTA) loss for a set of hypotheses. In regression settings, the existing MCL variants focus on merging the hypotheses, thereby eventually sacrificing the diversity of the predictions. In contrast, our method relies on a novel learned scoring scheme underpinned by a mathematical framework based on Voronoi tessellations of the output space, from which we can derive a probabilistic interpretation. After empirically validating rMCL with experiments on synthetic data, we further assess its merits on the sound source localization problem, demonstrating its practical usefulness and the relevance of its interpretation.
翻訳日:2023-11-17 20:34:42 公開日:2023-11-16
# 科学文献からの高品質構造化データ抽出のための半自動ステージング領域

Semi-automatic staging area for high-quality structured data extraction from scientific literature ( http://arxiv.org/abs/2309.10923v2 )

ライセンス: Link先を確認
Luca Foppiano, Tomoya Mato, Kensei Terashima, Pedro Ortiz Suarez, Taku Tou, Chikako Sakai, Wei-Sheng Wang, Toshiyuki Amagasa, Yoshihiko Takano, Masashi Ishii(参考訳) そこで本稿では,SuperCon2と呼ばれる文献から,超伝導体の物理特性の正確なデータベースを構築するための半自動ステージング領域を提案する。 本稿では,グロビドスーパーコンダクタを用いて収集したpdf文書から超伝導体のデータセットを検証するため,キュレーションインタフェース(supercon2インターフェース)と各レコードの状態遷移を管理するワークフローについて報告する。 このキュレーションワークフローは、自動操作と手動操作の両方を可能にし、前者は、外れ値を特定する新しいデータをスキャンする `'anomaly detection'' と、手動修正に基づいてトレーニングデータ例を収集する ``training Data collector'' メカニズムを含んでいる。 このようなトレーニングデータ収集ポリシーは、サンプル数を減らして機械学習モデルを改善するのに有効である。 手動操作では、スマートインターフェースと拡張PDFドキュメントビューアを提供することで、手動修正時の効率を高めるためにインタフェース(SuperCon2インタフェース)が開発されている。 従来の ‘`manual correction'' と比較して精度を高めてリコールすることで,インタフェースのキュレーション品質が大幅に向上することを示す。 半自動的なアプローチは、科学文書のテキストデータマイニングによる信頼性の高いデータベースを実現するためのソリューションを提供するでしょう。

We propose a semi-automatic staging area for efficiently building an accurate database of experimental physical properties of superconductors from literature, called SuperCon2, to enrich the existing manually-built superconductor database SuperCon. Here we report our curation interface (SuperCon2 Interface) and a workflow managing the state transitions of each examined record, to validate the dataset of superconductors from PDF documents collected using Grobid-superconductors in a previous work. This curation workflow allows both automatic and manual operations, the former contains ``anomaly detection'' that scans new data identifying outliers, and a ``training data collector'' mechanism that collects training data examples based on manual corrections. Such training data collection policy is effective in improving the machine-learning models with a reduced number of examples. For manual operations, the interface (SuperCon2 interface) is developed to increase efficiency during manual correction by providing a smart interface and an enhanced PDF document viewer. We show that our interface significantly improves the curation quality by boosting precision and recall as compared with the traditional ``manual correction''. Our semi-automatic approach would provide a solution for achieving a reliable database with text-data mining of scientific documents.
翻訳日:2023-11-17 20:34:24 公開日:2023-11-16
# ガウス図形モデルに対する条件行列フロー

Conditional Matrix Flows for Gaussian Graphical Models ( http://arxiv.org/abs/2306.07255v2 )

ライセンス: Link先を確認
Marcello Massimo Negri, F. Arend Torres and Volker Roth(参考訳) 少ない観察で多くの変数の条件付き独立性を研究することは難しい課題である。 Gaussian Graphical Models (GGM) は、$q\leq1$ の正規化を通じて精度行列のスパーシリティを促進することでこの問題に対処する。 しかし、ほとんどのgmmは$l_1$ノルムに対して非常に非凸であるため、$l_1$ノルムに依存する。 頻繁な定式化では、$l_1$ ノルム緩和は、縮小パラメータ $\lambda$ の関数としてソリューションパスを提供する。 Bayesianの定式化では、スペーサはLaplaceを前もって推奨されるが、$\lambda$の異なる後続推論では、高価なGibbsサンプルを繰り返す必要がある。 本稿では,GGMにおける行列変量正規化フローを用いた変分推論のための一般的なフレームワークを提案する。 従来の作業における重要な改善として、非凸部分-$l_1$擬ノルムを含むすべての正規化パラメータとすべての$l_q$ノルムに対して、スパース回帰モデルの連続体を1フローでトレーニングする。 1つのモデル内で、私たちはアクセスできます。 (i)任意の$\lambda$と任意の$l_q$(pseudo-)ノルムに対する後方の進化。 (ii)モデル選択のための辺りの丸太類似性、及び (3)MAP限界における模擬アニーリングを通した頻繁な解経路。

Studying conditional independence among many variables with few observations is a challenging task. Gaussian Graphical Models (GGMs) tackle this problem by encouraging sparsity in the precision matrix through $l_q$ regularization with $q\leq1$. However, most GMMs rely on the $l_1$ norm because the objective is highly non-convex for sub-$l_1$ pseudo-norms. In the frequentist formulation, the $l_1$ norm relaxation provides the solution path as a function of the shrinkage parameter $\lambda$. In the Bayesian formulation, sparsity is instead encouraged through a Laplace prior, but posterior inference for different $\lambda$ requires repeated runs of expensive Gibbs samplers. Here we propose a general framework for variational inference with matrix-variate Normalizing Flow in GGMs, which unifies the benefits of frequentist and Bayesian frameworks. As a key improvement on previous work, we train with one flow a continuum of sparse regression models jointly for all regularization parameters $\lambda$ and all $l_q$ norms, including non-convex sub-$l_1$ pseudo-norms. Within one model we thus have access to (i) the evolution of the posterior for any $\lambda$ and any $l_q$ (pseudo-) norm, (ii) the marginal log-likelihood for model selection, and (iii) the frequentist solution paths through simulated annealing in the MAP limit.
翻訳日:2023-11-17 20:33:36 公開日:2023-11-16
# 変圧器の表現強度と限界

Representational Strengths and Limitations of Transformers ( http://arxiv.org/abs/2306.02896v2 )

ライセンス: Link先を確認
Clayton Sanford, Daniel Hsu, Matus Telgarsky(参考訳) トランスフォーマーで一般的に使用されるアテンション層は、現代のディープラーニングのバックボーンを形成するが、他のアーキテクチャと比較してそのメリットや欠点を数学的に記述していない。 本研究では,注意層の表現力について,幅,深さ,埋め込み次元といった本質的複雑性パラメータに着目し,正と負の両方の結果を定式化する。 正の面では、再帰ネットワークとフィードフォワードネットワークがすべて入力サイズで多項式的にスケーリングする複雑さを持つ疎平均化タスクを示す一方、トランスフォーマーは入力サイズで対数的にスケールするだけであり、さらにトランスフォーマーにおける大きな埋め込み次元の必要性と役割を示すために同じ構成を用いる。 負の場合、注意層が入力サイズで線形にスケーリングする三重項検出タスクを示す。このシナリオは実際には稀に思えるが、注意層によって効率的に解くことができる自然な変種も提示する。 証明技術は、トランスフォーマおよび関連するモデルの分析における通信複雑性の価値と、三重検出の分析にさえ使われる原型的注意課題としてのスパース平均化の役割を強調している。

Attention layers, as commonly used in transformers, form the backbone of modern deep learning, yet there is no mathematical description of their benefits and deficiencies as compared with other architectures. In this work we establish both positive and negative results on the representation power of attention layers, with a focus on intrinsic complexity parameters such as width, depth, and embedding dimension. On the positive side, we present a sparse averaging task, where recurrent networks and feedforward networks all have complexity scaling polynomially in the input size, whereas transformers scale merely logarithmically in the input size; furthermore, we use the same construction to show the necessity and role of a large embedding dimension in a transformer. On the negative side, we present a triple detection task, where attention layers in turn have complexity scaling linearly in the input size; as this scenario seems rare in practice, we also present natural variants that can be efficiently solved by attention layers. The proof techniques emphasize the value of communication complexity in the analysis of transformers and related models, and the role of sparse averaging as a prototypical attention task, which even finds use in the analysis of triple detection.
翻訳日:2023-11-17 20:32:55 公開日:2023-11-16
# データ表現の潜在画像マニフォールドに関する研究

Data Representations' Study of Latent Image Manifolds ( http://arxiv.org/abs/2305.19730v2 )

ライセンス: Link先を確認
Ilya Kaufman and Omri Azencot(参考訳) ディープニューラルネットワークは多くの領域で驚くべき成功を収めることが示されているが、その内部メカニズムはよく分かっていない。 本稿では,画像多様体の曲率,すなわち,多様体の偏差が主方向において平坦であることについて検討する。 画像分類のための最先端の訓練された畳み込みニューラルネットワークは、層に沿って特徴的な曲率プロファイルを持つことがわかりました。 対照的に、この挙動は曲率が平坦な未訓練のネットワークには現れない。 また,最後の2層間の曲率ギャップは,ネットワークの一般化能力と強く相関していることを示す。 さらに,潜伏符号の内在次元は必ずしも曲率を表すものではないことが判明した。 最後に,ミックスアップなどの共通正規化手法が,他の手法と比較してフラットな表現を生じさせることを示す。 実験では、さまざまなディープラーニングアーキテクチャと複数のデータセットに対して一貫した結果を示す。 私たちのコードはhttps://github.com/azencot-group/CRLMで公開されています。

Deep neural networks have been demonstrated to achieve phenomenal success in many domains, and yet their inner mechanisms are not well understood. In this paper, we investigate the curvature of image manifolds, i.e., the manifold deviation from being flat in its principal directions. We find that state-of-the-art trained convolutional neural networks for image classification have a characteristic curvature profile along layers: an initial steep increase, followed by a long phase of a plateau, and followed by another increase. In contrast, this behavior does not appear in untrained networks in which the curvature flattens. We also show that the curvature gap between the last two layers has a strong correlation with the generalization capability of the network. Moreover, we find that the intrinsic dimension of latent codes is not necessarily indicative of curvature. Finally, we observe that common regularization methods such as mixup yield flatter representations when compared to other methods. Our experiments show consistent results over a variety of deep learning architectures and multiple data sets. Our code is publicly available at https://github.com/azencot-group/CRLM
翻訳日:2023-11-17 20:32:34 公開日:2023-11-16
# ペルソナLLM:大きな言語モデルによる5つの人格特性の表現能力の検討

PersonaLLM: Investigating the Ability of Large Language Models to Express Big Five Personality Traits ( http://arxiv.org/abs/2305.02547v3 )

ライセンス: Link先を確認
Hang Jiang, Xiajie Zhang, Xubo Cao, Jad Kabbara(参考訳) パーソナライズされたチャットボットの作成における大規模言語モデル(llm)の多くのユースケースにもかかわらず、パーソナライズされたllmの振る舞いが、特定のパーソナリティ特性を正確かつ一貫して反映する程度を評価するための研究は限られている。 LLMペルソナと呼ばれるLSM系エージェントの挙動について検討し,ChatGPTおよびGPT-4を用いたケーススタディを提案する。 本研究は、LLMが割り当てられた個性プロファイルに沿ったコンテンツを生成することができるかどうかを検討する。 この目的のために,ビッグファイブのパーソナリティモデルに基づいて,個別のllmペルソナを作成し,44項目のbig fiveインベントリ(bfi)パーソナリティテストとストーリーライティングタスクを完了させ,そのエッセイを自動評価とヒューマン評価で評価する。 その結果, LLMペルソナの自己申告したBFIスコアは, 5つの特徴にまたがる大きな効果の大きさで, 指定した性格タイプと一致していることがわかった。 また,言語問合せと単語カウント(LIWC)ツールによって測定されるように,割り当てられた性格タイプと,その文章の特定の心理言語的特徴との間に有意な相関関係が認められた。 興味深いことに、人間の評価者は、ストーリーがAIによって書かれたと伝えると、ストーリーが個人的でないと認識する。 しかし、可読性、結束性、冗長性、相似性、信頼力といった著作の他の面に対する彼らの判断はほとんど影響を受けない。 特に、評価者がAIの著者について知らされたとき、意図された性格特性を特定する精度は、いくつかの特徴について10%以上低下した。 この研究は、人格の特徴を表現するLLMの能力を理解するための重要な一歩となる。

Despite the many use cases for large language models (LLMs) in creating personalized chatbots, there has been limited research on evaluating the extent to which the behaviors of personalized LLMs accurately and consistently reflect specific personality traits. We consider studying the behavior of LLM-based agents, referred to as LLM personas, and present a case study with ChatGPT and GPT-4. The study investigates whether LLMs can generate content that aligns with their assigned personality profiles. To this end, we create distinct LLM personas based on the Big Five personality model, have them complete the 44-item Big Five Inventory (BFI) personality test and a story writing task, and then assess their essays with automatic and human evaluations. Results show that LLM personas' self-reported BFI scores are consistent with their designated personality types, with large effect sizes observed across five traits. Additionally, there are significant correlations between the assigned personality types and certain psycholinguistic features of their writings, as measured by the Linguistic Inquiry and Word Count (LIWC) tool. Interestingly, human evaluators perceive the stories as less personal when told that the stories are authored by AI. However, their judgments on other aspects of the writing such as readability, cohesiveness, redundancy, likeability, and believability remain largely unaffected. Notably, when evaluators were informed about the AI authorship, their accuracy in identifying the intended personality traits from the stories decreased by more than 10% for some traits. This research marks a significant step forward in understanding the capabilities of LLMs to express personality traits.
翻訳日:2023-11-17 20:32:16 公開日:2023-11-16
# AmQA: Amharic Question Answering Dataset

AmQA: Amharic Question Answering Dataset ( http://arxiv.org/abs/2303.03290v2 )

ライセンス: Link先を確認
Tilahun Abedissa, Ricardo Usbeck, Yaregal Assabie(参考訳) 質問応答(qa)は、コンテキストドキュメントが与えられた自然言語テキストから簡潔な回答や回答リストを返す。 多くのリソースは、堅牢なモデルの開発を進めるために、QAデータセットをキュレートする。 英語のような言語向けのQAデータセットが急増しているが、これはAmharicには当てはまらない。 エチオピアの公用語であるアムハラ語は、世界で2番目に話されているセム語である。 Amharic QAデータセットは公開されていない。 したがって、Amharic QAの研究を促進するために、最初のAmharic QA(AmQA)データセットを提示する。 われわれは2628件のウィキペディア記事をクラウドソーシングした。 さらに、オープンドメインQA研究の関心を喚起するために、XLMR Largeベースのベースラインモデルを実行します。 ベストパフォーマンスのベースラインは、読者検索QAおよび読解設定において、それぞれ69.58と71.74のFスコアを達成する。

Question Answering (QA) returns concise answers or answer lists from natural language text given a context document. Many resources go into curating QA datasets to advance robust models' development. There is a surge of QA datasets for languages like English, however, this is not true for Amharic. Amharic, the official language of Ethiopia, is the second most spoken Semitic language in the world. There is no published or publicly available Amharic QA dataset. Hence, to foster the research in Amharic QA, we present the first Amharic QA (AmQA) dataset. We crowdsourced 2628 question-answer pairs over 378 Wikipedia articles. Additionally, we run an XLMR Large-based baseline model to spark open-domain QA research interest. The best-performing baseline achieves an F-score of 69.58 and 71.74 in reader-retriever QA and reading comprehension settings respectively.
翻訳日:2023-11-17 20:31:41 公開日:2023-11-16
# 多様性の二重剣 - 多様性、衝突、心理的安全性がソフトウェアチームに与える影響

The Double-Edged Sword of Diversity: How Diversity, Conflict, and Psychological Safety Impact Software Teams ( http://arxiv.org/abs/2301.12954v2 )

ライセンス: Link先を確認
Christiaan Verwijs and Daniel Russo(参考訳) チームの多様性は両刃の剣と見なすことができる。 コンフリクトが増加するリスクで、チームにさらなる認知的リソースをもたらす。 異なる種類の多様性がソフトウェアチームに与える影響についての研究はほとんどない。 本研究は分類-実験モデル(CEM)のレンズを通して多様性を考察する。 性別,年齢,役割,文化的背景の多様性がチームの有効性と対立にどのように影響するか,そしてこれらの関連が心理的安全性によって緩和されるかを検討した。 被験者は161チーム1,118名であり,共分散型構造方程式モデリング (cb-sem) を用いて分析した。 年齢の多様性がチームの有効性と性別の多様性が関係性に影響を及ぼすことがわかった。 心理的安全性は効果的なチームワークに直接寄与し、紛争が少なくなった。 年齢や性別の多様性はCEM理論と一致しているが,他の種類の多様性は同様の結果は得られなかった。 そこで本稿では,カービリニア効果,タスク間依存性などのモデレータ,多様性マインドセットの存在など,いくつかの理由について論じる。 本稿では,多様性の双対的な性質が単純化されすぎていると論じる。 実際、コンテキストが重要な役割を果たす複雑な関係です。 CEMのような理論のレンズによる多様性のより微妙な理解は、より効果的なチームワークにつながるかもしれない。

Team diversity can be seen as a double-edged sword. It brings additional cognitive resources to teams at the risk of increased conflict. Few studies have investigated how different types of diversity impact software teams. This study views diversity through the lens of the categorization-elaboration model (CEM). We investigated how diversity in gender, age, role, and cultural background impacts team effectiveness and conflict, and how these associations are moderated by psychological safety. Our sample consisted of 1,118 participants from 161 teams and was analyzed with Covariance-Based Structural Equation Modeling (CB-SEM). We found a positive effect of age diversity on team effectiveness and gender diversity on relational conflict. Psychological safety contributed directly to effective teamwork and less conflict but did not moderate the diversity-effectiveness link. While our results are consistent with the CEM theory for age and gender diversity, other types of diversity did not yield similar results. We discuss several reasons for this, including curvilinear effects, moderators such as task interdependence, or the presence of a diversity mindset. With this paper, we argue that a dichotomous nature of diversity is oversimplified. Indeed, it is a complex relationship where context plays a pivotal role. A more nuanced understanding of diversity through the lens of theories, such as the CEM, may lead to more effective teamwork.
翻訳日:2023-11-17 20:31:29 公開日:2023-11-16
# AMLB: AutoMLベンチマーク

AMLB: an AutoML Benchmark ( http://arxiv.org/abs/2207.12560v2 )

ライセンス: Link先を確認
Pieter Gijsbers, Marcos L. P. Bueno, Stefan Coors, Erin LeDell, S\'ebastien Poirier, Janek Thomas, Bernd Bischl, Joaquin Vanschoren(参考訳) さまざまなAutoMLフレームワークを比較することは、非常に難しく、しばしば正しくない。 ベストプラクティスに従ったオープンで拡張可能なベンチマークを導入し、AutoMLフレームワークを比較する際の一般的なミスを回避する。 71の分類と33の回帰タスクで9つのよく知られたAutoMLフレームワークを徹底的に比較する。 AutoMLフレームワークの違いは、多面的な分析、モデルの正確性の評価、推論時間によるトレードオフ、フレームワークの失敗などで調査されている。 また、相対的なAutoMLフレームワークランキングが異なるタスクのサブセットを見つけるためにBradley-Terry木を使用します。 ベンチマークには、多くのAutoMLフレームワークを統合し、フレームワークのインストールやリソース割り当てから詳細な評価に至るまで、実証的な評価プロセスのエンドツーエンドを自動化するオープンソースツールが付属している。 このベンチマークでは、公開データセットを使用し、他のautomlフレームワークやタスクで簡単に拡張でき、最新の結果のwebサイトがある。

Comparing different AutoML frameworks is notoriously challenging and often done incorrectly. We introduce an open and extensible benchmark that follows best practices and avoids common mistakes when comparing AutoML frameworks. We conduct a thorough comparison of 9 well-known AutoML frameworks across 71 classification and 33 regression tasks. The differences between the AutoML frameworks are explored with a multi-faceted analysis, evaluating model accuracy, its trade-offs with inference time, and framework failures. We also use Bradley-Terry trees to discover subsets of tasks where the relative AutoML framework rankings differ. The benchmark comes with an open-source tool that integrates with many AutoML frameworks and automates the empirical evaluation process end-to-end: from framework installation and resource allocation to in-depth evaluation. The benchmark uses public data sets, can be easily extended with other AutoML frameworks and tasks, and has a website with up-to-date results.
翻訳日:2023-11-17 20:31:10 公開日:2023-11-16
# アンサンブル学習におけるファノの不平等の再考

Rethinking Fano's Inequality in Ensemble Learning ( http://arxiv.org/abs/2205.12683v2 )

ライセンス: Link先を確認
Terufumi Morishita, Gaku Morio, Shota Horiguchi, Hiroaki Ozaki, Nobuo Nukaga(参考訳) 我々は,アンサンブル学習の基本的な理論を提案し,その中心的な疑問に答える: アンサンブルシステムを良いか悪いかを決める要因は何か? これまでの研究では、ファノの情報理論の不等式(英語版)の変種を使い、モデルの$\textit{accuracy}$ と $\textit{diversity}$ に基づいて分類誤差率の下限を導いた。 我々は、元のファノの不等式を再検討し、複数のモデル予測を組み合わせて最終予測を行う際に失われた情報を考慮していないと主張した。 この問題に対処するため、私たちは以前の理論を一般化して情報損失を取り入れ、$\textit{combination loss}$と名付けます。 さらに,実システムに関する広範囲な実験により,提案理論を実証的に検証し,実証する。 この理論は、各メートル法上のシステムの強みと弱みを明らかにし、アンサンブル学習の理論的理解を促進し、システム設計への洞察を与える。

We propose a fundamental theory on ensemble learning that answers the central question: what factors make an ensemble system good or bad? Previous studies used a variant of Fano's inequality of information theory and derived a lower bound of the classification error rate on the basis of the $\textit{accuracy}$ and $\textit{diversity}$ of models. We revisit the original Fano's inequality and argue that the studies did not take into account the information lost when multiple model predictions are combined into a final prediction. To address this issue, we generalize the previous theory to incorporate the information loss, which we name $\textit{combination loss}$. Further, we empirically validate and demonstrate the proposed theory through extensive experiments on actual systems. The theory reveals the strengths and weaknesses of systems on each metric, which will push the theoretical understanding of ensemble learning and give us insights into designing systems.
翻訳日:2023-11-17 18:54:16 公開日:2023-11-16
# deft: 教師なしコアセット選択による大規模言語モデルのデータ効率的な微調整

DEFT: Data Efficient Fine-Tuning for Large Language Models via Unsupervised Core-Set Selection ( http://arxiv.org/abs/2310.16776v3 )

ライセンス: Link先を確認
Devleena Das, Vivek Khetan(参考訳) 近年の進歩により、多くの事前学習言語モデル(PLM)が利用可能になったが、ダウンストリームタスクでPLMを微調整するには、どの程度のデータが必要か、疑問が残る。 本稿では,教師なしのコアセット選択を活用し,ダウンストリームタスクのplmを微調整するために必要なデータ量を最小化する,データ効率のよい微調整フレームワークdeftを紹介する。 我々は,テキスト編集LMにおけるDEFTフレームワークの有効性を実証し,最先端のテキスト編集モデルであるCoEDITと比較した。 定量的および定性的な結果から, DEFT モデルは CoEDIT と同程度の精度で, 約70% の精度で微調整可能であることが示された。

Recent advances have led to the availability of many pre-trained language models (PLMs); however, a question that remains is how much data is truly needed to fine-tune PLMs for downstream tasks? In this work, we introduce DEFT, a data-efficient fine-tuning framework that leverages unsupervised core-set selection to minimize the amount of data needed to fine-tune PLMs for downstream tasks. We demonstrate the efficacy of our DEFT framework in the context of text-editing LMs, and compare to the state-of-the art text-editing model, CoEDIT. Our quantitative and qualitative results demonstrate that DEFT models are just as accurate as CoEDIT while being finetuned on ~70% less data.
翻訳日:2023-11-17 18:48:55 公開日:2023-11-16
# 時間的コモンセンス推論と買収の概観

An Overview Of Temporal Commonsense Reasoning and Acquisition ( http://arxiv.org/abs/2308.00002v3 )

ライセンス: Link先を確認
Georg Wenzel and Adam Jatowt(参考訳) テンポラル・コモンセンス推論(temporal commonsense reasoning)とは、フレーズ、アクション、イベントの典型的な時間的文脈を理解し、そのような知識を必要とする問題を推論するために使用する能力を指す。 この特徴は時相自然言語処理タスクにおいて必須であり、時相要約、時相質問応答、時相自然言語推論などの応用が可能となる。 大規模言語モデルの性能に関する最近の研究は, 構文的に正しい文を生成し, 分類タスクを解くことに長けているにもかかわらず, 推論のショートカットを行い, 単純な言語トラップに陥ることが多いことを示唆している。 本稿では,時間的コモンセンス推論の分野における研究の概要について述べる。特に,多種多様な拡張による言語モデルの性能向上と,さらに多くのデータセットを対象とした評価に焦点を当てる。 しかしながら、これらの強化モデルは、典型的な発生時間、順序、イベントの持続時間などの時間的共通感覚特性よりも、人間のパフォーマンスを推論するタスクにアプローチするのに依然として苦労している。 さらに,トランスフォーマの浅い推論に照らして,過度に予測される評価結果から保護する研究の慎重な解釈の必要性も強調する。 これはデータセットと適切な評価メトリクスを適切に準備することで実現できる。

Temporal commonsense reasoning refers to the ability to understand the typical temporal context of phrases, actions, and events, and use it to reason over problems requiring such knowledge. This trait is essential in temporal natural language processing tasks, with possible applications such as timeline summarization, temporal question answering, and temporal natural language inference. Recent research on the performance of large language models suggests that, although they are adept at generating syntactically correct sentences and solving classification tasks, they often take shortcuts in their reasoning and fall prey to simple linguistic traps. This article provides an overview of research in the domain of temporal commonsense reasoning, particularly focusing on enhancing language model performance through a variety of augmentations and their evaluation across a growing number of datasets. However, these augmented models still struggle to approach human performance on reasoning tasks over temporal common sense properties, such as the typical occurrence times, orderings, or durations of events. We further emphasize the need for careful interpretation of research to guard against overpromising evaluation results in light of the shallow reasoning present in transformers. This can be achieved by appropriately preparing datasets and suitable evaluation metrics.
翻訳日:2023-11-17 18:48:41 公開日:2023-11-16
# ベイズリスクの改善は競争で社会福祉を減らし得る

Improved Bayes Risk Can Yield Reduced Social Welfare Under Competition ( http://arxiv.org/abs/2306.14670v2 )

ライセンス: Link先を確認
Meena Jagadeesan, Michael I. Jordan, Jacob Steinhardt, Nika Haghtalab(参考訳) 機械学習モデルの規模が増加するにつれて、スケーリング法則のようなトレンドが予測精度の一貫した下流改善を予測している。 しかし、これらのトレンドは独立した単一のモデル提供者の視点をとっており、現実のプロバイダーはユーザーと競い合うことが多い。 本研究は,ユーザ間での全体的な予測精度が,非モノトニック性やスケールの縮小など,これらのスケーリングトレンドの振る舞いを根本的に変えることができることを示す。 分類タスクの競合モデルを定義し、スケールの増大の影響を研究するためのレンズとしてデータ表現を使用する。 ベイズリスクによって測定された)データ表現品質の改善が、競合するモデルプロデューサの市場において、ユーザ間での全体的な予測精度(社会福祉など)を低下させる多くの設定を見出した。 我々の例は、単純な設定のクローズドフォーム公式から、CIFAR-10の事前訓練された表現を伴うシミュレーションまで様々である。 概念レベルでは、各モデルプロジェクタのスケーリング傾向が、複数のモデルプロバイダを持つマーケットプレースにおける社会福祉の下流改善に寄与する必要はないことを示唆する。

As the scale of machine learning models increases, trends such as scaling laws anticipate consistent downstream improvements in predictive accuracy. However, these trends take the perspective of a single model-provider in isolation, while in reality providers often compete with each other for users. In this work, we demonstrate that competition can fundamentally alter the behavior of these scaling trends, even causing overall predictive accuracy across users to be non-monotonic or decreasing with scale. We define a model of competition for classification tasks, and use data representations as a lens for studying the impact of increases in scale. We find many settings where improving data representation quality (as measured by Bayes risk) decreases the overall predictive accuracy across users (i.e., social welfare) for a marketplace of competing model-providers. Our examples range from closed-form formulas in simple settings to simulations with pretrained representations on CIFAR-10. At a conceptual level, our work suggests that favorable scaling trends for individual model-providers need not translate to downstream improvements in social welfare in marketplaces with multiple model providers.
翻訳日:2023-11-17 18:47:51 公開日:2023-11-16
# プロンプトチューニングの普遍性と限界

Universality and Limitations of Prompt Tuning ( http://arxiv.org/abs/2305.18787v2 )

ライセンス: Link先を確認
Yihan Wang, Jatin Chauhan, Wei Wang, Cho-Jui Hsieh(参考訳) 新しいタスクに事前学習された言語モデルを適用するための即興チューニングの実証的な効果にもかかわらず、"入力前のチューニングパラメータ"と"モデル重みのチューニング"の差の理論的基礎は限られている。 そこで我々は,トランスフォーマーアーキテクチャにおけるソフトプロンプトチューニングの役割を理解するための第一歩を踏み出した。 汎用アーキテクチャを考慮し、連続値関数に対する有限深度固定重み付き事前学習変圧器による普遍近似と制限の両レンズからの即時チューニングを解析する。 我々の普遍性の結果は、リプシッツ関数の集合における任意のシーケンス列関数を近似するプロンプトを持つ強変圧器の存在を保証する。 制限深度変換器のプロンプトチューニングの制限は、与えられた単一エンコーダ層の任意の長さのプロンプトによって記憶できない一連のデータセットを構築することで最初に証明される。 また、調整可能なプロンプトパラメータの必要な数に対する低いバウンダリを提供し、単一層設定の低ランク更新(LoRAに基づく)に必要なパラメータの数と比較する。 我々は最終的に、変換器が可逆関数のみからデータセットを学習できる十分な条件を提供することで、分析を多層設定に拡張する。 我々の理論的な主張は経験的な結果にも裏付けられている。

Despite the demonstrated empirical efficacy of prompt tuning to adapt a pretrained language model for a new task, the theoretical underpinnings of the difference between "tuning parameters before the input" against "the tuning of model weights" are limited. We thus take one of the first steps to understand the role of soft-prompt tuning for transformer-based architectures. By considering a general purpose architecture, we analyze prompt tuning from the lens of both: universal approximation and limitations with finite-depth fixed-weight pretrained transformers for continuous-valued functions. Our universality result guarantees the existence of a strong transformer with a prompt to approximate any sequence-to-sequence function in the set of Lipschitz functions. The limitations of prompt tuning for limited-depth transformers are first proved by constructing a set of datasets, that cannot be memorized by a prompt of any length for a given single encoder layer. We also provide a lower bound on the required number of tunable prompt parameters and compare the result with the number of parameters required for a low-rank update (based on LoRA) for a single-layer setting. We finally extend our analysis to multi-layer settings by providing sufficient conditions under which the transformer can at best learn datasets from invertible functions only. Our theoretical claims are also corroborated by empirical results.
翻訳日:2023-11-17 18:47:34 公開日:2023-11-16
# 祈りの後にビールを飲んでる? 大規模言語モデルにおける文化バイアスの測定

Having Beer after Prayer? Measuring Cultural Bias in Large Language Models ( http://arxiv.org/abs/2305.14456v2 )

ライセンス: Link先を確認
Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu(参考訳) 言語モデルは特定の文化的文脈に適切に適応することが重要である。 しかし、本論文で示すように、多言語とアラビア語の単言語モデルは、アラブ文化によって文脈化され、アラビア語で促された場合でも、西洋文化にデフォルトされている。 この西洋の偏見を測定するために、自然発生のアラビアのプロンプトのデータセットであるCAMeLを導入し、アラブ文化や西洋文化に対応する20,504の文化的対象を広範囲にリストした。 ラクダを用いて,モデルが西洋の目標を優先し,名前付きエンティティ認識や感情分析などの下流課題における文化的不公平性を示すことを示す。 プレトレーニングコーパスの分析により、ウィキペディアのような一般的なソースは文化的に認識されたモデルを構築するのに適さない可能性があり、世界人口に奉仕するために言語モデルを構築する際に、事前トレーニングデータを注意深くキュレートすることの重要性も明らかになった。

It is important that language models appropriately adapt to specific cultural contexts. However, as we show in this paper, multilingual and Arabic monolingual language models default to Western culture even when prompted in Arabic and contextualized by an Arab cultural setting. To measure this Western bias, we introduce CAMeL, a dataset of naturally occurring Arabic prompts spanning eight diverse cultural aspects and an extensive list of 20,504 cultural targets corresponding to Arab or Western culture. Using CAMeL, we show that models favor Western targets and demonstrate cultural unfairness on downstream tasks such as named entity recognition and sentiment analysis. Our analyses of pretraining corpora also reveal that commonly used sources such as Wikipedia may not be suited to build culturally aware models, underscoring the importance of carefully curating pretraining data in constructing language models to serve a global population.
翻訳日:2023-11-17 18:46:51 公開日:2023-11-16
# 多数派が間違っている場合:主観的タスクに対するアノテーションの不一致をモデル化する

When the Majority is Wrong: Modeling Annotator Disagreement for Subjective Tasks ( http://arxiv.org/abs/2305.06626v4 )

ライセンス: Link先を確認
Eve Fleisig, Rediet Abebe, Dan Klein(参考訳) アノテーターの過半数の投票は、自然言語処理における基礎的な真理ラベルに使われるのが一般的であるが、ヘイトスピーチ検出のようなタスクにおけるアノテーターの不一致は、グループ間での意見の相違を反映しうる。 したがって、ヘイトスピーチ検出における重要な問題は、そのグループがアノテータプールのごく一部を構成する場合、対象とする人口集団に対して、声明が攻撃的であるかどうかを決定することである。 我々は,潜在的に攻撃的なテキストに対する個々の注釈格付けを予測するモデルを構築し,この情報をテキストの予測対象グループと組み合わせ,対象グループメンバの意見をモデル化する。 評価基準を22%向上して個々の注釈者の格付けを予測し、33%向上させるなど、さまざまな指標で利益が得られ、下降するモデルの不確実性を示す指標を提供する。 我々は,各注釈者とその評価をリンクする注釈者idを追跡する必要なしに,オンラインコンテンツの人口統計情報や意見を用いて注釈者評価を予測できることを見出した。 また,アノテータのオンライン体験に対する非侵襲的調査質問の利用は,アノテータの意見を予測する際に,プライバシーを最大化し,不要な人口統計情報の収集を最小化するのに役立つことがわかった。

Though majority vote among annotators is typically used for ground truth labels in natural language processing, annotator disagreement in tasks such as hate speech detection may reflect differences in opinion across groups, not noise. Thus, a crucial problem in hate speech detection is determining whether a statement is offensive to the demographic group that it targets, when that group may constitute a small fraction of the annotator pool. We construct a model that predicts individual annotator ratings on potentially offensive text and combines this information with the predicted target group of the text to model the opinions of target group members. We show gains across a range of metrics, including raising performance over the baseline by 22% at predicting individual annotators' ratings and by 33% at predicting variance among annotators, which provides a metric for model uncertainty downstream. We find that annotator ratings can be predicted using their demographic information and opinions on online content, without the need to track identifying annotator IDs that link each annotator to their ratings. We also find that use of non-invasive survey questions on annotators' online experiences helps to maximize privacy and minimize unnecessary collection of demographic information when predicting annotators' opinions.
翻訳日:2023-11-17 18:45:42 公開日:2023-11-16
# ランダムlpノルム劣化を伴う画像分類器の破壊ロバスト性の検討

Investigating the Corruption Robustness of Image Classifiers with Random Lp-norm Corruptions ( http://arxiv.org/abs/2305.05400v2 )

ライセンス: Link先を確認
Georg Siedel, Weijia Shao, Silvia Vock, Andrey Morozov(参考訳) 堅牢性は、安全性と信頼性を達成するための機械学習分類器の基本特性である。 逆ロバスト性および画像分類モデルの形式ロバスト性検証の分野において、ロバスト性はlpノルム距離内の全ての入力変動に対する安定性として一般に定義される。 しかし、ランダムな汚職に対する堅牢性は通常、現実世界で観測された変動を利用して改善され評価されるが、数学的に定義されたLp-ノルムの汚職はほとんど考慮されない。 本研究では,画像分類器のトレーニングとテストデータを強化するために,ランダムなlp-ノルム腐敗の利用を検討する。 我々は,非知覚的無作為な腐敗に対するモデルロバスト性を評価するために,敵対的ロバストネスの分野からのアプローチを適用する。 我々は,異なるlpノルム間でロバスト性が伝達可能かどうかを実証的・理論的に検討し,モデルが学習・評価すべきlpノルム崩壊の結論を導出する。 その結果,l0-ノルム劣化を伴うトレーニングデータの強化は,標準訓練に比べて精度を維持しつつ腐敗の頑健性を向上させることが判明した。

Robustness is a fundamental property of machine learning classifiers to achieve safety and reliability. In the fields of adversarial robustness and formal robustness verification of image classification models, robustness is commonly defined as the stability to all input variations within an Lp-norm distance. However, robustness to random corruptions is usually improved and evaluated using variations observed in the real-world, while mathematically defined Lp-norm corruptions are rarely considered. This study investigates the use of random Lp-norm corruptions to augment the training and test data of image classifiers. We adapt an approach from the field of adversarial robustness to assess the model robustness to imperceptible random corruptions. We empirically and theoretically investigate whether robustness is transferable across different Lp-norms and derive conclusions on which Lp-norm corruptions a model should be trained and evaluated on. We find that training data augmentation with L0-norm corruptions improves corruption robustness while maintaining accuracy compared to standard training and when applied on top of selected state-of-the-art data augmentation techniques.
翻訳日:2023-11-17 18:44:50 公開日:2023-11-16
# 低次元線形部分空間に対する2層ReLUネットワークの逆例

Adversarial Examples Exist in Two-Layer ReLU Networks for Low Dimensional Linear Subspaces ( http://arxiv.org/abs/2303.00783v2 )

ライセンス: Link先を確認
Odelia Melamed, Gilad Yehudai, Gal Vardi(参考訳) 大量の研究にもかかわらず、トレーニングされたニューラルネットワークが敵の例に非常に弱い理由はまだよく理解されていない。 本研究では,低次元線形部分空間上のデータを用いて学習した2層ニューラルネットワークに着目した。 標準勾配法は、非ロバストニューラルネットワーク、すなわち、データ部分空間に直交する方向に大きな勾配を持ち、これらの方向の小さな逆数$l_2$-摂動の影響を受けやすいネットワークに繋がることを示す。 さらに,トレーニングアルゴリズムの初期化スケールの縮小,あるいは$l_2$正規化の追加により,データに直交する逆摂動に対して,トレーニングネットワークがより堅牢になることを示す。

Despite a great deal of research, it is still not well-understood why trained neural networks are highly vulnerable to adversarial examples. In this work we focus on two-layer neural networks trained using data which lie on a low dimensional linear subspace. We show that standard gradient methods lead to non-robust neural networks, namely, networks which have large gradients in directions orthogonal to the data subspace, and are susceptible to small adversarial $L_2$-perturbations in these directions. Moreover, we show that decreasing the initialization scale of the training algorithm, or adding $L_2$ regularization, can make the trained network more robust to adversarial perturbations orthogonal to the data.
翻訳日:2023-11-17 18:43:53 公開日:2023-11-16
# EvoPrompting: コードレベルのニューラルアーキテクチャ検索のための言語モデル

EvoPrompting: Language Models for Code-Level Neural Architecture Search ( http://arxiv.org/abs/2302.14838v3 )

ライセンス: Link先を確認
Angelica Chen, David M. Dohan, David R. So(参考訳) コード生成のための言語モデル(lms)の最近の印象的な成果を踏まえ、進化的ニューラルアーキテクチャ探索(nas)アルゴリズムの適応的変異とクロスオーバー演算子としてのlmsの使用について検討する。 nasは、プロンプトのみを通じてlmsが成功するには、まだタスクが難しいことを証明していますが、進化的プロンプトエンジニアリングとソフトプロンプトチューニングの組み合わせは、私たちが"evoprompting"と呼ぶ方法であり、一貫して多様でハイパフォーマンスなモデルを見つけることが分かりました。 最初に、EvoPromptingは、人間の専門家が設計したものと、精度とモデルサイズの両方で数発のプロンプトの両方を上回り、畳み込みアーキテクチャの変種を生成する、計算効率の良いMNIST-1Dデータセットに有効であることを示す。 次に,提案手法をCLRS Algorithmic Reasoning Benchmark上でグラフニューラルネットワークの探索に適用する。EvoPromptingは,同モデルサイズを維持しながら,30のアルゴリズム推論タスク中21の最先端モデルよりも優れた,新しいアーキテクチャを設計することができる。 EvoPromptingは、さまざまな機械学習タスクにわたる正確で効率的なニューラルネットワークアーキテクチャの設計に成功し、ニューラルネットワーク設計以外のタスクへの容易に適応できるような汎用性も備えている。

Given the recent impressive accomplishments of language models (LMs) for code generation, we explore the use of LMs as adaptive mutation and crossover operators for an evolutionary neural architecture search (NAS) algorithm. While NAS still proves too difficult a task for LMs to succeed at solely through prompting, we find that the combination of evolutionary prompt engineering with soft prompt-tuning, a method we term EvoPrompting, consistently finds diverse and high performing models. We first demonstrate that EvoPrompting is effective on the computationally efficient MNIST-1D dataset, where EvoPrompting produces convolutional architecture variants that outperform both those designed by human experts and naive few-shot prompting in terms of accuracy and model size. We then apply our method to searching for graph neural networks on the CLRS Algorithmic Reasoning Benchmark, where EvoPrompting is able to design novel architectures that outperform current state-of-the-art models on 21 out of 30 algorithmic reasoning tasks while maintaining similar model size. EvoPrompting is successful at designing accurate and efficient neural network architectures across a variety of machine learning tasks, while also being general enough for easy adaptation to other tasks beyond neural network design.
翻訳日:2023-11-17 18:43:38 公開日:2023-11-16
# FOCUS:異種データのフェデレーション学習のためのエージェント認識によるフェアネス

FOCUS: Fairness via Agent-Awareness for Federated Learning on Heterogeneous Data ( http://arxiv.org/abs/2207.10265v4 )

ライセンス: Link先を確認
Wenda Chu, Chulin Xie, Boxin Wang, Linyi Li, Lang Yin, Arash Nourian, Han Zhao, Bo Li(参考訳) フェデレートラーニング(FL)は、エージェントがローカルデータを共有せずにグローバルモデルを共同でトレーニングすることを可能にする。 しかし、局所データの異種性のため、エージェントの訓練されたグローバルモデルの公平性を最適化したり定義したりすることは困難である。 例えば、既存の研究は、精度の公平さをFLにおける異なるエージェントの公正さとみなすが、これは特に不均一な条件下では、エージェントに高品質なデータを強制し、低品質なデータに貢献するエージェントと同様の正確さを達成するのは直感的に「不公平」である。 本研究では,異種エージェントの寄与を考慮に入れた,FLフェアネスの正式な定義,エージェント認識によるフェアネス(fairness)を提案する。 FAAの下では、高品質なデータを持つエージェントのパフォーマンスは、低品質のデータを持つ大量のエージェントの存在のためだけに犠牲にはならない。 さらに,エージェントクラスタリング(FOCUS)に基づく公正なFLトレーニングアルゴリズムを提案し,FAAが測定したFLの公平性を実現する。 理論的には、線形および一般凸損失関数の平坦な条件下での FOCUS の収束と最適性を証明する。 また, 一般凸損失関数と一般凸損失関数の両面において, FOCUS が標準FedAvg と比較して常に高い公正性を達成することを示す。 実験では,合成データ,画像,テキストを含む4つのflデータセットにおいて,fedavgや最先端のfair flアルゴリズムと比較して,faaのフェア性が著しく向上することを示す。

Federated learning (FL) allows agents to jointly train a global model without sharing their local data. However, due to the heterogeneous nature of local data, it is challenging to optimize or even define fairness of the trained global model for the agents. For instance, existing work usually considers accuracy equity as fairness for different agents in FL, which is limited, especially under the heterogeneous setting, since it is intuitively "unfair" to enforce agents with high-quality data to achieve similar accuracy to those who contribute low-quality data, which may discourage the agents from participating in FL. In this work, we propose a formal FL fairness definition, fairness via agent-awareness (FAA), which takes different contributions of heterogeneous agents into account. Under FAA, the performance of agents with high-quality data will not be sacrificed just due to the existence of large amounts of agents with low-quality data. In addition, we propose a fair FL training algorithm based on agent clustering (FOCUS) to achieve fairness in FL measured by FAA. Theoretically, we prove the convergence and optimality of FOCUS under mild conditions for linear and general convex loss functions with bounded smoothness. We also prove that FOCUS always achieves higher fairness in terms of FAA compared with standard FedAvg under both linear and general convex loss functions. Empirically, we show that on four FL datasets, including synthetic data, images, and texts, FOCUS achieves significantly higher fairness in terms of FAA while maintaining competitive prediction accuracy compared with FedAvg and state-of-the-art fair FL algorithms.
翻訳日:2023-11-17 18:43:12 公開日:2023-11-16
# スパイクニューラルネットワークの内在構造について

On the Intrinsic Structures of Spiking Neural Networks ( http://arxiv.org/abs/2207.04876v3 )

ライセンス: Link先を確認
Shao-Qun Zhang, Jia-Yi Chen, Jin-Hui Wu, Gao Zhang, Huan Xiong, Bin Gu, Zhi-Hua Zhou(参考訳) 近年、時間依存やイベント駆動のデータを扱う大きな可能性から、SNNへの関心が高まっている。 SNNの性能は、従来のANNと同様、アポサイトアーキテクチャと微調整接続重みの選択だけでなく、スパイキング計算における固有の構造を巧妙に構成する上でも有効である。 しかし,本質的構造の影響を総合的に検討する研究が数多く行われている。 その結果、開発者は、さまざまなデータセットやタスクにまたがってSNNの標準化された構成を適用することが難しいと感じることが多い。 この研究はSNNの本質的な構造を深く掘り下げている。 当初我々は,SNNの表現性への影響を解明し,統合操作と発火リセット機構という,内在的構造の2つの重要な要素を明らかにした。 さらに、2つの重要な結論を導いた: 膜時間ハイパーパラメータは、積分操作の固有値と密接に関連し、スパイキングダイナミクスの関数トポロジーを予測し、発火・リセット機構の様々なハイパーパラメータは、SNNの全体点火能力を管理し、入力データの注入比やサンプリング密度を緩和する。 これらの結果はsnsの有効性が本質構造の構成に大きく依存する理由を解明し,snsの適応性の向上がsnsの全体的な性能と適用性の向上に寄与することを示す。 この認識に触発されて、SNN学習を強化するための2つの実現可能なアプローチを提案する。 これらには、自己結合アーキテクチャの活用と、統合操作の適応性を高めるために確率的スパイキングニューロンの活用が含まれる。 提案手法の有効性を理論と実践の観点から検証する。

Recent years have emerged a surge of interest in SNNs owing to their remarkable potential to handle time-dependent and event-driven data. The performance of SNNs hinges not only on selecting an apposite architecture and fine-tuning connection weights, similar to conventional ANNs, but also on the meticulous configuration of intrinsic structures within spiking computations. However, there has been a dearth of comprehensive studies examining the impact of intrinsic structures. Consequently, developers often find it challenging to apply a standardized configuration of SNNs across diverse datasets or tasks. This work delves deep into the intrinsic structures of SNNs. Initially, we unveil two pivotal components of intrinsic structures: the integration operation and firing-reset mechanism, by elucidating their influence on the expressivity of SNNs. Furthermore, we draw two key conclusions: the membrane time hyper-parameter is intimately linked to the eigenvalues of the integration operation, dictating the functional topology of spiking dynamics, and various hyper-parameters of the firing-reset mechanism govern the overall firing capacity of an SNN, mitigating the injection ratio or sampling density of input data. These findings elucidate why the efficacy of SNNs hinges heavily on the configuration of intrinsic structures and lead to a recommendation that enhancing the adaptability of these structures contributes to improving the overall performance and applicability of SNNs. Inspired by this recognition, we propose two feasible approaches to enhance SNN learning. These involve leveraging self-connection architectures and employing stochastic spiking neurons to augment the adaptability of the integration operation and firing-reset mechanism, respectively. We verify the effectiveness of the proposed methods from perspectives of theory and practice.
翻訳日:2023-11-17 18:42:44 公開日:2023-11-16
# nlpのmturkアノテーションプラクティスへのワーカーパースペクティブの導入

Incorporating Worker Perspectives into MTurk Annotation Practices for NLP ( http://arxiv.org/abs/2311.02802v2 )

ライセンス: Link先を確認
Olivia Huang, Eve Fleisig, Dan Klein(参考訳) Amazon Mechanical Turk(MTurk)における自然言語処理のデータ収集に関する現在のプラクティスは、NLP研究者間で共有されるデータ品質とヒューリスティックスの研究の組み合わせに依存していることが多い。 しかしながら、mturkの労働者の視点を考慮せずに、これらのアプローチは労働者の権利や応答の質の悪い問題に影響を受けやすい。 我々は、公正な支払い、労働者のプライバシ、データ品質、労働者のインセンティブを考慮したオープンな質問に対する批判的な文献レビューとMTurkワーカーの調査を行った。 労働者の嗜好はNLP研究者の間では知恵に反することが多い。 調査対象となった労働者は、不確かな、非常に高い支払いに対して信頼できる、合理的な支払いを好んだ。 また、労働者は、最低応答時間やマスターの資格など、いくつかの品質管理手法をバイアスがあり、ほとんど効果がないと見なしている。 調査の結果から,今後のNLP研究は,労働者の権利を尊重し,データ品質を向上させるために,MTurk労働者の経験をいかに考慮した方がよいかを推奨する。

Current practices regarding data collection for natural language processing on Amazon Mechanical Turk (MTurk) often rely on a combination of studies on data quality and heuristics shared among NLP researchers. However, without considering the perspectives of MTurk workers, these approaches are susceptible to issues regarding workers' rights and poor response quality. We conducted a critical literature review and a survey of MTurk workers aimed at addressing open questions regarding best practices for fair payment, worker privacy, data quality, and considering worker incentives. We found that worker preferences are often at odds with received wisdom among NLP researchers. Surveyed workers preferred reliable, reasonable payments over uncertain, very high payments; reported frequently lying on demographic questions; and expressed frustration at having work rejected with no explanation. We also found that workers view some quality control methods, such as requiring minimum response times or Master's qualifications, as biased and largely ineffective. Based on the survey results, we provide recommendations on how future NLP studies may better account for MTurk workers' experiences in order to respect workers' rights and improve data quality.
翻訳日:2023-11-17 18:33:33 公開日:2023-11-16
# 汎用的異常検出と理解に向けて:大規模視覚言語モデル(gpt-4v)がリード

Towards Generic Anomaly Detection and Understanding: Large-scale Visual-linguistic Model (GPT-4V) Takes the Lead ( http://arxiv.org/abs/2311.02782v3 )

ライセンス: Link先を確認
Yunkang Cao, Xiaohao Xu, Chen Sun, Xiaonan Huang, and Weiming Shen(参考訳) 異常検出は、さまざまなドメインとデータタイプにまたがる重要なタスクである。 しかし、既存の異常検出モデルは、しばしば特定の領域とモダリティのために設計される。 本研究では,視覚言語モデルであるgpt-4v(ision)を用いて,異常検出タスクを汎用的に処理する。 gpt-4vのマルチモダリティ,画像,ビデオ,ポイントクラウド,時系列データを含むマルチドメイン異常検出タスクにおいて,産業,医療,論理,ビデオ,3次元異常検出,ローカライズタスクなど,複数のアプリケーション領域にまたがる適用について検討した。 GPT-4Vの性能を高めるために,クラス情報や人的専門知識,参照画像など,さまざまな種類の付加的手がかりをプロンプトとして組み込んで,GPT-4Vは,ゼロ・ワンショット異常検出において,グローバルおよび微粒なセマンティックパターンの検出と説明に極めて有効であることが実証された。 これにより、正常例と異常例を正確に区別することができる。 本研究では広範な評価を行ったが,GPT-4Vの汎用異常検出能力のさらなる活用には今後の評価が必要である。 定量的指標の探索、評価ベンチマークの拡張、マルチラウンドインタラクションの導入、ヒューマンフィードバックループの導入などだ。 それにもかかわらず、gpt-4vは一般的な異常検出と理解において有望な性能を示し、異常検出のための新しい道を開く。

Anomaly detection is a crucial task across different domains and data types. However, existing anomaly detection models are often designed for specific domains and modalities. This study explores the use of GPT-4V(ision), a powerful visual-linguistic model, to address anomaly detection tasks in a generic manner. We investigate the application of GPT-4V in multi-modality, multi-domain anomaly detection tasks, including image, video, point cloud, and time series data, across multiple application areas, such as industrial, medical, logical, video, 3D anomaly detection, and localization tasks. To enhance GPT-4V's performance, we incorporate different kinds of additional cues such as class information, human expertise, and reference images as prompts.Based on our experiments, GPT-4V proves to be highly effective in detecting and explaining global and fine-grained semantic patterns in zero/one-shot anomaly detection. This enables accurate differentiation between normal and abnormal instances. Although we conducted extensive evaluations in this study, there is still room for future evaluation to further exploit GPT-4V's generic anomaly detection capacity from different aspects. These include exploring quantitative metrics, expanding evaluation benchmarks, incorporating multi-round interactions, and incorporating human feedback loops. Nevertheless, GPT-4V exhibits promising performance in generic anomaly detection and understanding, thus opening up a new avenue for anomaly detection.
翻訳日:2023-11-17 18:33:12 公開日:2023-11-16
# 支援・反感:文脈外ミスと偽情報を検出するための証拠のスタンスの分析

Support or Refute: Analyzing the Stance of Evidence to Detect Out-of-Context Mis- and Disinformation ( http://arxiv.org/abs/2311.01766v3 )

ライセンス: Link先を確認
Xin Yuan, Jie Guo, Weidong Qiu, Zheng Huang, Shujun Li(参考訳) オンライン上の誤報や誤報は、様々な種類のオンライン被害の主な源泉として社会問題となっている。 ooc(out-of-context)情報とは、例えば、偽のテキストキャプションや誤解を招くテキスト記述と組み合わされた実際の画像など、異なる情報の断片が誤って関連付けられる情報である。 過去の研究では、外部の証拠を通じてoocの誤報や偽情報に対する防御を試みたが、異なる立場で異なる証拠の役割を無視する傾向がある。 異なる検出結果に対するバイアスを証拠のスタンスが表しているという直観性に動機づけられ,様々なマルチモーダル証拠のスタンスを統一的な枠組みで抽出できるスタンス抽出ネットワーク(sen)を提案する。 さらに,名前付きエンティティの共起関係に基づいて算出したサポート・リフテーションスコアをテキストセンに導入し,提案手法が最先端のベースラインを上回り,最適なモデルが3.2%の精度で性能向上を達成することを実証した。

Mis- and disinformation online have become a major societal problem as major sources of online harms of different kinds. One common form of mis- and disinformation is out-of-context (OOC) information, where different pieces of information are falsely associated, e.g., a real image combined with a false textual caption or a misleading textual description. Although some past studies have attempted to defend against OOC mis- and disinformation through external evidence, they tend to disregard the role of different pieces of evidence with different stances. Motivated by the intuition that the stance of evidence represents a bias towards different detection results, we propose a stance extraction network (SEN) that can extract the stances of different pieces of multi-modal evidence in a unified framework. Moreover, we introduce a support-refutation score calculated based on the co-occurrence relations of named entities into the textual SEN. Extensive experiments on a public large-scale dataset demonstrated that our proposed method outperformed the state-of-the-art baselines, with the best model achieving a performance gain of 3.2% in accuracy.
翻訳日:2023-11-17 18:32:48 公開日:2023-11-16
# 中国医療財団モデルにおける自己診断的原子知識の定量化:計算解析

Quantifying Self-diagnostic Atomic Knowledge in Chinese Medical Foundation Model: A Computational Analysis ( http://arxiv.org/abs/2310.11722v2 )

ライセンス: Link先を確認
Yaxin Fan, Feng Jiang, Benyou Wang, Peifeng Li, Haizhou Li(参考訳) ファンデーションモデル(FM)は、直接的で効率的な提案を提供することで、ユーザーが検索エンジンを通して自己診断する方法に革命をもたらす可能性がある。 近年の研究では, GPT-4で評価されたFMの質や, 医学試験に合格する能力に焦点が当てられ, FMの記憶に蓄積される自己診断的原子知識の程度を定量化する研究は行われていない。 本稿では,17種類の原子型と14,048個の原子知識を含む,自己診断的原子知識(SdAK)のベンチマークを構築した。 そこで,本ベンチマークでは,総称とオープンソースの両方の中国医学fmsを評価した。 実験の結果,一般FMは自己診断的原子知識の観点から医療用FMよりも優れた性能を示した。 エラー分析により、一般的なFMと医療用FMの両方がサイコファン性があることが判明した。 さらに, 微調整医療用FM, すなわち実世界, 半蒸留, 蒸留データに共通するさまざまな種類のデータについて検討し, 蒸留データが最もFMに有効であることを示した。 コードとデータは \url{https://github.com/freedomintelligence/sdak} で入手できる。

Foundation Models (FMs) have the potential to revolutionize the way users self-diagnose through search engines by offering direct and efficient suggestions. Recent studies primarily focused on the quality of FMs evaluated by GPT-4 or their ability to pass medical exams, no studies have quantified the extent of self-diagnostic atomic knowledge stored in FMs' memory, which is the basis of foundation models to provide factual and reliable suggestions. In this paper, we first constructed a benchmark of Self-diagnostic Atomic Knowledge (SdAK), including the most common types of atomic knowledge involved in self-diagnostic queries, with 17 atomic types and a total of 14, 048 pieces of atomic knowledge. Then, we evaluated both generic and open-source Chinese medical FMs on the benchmark. The experimental results showcase that generic FMs perform better than medical FMs in terms of self-diagnostic atomic knowledge. Error analysis revealed that both generic and medical FMs are sycophantic, e.g., always catering to users' claims when it comes to unknown knowledge. We further explored different types of data commonly adopted for fine-tuning medical FMs, i.e., real-world, semi-distilled, and distilled data, and found that distilled data can benefit FMs most. The code and data are available at \url{https://github.com/FreedomIntelligence/SDAK}.
翻訳日:2023-11-17 18:32:03 公開日:2023-11-16
# LM-Infinite:大規模言語モデルのための簡易オンザフライ長一般化

LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models ( http://arxiv.org/abs/2308.16137v5 )

ライセンス: Link先を確認
Chi Han, Qifan Wang, Wenhan Xiong, Yu Chen, Heng Ji, Sinong Wang(参考訳) 近年,トランスフォーマーを用いた大規模言語モデル (LLM) の性能は,様々な領域で顕著に向上している。 これらのLSMはますます複雑なドメインにデプロイされるため、長いユーザープロンプトをフォローしたり、長いテキストを生成する必要がしばしばある。 これらの状況では、長い列上の LLM の $\textit{length generalization failure}$ がより顕著になる。 ほとんどの事前訓練は、トレーニングシーケンスを一定長さに切り詰める。 LLMは、この問題に対処するために特別に設計された相対的な位置エンコーディングであっても、長いコンテキストの後、流動的で一貫性のあるテキストを生成するのに苦労することが多い。 長いコーパスの微調整のような一般的な解決策は、しばしばハードウェアと時間のコストを悩ませ、注意深くトレーニングプロセス設計を必要とする。 既存のllmsの生成品質をより効率的に長文に推定するために、この問題に寄与する主要な分散(ood)要因を理論的に経験的に検討する。 この診断にインスパイアされた本研究では,オンザフライ長一般化のための単純かつ効果的な解であるLM-Infiniteを提案する。 これは、パラメータのアップデートや学習を必要とせず、$\mathbf{\lambda}$-shaped attention mask(過剰な出席トークンを避けるため)と距離制限(見えない距離を避けるため)のみを含む。 相対配置符号化法を用いて,様々なLLMに適用できることを示す。 LM-Infiniteは、$O(n)$の時間と空間で計算的に効率的であり、ArXivとOpenWebText2データセットで128kのトークンに一貫性のあるテキスト生成率と品質を示し、2.72倍のデコード速度を持つ。 公開後、コードを公開します。

In recent years, there have been remarkable advancements in the performance of Transformer-based Large Language Models (LLMs) across various domains. As these LLMs are deployed for increasingly complex domains, they often face the need to follow longer user prompts or generate longer texts. In these situations, the $\textit{length generalization failure}$ of LLMs on long sequences becomes more prominent. Most pre-training schemes truncate training sequences to a fixed length. LLMs often struggle to generate fluent and coherent texts after longer contexts, even with relative positional encoding specifically designed to cope with this problem. Common solutions such as finetuning on longer corpora often involve daunting hardware and time costs and require careful training process design. To more efficiently extrapolate existing LLMs' generation quality to longer texts, we theoretically and empirically investigate the main out-of-distribution (OOD) factors contributing to this problem. Inspired by this diagnosis, we propose a simple yet effective solution for on-the-fly length generalization, LM-Infinite. It involves only a $\mathbf{\Lambda}$-shaped attention mask (to avoid excessive attended tokens) and a distance limit (to avoid unseen distances) while requiring no parameter updates or learning. We find it applicable to a variety of LLMs using relative-position encoding methods. LM-Infinite is computationally efficient with $O(n)$ time and space, and demonstrates consistent text generation fluency and quality to as long as 128k tokens on ArXiv and OpenWebText2 datasets, with 2.72x decoding speedup. We will make the codes publicly available following publication.
翻訳日:2023-11-17 18:31:40 公開日:2023-11-16
# Webスケール2D&3D医療データを活用した放射線学一般基盤モデルに向けて

Towards Generalist Foundation Model for Radiology by Leveraging Web-scale 2D&3D Medical Data ( http://arxiv.org/abs/2308.02463v5 )

ライセンス: Link先を確認
Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang and Weidi Xie(参考訳) 本研究ではRadFMと呼ばれるRadlogy Foundation Modelの開発に着手することを目的としている。 我々は,データセット構築,モデル設計,徹底的な評価という3つの視点から基礎モデルの構築を考える。 私たちの貢献は次のように結論づけられる。 i) MedMDは16Mの2次元および3次元の医用スキャンと高品質なテキスト記述や各種データフォーマット,モダリティ,タスクのレポートで構成され,5,000以上の異なる疾患をカバーしている。 私たちの知る限りでは、これは2Dと3Dの両方のスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。 二) テキスト入力を2次元または3次元の医療スキャンと統合し, 多様な放射線学的タスクに対する応答を生成できる, 視覚的条件付き生成前訓練を可能にするアーキテクチャを提案する。 このモデルは、最初はMedMDで事前訓練され、その後、RadMDと呼ばれる3Mの放射能視覚言語対を含むMedMDの放射能浄化版であるドメイン固有のデータセットで微調整された。 (iii)本研究では,基礎モデルの実用的臨床応用能力の包括的評価を目的とした,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる,新たな評価ベンチマークradbenchを提案する。 いずれの場合においても,radfmはopenflamingo, medflamingo, medvint, gpt-4vなど,公開可能な既存のマルチモーダル基盤モデルよりも優れている。 さらに、RadFMをさまざまな公開ベンチマークに適用し、さまざまなデータセット上で既存のSOTAを上回ります。 すべてのコード、データ、モデルチェックポイントが公開され、この分野におけるさらなる研究と開発を促進する。

In this study, we aim to initiate the development of Radiology Foundation Model, termed as RadFM. We consider the construction of foundational models from three perspectives, namely, dataset construction, model design, and thorough evaluation. Our contribution can be concluded as follows: (i), we construct a large-scale Medical Multi-modal Dataset, MedMD, which consists of 16M 2D and 3D medical scans with high-quality text descriptions or reports across various data formats, modalities, and tasks, covering over 5000 distinct diseases. To the best of our knowledge, this is the first large-scale, high-quality, medical visual-language dataset, with both 2D and 3D scans; (ii), we propose an architecture that enables visually conditioned generative pre-training, i.e., allowing for integration of text input with 2D or 3D medical scans, and generate responses for diverse radiologic tasks. The model was initially pre-trained on MedMD and subsequently fine-tuned on the domain-specific dataset, which is a radiologic cleaned version of MedMD, containing 3M radiologic visual-language pairs, termed as RadMD; (iii), we propose a new evaluation benchmark, RadBench, that comprises five tasks, including modality recognition, disease diagnosis, visual question answering, report generation and rationale diagnosis, aiming to comprehensively assess the capability of foundation models in handling practical clinical problems. We conduct both automatic and human evaluation on RadBench, in both cases, RadFM outperforms existing multi-modal foundation models, that are publicaly accessible, including Openflamingo, MedFlamingo, MedVInT and GPT-4V. Additionally, we also adapt RadFM for different public benchmarks, surpassing existing SOTAs on diverse datasets. All codes, data, and model checkpoint will all be made publicly available to promote further research and development in the field.
翻訳日:2023-11-17 18:31:09 公開日:2023-11-16
# 必要条件の明確化: LMとの相互作用による曖昧性の解消

Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs ( http://arxiv.org/abs/2311.09469v1 )

ライセンス: Link先を確認
Michael J.Q. Zhang, Eunsol Choi(参考訳) 対話を通じてあいまいさを解決することは自然言語の目印であり、この振る舞いをモデル化することはAIアシスタントを作る上でのコアチャレンジである。 本研究では,ユーザに対して,あいまいさを解消するためのタスク非依存の枠組みを提案することで,LMにおけるそのような行動を研究する。 本枠組みは,(1) 明確化が必要な時期の決定,(2) 質問内容の明確化,(3) 明確化によって収集された情報に正確に応答する3つのサブタスクに分類する。 我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。 最初のサブタスクでは,ユーザの意図に対するエントロピーを推定し,クエリーによる明確化の有用性を判定する,新しい不確実性推定手法であるintent-simを提案する。 本手法は, 既存の不確実性推定手法を常に上回り, 明確化の恩恵を受ける予測を識別する。 10%の例で明確化を要求できるだけであれば,ランダムに選択した例に対して,性能向上率を2倍にすることが可能である。 さらに、インテントシムは頑健であり、幅広いNLPタスクやLMにまたがる改善を実証している。 本研究は, LMとの相互作用を明らかにするための基礎となる。

Resolving ambiguities through interaction is a hallmark of natural language, and modeling this behavior is a core challenge in crafting AI assistants. In this work, we study such behavior in LMs by proposing a task-agnostic framework for resolving ambiguity by asking users clarifying questions. Our framework breaks down this objective into three subtasks: (1) determining when clarification is needed, (2) determining what clarifying question to ask, and (3) responding accurately with the new information gathered through clarification. We evaluate systems across three NLP applications: question answering, machine translation and natural language inference. For the first subtask, we present a novel uncertainty estimation approach, intent-sim, that determines the utility of querying for clarification by estimating the entropy over user intents. Our method consistently outperforms existing uncertainty estimation approaches at identifying predictions that will benefit from clarification. When only allowed to ask for clarification on 10% of examples, our system is able to double the performance gains over randomly selecting examples to clarify. Furthermore, we find that intent-sim is robust, demonstrating improvements across a wide range of NLP tasks and LMs. Together, our work lays foundation for studying clarifying interactions with LMs.
翻訳日:2023-11-17 17:18:44 公開日:2023-11-16
# 仮説検証は、テキスト生成に忠実な知識を促進する

Think While You Write: Hypothesis Verification Promotes Faithful Knowledge-to-Text Generation ( http://arxiv.org/abs/2311.09467v1 )

ライセンス: Link先を確認
Yifu Qiu, Varun Embar, Shay B. Cohen, Benjamin Han(参考訳) ニューラル・ナレッジ・トゥ・テキスト生成モデルは、しばしば入力された事実に関する記述を忠実に生成するのに苦労する:それらは与えられた事実に矛盾する幻覚を生成するか、入力に存在しない事実を記述する。 幻覚を減らすために,新しい復号法TWEAK(Think While Effectively Articulating Knowledge)を提案する。 TWEAKは、各デコードステップとその将来のシーケンスで生成されたシーケンスを仮説として扱い、対応する仮説が仮説検証モデル(HVM)を用いて入力事実をどのようにうまくサポートしているかに基づいて、各生成候補をランク付けする。 まず,自然言語推論(nli)モデルをhvmとして使用することにより,調整の有効性を実証し,品質への影響を最小限に抑えながら忠実性の向上を報告した。 次に、NLIモデルを、第一種データセットであるFATE(Fact-Aligned Textual Entailment)で訓練されたタスク固有のHVMに置き換える。 新しいHVMは、忠実さと品質をさらに改善し、より速く動作する。 全体としては、webnlg と tekgen/genwiki 上で factkb が測定した忠実性が平均 2.22/7.17 ポイント向上し、同じデータセット上で bertscore が測定した品質が 0.14/0.32 ポイント低下した。 TWEAKはデコードのみのアプローチであるため、再トレーニングなしに任意の神経生成モデルと統合することができる。

Neural knowledge-to-text generation models often struggle to faithfully generate descriptions for the input facts: they may produce hallucinations that contradict the given facts, or describe facts not present in the input. To reduce hallucinations, we propose a novel decoding method, TWEAK (Think While Effectively Articulating Knowledge). TWEAK treats the generated sequences at each decoding step and its future sequences as hypotheses, and ranks each generation candidate based on how well their corresponding hypotheses support the input facts using a Hypothesis Verification Model (HVM). We first demonstrate the effectiveness of TWEAK by using a Natural Language Inference (NLI) model as the HVM and report improved faithfulness with minimal impact on the quality. We then replace the NLI model with our task-specific HVM trained with a first-of-a-kind dataset, FATE (Fact-Aligned Textual Entailment), which pairs input facts with their faithful and hallucinated descriptions with the hallucinated spans marked. The new HVM improves the faithfulness and the quality further and runs faster. Overall the best TWEAK variants improve on average 2.22/7.17 points on faithfulness measured by FactKB over WebNLG and TekGen/GenWiki, respectively, with only 0.14/0.32 points degradation on quality measured by BERTScore over the same datasets. Since TWEAK is a decoding-only approach, it can be integrated with any neural generative model without retraining.
翻訳日:2023-11-17 17:18:22 公開日:2023-11-16
# ソフトマッチング距離:単一ニューロンのチューニングを捉える神経表現の指標

Soft Matching Distance: A metric on neural representations that captures single-neuron tuning ( http://arxiv.org/abs/2311.09466v1 )

ライセンス: Link先を確認
Meenakshi Khosla and Alex H. Williams(参考訳) ニューラル表現(dis)相似性の共通測度は、ニューラルアクティベーション空間の回転や反射に敏感であるように設計されている。 個々のユニットのチューニングが重要であるという前提から、ニューロンをネットワーク間で個別にマッチングすることを要求する表現的(dis)相似性の厳密な概念を開発することへの関心が高まっている。 2つのネットワークが同じ大きさ(すなわち同じ数のニューロン)である場合、距離計量はニューロンの指数置換を最適化し、チューニング曲線のアライメントを最大化する。 しかし、この計量を一般化して、異なる大きさのネットワーク間の距離を測定する方法は不明である。 ここでは、最適輸送理論との接続を利用して「ソフト」置換に基づく自然な一般化を導出する。 結果の計量は対称であり、三角形の不等式を満たすものであり、2つの経験的分布の間のワッサーシュタイン距離と解釈できる。 さらに,提案手法は,代替手法による反直観的な結果を避け,回転不変の指標で完全に欠落する神経表現の相補的な幾何学的洞察を捉える。

Common measures of neural representational (dis)similarity are designed to be insensitive to rotations and reflections of the neural activation space. Motivated by the premise that the tuning of individual units may be important, there has been recent interest in developing stricter notions of representational (dis)similarity that require neurons to be individually matched across networks. When two networks have the same size (i.e. same number of neurons), a distance metric can be formulated by optimizing over neuron index permutations to maximize tuning curve alignment. However, it is not clear how to generalize this metric to measure distances between networks with different sizes. Here, we leverage a connection to optimal transport theory to derive a natural generalization based on "soft" permutations. The resulting metric is symmetric, satisfies the triangle inequality, and can be interpreted as a Wasserstein distance between two empirical distributions. Further, our proposed metric avoids counter-intuitive outcomes suffered by alternative approaches, and captures complementary geometric insights into neural representations that are entirely missed by rotation-invariant metrics.
翻訳日:2023-11-17 17:17:52 公開日:2023-11-16
# 連続学習における重み付け決定が知識伝達に及ぼす影響の検討

Investigating the Impact of Weight Sharing Decisions on Knowledge Transfer in Continual Learning ( http://arxiv.org/abs/2311.09506v1 )

ライセンス: Link先を確認
Josh Andle, Ali Payani, Salimeh Yasaei-Sekeh(参考訳) 連続学習(CL)は、ニューラルネットワークの逐次トレーニングにおけるカタストロフィック・フォーッティング(CF)を回避する方法として注目され、異なるタスクに対するネットワーク効率と適応性が改善されている。 さらにCLは、タスク間のネットワーク行動とフォワード知識伝達(FKT)を研究するための理想的な設定として機能する。 CLトレインサブネットワークのプルーニング手法は、FKTの調査に構造化されたアプローチを採ることができるように、シーケンシャルなタスクを処理する。 以前のサブネットワークの重みを共有することは、FKTを通じて現在のタスクに対する過去の知識を活用する。 どの重みを共有するかを理解することは、すべての重みを共有することで、準最適精度が得られる。 本稿では,タスク間のfktに異なる共有判断が与える影響について検討する。 このレンズを通して、タスクの複雑さと類似性が最適な重み付け決定にどのように影響するかを示し、タスク間の関係について洞察を与え、同様のCL手法による意思決定を支援する。 resnet-18とvgg-16の両方について,タスクの複雑さと類似性を強調する3つのシーケンシャルデータセットを実装した。 結果から得られた決定に従って共有することで,他の共有決定よりもタスクの精度を向上させることができることを示す。

Continual Learning (CL) has generated attention as a method of avoiding Catastrophic Forgetting (CF) in the sequential training of neural networks, improving network efficiency and adaptability to different tasks. Additionally, CL serves as an ideal setting for studying network behavior and Forward Knowledge Transfer (FKT) between tasks. Pruning methods for CL train subnetworks to handle the sequential tasks which allows us to take a structured approach to investigating FKT. Sharing prior subnetworks' weights leverages past knowledge for the current task through FKT. Understanding which weights to share is important as sharing all weights can yield sub-optimal accuracy. This paper investigates how different sharing decisions affect the FKT between tasks. Through this lens we demonstrate how task complexity and similarity influence the optimal weight sharing decisions, giving insights into the relationships between tasks and helping inform decision making in similar CL methods. We implement three sequential datasets designed to emphasize variation in task complexity and similarity, reporting results for both ResNet-18 and VGG-16. By sharing in accordance with the decisions supported by our findings, we show that we can improve task accuracy compared to other sharing decisions.
翻訳日:2023-11-17 17:06:00 公開日:2023-11-16
# SegMix: シンプルな構造対応データ拡張方法

SegMix: A Simple Structure-Aware Data Augmentation Method ( http://arxiv.org/abs/2311.09505v1 )

ライセンス: Link先を確認
Yuxin Pei, Pushkar Bhuse, Zhengzhong Liu and Eric Xing(参考訳) 補間ベースデータ拡張(da)メソッド(mixup)は、2つ以上のトレーニング例の入力とラベルを線形に補間する。 Mixupは、最近、主にシーケンスラベリングタスクのために自然言語処理(NLP)の分野に適応した。 しかし、このような単純な採用はベースラインモデルに対する混合あるいは不安定な改善をもたらす。 直接適応法はnlpタスクの構造を考慮しないと主張する。 そこで本研究では,タスク固有構造に適応可能な補間型DAアルゴリズムの集合であるSegMixを提案する。 SegMixはデータ構造に対する制約が少なく、さまざまなハイパーパラメータ設定に対して堅牢で、より多くのタスク設定に適用でき、計算オーバーヘッドが少ない。 アルゴリズムのコアでは、タスク固有の有意味セグメントに補間法を適用するが、従来の作業のようにシーケンスに適用するのとは対照的である。 SegMixはルールベースのDAメソッドと補間ベースのメソッドを組み合わせるフレキシブルなフレームワークであり、興味深いDAテクニックの混合を生成する。 我々は,NER(Named Entity Recognition)タスクとRE(Relation extract)タスクにおいて,SegMixは強力なベースラインモデルよりも一貫してパフォーマンスを改善していることを示す。 さらに、この方法は実装が容易で、訓練のオーバーヘッドが無視できる。

Interpolation-based Data Augmentation (DA) methods (Mixup) linearly interpolate the inputs and labels of two or more training examples. Mixup has more recently been adapted to the field of Natural Language Processing (NLP), mainly for sequence labeling tasks. However, such a simple adoption yields mixed or unstable improvements over the baseline models. We argue that the direct-adoption methods do not account for structures in NLP tasks. To this end, we propose SegMix, a collection of interpolation-based DA algorithms that can adapt to task-specific structures. SegMix poses fewer constraints on data structures, is robust to various hyperparameter settings, applies to more task settings, and adds little computational overhead. In the algorithm's core, we apply interpolation methods on task-specific meaningful segments, in contrast to applying them on sequences as in prior work. We find SegMix to be a flexible framework that combines rule-based DA methods with interpolation-based methods, creating interesting mixtures of DA techniques. We show that SegMix consistently improves performance over strong baseline models in Named Entity Recognition (NER) and Relation Extraction (RE) tasks, especially under data-scarce settings. Furthermore, this method is easy to implement and adds negligible training overhead.
翻訳日:2023-11-17 17:05:37 公開日:2023-11-16
# 低レート量子LDPC符号からのNLTSハミルトニアンと強指数SoS下界

NLTS Hamiltonians and Strongly-Explicit SoS Lower Bounds from Low-Rate Quantum LDPC Codes ( http://arxiv.org/abs/2311.09503v1 )

ライセンス: Link先を確認
Louis Golowich and Tali Kaufman(参考訳) 最初の漸近的に優れた量子ldpc(qldpc)符号の構成は、nlts(no low-energy trivial states)定理(anshu, breuckmann, nirkhe, stoc'23)とsos階層の線形数に対する明示的な下界(hopkins and lin, focs'22)という2つの複雑性理論のブレークスルーをもたらした。 本研究では, qldpc符号を低速で用いることにより, 両結果の改善が得られた: アンシュー等は線形次元のqldpc符号からnltsハミルトニアンのみを得たが, 任意に小さい正次元のqldpc符号ではnltsハミルトニアンが得られるという強い結果を示す。 -ホプキンスとlinのsos下限は、多項式時間を要する非自明なコードワードを見つけるためにガウス除去を実行する必要があるため、弱明示的である。 我々は、線形距離qLDPC符号に強い明示的非自明なコードワードを植え付ける新しい方法を導入することで、この欠点を解消する。 我々の「移植された」qLDPCコードは、パリティチェックカウントに頼らずに正次元のqLDPCコードを保証する新しい方法を提供し、コード構築においてより柔軟性を提供するため、独立した関心を持つかもしれない。

Recent constructions of the first asymptotically good quantum LDPC (qLDPC) codes led to two breakthroughs in complexity theory: the NLTS (No Low-Energy Trivial States) theorem (Anshu, Breuckmann, and Nirkhe, STOC'23), and explicit lower bounds against a linear number of levels of the Sum-of-Squares (SoS) hierarchy (Hopkins and Lin, FOCS'22). In this work, we obtain improvements to both of these results using qLDPC codes of low rate: - Whereas Anshu et al. only obtained NLTS Hamiltonians from qLDPC codes of linear dimension, we show the stronger result that qLDPC codes of arbitrarily small positive dimension yield NLTS Hamiltonians. - The SoS lower bounds of Hopkins and Lin are only weakly explicit because they require running Gaussian elimination to find a nontrivial codeword, which takes polynomial time. We resolve this shortcoming by introducing a new method of planting a strongly explicit nontrivial codeword in linear-distance qLDPC codes, which in turn yields strongly explicit SoS lower bounds. Our "planted" qLDPC codes may be of independent interest, as they provide a new way of ensuring a qLDPC code has positive dimension without resorting to parity check counting, and therefore provide more flexibility in the code construction.
翻訳日:2023-11-17 17:05:16 公開日:2023-11-16
# SQATIN: 改善された対話型NLUに対する質問回答

SQATIN: Supervised Instruction Tuning Meets Question Answering for Improved Dialogue NLU ( http://arxiv.org/abs/2311.09502v1 )

ライセンス: Link先を確認
Evgeniia Razumovskaia, Goran Glava\v{s}, Anna Korhonen, Ivan Vuli\'c(参考訳) タスク指向対話(tod)システムは、ユーザがさまざまなドメイン(例えば、$\textit{flight booking}$または$\textit{food ordering}$)で明確に定義されたタスクを実行するのを手助けし、自然言語理解(nlu)コンポーネントはユーザの発話の分析に特化しており、ユーザの意図($\textit{intent detection}$, id)を予測し、情報スロット($\textit{value extraction}$, ve)の値を抽出する。 ほとんどのドメインでは、ラベル付きNLUデータが不足しているため、サンプル効率のよい学習 -- 効果的な転送パラダイムの実現 -- が最重要である。 本研究では,対話型NLUのための新しいフレームワークであるSQATINを紹介する。 (i)調律及び (II)IDとVEタスクの質問応答に基づく定式化。 確立されたNLUベンチマークの評価によると、SQATINは、ドメイン内トレーニングとクロスドメイン転送の両方において、標準の微調整目標に基づいて、現在のモデルの性能を大幅に上回る、対話型NLUにおける技術の新たな状態を設定する。 SQATINは、ドメイン間のクラス(スロットとインテント)の自然言語記述の類似性を活用するため、ドメイン間転送において特に大きなパフォーマンス向上をもたらす。

Task-oriented dialogue (ToD) systems help users execute well-defined tasks across a variety of domains (e.g., $\textit{flight booking}$ or $\textit{food ordering}$), with their Natural Language Understanding (NLU) components being dedicated to the analysis of user utterances, predicting users' intents ($\textit{Intent Detection}$, ID) and extracting values for informational slots ($\textit{Value Extraction}$, VE). In most domains, labelled NLU data is scarce, making sample-efficient learning -- enabled with effective transfer paradigms -- paramount. In this work, we introduce SQATIN, a new framework for dialog NLU based on (i) instruction tuning and (ii) question-answering-based formulation of ID and VE tasks. According to the evaluation on established NLU benchmarks, SQATIN sets the new state of the art in dialogue NLU, substantially surpassing the performance of current models based on standard fine-tuning objectives in both in-domain training and cross-domain transfer. SQATIN yields particularly large performance gains in cross-domain transfer, owing to the fact that our QA-based instruction tuning leverages similarities between natural language descriptions of classes (i.e., slots and intents) across domains.
翻訳日:2023-11-17 17:04:45 公開日:2023-11-16
# 自己教師付き6次元ポーズ推定のための疑似鍵点rkhs学習

Pseudo-keypoints RKHS Learning for Self-supervised 6DoF Pose Estimation ( http://arxiv.org/abs/2311.09500v1 )

ライセンス: Link先を確認
Yangzheng Wu and Michael Greenspan(参考訳) 本稿では,6DoF PEにおけるシミュレーションと現実の領域ギャップに対処し,RKHSの学習可能なカーネルを用いて,このギャップを効果的に狭める,自己監督型キーポイントラジアル投票に基づく6DoF PEフレームワークを提案する。 我々は、この領域ギャップを高次元特徴空間における距離として定式化し、従来の反復マッチング法とは異なる。 本稿では,合成ポーズを用いた合成データで大規模に訓練されたソースドメインから,実際のデータで訓練されたターゲットドメインまで,ネットワークパラメータを進化させるアダプタネットワークを提案する。 重要なことは、実際のデータトレーニングは擬似キーポイントによって推定される擬似目的のみを使用するため、実際の基礎データアノテーションは不要である。 RKHSPoseはLINEMOD (+4.2%)、Occlusion LINEMOD (+2%)、YCB-Video (+3%)を含む3つの一般的な6DoF PEデータセットで最先端のパフォーマンスを達成する。 また、適用可能な6つのbopコアデータセットの完全な教師付きメソッドと比較し、上位の教師付き結果の10.8%から-0.3%に到達した。

This paper addresses the simulation-to-real domain gap in 6DoF PE, and proposes a novel self-supervised keypoint radial voting-based 6DoF PE framework, effectively narrowing this gap using a learnable kernel in RKHS. We formulate this domain gap as a distance in high-dimensional feature space, distinct from previous iterative matching methods. We propose an adapter network, which evolves the network parameters from the source domain, which has been massively trained on synthetic data with synthetic poses, to the target domain, which is trained on real data. Importantly, the real data training only uses pseudo-poses estimated by pseudo-keypoints, and thereby requires no real groundtruth data annotations. RKHSPose achieves state-of-the-art performance on three commonly used 6DoF PE datasets including LINEMOD (+4.2%), Occlusion LINEMOD (+2%), and YCB-Video (+3%). It also compares favorably to fully supervised methods on all six applicable BOP core datasets, achieving within -10.8% to -0.3% of the top fully supervised results.
翻訳日:2023-11-17 17:04:17 公開日:2023-11-16
# リアルタイムLiDARパノプティブセグメンテーションのためのセンターフォーカスネットワーク

Center Focusing Network for Real-Time LiDAR Panoptic Segmentation ( http://arxiv.org/abs/2311.09499v1 )

ライセンス: Link先を確認
Xiaoyan Li, Gang Zhang, Boyue Wang, Yongli Hu, Baocai Yin(参考訳) lidar panopticのセグメンテーションは、自動運転車が周囲の物体やシーンを総合的に理解し、リアルタイムに実行する必要がある。 最近の提案なし手法はアルゴリズムを加速するが、既存のインスタンスセンターやコストのかかるセンターベースのクラスタリングモジュールのモデル化が困難であるため、その有効性と効率は依然として制限されている。 高精度かつリアルタイムなLiDARパン光学セグメンテーションを実現するために,CFNet(Center Focus Network)を導入している。 具体的には、中心焦点特徴符号化(CFFE)を提案し、元のLiDAR点と仮想インスタンス中心との関係を明確に理解するために、LiDAR点をシフトして中心点を埋める。 さらに、冗長に検出されたセンターを活用するために、各インスタンスの1つのセンターのみを選択するために、高速センター重複モジュール(CDM)を提案する。 semantickitti と nuscenes panoptic segmentation benchmarks の実験では、cfnet は既存のすべてのメソッドよりも大きなマージンを持ち、最も効率的なメソッドの1.6倍高速であることが示されている。 コードはhttps://github.com/gangzhang842/cfnetで入手できる。

LiDAR panoptic segmentation facilitates an autonomous vehicle to comprehensively understand the surrounding objects and scenes and is required to run in real time. The recent proposal-free methods accelerate the algorithm, but their effectiveness and efficiency are still limited owing to the difficulty of modeling non-existent instance centers and the costly center-based clustering modules. To achieve accurate and real-time LiDAR panoptic segmentation, a novel center focusing network (CFNet) is introduced. Specifically, the center focusing feature encoding (CFFE) is proposed to explicitly understand the relationships between the original LiDAR points and virtual instance centers by shifting the LiDAR points and filling in the center points. Moreover, to leverage the redundantly detected centers, a fast center deduplication module (CDM) is proposed to select only one center for each instance. Experiments on the SemanticKITTI and nuScenes panoptic segmentation benchmarks demonstrate that our CFNet outperforms all existing methods by a large margin and is 1.6 times faster than the most efficient method. The code is available at https://github.com/GangZhang842/CFNet.
翻訳日:2023-11-17 17:03:53 公開日:2023-11-16
# 交通検知器とfacebook移動データによる急拡大するハリケーンにおけるネットワーク広域避難交通予測:深層学習アプローチ

Network Wide Evacuation Traffic Prediction in a Rapidly Intensifying Hurricane from Traffic Detectors and Facebook Movement Data: A Deep Learning Approach ( http://arxiv.org/abs/2311.09498v1 )

ライセンス: Link先を確認
Md Mobasshir Rashid, Rezaur Rahman, Samiul Hasan(参考訳) ハリケーン避難時の交通予測は交通インフラの最適化に不可欠である。 将来の混雑に関する情報を事前に提供することにより、避難時間を短縮できる。 しかし、避難交通パターンが通常の定期交通とは大きく異なるため、避難交通予測は困難である。 本研究では,急激なハリケーンHurricane Ianにおける交通検知とFacebookの移動データを利用して,データ駆動型交通予測モデルを開発した。 フロリダ州の4大州間高速道路から交通検知器を766個選んで交通の特徴を収集する。 さらに,ハリケーン・イアンの避難期間中に収集したFacebookの移動データも利用した。 ディープラーニングモデルは,まず,通常の交通パターンを理解するために,通常期間(2022年5月から8月)のデータに基づいて訓練し,その後,ハリケーンIanの避難期間データをテストデータとして利用する。 このモデルは通常の期間に95%の精度(RMSE = 356)を達成するが、避難期間中に55%の精度(RMSE = 1084)で性能が低下する。 次に、避難期間の交通量を予測するために、事前学習したモデルと追加の避難関連特徴を用いた転送学習手法を採用する。 移行学習後、モデルは89%の精度を達成する(RMSE = 514)。 Facebookの動きデータを追加することで、モデルのRMSE値はさらに393に削減され、精度は93%に向上する。 提案モデルでは,前もって6時間までのトラフィックを予測できる。 避難交通管理担当者は、先進的な交通予測モデルを用いて、将来の交通渋滞を事前に予測し、避難の遅れを軽減するための前向きな対策を講じることができる。

Traffic prediction during hurricane evacuation is essential for optimizing the use of transportation infrastructures. It can reduce evacuation time by providing information on future congestion in advance. However, evacuation traffic prediction can be challenging as evacuation traffic patterns is significantly different than regular period traffic. A data-driven traffic prediction model is developed in this study by utilizing traffic detector and Facebook movement data during Hurricane Ian, a rapidly intensifying hurricane. We select 766 traffic detectors from Florida's 4 major interstates to collect traffic features. Additionally, we use Facebook movement data collected during Hurricane Ian's evacuation period. The deep-learning model is first trained on regular period (May-August 2022) data to understand regular traffic patterns and then Hurricane Ian's evacuation period data is used as test data. The model achieves 95% accuracy (RMSE = 356) during regular period, but it underperforms with 55% accuracy (RMSE = 1084) during the evacuation period. Then, a transfer learning approach is adopted where a pretrained model is used with additional evacuation related features to predict evacuation period traffic. After transfer learning, the model achieves 89% accuracy (RMSE = 514). Adding Facebook movement data further reduces model's RMSE value to 393 and increases accuracy to 93%. The proposed model is capable to forecast traffic up to 6-hours in advance. Evacuation traffic management officials can use the developed traffic prediction model to anticipate future traffic congestion in advance and take proactive measures to reduce delays during evacuation.
翻訳日:2023-11-17 17:03:30 公開日:2023-11-16
# 空間ベイズ型ニューラルネットワーク

Spatial Bayesian Neural Networks ( http://arxiv.org/abs/2311.09491v1 )

ライセンス: Link先を確認
Andrew Zammit-Mangion, Michael D. Kaminski, Ba-Hien Tran, Maurizio Filippone, Noel Cressie(参考訳) 空間過程の統計モデルは空間データの統計解析において中心的な役割を果たす。 しかし、事前および後続の予測チェックによって明らかにされるように、これは日常的に使用される単純で解釈可能でよく理解されたモデルであり、これらは、基礎となる関心の過程における空間的不均一性を不十分に特徴づけることができる。 本稿では,空間ベイズニューラルネットワーク(SBNN)と呼ばれる,新しいフレキシブルな空間プロセスモデルを提案する。 sbnnはベイズ型ニューラルネットワークの表現能力を活用しており、空間的「埋め込み層」をネットワークに組み込んだ空間的設定や、おそらく空間的に変動するネットワークパラメータに合わせたものである。 sbnnは、空間の微細な格子上の位置におけるその有限次元分布を対象の関心過程のそれと一致させることで校正される。 そのプロセスは簡単にシミュレートできますし、多くの実現例があります。 我々は,SBNNの変種をいくつか提案するが,そのほとんどは,従来のBNNに比べて,選択されたグリッドにおける対象プロセスの有限次元分布によく一致する。 また,単一のsbnnを用いて,ガウス過程や対数正規過程など,実際によく用いられる様々な空間過程を表現することができることを示した。 我々は,SBNNによる推論に使用できるツールについて簡潔に議論し,その利点と限界について論じる。

Statistical models for spatial processes play a central role in statistical analyses of spatial data. Yet, it is the simple, interpretable, and well understood models that are routinely employed even though, as is revealed through prior and posterior predictive checks, these can poorly characterise the spatial heterogeneity in the underlying process of interest. Here, we propose a new, flexible class of spatial-process models, which we refer to as spatial Bayesian neural networks (SBNNs). An SBNN leverages the representational capacity of a Bayesian neural network; it is tailored to a spatial setting by incorporating a spatial "embedding layer" into the network and, possibly, spatially-varying network parameters. An SBNN is calibrated by matching its finite-dimensional distribution at locations on a fine gridding of space to that of a target process of interest. That process could be easy to simulate from or we have many realisations from it. We propose several variants of SBNNs, most of which are able to match the finite-dimensional distribution of the target process at the selected grid better than conventional BNNs of similar complexity. We also show that a single SBNN can be used to represent a variety of spatial processes often used in practice, such as Gaussian processes and lognormal processes. We briefly discuss the tools that could be used to make inference with SBNNs, and we conclude with a discussion of their advantages and limitations.
翻訳日:2023-11-17 17:03:03 公開日:2023-11-16
# 量子暗号におけるロバストコンビネータとユニバーサル構成

Robust Combiners and Universal Constructions for Quantum Cryptography ( http://arxiv.org/abs/2311.09487v1 )

ライセンス: Link先を確認
Taiga Hiroka, Fuyuki Kitagawa, Ryo Nishimaki, Takashi Yamakawa(参考訳) ロバストコンビネータは暗号プリミティブの多くの候補を結合し、同じプリミティブの新しい候補を生成する。 正しさとセキュリティは、元の候補の1つが正しさと安全性を満たす限り維持される。 普遍構成は強結合体に密接に関連する概念である。 プリミティブに対する普遍的な構成は、プリミティブが存在する限り正確かつ安全であるプリミティブの明示的な構成である。 プリミティブに対する普遍的な構成は、多くの場合、プリミティブに対する堅牢なコンバインダーから構築できることが知られている。 古典暗号に対するロバストなコンバインダーと普遍的な構成は広く研究されているが、量子暗号に対するロバストなコンバインと普遍的な構成は研究されていない。 本研究では、一方向状態生成器、公開鍵量子マネー、量子ビットのコミットメント、および不可解な暗号化を含むいくつかの量子暗号プリミティブのロバストコンビネータと普遍的構成を定義し、それらの構成を提供する。 別の点として、制限不能な暗号化の平文長を拡張する方法はオープンな問題だった。 不可解な暗号化のための普遍的な構成の1つで、平文の長さを広げることができ、オープンな問題を解決することができます。

A robust combiner combines many candidates for a cryptographic primitive and generates a new candidate for the same primitive. Its correctness and security hold as long as one of the original candidates satisfies correctness and security. A universal construction is a closely related notion to a robust combiner. A universal construction for a primitive is an explicit construction of the primitive that is correct and secure as long as the primitive exists. It is known that a universal construction for a primitive can be constructed from a robust combiner for the primitive in many cases. Although robust combiners and universal constructions for classical cryptography are widely studied, robust combiners and universal constructions for quantum cryptography have not been explored so far. In this work, we define robust combiners and universal constructions for several quantum cryptographic primitives including one-way state generators, public-key quantum money, quantum bit commitments, and unclonable encryption, and provide constructions of them. On a different note, it was an open problem how to expand the plaintext length of unclonable encryption. In one of our universal constructions for unclonable encryption, we can expand the plaintext length, which resolves the open problem.
翻訳日:2023-11-17 17:02:41 公開日:2023-11-16
# 健康行動変化のためのユーザ定義ゴールによる適応的介入

Adaptive Interventions with User-Defined Goals for Health Behavior Change ( http://arxiv.org/abs/2311.09483v1 )

ライセンス: Link先を確認
Aishwarya Mandyam, Matthew Joerke, Barbara E. Engelhardt, Emma Brunskill(参考訳) 身体的不活性は、心血管疾患や2型糖尿病などの健康上の有害な結果と結びついている。 モバイルヘルスアプリケーションは、低コストでスケーラブルな身体活動促進のための有望な道を示すが、小さな効果の大きさと低い定着率に悩まされることが多い。 ゴールセット(Goal-setting)は、モバイルヘルス介入のための適応アルゴリズムでは使われていない健康コーチングの重要な要素である。 本稿では,パーソナライズされた報酬関数を最適化することにより,個別化目標設定を重視したトンプソンサンプリングアルゴリズムの改良を提案する。 目標設定を支援するためのステップとして,個人の好みや目標を最適化しながら,共有構造を活用するためのバランスのとれたアプローチを提案する。 我々の修正は、データ共有の複雑さの利点を保ちながら、累積的後悔に対して一定のペナルティしか生じないことを示す。 身体活動シミュレータでは,データの共有や個別報酬の最適化を行わないベースラインに比べて,累積的後悔の大幅な改善が達成されている。

Physical inactivity remains a major public health concern, having associations with adverse health outcomes such as cardiovascular disease and type-2 diabetes. Mobile health applications present a promising avenue for low-cost, scalable physical activity promotion, yet often suffer from small effect sizes and low adherence rates, particularly in comparison to human coaching. Goal-setting is a critical component of health coaching that has been underutilized in adaptive algorithms for mobile health interventions. This paper introduces a modification to the Thompson sampling algorithm that places emphasis on individualized goal-setting by optimizing personalized reward functions. As a step towards supporting goal-setting, this paper offers a balanced approach that can leverage shared structure while optimizing individual preferences and goals. We prove that our modification incurs only a constant penalty on the cumulative regret while preserving the sample complexity benefits of data sharing. In a physical activity simulator, we demonstrate that our algorithm achieves substantial improvements in cumulative regret compared to baselines that do not share data or do not optimize for individualized rewards.
翻訳日:2023-11-17 17:02:20 公開日:2023-11-16
# 学際コミュニケーション強化のためのパーソナライズされたジャーゴン識別

Personalized Jargon Identification for Enhanced Interdisciplinary Communication ( http://arxiv.org/abs/2311.09481v1 )

ライセンス: Link先を確認
Yue Guo, Joseph Chee Chang, Maria Antoniak, Erin Bransom, Trevor Cohen, Lucy Lu Wang, Tal August(参考訳) 科学用語は、他の領域の資料を読むときに研究者を妨げる可能性がある。 現在のjargon識別法は主にコーパスレベルの親しみ度指標(例:Simple Wikipediaは平易な言語を表す)を使用する。 しかし、研究者の用語に対する親しみは、それぞれの背景によって大きく異なる。 我々は,11人の計算機科学研究者から,100以上の論文要約から抽出した10k以上の親近性アノテーションのデータセットを収集した。 このデータの解析により、同じサブドメイン(例えばNLP)内でも、ジャーゴンの親しみやすさや情報の必要性はアノテーションによって大きく異なることが分かる。 個人,サブドメイン,ドメイン知識を表す特徴を調査し,個々のジャーゴン親和性を予測する。 我々は教師付きアプローチとプロンプトベースのアプローチを比較し、個人出版を含むプロンプトベースの手法が、ゼロショットプロンプトが強いベースラインを提供するにもかかわらず、最も精度の高い方法であることを見出した。 この研究は、個人データを科学用語の識別に統合する機能や方法に関する洞察を提供する。

Scientific jargon can impede researchers when they read materials from other domains. Current methods of jargon identification mainly use corpus-level familiarity indicators (e.g., Simple Wikipedia represents plain language). However, researchers' familiarity of a term can vary greatly based on their own background. We collect a dataset of over 10K term familiarity annotations from 11 computer science researchers for terms drawn from 100 paper abstracts. Analysis of this data reveals that jargon familiarity and information needs vary widely across annotators, even within the same sub-domain (e.g., NLP). We investigate features representing individual, sub-domain, and domain knowledge to predict individual jargon familiarity. We compare supervised and prompt-based approaches, finding that prompt-based methods including personal publications yields the highest accuracy, though zero-shot prompting provides a strong baseline. This research offers insight into features and methods to integrate personal data into scientific jargon identification.
翻訳日:2023-11-17 17:02:02 公開日:2023-11-16
# 自信を持って仕事を見せる - 曲線をチューニングするための信頼バンド

Show Your Work with Confidence: Confidence Bands for Tuning Curves ( http://arxiv.org/abs/2311.09480v1 )

ライセンス: Link先を確認
Nicholas Lourie, Kyunghyun Cho, He He(参考訳) ハイパーパラメータの選択は自然言語処理の性能に大きな影響を及ぼす。 多くの場合、あるメソッドが他のメソッドより優れているか、単にチューニングが良いかを見分けるのは難しいです。 チューニング曲線は、チューニングの労力を考慮して、この曖昧さを修正する。 具体的には、これまでのハイパーパラメータの選択回数の関数として検証パフォーマンスをプロットしている。 これらの曲線にはいくつかの推定器が存在するが、点推定を用いるのが一般的であり、これは静かに失敗し、データが少ないと矛盾する結果を与える。 点推定を超えて、信頼バンドは異なるアプローチ間の関係を厳格に確立するために必要である。 本稿では,曲線のチューニングに有効な信頼バンドを構築するための最初の方法を提案する。 バンドは正確で、同時であり、分布のないため、メソッドを比較するための堅牢な基盤を提供する。 実験的な分析によると、ベースラインとして機能するブートストラップの信頼バンドは、ターゲットの信頼度を近似できないが、正確には達成できない。 実験では, アブレーションによる設計検証を行い, 試料サイズの影響を分析し, 本手法との比較指導を行った。 今後の作業における確実な比較を促進するため、https://github.com/nalourie/opda でメソッドを実装したライブラリをリリースする。

The choice of hyperparameters greatly impacts performance in natural language processing. Often, it is hard to tell if a method is better than another or just better tuned. Tuning curves fix this ambiguity by accounting for tuning effort. Specifically, they plot validation performance as a function of the number of hyperparameter choices tried so far. While several estimators exist for these curves, it is common to use point estimates, which we show fail silently and give contradictory results when given too little data. Beyond point estimates, confidence bands are necessary to rigorously establish the relationship between different approaches. We present the first method to construct valid confidence bands for tuning curves. The bands are exact, simultaneous, and distribution-free, thus they provide a robust basis for comparing methods. Empirical analysis shows that while bootstrap confidence bands, which serve as a baseline, fail to approximate their target confidence, ours achieve it exactly. We validate our design with ablations, analyze the effect of sample size, and provide guidance on comparing models with our method. To promote confident comparisons in future work, we release a library implementing the method at https://github.com/nalourie/opda .
翻訳日:2023-11-17 17:01:45 公開日:2023-11-16
# ARES:Retrieval-Augmented Generation Systemのための自動評価フレームワーク

ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems ( http://arxiv.org/abs/2311.09476v1 )

ライセンス: Link先を確認
Jon Saad-Falcon, Omar Khattab, Christopher Potts, Matei Zaharia(参考訳) 検索拡張生成システム(RAG)の評価は、伝統的に、入力クエリ、検索するパス、生成するレスポンスのハンドアノテーションに依存している。 本稿では,自動RAG評価システムであるARESを導入し,文脈関連性,回答忠実性,回答関連性といった側面に沿ったRAGシステムの評価を行う。 合成トレーニングデータを用いて、ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。 潜在的な予測エラーを軽減するため、ARESは予測駆動推論(PPI)のために、人間に注釈を付けた少数のデータポイントを使用する。 KILTとSuperGLUEの6つの異なる知識集約タスクにおいて、ARESは評価中に数百人のアノテーションを使用してRAGシステムを正確に評価する。 さらに、ares判定はドメインシフトをまたいで有効であり、評価されたragシステムで使用されるクエリや/またはドキュメントの種類を変えても正確である。 私たちはデータセットとコードをhttps://github.com/stanford-futuredata/ARESで公開しています。

Evaluating retrieval-augmented generation (RAG) systems traditionally relies on hand annotations for input queries, passages to retrieve, and responses to generate. We introduce ARES, an Automated RAG Evaluation System, for evaluating RAG systems along the dimensions of context relevance, answer faithfulness, and answer relevance. Using synthetic training data, ARES finetunes lightweight LM judges to assess the quality of individual RAG components. To mitigate potential prediction errors, ARES utilizes a small set of human-annotated datapoints for prediction-powered inference (PPI). Across six different knowledge-intensive tasks in KILT and SuperGLUE, ARES accurately evaluates RAG systems while using a few hundred human annotations during evaluation. Furthermore, ARES judges remain effective across domain shifts, proving accurate even after changing the type of queries and/or documents used in the evaluated RAG systems. We make our datasets and code for replication and deployment available at https://github.com/stanford-futuredata/ARES.
翻訳日:2023-11-17 17:01:25 公開日:2023-11-16
# 原子性物質波を介する量子エミッタの超・亜放射速ダイナミクス

Super- and subradiant dynamics of quantum emitters mediated by atomic matter waves ( http://arxiv.org/abs/2311.09474v1 )

ライセンス: Link先を確認
Youngshin Kim, Alfonso Lanuza, Dominik Schneble(参考訳) 自発的放射崩壊の協調的修正は、量子光学におけるパラダイム的多エミッター効果である。 これまでのところ、その実験的な実現は、エミッターダイナミクスにおいて活発な役割を果たさない光子を急速に逃がすことによって、相互作用を介する。 ここでは、原子間物質波を放射する光学格子における量子エミッタの協調力学について検討する。 物質波エミッタの配列中の励起の弱い多体相と強く相互作用する多体相を調製する能力を用いて, 調整可能な放射相ラグを持つ超流動相からの指向性スーパー・サブラジオアンスを示し, モット絶縁体を横断する放射によって印加されたコヒーレンスの生成に直接アクセスする。 スローウェーブ伝播のための協調ダイナミクスの開始について検討し,エミッタ間の放射を捕捉した集合境界状態への結合を観測した。 オープンシステムの量子電磁力学における結果は、超低温波を空間拡張および順序付けられた系における多体量子光学を研究するための汎用ツールとして確立する。

The cooperative modification of spontaneous radiative decay is a paradigmatic many-emitter effect in quantum optics. So far its experimental realization has involved interactions mediated by rapidly escaping photons that do not play an active role in the emitter dynamics. Here we explore cooperative dynamics of quantum emitters in an optical lattice that interact by radiating atomic matter waves. Using the ability to prepare weakly and strongly interacting many-body phases of excitations in an array of matter-wave emitters, we demonstrate directional super- and subradiance from a superfluid phase with tunable radiative phase lags, and directly access the buildup of coherence imprinted by the emitted radiation across a Mott insulator. We investigate the onset of cooperative dynamics for slow wave propagation and observe a coupling to collective bound states with radiation trapped at and between the emitters. Our results in open-system quantum electrodynamics establish ultracold matter waves as a versatile tool for studying many-body quantum optics in spatially extended and ordered systems.
翻訳日:2023-11-17 17:01:07 公開日:2023-11-16
# JAB: 共同対人プロンプティングと信念の増大

JAB: Joint Adversarial Prompting and Belief Augmentation ( http://arxiv.org/abs/2311.09473v1 )

ライセンス: Link先を確認
Ninareh Mehrabi, Palash Goyal, Anil Ramakrishna, Jwala Dhamala, Shalini Ghosh, Richard Zemel, Kai-Wei Chang, Aram Galstyan, Rahul Gupta(参考訳) 近年、異なるアプリケーションにおける言語モデルの急増に伴い、これらのモデルの安全性と堅牢性への注意が重要になっている。 本稿では,繰り返しフィードバックループを用いた対角的プロンプトと信念強化によるブラックボックスターゲットモデルのロバスト性を同時に探索し,改善するジョイントフレームワークを提案する。 このフレームワークは、ターゲットモデルを調査するために自動レッドチームアプローチと、ターゲットモデルに対する命令を生成して、それらの敵プローブに対するロバスト性を改善するための信念拡張器を使用している。 重要なのは、敵モデルと信念生成者が過去の相互作用からのフィードバックを利用して、それぞれ敵のプロンプトと信念の有効性を向上させることである。 実験では、敵がターゲットモデルと直接対話する動的ケースと、静的なベンチマークデータセットを用いてモデルを評価する静的ケースの両方において、このようなフレームワークが有害なコンテンツ生成を減らすことを実証した。

With the recent surge of language models in different applications, attention to safety and robustness of these models has gained significant importance. Here we introduce a joint framework in which we simultaneously probe and improve the robustness of a black-box target model via adversarial prompting and belief augmentation using iterative feedback loops. This framework utilizes an automated red teaming approach to probe the target model, along with a belief augmenter to generate instructions for the target model to improve its robustness to those adversarial probes. Importantly, the adversarial model and the belief generator leverage the feedback from past interactions to improve the effectiveness of the adversarial prompts and beliefs, respectively. In our experiments, we demonstrate that such a framework can reduce toxic content generation both in dynamic cases where an adversary directly interacts with a target model and static cases where we use a static benchmark dataset to evaluate our model.
翻訳日:2023-11-17 17:00:46 公開日:2023-11-16
# llmを用いた半教師付き学習による抽出要約

Enchancing Semi-Supervised Learning for Extractive Summarization with an LLM-based pseudolabeler ( http://arxiv.org/abs/2311.09559v1 )

ライセンス: Link先を確認
Gaurav Sahu, Olga Vechtomova, Issam H. Laradji(参考訳) 本研究は,半教師付きアプローチを用いて,限定ラベル付きデータシナリオにおける抽出テキスト要約の課題に取り組む。 具体的には,gpt-4を用いたプロンプトに基づく擬似ラベル選択戦略を提案する。 本手法は、TweetSumm、WikiHow、ArXiv/PubMedの3つのテキスト要約データセット上で評価する。 実験の結果,LLMを用いて擬似ラベルを評価・生成することにより,事前学習モデルの拡張に類似した,異なるデータセット上でROUGE-1を10~20 %改善できることがわかった。 また,このような手法ではラベルなしのサンプルのプールが小さくなり,性能が向上することを示す。

This work tackles the task of extractive text summarization in a limited labeled data scenario using a semi-supervised approach. Specifically, we propose a prompt-based pseudolabel selection strategy using GPT-4. We evaluate our method on three text summarization datasets: TweetSumm, WikiHow, and ArXiv/PubMed. Our experiments show that by using an LLM to evaluate and generate pseudolabels, we can improve the ROUGE-1 by 10-20\% on the different datasets, which is akin to enhancing pretrained models. We also show that such a method needs a smaller pool of unlabeled examples to perform better.
翻訳日:2023-11-17 16:53:18 公開日:2023-11-16
# 三成分系における波動粒子双対性に対する絡み合い制約

Entanglement constraint on wave-particle duality for tripartite systems ( http://arxiv.org/abs/2311.09539v1 )

ライセンス: Link先を確認
Zanjia Li, Yingqiu He, Dong Ding, Ting Gao, Fengli Yan(参考訳) 大域的多成分絡み合いは波動粒子双対性に制約を与えることがある。 本研究では,三成分系における大域的絡み合いと定量的波動粒子双対性の制約関係について検討する。 我々は,OriginQ量子コンピューティングクラウドプラットフォームを用いて,縮小密度行列を再構成するために量子状態トモグラフィーを行う。 その結果、理論的および実験的に、定量的な波動粒子双対性は、実際には大域的な三成分の絡み合いによって制約されていることが示されている。

A global multi-partite entanglement may place a constraint on the wave-particle duality. We investigate this constraint relation of the global entanglement and the quantitative wave-particle duality in tripartite systems. We perform quantum state tomography to reconstruct the reduced density matrix by using the OriginQ quantum computing cloud platform. As a result, we show that, theoretically and experimentally, the quantitative wave-particle duality is indeed constrained by the global tripartite entanglement.
翻訳日:2023-11-17 16:53:07 公開日:2023-11-16
# 言語モデルを用いたオンライン自己開示におけるプライバシーリスクの低減

Reducing Privacy Risks in Online Self-Disclosures with Language Models ( http://arxiv.org/abs/2311.09538v1 )

ライセンス: Link先を確認
Yao Dou, Isadora Krsek, Tarek Naous, Anubha Kabra, Sauvik Das, Alan Ritter, Wei Xu(参考訳) 自己開示は一般的であり、ソーシャルメディアのやりとりに報いる一方で、プライバシーのリスクも生じている。 本稿では,オンラインの自己開示に関連するユーザ側のプライバシーを,識別と抽象化を通じて保護する。 自己開示カテゴリー19の分類法を開発し、4.8kの注釈付き開示スパンからなる大きなコーパスをキュレーションする。 次に、識別のための言語モデルを微調整し、トークンf$_1$で75%以上を達成する。 さらに,参加者の82-%が肯定的にモデルを見て,実世界への適用性を強調したhciユーザ調査を行った。 ユーザからのフィードバックを受けて、自己開示抽象化のタスクを導入する。 我々は,1スパンの抽象化と3スパンの抽象化の両方を実験し,複数の微調整戦略を検討する。 我々の最良のモデルは、人間の評価に従って高いユーティリティを維持しながら、プライバシーリスクを適度に低減する多様な抽象化を生成することができる。

Self-disclosure, while being common and rewarding in social media interaction, also poses privacy risks. In this paper, we take the initiative to protect the user-side privacy associated with online self-disclosure through identification and abstraction. We develop a taxonomy of 19 self-disclosure categories, and curate a large corpus consisting of 4.8K annotated disclosure spans. We then fine-tune a language model for identification, achieving over 75% in Token F$_1$. We further conduct a HCI user study, with 82\% of participants viewing the model positively, highlighting its real world applicability. Motivated by the user feedback, we introduce the task of self-disclosure abstraction. We experiment with both one-span abstraction and three-span abstraction settings, and explore multiple fine-tuning strategies. Our best model can generate diverse abstractions that moderately reduce privacy risks while maintaining high utility according to human evaluation.
翻訳日:2023-11-17 16:52:57 公開日:2023-11-16
# 改良接地のための効果的な大規模言語モデル適応

Effective Large Language Model Adaptation for Improved Grounding ( http://arxiv.org/abs/2311.09533v1 )

ライセンス: Link先を確認
Xi Ye, Ruoxi Sun, Sercan \"O. Arik, Tomas Pfister(参考訳) 大規模言語モデル(llm)は、テキストベースのデータの自然言語理解、生成、操作において著しく進歩した。 しかし、現実の世界に広く展開する上での大きな問題は、事実ではない"幻滅的な"回答を生成できることです。 本稿では,GRounding EnhancEment のための新しいフレームワーク AGREE, Adaptation of LLMs を用いて,全体論的な視点から基礎化を改善することに焦点を当てる。 まず、自己接地応答で生成された支援情報を考慮に入れた反復テスト時間適応(TTA)機能の設計から始める。 この機能を効果的に有効化するために,llmをチューニングし,引用文を提供することで,検索文書に対する応答の根拠付けを行う。 事前学習されたLLM上でのこのチューニングは、データ構築方法を導入するために、特定の方法で構築される必要のある少量のデータを必要とする。 本結果から, チューニングに基づく AGREE フレームワークは, プロンプトベースのアプローチに比べて, より正確な励振による地上応答を生成できることが示唆された。

Large language models (LLMs) have achieved remarkable advancements in natural language understanding, generation, and manipulation of text-based data. However, one major issue towards their widespread deployment in the real world is that they can generate "hallucinated" answers that are not factual. Towards this end, this paper focuses on improving grounding from a holistic perspective with a novel framework, AGREE, Adaptation of LLMs for GRounding EnhancEment. We start with the design of an iterative test-time adaptation (TTA) capability that takes into account the support information generated in self-grounded responses. To effectively enable this capability, we tune LLMs to ground the claims in their responses to retrieved documents by providing citations. This tuning on top of the pre-trained LLMs requires a small amount of data that needs to be constructed in a particular way to learn the grounding information, for which we introduce a data construction method. Our results show that the tuning-based AGREE framework generates better grounded responses with more accurate citations compared to prompting-based approaches.
翻訳日:2023-11-17 16:52:42 公開日:2023-11-16
# TransCrimeNet:犯罪ネットワークにおけるテキストベースの犯罪予測のためのトランスフォーマーベースモデル

TransCrimeNet: A Transformer-Based Model for Text-Based Crime Prediction in Criminal Networks ( http://arxiv.org/abs/2311.09529v1 )

ライセンス: Link先を確認
Chen Yang(参考訳) 本稿では,テキストデータから犯罪ネットワークの将来の犯罪を予測するトランスフォーマーモデルであるTransCrimeNetを提案する。 犯罪ネットワーク分析は、法執行機関が犯罪を防止するために不可欠になっている。 しかし、既存のグラフベースの手法では、ソーシャルメディア投稿や尋問書などの重要なテキストデータを効果的に組み込むことができず、計画された犯罪活動に関する貴重な洞察を提供する。 この制限に対処するために,BERTなどのトランスフォーマーモデルの表現学習機能を活用し,構造化されていないテキストデータから特徴を抽出するTransCrimeNetを開発した。 これらのテキストに基づく特徴は、将来の犯罪の正確な予測のために犯罪ネットワークのグラフ埋め込みと融合する。 実世界の犯罪ネットワークデータセットに関する大規模な実験は、TransCrimeNetが犯罪予測のためのF1スコアの12.7%で過去の最先端モデルより優れていることを示した。 その結果、犯罪企業をディスラプトするための効果的な洞察のために、テキストとグラフベースの機能を組み合わせることのメリットが示された。

This paper presents TransCrimeNet, a novel transformer-based model for predicting future crimes in criminal networks from textual data. Criminal network analysis has become vital for law enforcement agencies to prevent crimes. However, existing graph-based methods fail to effectively incorporate crucial textual data like social media posts and interrogation transcripts that provide valuable insights into planned criminal activities. To address this limitation, we develop TransCrimeNet which leverages the representation learning capabilities of transformer models like BERT to extract features from unstructured text data. These text-derived features are fused with graph embeddings of the criminal network for accurate prediction of future crimes. Extensive experiments on real-world criminal network datasets demonstrate that TransCrimeNet outperforms previous state-of-the-art models by 12.7\% in F1 score for crime prediction. The results showcase the benefits of combining textual and graph-based features for actionable insights to disrupt criminal enterprises.
翻訳日:2023-11-17 16:52:21 公開日:2023-11-16
# HelpSteer: SteerLM用のマルチ属性ヘルプフルネスデータセット

HelpSteer: Multi-attribute Helpfulness Dataset for SteerLM ( http://arxiv.org/abs/2311.09528v1 )

ライセンス: Link先を確認
Zhilin Wang, Yi Dong, Jiaqi Zeng, Virginia Adams, Makesh Narsimhan Sreedhar, Daniel Egert, Olivier Delalleau, Jane Polak Scowcroft, Neel Kant, Aidan Swope, Oleksii Kuchaiev(参考訳) 既存のオープンソースの有用な嗜好データセットは、何らかのレスポンスをより便利にするものや、そうでないものを特定するものではない。 これらのデータセットでトレーニングされたモデルは、データセットのアーティファクト(例えば、長いが、その長さのためにのみ不完全なレスポンスを好む)をモデルとして学習することができる。 この問題を軽減するために,さまざまな側面にアノテートされた多属性有用なデータセットであるHelpSteerを収集する。 具体的には、我々の37kサンプルデータセットには、応答の全体的な有用性に加えて、正確性、一貫性、複雑さ、冗長性に関するアノテーションがあります。 steerlm技術を用いたヘルプテアーデータセットを用いたllama 2 70bのトレーニングは、mtベンチで7.54のスコアを持つモデルを生成するが、これは現在、より強力なモデル(例えばgpt4)からのトレーニングデータを必要としないオープンモデルの最高スコアである。 私たちはこのデータセットをCC-BY-4.0ライセンスでhttps://huggingface.co/datasets/nvidia/HelpSteerでリリースします。

Existing open-source helpfulness preference datasets do not specify what makes some responses more helpful and others less so. Models trained on these datasets can incidentally learn to model dataset artifacts (e.g. preferring longer but unhelpful responses only due to their length). To alleviate this problem, we collect HelpSteer, a multi-attribute helpfulness dataset annotated for the various aspects that make responses helpful. Specifically, our 37k-sample dataset has annotations for correctness, coherence, complexity, and verbosity in addition to overall helpfulness of responses. Training Llama 2 70B using the HelpSteer dataset with SteerLM technique produces a model that scores 7.54 on MT Bench, which is currently the highest score for open models that do not require training data from more powerful models (e.g. GPT4). We release this dataset with CC-BY-4.0 license at https://huggingface.co/datasets/nvidia/HelpSteer
翻訳日:2023-11-17 16:52:04 公開日:2023-11-16
# AMRFact:AMR駆動トレーニングデータ生成による要約ファクチュアリティ評価の強化

AMRFact: Enhancing Summarization Factuality Evaluation with AMR-driven Training Data Generation ( http://arxiv.org/abs/2311.09521v1 )

ライセンス: Link先を確認
Haoyi Qiu, Kung-Hsiang Huang, Jingnong Qu, Nanyun Peng(参考訳) 事実整合性の確保は様々な自然言語処理タスク、特に情報の整合性の維持が最重要である抽象的な要約において重要である。 先入観に基づくアプローチは、しばしば事実上矛盾した要約を生成し、生成したデータに対して分類器を訓練する。 しかし、これらの手法によって生成された要約は、コヒーレンスが低いか、エラータイプのカバレッジがないかのいずれかである。 これらの問題に対処するために,抽象的意味表現(AMR)を用いて現実的に一貫性のない要約を生成する新しいフレームワークであるAMRFactを提案する。 提案手法は,事実的に正しい要約をamrグラフに解析し,制御された事実的不整合を注入して否定的な例を生成する。 さらに、自然言語推論とBARTScoreに基づくデータ選択モジュールNegFilterを提案し、生成した負のサンプルの品質を保証する。 実験結果から,AggreFact-SOTAデータセットにおける従来のシステムよりも有意に優れており,抽象要約における事実性評価の有効性が示された。

Ensuring factual consistency is crucial in various natural language processing tasks, particularly in abstractive summarization, where preserving the integrity of information is paramount. Prior entailment-based approaches often generate factually inconsistent summaries and then train a classifier on the generated data. However, summaries produced by these approaches are either of low coherence or lack error-type coverage. To address these issues, we propose AMRFact, a novel framework that generates factually inconsistent summaries using Abstract Meaning Representation (AMR). Our approach parses factually correct summaries into AMR graphs and injects controlled factual inconsistencies to create negative examples, allowing for coherent factually inconsistent summaries to be generated with high error-type coverage. Additionally, we present a data selection module NegFilter based on natural language inference and BARTScore to ensure the quality of the generated negative samples. Experimental results demonstrate that our approach significantly outperforms previous systems on the AggreFact-SOTA dataset, showcasing its efficacy in assessing factuality in abstractive summarization.
翻訳日:2023-11-17 16:51:46 公開日:2023-11-16
# MDFL:マルチドメイン拡散駆動型特徴学習

MDFL: Multi-domain Diffusion-driven Feature Learning ( http://arxiv.org/abs/2311.09520v1 )

ライセンス: Link先を確認
Daixun Li, Weiying Xie, Jiaqing Zhang, Yunsong Li(参考訳) リッチな意味情報で知られる高次元画像は、リモートセンシングやその他の分野に広く適用されている。 これらの画像内の空間情報はオブジェクトのテクスチャの特徴を反映し、スペクトル情報は異なる帯域にまたがる潜在的なスペクトル表現を明らかにする。 現在、高次元画像の理解は、性能劣化を伴う単一領域の視点に限られている。 本稿では,人間の視覚系で観察されるマスキングテクスチャ効果に動機づけられたマルチドメイン拡散駆動型特徴学習ネットワーク(mdfl)を提案する。 本手法では, スペクトル領域, 空間領域, 周波数領域における高次元多様体構造間の結合情報相互作用を, 拡散法を用いて明確に検討し, 視覚モデルにおけるマスキングテクスチャの影響を排除した。 さらに,高次元データの深部・生的特徴を収集する機能再利用機構を導入する。 MDFLは高次元データの特徴抽出性能を著しく向上し,本質的なパターンや構造を明らかにするための強力な支援を提供する。 3つのマルチモーダルリモートセンシングデータセットの実験結果は、MDFLが平均98.25%の精度に達し、様々な最先端のベースラインスキームを上回っていることを示している。 コードはリリースされ、コンピュータビジョンコミュニティに貢献します。

High-dimensional images, known for their rich semantic information, are widely applied in remote sensing and other fields. The spatial information in these images reflects the object's texture features, while the spectral information reveals the potential spectral representations across different bands. Currently, the understanding of high-dimensional images remains limited to a single-domain perspective with performance degradation. Motivated by the masking texture effect observed in the human visual system, we present a multi-domain diffusion-driven feature learning network (MDFL) , a scheme to redefine the effective information domain that the model really focuses on. This method employs diffusion-based posterior sampling to explicitly consider joint information interactions between the high-dimensional manifold structures in the spectral, spatial, and frequency domains, thereby eliminating the influence of masking texture effects in visual models. Additionally, we introduce a feature reuse mechanism to gather deep and raw features of high-dimensional data. We demonstrate that MDFL significantly improves the feature extraction performance of high-dimensional data, thereby providing a powerful aid for revealing the intrinsic patterns and structures of such data. The experimental results on three multi-modal remote sensing datasets show that MDFL reaches an average overall accuracy of 98.25%, outperforming various state-of-the-art baseline schemes. The code will be released, contributing to the computer vision community.
翻訳日:2023-11-17 16:51:27 公開日:2023-11-16
# セマンティック構文解析のための文脈内学習改善のためのコードの活用

Leveraging Code to Improve In-context Learning for Semantic Parsing ( http://arxiv.org/abs/2311.09519v1 )

ライセンス: Link先を確認
Ben Bogin, Shivanshu Gupta, Peter Clark, Ashish Sabharwal(参考訳) In-context Learning (ICL) は、その少数ショットの性質と一般化の改善により意味解析に魅力的なアプローチである。 しかし、いくつかの実演から稀なドメイン固有言語(DSL)を解析することを学ぶことは困難であり、最も有能なLLMのパフォーマンスさえ制限する。 本稿では,(1)dslの代わりにpythonのような汎用プログラミング言語を使用し,(2)利用可能なクラスや関数を含む構造化ドメイン記述でプロンプトを補完することにより,意味解析におけるiclの有効性を向上させる。 これら2つの変更が3つの一般的なデータセットの精度を大幅に向上することを示す。 これらを組み合わせることで、劇的な改善(例えば、smcalflowの組成分割で7.9%から66.5%)、より簡単なi.i.d.\とより難しい構成分割の間のパフォーマンスギャップをほぼ閉鎖し、多くのデモの必要性を減少させる。 対象のパース言語と汎用コードとの類似性は,事前学習コーパスで人気の高い言語よりも重要な要素であることがわかった。 本研究は,ILCの現代文脈における意味解析をLLMを用いて構築する手法を改良したものである。

In-context learning (ICL) is an appealing approach for semantic parsing due to its few-shot nature and improved generalization. However, learning to parse to rare domain-specific languages (DSLs) from just a few demonstrations is challenging, limiting the performance of even the most capable LLMs. In this work, we improve the effectiveness of ICL for semantic parsing by (1) using general-purpose programming languages such as Python instead of DSLs, and (2) augmenting prompts with a structured domain description that includes, e.g., the available classes and functions. We show that both these changes significantly improve accuracy across three popular datasets. Combined, they lead to dramatic improvements (e.g. 7.9% to 66.5% on SMCalFlow compositional split), nearly closing the performance gap between easier i.i.d.\ and harder compositional splits when used with a strong model, and reducing the need for a large number of demonstrations. We find that the resemblance of the target parse language to general-purpose code is a more important factor than the language's popularity in pre-training corpora. Our findings provide an improved methodology for building semantic parsers in the modern context of ICL with LLMs.
翻訳日:2023-11-17 16:51:04 公開日:2023-11-16
# GPT-3 から GPT-4 へ: 高等教育におけるプログラミング科目における複数選択質問への LLM の進化的効果について

From GPT-3 to GPT-4: On the Evolving Efficacy of LLMs to Answer Multiple-choice Questions for Programming Classes in Higher Education ( http://arxiv.org/abs/2311.09518v1 )

ライセンス: Link先を確認
Jaromir Savelka, Arav Agarwal, Christopher Bogart, Majd Sakr(参考訳) 高等教育におけるPythonプログラミングコースの導入と中等教育におけるマルチチョイス質問(MCQ)に対する回答生成における3つの生成事前学習型トランスフォーマー(GPT)モデルの進化的有効性について検討する。 chatgpt (11月22日) のリリースに先立って,本日(8月23日)のchatgpt (11月22日) リリースに先立って,モデルの能力の違いに注目した。 近年の研究では、OpenAIのGPTモデルの、もともと人間用に設計されたアセスメントを扱う能力は、より能力のあるモデルがリリースされるにつれて増加し続けることが確認されている。 しかしながら、これらのモデルがプログラミングmcqを推論および/または分析する能力と制限の質的な違いは未検討である。 我々は,3つのPythonコース (530質問) から, 3つの OpenAI の GPT モデルを形式的および要約的 MCQ 評価で評価し,その後のモデルの有効性の質的差異に着目した。 この研究は、学生がパススコアを収集するために利用できる技術がすでに存在する現在の発展の軌跡に関するさらなる証拠と知見を提供する。 本研究は,最近の技術開発をより深く理解するために教育者や機関が活用し,プログラミング評価の設計を適応させるとともに,将来のプログラミング授業における評価の更新方法に関する必要な議論を促進することができる。

We explore the evolving efficacy of three generative pre-trained transformer (GPT) models in generating answers for multiple-choice questions (MCQ) from introductory and intermediate Python programming courses in higher education. We focus on the differences in capabilities of the models prior to the release of ChatGPT (Nov '22), at the time of the release, and today (i.e., Aug '23). Recent studies have established that the abilities of the OpenAI's GPT models to handle assessments originally designed for humans keep increasing as the newer more capable models are released. However, the qualitative differences in the capabilities and limitations of these models to reason about and/or analyze programming MCQs have been under-explored. We evaluated three OpenAI's GPT models on formative and summative MCQ assessments from three Python courses (530 questions) focusing on the qualitative differences in the evolving efficacy of the subsequent models. This study provides further evidence and insight into the trajectory of the current developments where there already exists a technology that can be utilized by students to collect passing scores, with no effort whatsoever, on what today counts as viable programming knowledge and skills assessments. This study could be leveraged by educators and institutions to better understand the recent technological developments in order to adapt the design of programming assessments as well as to fuel the necessary discussions into how assessments in future programming classes should be updated.
翻訳日:2023-11-17 16:50:44 公開日:2023-11-16
# くそっ! 大規模言語モデルを用いた文法誤り表現

GEE! Grammar Error Explanation with Large Language Models ( http://arxiv.org/abs/2311.09517v1 )

ライセンス: Link先を確認
Yixiao Song, Kalpesh Krishna, Rajesh Bhatt, Kevin Gimpel, Mohit Iyyer(参考訳) 文法的誤り訂正ツールは、ユーザの入力文の文法的誤りを修正するのに有効であるが、エラーに関する説明をユーザに提供しない。 このような説明は、文法規則をより深く理解することで、ユーザーが言語を学ぶのを助けるのに不可欠である(dekeyser, 2003; ellis et al., 2006)。 そこで,本研究では,誤用文と訂正文のペアにおいて,各文法的誤りに対して一元的説明を与える必要がある文法誤り説明のタスクを提案する。 文法的誤り説明における GPT-4 の能力を解析し, ワンショットプロンプトを用いた60.2% の誤り説明しか生成しないことを確認した。 この性能を向上させるために,大規模言語モデルを用いて構造化されたアトミックトークンの編集抽出を行い,さらにgpt-4で説明文を生成する2段階パイプラインを開発した。 言語学習者から採取したドイツ語と中国語の文法誤り訂正データについて,幅広い習熟度で評価した。 人間による評価では、パイプラインはドイツと中国のデータに対してそれぞれ93.9%と98.0%の正確な説明が得られた。 この分野でさらなる研究を促進するため、私たちはデータとコードをオープンソース化します。

Grammatical error correction tools are effective at correcting grammatical errors in users' input sentences but do not provide users with \textit{natural language} explanations about their errors. Such explanations are essential for helping users learn the language by gaining a deeper understanding of its grammatical rules (DeKeyser, 2003; Ellis et al., 2006). To address this gap, we propose the task of grammar error explanation, where a system needs to provide one-sentence explanations for each grammatical error in a pair of erroneous and corrected sentences. We analyze the capability of GPT-4 in grammar error explanation, and find that it only produces explanations for 60.2% of the errors using one-shot prompting. To improve upon this performance, we develop a two-step pipeline that leverages fine-tuned and prompted large language models to perform structured atomic token edit extraction, followed by prompting GPT-4 to generate explanations. We evaluate our pipeline on German and Chinese grammar error correction data sampled from language learners with a wide range of proficiency levels. Human evaluation reveals that our pipeline produces 93.9% and 98.0% correct explanations for German and Chinese data, respectively. To encourage further research in this area, we will open-source our data and code.
翻訳日:2023-11-17 16:50:16 公開日:2023-11-16
# Know Thy Neighbors: スマートホームにおける効果的なセンサベースヒューマンアクティビティ認識のためのグラフベースのアプローチ

Know Thy Neighbors: A Graph Based Approach for Effective Sensor-Based Human Activity Recognition in Smart Homes ( http://arxiv.org/abs/2311.09514v1 )

ライセンス: Link先を確認
Srivatsa P, Thomas Pl\"otz(参考訳) スマートホーム、特に環境知性と生活支援技術分野におけるヒューマンアクティビティ認識(HAR)に焦点を当てた応用が復活してきた。 しかし、そのような応用は、センサー測定における可変性、疎性、ノイズなど、現実のあらゆる自動分析システムに多くの大きな課題をもたらす。 最先端のHARシステムはこれらの課題のいくつかに対処するためにかなりの努力を払ってきたが、特に現実的な制限に悩まされている。それらは自動認識の前に連続的なセンサーデータストリームの事前分割を成功させる必要がある。 この限界を克服するために,センサ間の明示的な協調関係を学習し,アクティビティ認識を行うグラフ誘導ニューラルネットワーク手法を提案する。 センサネットワークを表すより表現力のあるグラフ構造を,データ駆動方式でスマートホームで学習することで,これを実現する。 提案手法は,ノード埋め込みのアテンション機構と階層プールの適用により,離散的な入力センサ計測を特徴空間にマッピングする。 提案手法は,casasデータセット上で複数の実験を行い,複数のデータセットにまたがるスマートホームにおいて,グラフ誘導ニューラルネットワークが最先端のhar法を上回ることを示した。 この結果が期待できるのは、スマートホームを現実のアプリケーションに近づけるためだ。

There has been a resurgence of applications focused on Human Activity Recognition (HAR) in smart homes, especially in the field of ambient intelligence and assisted living technologies. However, such applications present numerous significant challenges to any automated analysis system operating in the real world, such as variability, sparsity, and noise in sensor measurements. Although state-of-the-art HAR systems have made considerable strides in addressing some of these challenges, they especially suffer from a practical limitation: they require successful pre-segmentation of continuous sensor data streams before automated recognition, i.e., they assume that an oracle is present during deployment, which is capable of identifying time windows of interest across discrete sensor events. To overcome this limitation, we propose a novel graph-guided neural network approach that performs activity recognition by learning explicit co-firing relationships between sensors. We accomplish this by learning a more expressive graph structure representing the sensor network in a smart home, in a data-driven manner. Our approach maps discrete input sensor measurements to a feature space through the application of attention mechanisms and hierarchical pooling of node embeddings. We demonstrate the effectiveness of our proposed approach by conducting several experiments on CASAS datasets, showing that the resulting graph-guided neural network outperforms the state-of-the-art method for HAR in smart homes across multiple datasets and by large margins. These results are promising because they push HAR for smart homes closer to real-world applications.
翻訳日:2023-11-17 16:49:52 公開日:2023-11-16
# 話題のシークエンシング:会話エージェント構築のための生成・再帰生成モデル

Sequencing Matters: A Generate-Retrieve-Generate Model for Building Conversational Agents ( http://arxiv.org/abs/2311.09513v1 )

ライセンス: Link先を確認
Quinn Patwardhan, Grace Hui Yang(参考訳) 本稿では, TREC iKAT 2023 の課題を解決するために Georgetown InfoSense グループが行ったことを紹介する。 私たちの提出した実行は、中央値よりもかなりのマージンを上回り、様々なカット数と全体的な成功率でndcgで優れたパフォーマンスを示しました。 このアプローチはGenerate-Retrieve-Generateメソッドを使用し、iKATの目的のためにRetrieve-Then-Generateアプローチを大幅に上回っていることが分かりました。 我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。 我々は、BERT、Chatベース、テキスト・ツー・トランスファーベースモデルなどの目的に構築された言語モデルを利用して、テキスト理解、分類、生成、要約を行う。 TREC評価の結果は初期自己評価と矛盾しており,検索法や分類法への依存度が低下する可能性が示唆された。 いずれにせよ,これらの異なる成分を包含する順序は重要であり,検索エンジンを使う前にLLMを使うことが不可欠であることが示唆された。

This paper contains what the Georgetown InfoSense group has done in regard to solving the challenges presented by TREC iKAT 2023. Our submitted runs outperform the median runs by a significant margin, exhibiting superior performance in nDCG across various cut numbers and in overall success rate. Our approach uses a Generate-Retrieve-Generate method, which we've found to greatly outpace Retrieve-Then-Generate approaches for the purposes of iKAT. Our solution involves the use of Large Language Models (LLMs) for initial answers, answer grounding by BM25, passage quality filtering by logistic regression, and answer generation by LLMs again. We leverage several purpose-built Language Models, including BERT, Chat-based, and text-to-transfer-based models, for text understanding, classification, generation, and summarization. The official results of the TREC evaluation contradict our initial self-evaluation, which may suggest that a decrease in the reliance on our retrieval and classification methods is better. Nonetheless, our findings suggest that the sequence of involving these different components matters, where we see an essentiality of using LLMs before using search engines.
翻訳日:2023-11-17 16:49:24 公開日:2023-11-16
# 等変自己回帰貯留層コンピュータを用いた対称性の同定

Identifying Systems with Symmetries using Equivariant Autoregressive Reservoir Computers ( http://arxiv.org/abs/2311.09511v1 )

ライセンス: Link先を確認
Fredy Vides, Idelfonso B. R. Nogueira, Lendy Banegas, Evelyn Flores(参考訳) 本報告では, 同種の自己回帰型貯水池コンピュータを用いて, 対称性を持つシステムを特定することに焦点を当てた。 構造行列近似理論の一般的な結果を示し、2次元のアプローチを探求する。 まず, 一般対称性保存非線形遅延埋め込みの包括的検討を行う。 これは、研究中の同変系からサンプリングされた時系列データを解析することを含む。 第二に、出力結合行列の近似表現を識別するためにスパース最小二乗法を適用する。 これらの行列は同変系の非線形自己回帰表現を決定する上で重要な役割を果たす。 これらの行列の構造的特性は、系に固有の対称性の集合によって決定される。 この文書は、記述した手法から派生したプロトタイプアルゴリズムの概要を述べ、それらの実用的応用についての洞察を提供する。 これらの系がカオス的振舞いを示すかどうかに関わらず、等変非線形系の同定と予測シミュレーションにおいて有効性に重点を置いている。

The investigation reported in this document focuses on identifying systems with symmetries using equivariant autoregressive reservoir computers. General results in structured matrix approximation theory are presented, exploring a two-fold approach. Firstly, a comprehensive examination of generic symmetry-preserving nonlinear time delay embedding is conducted. This involves analyzing time series data sampled from an equivariant system under study. Secondly, sparse least-squares methods are applied to discern approximate representations of the output coupling matrices. These matrices play a pivotal role in determining the nonlinear autoregressive representation of an equivariant system. The structural characteristics of these matrices are dictated by the set of symmetries inherent in the system. The document outlines prototypical algorithms derived from the described techniques, offering insight into their practical applications. Emphasis is placed on their effectiveness in the identification and predictive simulation of equivariant nonlinear systems, regardless of whether such systems exhibit chaotic behavior.
翻訳日:2023-11-17 16:49:00 公開日:2023-11-16
# オープンドメインの手続きをカスタマイズする1つのサイズ

One Size Does Not Fit All: Customizing Open-Domain Procedures ( http://arxiv.org/abs/2311.09510v1 )

ライセンス: Link先を確認
Yash Kumar Lal and Li Zhang and Faeze Brahman and Bodhisattwa Prasad Majumder and Peter Clark and Niket Tandon(参考訳) 庭を植える方法など、ハウツーの手順はユビキタスである。 しかし、1つのサイズがすべてに合わない - 人間は特定のニーズに応じてこれらの手続き計画をカスタマイズする必要がある。 LLMはジェネリックプロシージャを柔軟に生成できるが、LLMがオープンドメインプロシージャをいかにカスタマイズできるかに関する最初の研究を示す。 オープンドメインのハウツープロシージャに対する多様なユーザニーズをエンコードするカスタマイズヒントのプローブデータセットであるCustomPlansを紹介した。 異なる設定で、カスタマイズエージェントおよび実行エージェントとしてllmsを使用することで、オープンドメインの手続きをカスタマイズする能力を確立する。 人間の評価では、これらのエージェントをシークエンシャルな設定で使用するのが最適であるが、その時間の51%程度で十分である。 エラー解析では、LLMは生成されたプロシージャにおけるユーザカスタマイズのニーズに十分対応していない。

How-to procedures, such as how to plant a garden, are ubiquitous. But one size does not fit all - humans often need to customize these procedural plans according to their specific needs, e.g., planting a garden without pesticides. While LLMs can fluently generate generic procedures, we present the first study on how well LLMs can customize open-domain procedures. We introduce CustomPlans, a probe dataset of customization hints that encodes diverse user needs for open-domain How-to procedures. Using LLMs as CustomizationAgent and ExecutionAgent in different settings, we establish their abilities to perform open-domain procedure customization. Human evaluation shows that using these agents in a Sequential setting is the best, but they are good enough only ~51% of the time. Error analysis shows that LLMs do not sufficiently address user customization needs in their generated procedures.
翻訳日:2023-11-17 16:48:47 公開日:2023-11-16
# パーソナライズされたレコメンデーションのためのグループアウェアディスタングル型デュアルトレーニング

Group-Aware Interest Disentangled Dual-Training for Personalized Recommendation ( http://arxiv.org/abs/2311.09577v1 )

ライセンス: Link先を確認
Xiaolong Liu, Liangwei Yang, Zhiwei Liu, Xiaohan Li, Mingdai Yang, Chen Wang, Philip S. Yu(参考訳) パーソナライズされたレコメンデータシステムは、ユーザのアイテムの好みを予測することを目的としている。 オンラインサービスでは欠かせない部分となっている。 オンラインソーシャルプラットフォームでは、ユーザーは共通の関心事に基づいてグループを形成できる。 ソーシャルプラットフォームへのユーザのグループ参加は、自身の関心を明らかにし、レコメンダシステムにおけるデータのスパーシティとコールドスタート問題を軽減するために、サイド情報として利用できる。 ユーザーは異なる関心事から異なるグループに参加する。 本稿では,ユーザの興味からグループ表現を生成し,グループ情報を正確に活用するためのIGRec(Interest-based Group enhanced Recommendation)を提案する。 4つのモジュールからなる。 1) ユーザの興味を最初の埋め込み表現から遠ざける自己制御による利害対立。 2)利子に基づくグループ表現を生成する利子アグリゲータは,利子をグンベル・ソフトマックスアグリゲータで構成する。 (3)参加グループ表現とユーザの表現を融合させる関心に基づくグループアグリゲーション。 (4) ユーザ・イテム相互作用とグループ・イテム相互作用の両方を利用する二重学習型評価予測モジュール。 3つの公開データセットについて広範な実験を行った。 その結果, igrecはデータのスパーシティ問題を効果的に軽減し, 関心に基づくグループ表現によるレコメンダシステムを強化できることがわかった。 グループレコメンデーションタスクに関する実験は、さらに興味に基づくグループ表現のインフォメーション性を示す。

Personalized recommender systems aim to predict users' preferences for items. It has become an indispensable part of online services. Online social platforms enable users to form groups based on their common interests. The users' group participation on social platforms reveals their interests and can be utilized as side information to mitigate the data sparsity and cold-start problem in recommender systems. Users join different groups out of different interests. In this paper, we generate group representation from the user's interests and propose IGRec (Interest-based Group enhanced Recommendation) to utilize the group information accurately. It consists of four modules. (1) Interest disentangler via self-gating that disentangles users' interests from their initial embedding representation. (2) Interest aggregator that generates the interest-based group representation by Gumbel-Softmax aggregation on the group members' interests. (3) Interest-based group aggregation that fuses user's representation with the participated group representation. (4) A dual-trained rating prediction module to utilize both user-item and group-item interactions. We conduct extensive experiments on three publicly available datasets. Results show IGRec can effectively alleviate the data sparsity problem and enhance the recommender system with interest-based group representation. Experiments on the group recommendation task further show the informativeness of interest-based group representation.
翻訳日:2023-11-17 16:40:52 公開日:2023-11-16
# 大域体による縮退スピン量子ビット上のゲートの絡み合い

Entangling gates on degenerate spin qubits dressed by a global field ( http://arxiv.org/abs/2311.09567v1 )

ライセンス: Link先を確認
Ingvild Hansen, Amanda E. Seedhouse, Santiago Serrano, Andreas Nickl, MengKe Feng, Jonathan Y. Huang, Tuomo Tanttu, Nard Dumoulin Stuyck, Wee Han Lim, Fay E. Hudson, Kohei M. Itoh, Andre Saraiva, Arne Laucht, Andrew S. Dzurak, Chih Hwan Yang(参考訳) コヒーレントな服装のスピンは、環境騒音に対する耐性とグローバル制御フィールドとの互換性のため、将来の量子コンピュータの構成要素として有望な結果を示している。 この操作モードにより、より快適なキュービットアーキテクチャ要求が可能になり、チップ上の信号ルーティングが簡単になる。 しかし、量子ビットアドレス性や2量子ビットゲートのようなマルチキュービット演算は、普遍量子コンピューティングへの実行可能な経路として、服を着た量子ビットと組み合わせてグローバル制御を確立することは、まだ実証されていない。 本稿では,大域的場を用いた縮退量子ビットの同時オン共振駆動を実証する。 さらに、オン共振駆動時のスワップ振動を実装し、駆動型2量子ビットゲートのデモンストレーションを構成する。 以上の結果から,重畳状態間のゲートの絡み合わさりの脆弱さと,ドレッシングが耐雑音性に与える影響が示唆された。 これらの結果は、服装のキュービットを持つグローバル制御操作にとって重要なマイルストーンである。 また、縮退スピンに関する興味深いスピン物理学の扉を開く。

Coherently dressed spins have shown promising results as building blocks for future quantum computers owing to their resilience to environmental noise and their compatibility with global control fields. This mode of operation allows for more amenable qubit architecture requirements and simplifies signal routing on the chip. However, multi-qubit operations, such as qubit addressability and two-qubit gates, are yet to be demonstrated to establish global control in combination with dressed qubits as a viable path to universal quantum computing. Here we demonstrate simultaneous on-resonance driving of degenerate qubits using a global field while retaining addressability for qubits with equal Larmor frequencies. Furthermore, we implement SWAP oscillations during on-resonance driving, constituting the demonstration of driven two-qubit gates. Significantly, our findings highlight the fragility of entangling gates between superposition states and how dressing can increase the noise robustness. These results represent a crucial milestone towards global control operation with dressed qubits. It also opens a door to interesting spin physics on degenerate spins.
翻訳日:2023-11-17 16:40:32 公開日:2023-11-16
# 多変量臨床時系列からの敗血症発生予測のための知識蒸留手法

A Knowledge Distillation Approach for Sepsis Outcome Prediction from Multivariate Clinical Time Series ( http://arxiv.org/abs/2311.09566v1 )

ライセンス: Link先を確認
Anna Wong, Shu Ge, Nassim Oufattole, Adam Dejl, Megan Su, Ardavan Saeedi, Li-wei H. Lehman(参考訳) セプシス(Sepsis)は、極端な感染反応によって引き起こされる致命的な症状である。 本研究の目的は,患者の病歴と治療による敗血症患者の予後を予測し,解釈可能な状態表現を学習し,種々の副作用の発症リスクを評価することである。 ニューラルネットワークは結果予測に優れているが、その限定的な解釈性は依然として重要な問題である。 本研究では,制約付き変分推論による知識蒸留を用いて,高い予測能力を持つ強力な「教師」ニューラルネットワークモデルの知識を蒸留し,「学生」潜伏変数モデルを訓練し,解釈可能な隠れ状態表現を学習し,敗血症アウトカム予測のための高い予測性能を達成する。 MIMIC-IVデータベースから得られた実世界データを用いて、LSTMを「教師」モデルとして訓練し、敗血症患者の死亡率を予測する。 学生モデルでは,自己回帰型隠れマルコフモデル(AR-HMM)を用いて患者の臨床時系列から解釈可能な隠蔽状態を学習し,学習状態表現の後方分布を用いて,病院死亡,肺浮腫,利尿剤,透析,機械的換気の必要性など,様々な下流結果を予測する。 その結果,本手法は教師モデルと同様の高い予測能力を達成するために制約をうまく取り入れ,生成性能を維持していることがわかった。

Sepsis is a life-threatening condition triggered by an extreme infection response. Our objective is to forecast sepsis patient outcomes using their medical history and treatments, while learning interpretable state representations to assess patients' risks in developing various adverse outcomes. While neural networks excel in outcome prediction, their limited interpretability remains a key issue. In this work, we use knowledge distillation via constrained variational inference to distill the knowledge of a powerful "teacher" neural network model with high predictive power to train a "student" latent variable model to learn interpretable hidden state representations to achieve high predictive performance for sepsis outcome prediction. Using real-world data from the MIMIC-IV database, we trained an LSTM as the "teacher" model to predict mortality for sepsis patients, given information about their recent history of vital signs, lab values and treatments. For our student model, we use an autoregressive hidden Markov model (AR-HMM) to learn interpretable hidden states from patients' clinical time series, and use the posterior distribution of the learned state representations to predict various downstream outcomes, including hospital mortality, pulmonary edema, need for diuretics, dialysis, and mechanical ventilation. Our results show that our approach successfully incorporates the constraint to achieve high predictive power similar to the teacher model, while maintaining the generative performance.
翻訳日:2023-11-17 16:40:13 公開日:2023-11-16
# LongBoX: 長期臨床におけるトランスフォーマーの評価

LongBoX: Evaluating Transformers on Long-Sequence Clinical Tasks ( http://arxiv.org/abs/2311.09564v1 )

ライセンス: Link先を確認
Mihir Parmar, Aakanksha Naik, Himanshu Gupta, Disha Agrawal, Chitta Baral(参考訳) 医学用大規模言語モデル(LLM)の多くは短いテキストで評価されており、完全電子健康記録(EHR)のような長いシーケンスを扱う能力は体系的に研究されていない。 これらのモデルを長いシーケンスで評価することは、一般的なドメインでの先行研究が長いテキスト上でのLLMの性能劣化を実証しているため、非常に重要である。 そこで本研究では,テキストからテキストへのフォーマットによる7つの医療データセットのコレクションであるlongboxを提案する。 予備実験により、医療用LLM(例:BioGPT)と強力な一般用LLM(例:FLAN-T5)がこのベンチマークで苦戦していることが明らかとなった。 時系列処理のための2つの手法を更に評価する。 (i)地域的注目,及び (II)Fusion-in-Decoder(FiD) 結果から,長期処理による混合結果が得られた。いくつかのデータセットのスコアは増加するが,改善の余地は十分にある。 我々はLongBoXが医療分野でより効果的なロングシーケンス技術の開発を促進することを願っている。 データとソースコードはhttps://github.com/Mihir3009/LongBoXで入手できる。

Many large language models (LLMs) for medicine have largely been evaluated on short texts, and their ability to handle longer sequences such as a complete electronic health record (EHR) has not been systematically explored. Assessing these models on long sequences is crucial since prior work in the general domain has demonstrated performance degradation of LLMs on longer texts. Motivated by this, we introduce LongBoX, a collection of seven medical datasets in text-to-text format, designed to investigate model performance on long sequences. Preliminary experiments reveal that both medical LLMs (e.g., BioGPT) and strong general domain LLMs (e.g., FLAN-T5) struggle on this benchmark. We further evaluate two techniques designed for long-sequence handling: (i) local-global attention, and (ii) Fusion-in-Decoder (FiD). Our results demonstrate mixed results with long-sequence handling - while scores on some datasets increase, there is substantial room for improvement. We hope that LongBoX facilitates the development of more effective long-sequence techniques for the medical domain. Data and source code are available at https://github.com/Mihir3009/LongBoX.
翻訳日:2023-11-17 16:39:48 公開日:2023-11-16
# イベント抽出の再評価 -過去・現在・将来の課題-

A Reevaluation of Event Extraction: Past, Present, and Future Challenges ( http://arxiv.org/abs/2311.09562v1 )

ライセンス: Link先を確認
Kuan-Hao Huang, I-Hung Hsu, Tanmay Parekh, Zhiyu Xie, Zixuan Zhang, Premkumar Natarajan, Kai-Wei Chang, Nanyun Peng, Heng Ji(参考訳) イベント抽出は近年、多くの応用の可能性から多くの注目を集めている。 しかし、近年の研究では評価課題がいくつか見受けられ、報告されたスコアが真のパフォーマンスを反映していない可能性が示唆されている。 本研究では,データやデータ前処理ステップの異なる仮定による不公平比較,潜在的なデータセットバイアスやデータ分割バイアスにつながる現在の評価フレームワークの不完全性,事前研究の再現性低下など,評価課題を最初に特定し,議論する。 これらの課題に対処するため、イベント抽出のための標準化された公正かつ再現可能なベンチマークであるTextEEを提案する。 TextEEには標準化されたデータ前処理スクリプトと、異なるドメインにまたがる10以上のデータセットの分割が含まれている。 さらに,近年公開された10以上のイベント抽出アプローチを集約し,再実装し,包括的な再評価を行う。 最後に,イベント抽出における大規模言語モデルの能力について検討し,今後の課題について考察する。 TextEEはイベント抽出のための信頼性の高いベンチマークとして機能し、この分野における今後の研究を促進すると期待しています。

Event extraction has attracted much attention in recent years due to its potential for many applications. However, recent studies observe some evaluation challenges, suggesting that reported scores might not reflect the true performance. In this work, we first identify and discuss these evaluation challenges, including the unfair comparisons resulting from different assumptions about data or different data preprocessing steps, the incompleteness of the current evaluation framework leading to potential dataset bias or data split bias, and low reproducibility of prior studies. To address these challenges, we propose TextEE, a standardized, fair, and reproducible benchmark for event extraction. TextEE contains standardized data preprocessing scripts and splits for more than ten datasets across different domains. In addition, we aggregate and re-implement over ten event extraction approaches published in recent years and conduct a comprehensive reevaluation. Finally, we explore the capability of large language models in event extraction and discuss some future challenges. We expect TextEE will serve as a reliable benchmark for event extraction, facilitating future research in the field.
翻訳日:2023-11-17 16:39:29 公開日:2023-11-16
# Pachinko: 自然言語フィードバックによる解釈可能なQAモデルへのパッチ

Pachinko: Patching Interpretable QA Models through Natural Language Feedback ( http://arxiv.org/abs/2311.09558v1 )

ライセンス: Link先を確認
Chaitanya Malaviya, Subin Lee, Dan Roth, Mark Yatskar(参考訳) NLPモデルのエンドユーザーからのフィードバックを緩和することは、モデルを改善するのに有益である。 しかし、ユーザからのフィードバックから最も修正しやすいように、モデル応答をユーザにどのように提示するか。 さらに、ユーザが理解し、回答を信頼するために、どのような特性が重要か? これらの質問に対して,QAモデルが生成した有理性の効果を分析して回答を裏付ける。 具体的には、まず、文脈と質問に基づいて中間的論理を抽出し、この論理のみを用いて質問に答える解答モデルについて検討する。 根拠は、その質問に答えるためのモデルに続くアプローチを概説する。 我々の研究は、興味のある性質によって異なるこれらの有理数の様々な形式を考察している。 2つの読解データセットに対して,マイトショットプロンプトを用いて,大規模言語モデルからこれらの根拠をサンプリングし,2つのユーザ研究を行った。 まず, ユーザに対して, 様々な形式に対する誤った回答とそれに対応する理性を示し, その理性を改善するために, 自然言語フィードバックの提供を依頼する。 次に,このフィードバックの有効性を,文脈内学習を通じて評価する。 第2の研究では、異なる合理化形式によって、ユーザーがモデルの答えを正しく理解し、信頼することができるかを評価する。 合理的な形式は,(1)ユーザが合理的なフィードバックを与えるのがいかに簡単か,(2)モデルがこのフィードバックを実行するのがより容易かに大きく影響することがわかった。 評定に影響を及ぼすことに加えて、一部のフォーマットは、ユーザーが報告したモデル出力の理解と信頼を著しく向上させる。

Eliciting feedback from end users of NLP models can be beneficial for improving models. However, how should we present model responses to users so they are most amenable to be corrected from user feedback? Further, what properties do users value to understand and trust responses? We answer these questions by analyzing the effect of rationales generated by QA models to support their answers. We specifically consider decomposed question-answering models that first extract an intermediate rationale based on a context and a question and then use solely this rationale to answer the question. A rationale outlines the approach followed by the model to answer the question. Our work considers various formats of these rationales that vary according to well-defined properties of interest. We sample these rationales from large language models using few-shot prompting for two reading comprehension datasets, and then perform two user studies. In the first one, we present users with incorrect answers and corresponding rationales of various formats and ask them to provide natural language feedback to revise the rationale. We then measure the effectiveness of this feedback in patching these rationales through in-context learning. The second study evaluates how well different rationale formats enable users to understand and trust model answers, when they are correct. We find that rationale formats significantly affect how easy it is (1) for users to give feedback for rationales, and (2) for models to subsequently execute this feedback. In addition to influencing critiquablity, certain formats significantly enhance user reported understanding and trust of model outputs.
翻訳日:2023-11-17 16:39:12 公開日:2023-11-16
# クエンチ力学の線形スケールシミュレーション

Linear-scale simulations of quench dynamics ( http://arxiv.org/abs/2311.09556v1 )

ライセンス: Link先を確認
Niaz Ali Khan, Wen Chen, Munsif Jan, and Gao Xianlong(参考訳) 量子系の非平衡特性の正確な説明とロバストな計算モデリングは、凝縮物質物理学における課題のままである。 本研究では,量子クエンチ系の非平衡力学に対する線形スケール計算シミュレーション手法を開発した。 特に、非相互作用量子クエンチ系の動的量子相転移を記述するために、Loschmidtエコーの多項式展開を報告する。 拡張に基づく手法により、ハミルトニアン系を対角化することなく、無限大系に対するLoschmidtエコーを効率的に計算できる。 その有用性を示すために, 密結合準結晶と不規則格子の1つの空間次元における量子クエンチングダイナミクスを強調する。 さらに、格子モデルの下でのクエンチダイナミクスにおける波動ベクトルの役割についても論じる。 波動ベクトル非依存の動的位相遷移を自己双対局在モデルで観測する。

The accurate description and robust computational modeling of the nonequilibrium properties of quantum systems remain challenges in condensed matter physics. In this work, we develop a linear-scale computational simulation technique for the non-equilibrium dynamics of quantum quench systems. In particular, we report a polynomial expansion of the Loschmidt echo to describe the dynamical quantum phase transitions of noninteracting quantum quench systems. An expansion based method allows us to efficiently compute the Loschmidt echo for infinitely large systems without diagonalizing the system Hamiltonian. To demonstrate its utility, we highlight quantum quenching dynamics under tight-binding quasicrystals and disordered lattices in one spatial dimension. In addition, the role of the wave vector on the quench dynamics under lattice models is addressed. We observe wave vector-independent dynamical phase transitions in self-dual localization models.
翻訳日:2023-11-17 16:38:48 公開日:2023-11-16
# プログラム支援推論(better)は、自分が知っていることを知っている

Program-Aided Reasoners (better) Know What They Know ( http://arxiv.org/abs/2311.09553v1 )

ライセンス: Link先を確認
Anubha Kabra, Sanketh Rangreji, Yash Mathur, Aman Madaan, Emmy Liu, Graham Neubig(参考訳) 以前の研究は、大規模言語モデル(LLM)とPythonのようなプログラミング言語で記述されたプログラムが組み合わさったプログラム支援推論が、様々な推論タスクの精度を大幅に向上させることを示した。 しかし、正確性は不可欠であるが、そのような推論者はモデルの校正によって定量化できる「知っていることを知る」ことも重要である。 本稿では,プログラム支援言語モデル(PAL)とテキストベースのChain-of-Thought(COT)のキャリブレーションを比較し,LLaMAモデルとOpenAIモデルという5つのデータセットと2つのモデルタイプにまたがる手法を提案する。 以上の結果から, PALは75%の症例で校正の改善につながることが示唆された。 解析の結果、世代ごとの多様性を低下させるスタイルも校正結果が得られており、温度スケーリングを用いて低い世代多様性を誘導する実験を行い、特定の温度においてPALはより正確であるだけでなく、COTよりも校正されていることがわかった。 全体として、ほとんどのケースにおいて、プログラム支援の理性者は、テキストベースの理性よりも自分が知っていることをよく知っている。

Prior work shows that program-aided reasoning, in which large language models (LLMs) are combined with programs written in programming languages such as Python, can significantly improve accuracy on various reasoning tasks. However, while accuracy is essential, it is also important for such reasoners to "know what they know", which can be quantified through the calibration of the model. In this paper, we compare the calibration of Program Aided Language Models (PAL) and text-based Chain-of-thought (COT) prompting techniques over 5 datasets and 2 model types: LLaMA models and OpenAI models. Our results indicate that PAL leads to improved calibration in 75% of the instances. Our analysis uncovers that prompting styles that produce lesser diversity in generations also have more calibrated results, and thus we also experiment with inducing lower generation diversity using temperature scaling and find that for certain temperatures, PAL is not only more accurate but is also more calibrated than COT. Overall, we demonstrate that, in the majority of cases, program-aided reasoners better know what they know than text-based counterparts.
翻訳日:2023-11-17 16:38:35 公開日:2023-11-16
# 大規模言語モデルとFew-Shotトレーニング例ジェネレータ:誤認識のケーススタディ

Large Language Models are Few-Shot Training Example Generators: A Case Study in Fallacy Recognition ( http://arxiv.org/abs/2311.09552v1 )

ライセンス: Link先を確認
Tariq Alhindi, Smaranda Muresan and Preslav Nakov(参考訳) 諸領域にわたる議論の品質と妥当性を確保するためには,誤認識の認識が不可欠である。 しかし、計算の誤認識は、データセットに見られる様々なジャンル、ドメイン、型によって困難に直面している。 これにより、高いマルチクラス、さらには、かなりクラスの不均衡を伴う、マルチラベルのセットアップにつながる。 本研究では,新たな文脈を取り入れ,大規模言語モデルを用いて合成データを生成することにより,誤認認識のための既存モデルを強化することを目的としている。 我々は、GPT3.5を用いて合成例を生成し、これに対するプロンプト設定の影響を検討する。 さらに,ゼロショットと少数ショットのシナリオを検討し,生成したサンプルを用いて,統合誤認認識フレームワークにおいて,より小さなモデルをトレーニングすることの有効性を評価する。 さらに,合成データと既存の誤用データセットの重なりを解析する。 最後に,このようなコンテキストを必要とする誤字を検出するための補足的コンテキストを提供することの有用性について検討する。 評価結果は、誤り型、データセット、ジェネレータ間で一貫した改善を示す。

Recognizing fallacies is crucial for ensuring the quality and validity of arguments across various domains. However, computational fallacy recognition faces challenges due to the diverse genres, domains, and types of fallacies found in datasets. This leads to a highly multiclass, and even multi-label, setup with substantial class imbalance. In this study, we aim to enhance existing models for fallacy recognition by incorporating additional context and by leveraging large language models to generate synthetic data, thus increasing the representation of the infrequent classes. We experiment with GPT3.5 to generate synthetic examples and we examine the impact of prompt settings for this. Moreover, we explore zero-shot and few-shot scenarios to evaluate the effectiveness of using the generated examples for training smaller models within a unified fallacy recognition framework. Furthermore, we analyze the overlap between the synthetic data and existing fallacy datasets. Finally, we investigate the usefulness of providing supplementary context for detecting fallacy types that need such context, e.g., diversion fallacies. Our evaluation results demonstrate consistent improvements across fallacy types, datasets, and generators.
翻訳日:2023-11-17 16:38:11 公開日:2023-11-16
# LLMの展開可能な量子化のための高速オデュッセイ

A Speed Odyssey for Deployable Quantization of LLMs ( http://arxiv.org/abs/2311.09550v1 )

ライセンス: Link先を確認
Qingyuan Li, Ran Meng, Yiduo Li, Bo Zhang, Liang Li, Yifan Lu, Xiangxiang Chu, Yerui Sun, Yuchen Xie(参考訳) 大きな言語モデルの時代は、より速く、よりコストのかかる推論を促します。 LLMの以前のモデル圧縮作業は、主にシミュレーション量子化性能に焦点を当てたソフトウェア中心のアプローチをとる傾向にある。 デプロイメントの実現可能性を無視して、これらのアプローチは通常、実際の運用では無効になる。 彼らはかつて、主流のハードウェアではサポートされない計算の削減のために量子化ビット範囲を大幅に押し下げたり、余分な計算やメモリアクセスオーバーヘッドをもたらす高度なアルゴリズムを伴っていた。 量子化アルゴリズム構築におけるハードウェア中心のアプローチの追求が不可欠である。 ハードウェアアクセラレーションの利点を最大限に活用しながら,非現実的なアルゴリズム選択を排除し,ハードウェアの認識の上に圧縮手法を構築することを目標としている。 提案手法であるodysseyllmはfastgemmと呼ばれる新しいw4a8カーネル実装と量子化戦略のレシピを組み合わせたものである。 広範な実験により、我々のw4a8メソッドは、face fp16推論と \textbf{2.23$\times$} に対してfp16で最先端の推論エンジンtensorrt-llm、int8で \textbf{1.45$\times$} とtensorrt-llmを実質的に損なうことなく、実際の速度を \textbf{4$\times$} に向上させる。

The large language model era urges faster and less costly inference. Prior model compression works on LLMs tend to undertake a software-centric approach primarily focused on the simulated quantization performance. By neglecting the feasibility of deployment, these approaches are typically disabled in real practice. They used to drastically push down the quantization bit range for a reduced computation which might not be supported by the mainstream hardware, or involve sophisticated algorithms that introduce extra computation or memory access overhead. We argue that pursuing a hardware-centric approach in the construction of quantization algorithms is crucial. In this regard, we are driven to build our compression method on top of hardware awareness, eliminating impractical algorithm choices while maximizing the benefit of hardware acceleration. Our method, OdysseyLLM, comes with a novel W4A8 kernel implementation called FastGEMM and a combined recipe of quantization strategies. Extensive experiments manifest the superiority of our W4A8 method which brings the actual speed boosting up to \textbf{4$\times$} compared to Hugging Face FP16 inference and \textbf{2.23$\times$} vs. the state-of-the-art inference engine TensorRT-LLM in FP16, and \textbf{1.45$\times$} vs. TensorRT-LLM in INT8, yet without substantially harming the performance.
翻訳日:2023-11-17 16:37:54 公開日:2023-11-16
# ユーザモデリングのスケール: 広告パーソナライズのための大規模オンラインユーザ表現

Scaling User Modeling: Large-scale Online User Representations for Ads Personalization in Meta ( http://arxiv.org/abs/2311.09544v1 )

ライセンス: Link先を確認
Wei Zhang, Dai Li, Chen Liang, Fang Zhou, Zhongke Zhang, Xuewei Wang, Ru Li, Yi Zhou, Yaning Huang, Dong Liang, Kai Wang, Zhangyuan Wang, Zhengxing Chen, Min Li, Fenggang Wu, Minghai Chen, Huayu Li, Yunnan Wu, Zhan Shu, Mindi Yuan, Sri Reddy(参考訳) 効果的なユーザー表現はパーソナライズされた広告において重要である。 しかし、トレーニングスループット、レイテンシ、メモリに対する厳密な制約は、しばしばオンライン広告ランキングモデルの複雑さと入力機能セットを制限する。 この課題は、さまざまな仕様を持つ数百のモデルを包含するmetaのような広範囲なシステムで拡大され、各モデルに対するユーザ表現学習のカスタマイズが非現実的になる。 これらの課題に対処するため、数百の広告モデルにわたるオンラインユーザ表現の効率的かつスケーラブルな共有を容易にするために、Metaの広告ランキングシステムに広くデプロイされているフレームワークであるScaling User Modeling (SUM)を紹介した。 SUMはいくつかの指定された上流ユーザーモデルを活用し、高度なモデリング技術を用いて大量のユーザー機能からユーザー埋め込みを合成する。 これらの埋め込みは、下流のオンライン広告ランキングモデルへのインプットとなり、効率的な表現共有を促進する。 ユーザ機能の動的な性質に適応し、新鮮さを確保するために、sum online asynchronous platform(soap)を設計しました。これは、モデル鮮度と組み込み安定化を補完する、レイテンシフリーなオンラインサービスシステムで、ユーザーモデルの頻繁な更新と各ユーザ要求に対するユーザ埋め込みのオンライン推論を可能にします。 我々は、SUMフレームワークのハンズオンデプロイメント経験を共有し、包括的な実験を通じてその優位性を検証する。 これまでSUMはMetaの数百の広告ランキングモデルでローンチされ、毎日数十億のユーザーリクエストを処理している。

Effective user representations are pivotal in personalized advertising. However, stringent constraints on training throughput, serving latency, and memory, often limit the complexity and input feature set of online ads ranking models. This challenge is magnified in extensive systems like Meta's, which encompass hundreds of models with diverse specifications, rendering the tailoring of user representation learning for each model impractical. To address these challenges, we present Scaling User Modeling (SUM), a framework widely deployed in Meta's ads ranking system, designed to facilitate efficient and scalable sharing of online user representation across hundreds of ads models. SUM leverages a few designated upstream user models to synthesize user embeddings from massive amounts of user features with advanced modeling techniques. These embeddings then serve as inputs to downstream online ads ranking models, promoting efficient representation sharing. To adapt to the dynamic nature of user features and ensure embedding freshness, we designed SUM Online Asynchronous Platform (SOAP), a latency free online serving system complemented with model freshness and embedding stabilization, which enables frequent user model updates and online inference of user embeddings upon each user request. We share our hands-on deployment experiences for the SUM framework and validate its superiority through comprehensive experiments. To date, SUM has been launched to hundreds of ads ranking models in Meta, processing hundreds of billions of user requests daily, yielding significant online metric gains and infrastructure cost savings.
翻訳日:2023-11-17 16:37:23 公開日:2023-11-16
# ビデオ型ヒューマン・ポースと形状回復のための時間認識リファインメント

Temporal-Aware Refinement for Video-based Human Pose and Shape Recovery ( http://arxiv.org/abs/2311.09543v1 )

ライセンス: Link先を確認
Ming Chen, Yan Zhou, Weihua Jian, Pengfei Wan, Zhongyuan Wang(参考訳) 近年,ヒトのポーズと単眼rgb画像からの形状回復の著しい進歩がみられたが,映像から高精度かつ時間的一貫性のある3次元動作を得ることは課題である。 既存の映像ベース手法は、詳細な表現能力の欠如と再構成精度の制限があるグローバル画像特徴から人間の動きを再構築する傾向がある。 本稿では,時間認識のグローバル画像とローカル画像の特徴を同期的に探索し,正確なポーズと形状回復を行うための時間認識精製ネットワーク(TAR)を提案する。 まず、静的特徴列から時間的大域的特徴を得るためにグローバルトランスフォーマエンコーダを導入する。 第2に、双方向のconvgruネットワークは、高分解能特徴マップのシーケンスを入力として入力し、高分解能を保ち、人体の局所運動をキャプチャする時間的局所特徴マップを出力する。 最後に,グローバル時空間情報と局所時空間情報の両方を利用して,推定smplパラメータを反復的に更新し,正確かつ円滑な結果を得る。 広範な実験により,3dpw,mpi-inf-3dhp,human3.6mといった一般的なベンチマークにおいて,従来の最先端手法よりも精度の高い結果が得られることが示された。

Though significant progress in human pose and shape recovery from monocular RGB images has been made in recent years, obtaining 3D human motion with high accuracy and temporal consistency from videos remains challenging. Existing video-based methods tend to reconstruct human motion from global image features, which lack detailed representation capability and limit the reconstruction accuracy. In this paper, we propose a Temporal-Aware Refining Network (TAR), to synchronously explore temporal-aware global and local image features for accurate pose and shape recovery. First, a global transformer encoder is introduced to obtain temporal global features from static feature sequences. Second, a bidirectional ConvGRU network takes the sequence of high-resolution feature maps as input, and outputs temporal local feature maps that maintain high resolution and capture the local motion of the human body. Finally, a recurrent refinement module iteratively updates estimated SMPL parameters by leveraging both global and local temporal information to achieve accurate and smooth results. Extensive experiments demonstrate that our TAR obtains more accurate results than previous state-of-the-art methods on popular benchmarks, i.e., 3DPW, MPI-INF-3DHP, and Human3.6M.
翻訳日:2023-11-17 16:36:55 公開日:2023-11-16
# 質問応答における実用的意識:母子保健を事例として

Towards Pragmatic Awareness in Question Answering: A Case Study in Maternal and Infant Health ( http://arxiv.org/abs/2311.09542v1 )

ライセンス: Link先を確認
Neha Srikanth, Rupak Sarkar, Rachel Rudinger, Jordan Boyd-Graber(参考訳) 情報検索ユーザーによる質問は、しばしば暗黙の虚偽または潜在的に有害な仮定を含む。 母親や幼児の健康などのリスクの高い領域では、質問応答システムはこれらの現実的な制約を認識し、単にユーザーの質問に答えるだけでなく、文脈でそれらを調べて役に立つ対応をしなければならない。 そこで我々は,母親が妊娠と乳幼児ケアについて質問したときの実践的推論について検討した。 これらの疑問のいくつかの推論は、既存の方法による検出を回避し、危険な健康や政策に影響を及ぼす可能性のあるQAシステムに対処できないリスクを負う。 本研究では,大規模言語モデルを用いた質問からの推論の検出可能性について検討し,既存のQAパイプラインに実用的推論を施すことによって,有害な信念の伝播を緩和する応答が生じることを示す。

Questions posed by information-seeking users often contain implicit false or potentially harmful assumptions. In a high-risk domain such as maternal and infant health, a question-answering system must recognize these pragmatic constraints and go beyond simply answering user questions, examining them in context to respond helpfully. To achieve this, we study pragmatic inferences made when mothers ask questions about pregnancy and infant care. Some of the inferences in these questions evade detection by existing methods, risking the possibility of QA systems failing to address them which can have dangerous health and policy implications. We explore the viability of detecting inferences from questions using large language models and illustrate that informing existing QA pipelines with pragmatic inferences produces responses that can mitigate the propagation of harmful beliefs.
翻訳日:2023-11-17 16:36:29 公開日:2023-11-16
# fedfusion:マルチサテライトとマルチモダリティ融合のための多様体駆動フェデレーション学習

FedFusion: Manifold Driven Federated Learning for Multi-satellite and Multi-modality Fusion ( http://arxiv.org/abs/2311.09540v1 )

ライセンス: Link先を確認
DaiXun Li, Weiying Xie, Yunsong Li, Leyuan Fang(参考訳) マルチサテライト・マルチモダリティ・イン・オービタ融合は、限られた計算資源の下で複雑な高次元データの融合表現を研究するため、難しい課題である。 深層ニューラルネットワークは、マルチモーダルリモートセンシングデータの基盤となる分布を明らかにすることができるが、特に非独立な同一分布(Non-IID)に従えば、異なるセンサイメージング特性の制限のため、マルチモーダルデータの軌道内融合はより困難である。 分類性能を維持しながらこの問題に対処するため,各クライアント上の局所データをランダムにサンプリングし,各クライアントの浅い特徴の卓越した多様体構造を推定し,その後の分類器の特徴入力として使用されるカスケーディングおよび付加的アプローチにより,特徴行列を低ランク部分空間に明示的に圧縮するFedFusionを提案する。 衛星コンステレーションの物理空間制限を考慮し、深層潜伏空間における多様体データに特化して設計されたマルチモーダル・フェデレーション学習モジュールを開発した。 このモジュールは、グローバル重み付け平均化によって各クライアントのサブネットワークパラメータの反復更新を実現し、各クライアントのコンパクトな表現を表現するフレームワークを構築する。 提案フレームワークは,従来の3つのマルチモーダルデータセットの性能を上回り,通信コストを4.5%圧縮しながら,分類平均精度94.35$\%を達成している。 さらに,jetson tx2産業モジュールに基づく軌道上エッジコンピューティングアーキテクチャを用いて,実世界の衛星画像の広範な数値評価を行い,精度を最適化しながら,フェドフュージョンによりトレーニング時間を48.4分(15.18%)削減できることを実証した。 }

Multi-satellite, multi-modality in-orbit fusion is a challenging task as it explores the fusion representation of complex high-dimensional data under limited computational resources. Deep neural networks can reveal the underlying distribution of multi-modal remote sensing data, but the in-orbit fusion of multimodal data is more difficult because of the limitations of different sensor imaging characteristics, especially when the multimodal data follows non-independent identically distribution (Non-IID) distributions. To address this problem while maintaining classification performance, this paper proposes a manifold-driven multi-modality fusion framework, FedFusion, which randomly samples local data on each client to jointly estimate the prominent manifold structure of shallow features of each client and explicitly compresses the feature matrices into a low-rank subspace through cascading and additive approaches, which is used as the feature input of the subsequent classifier. Considering the physical space limitations of the satellite constellation, we developed a multimodal federated learning module designed specifically for manifold data in a deep latent space. This module achieves iterative updating of the sub-network parameters of each client through global weighted averaging, constructing a framework that can represent compact representations of each client. The proposed framework surpasses existing methods in terms of performance on three multimodal datasets, achieving a classification average accuracy of 94.35$\%$ while compressing communication costs by a factor of 4. Furthermore, extensive numerical evaluations of real-world satellite images were conducted on the orbiting edge computing architecture based on Jetson TX2 industrial modules, which demonstrated that FedFusion significantly reduced training time by 48.4 minutes (15.18%) while optimizing accuracy.}
翻訳日:2023-11-17 16:36:14 公開日:2023-11-16
# 多段階対話ワークフロー動作予測

Multi-Step Dialogue Workflow Action Prediction ( http://arxiv.org/abs/2311.09593v1 )

ライセンス: Link先を確認
Ramya Ramakrishnan, Ethan Elenberg, Hashan Narangodage, Ryan McDonald(参考訳) タスク指向の対話において、システムは、タスクを完了させるために一連のガイドラインに従うワークフローと呼ばれる一連のアクションに従う必要があることが多い。 本稿では、システムが複数のワークフローアクションを予測できるマルチステップワークフローアクション予測の新たな問題を提案する。 複数のステップの正確な予測により、マルチターン自動化が可能になり、より複雑なタスクに集中するための時間を解放することができる。 実装が簡単でありながら、よりアクション自動化につながる3つのモデリングアプローチを提案する。 1) トレーニングデータセットの微調整 2)検索と大規模言語モデルを活用した少数ショットインコンテキスト学習 3) 過去のアクションシーケンスをグラフに集約して予測するゼロショットグラフトラバース。 マルチステップ動作予測は、タスク成功の予測のような下流対話タスクの精度を向上させる機能を生成し、システムを監視する人間からのフィードバックを必要とせず、ステップの自動化を20%向上させることができることを示す。

In task-oriented dialogue, a system often needs to follow a sequence of actions, called a workflow, that complies with a set of guidelines in order to complete a task. In this paper, we propose the novel problem of multi-step workflow action prediction, in which the system predicts multiple future workflow actions. Accurate prediction of multiple steps allows for multi-turn automation, which can free up time to focus on more complex tasks. We propose three modeling approaches that are simple to implement yet lead to more action automation: 1) fine-tuning on a training dataset, 2) few-shot in-context learning leveraging retrieval and large language model prompting, and 3) zero-shot graph traversal, which aggregates historical action sequences into a graph for prediction. We show that multi-step action prediction produces features that improve accuracy on downstream dialogue tasks like predicting task success, and can increase automation of steps by 20% without requiring as much feedback from a human overseeing the system.
翻訳日:2023-11-17 16:27:42 公開日:2023-11-16
# 閾値駆動型ハイブリッド獲得ポリシーに基づくベイズ最適化による物質発見の促進

Accelerating material discovery with a threshold-driven hybrid acquisition policy-based Bayesian optimization ( http://arxiv.org/abs/2311.09591v1 )

ライセンス: Link先を確認
Ahmed Shoyeb Raihan, Hamed Khosravi, Srinjoy Das, Imtiaz Ahmed(参考訳) 材料の進歩は技術進歩において重要な役割を担っている。 しかし, 所望の特性を持つ材料を発見・開発するプロセスは, かなりの実験コスト, 資源利用量, 開発期間の長期化などによって阻害されることがしばしばある。 これらの課題に対処するために、最近のアプローチでは、ベイズ最適化(bo)のような機械学習(ml)技術が採用され、最適な材料探索を、最も有益な結果をもたらす可能性のある実験を反復的に選択することによって合理化する。 しかし、従来のBO法は有益であるが、しばしば探検と搾取の間のトレードオフのバランスに苦慮し、物質発見プロセスにおける準最適性能をもたらす。 本稿では,新しいしきい値駆動型ucb-eiベイズ最適化(tdue-bo)法を提案する。 従来のBOとは異なり,本手法は高次元材料設計空間(MDS)の効率的なナビゲーションに重点を置いている。 TDUE-BO は、探査に焦点を当てた UCB アプローチから始まり、MDS の包括的な初期掃討を保証する。 モデルの信頼性が向上するにつれて、不確実性の低減によって示されるように、より搾取的なEI手法に移行する。 UCB-to-EI切替ポリシーは, 連続サンプリングの各段階におけるモデル不確かさの連続的なモニタリングを通じて誘導され, 高速収束を確保しつつMDSを効率的に通過する。 TDUE-BOの有効性は, RMSEスコアと収束効率の点で, EI法, UCB法, BO法に比較して有意に優れた近似と最適化性能を示した。

Advancements in materials play a crucial role in technological progress. However, the process of discovering and developing materials with desired properties is often impeded by substantial experimental costs, extensive resource utilization, and lengthy development periods. To address these challenges, modern approaches often employ machine learning (ML) techniques such as Bayesian Optimization (BO), which streamline the search for optimal materials by iteratively selecting experiments that are most likely to yield beneficial results. However, traditional BO methods, while beneficial, often struggle with balancing the trade-off between exploration and exploitation, leading to sub-optimal performance in material discovery processes. This paper introduces a novel Threshold-Driven UCB-EI Bayesian Optimization (TDUE-BO) method, which dynamically integrates the strengths of Upper Confidence Bound (UCB) and Expected Improvement (EI) acquisition functions to optimize the material discovery process. Unlike the classical BO, our method focuses on efficiently navigating the high-dimensional material design space (MDS). TDUE-BO begins with an exploration-focused UCB approach, ensuring a comprehensive initial sweep of the MDS. As the model gains confidence, indicated by reduced uncertainty, it transitions to the more exploitative EI method, focusing on promising areas identified earlier. The UCB-to-EI switching policy dictated guided through continuous monitoring of the model uncertainty during each step of sequential sampling results in navigating through the MDS more efficiently while ensuring rapid convergence. The effectiveness of TDUE-BO is demonstrated through its application on three different material datasets, showing significantly better approximation and optimization performance over the EI and UCB-based BO methods in terms of the RMSE scores and convergence efficiency, respectively.
翻訳日:2023-11-17 16:27:28 公開日:2023-11-16
# marformer : 歯科用cbct画像用効率的な金属アーティファクト低減トランス

MARformer: An Efficient Metal Artifact Reduction Transformer for Dental CBCT Images ( http://arxiv.org/abs/2311.09590v1 )

ライセンス: Link先を確認
Yuxuan Shi, Jun Xu, Dinggang Shen(参考訳) Cone Beam Computed Tomography (CBCT) は歯科診断と手術において重要な役割を担っている。 しかし、金属歯のインプラントは、cbctイメージングプロセス中に煩わしい金属アーティファクトをもたらし、診断と歯の分断などの下流処理を妨害する可能性がある。 本稿では歯科用CBCT画像から金属アーチファクト低減(MAR)を実現するための効率的なトランスフォーマーを開発する。 提案したMAR変換器(MARformer)は、CBCT画像がグローバルに類似した構造を持つことに基づいて、新しいDmension-Reduced Self-Attention (DRSA)モジュールにより、マルチヘッド自己アテンションの計算複雑性を低減する。 また,細粒度復元のために局所画像情報を知覚するパッチワイズフィードフォワードネットワーク (p2ffn) も提案している。 合成および実世界の金属人工物を用いたcbct画像における実験結果から,marformerの効率は従来のmar法と2つの修復変圧器よりも優れていた。

Cone Beam Computed Tomography (CBCT) plays a key role in dental diagnosis and surgery. However, the metal teeth implants could bring annoying metal artifacts during the CBCT imaging process, interfering diagnosis and downstream processing such as tooth segmentation. In this paper, we develop an efficient Transformer to perform metal artifacts reduction (MAR) from dental CBCT images. The proposed MAR Transformer (MARformer) reduces computation complexity in the multihead self-attention by a new Dimension-Reduced Self-Attention (DRSA) module, based on that the CBCT images have globally similar structure. A Patch-wise Perceptive Feed Forward Network (P2FFN) is also proposed to perceive local image information for fine-grained restoration. Experimental results on CBCT images with synthetic and real-world metal artifacts show that our MARformer is efficient and outperforms previous MAR methods and two restoration Transformers.
翻訳日:2023-11-17 16:26:50 公開日:2023-11-16
# 磁気・電気機械センサを用いたバックアクション回避受信機

A general approach to backaction-evading receivers with magnetomechanical and electromechanical sensors ( http://arxiv.org/abs/2311.09587v1 )

ライセンス: Link先を確認
Brittany Richman, Sohitri Ghosh, Daniel Carney, Gerard Higgins, Peter Shawhan, C. J. Lobb, Jacob M. Taylor(参考訳) 今日のメカニカルセンサーは、標準量子限界付近で動作しながら非常に弱い摂動を検出することができる。 しかし、測定の過程から生じるノイズ(測定の量子力学的バックアクション)を低減し、この「標準」限界を下回って、おそらくハイゼンベルク限界に近づくと、感度と帯域幅の両方でさらなる改善ができる。 このノイズを除去する方法の1つは、自由粒子系の運動量のような量子非劣化変数を測定することである。 そこで本研究では,従来の電気・磁気トランスデューサ設計を用いた直接速度測定のための理論モデルを提案し,その特性について述べる。 この信号の一般読み出しは, 標準光学的位置検出問題に類似した玩具モデルを作成し, 計測付加ノイズの評価を容易にすることで, 電場または磁界センサを介して行う。 広い範囲のトランスデューサを特徴付ける単純なモデルを用いることで、メカニカル検出器の構成ごとに読み出し方式 -- 電圧または電流 -- を選択すると、メカニカルサブシステムの位置または速度のいずれかにアクセスできることが分かる。 このことは、ダークマター粒子の直接検出のような重要な物理実験への道のりを示唆している。

Today's mechanical sensors are capable of detecting extremely weak perturbations while operating near the standard quantum limit. However, further improvements can be made in both sensitivity and bandwidth when we reduce the noise originating from the process of measurement itself -- the quantum-mechanical backaction of measurement -- and go below this 'standard' limit, possibly approaching the Heisenberg limit. One of the ways to eliminate this noise is by measuring a quantum nondemolition variable such as the momentum in a free-particle system. Here, we propose and characterize theoretical models for direct velocity measurement that utilize traditional electric and magnetic transducer designs to generate a signal while enabling this backaction evasion. We consider the general readout of this signal via electric or magnetic field sensing by creating toy models analogous to the standard optomechanical position-sensing problem, thereby facilitating the assessment of measurement-added noise. Using simple models that characterize a wide range of transducers, we find that the choice of readout scheme -- voltage or current -- for each mechanical detector configuration implies access to either the position or velocity of the mechanical sub-system. This in turn suggests a path forward for key fundamental physics experiments such as the direct detection of dark matter particles.
翻訳日:2023-11-17 16:26:29 公開日:2023-11-16
# LifeTox:ライフアドバイザの有害毒性を明らかにする

LifeTox: Unveiling Implicit Toxicity in Life Advice ( http://arxiv.org/abs/2311.09585v1 )

ライセンス: Link先を確認
Minbeom Kim, Jahyun Koo, Hwanhee Lee, Joonsuk Park, Hwaran Lee, Kyomin Jung(参考訳) 大きな言語モデルが日々の生活にますます統合されるにつれて、様々な文脈で暗黙的な毒性を検出することが重要である。 この目的のために、幅広いアドバイス検索シナリオ内で暗黙的な毒性を特定するために設計されたデータセットであるLifeToxを紹介する。 既存の安全データセットとは異なり、LifeToxはオープンな質問を通じて個人体験から派生したさまざまなコンテキストで構成されている。 実験により、LifeToxで微調整されたRoBERTaは、毒性分類タスクにおいて、大きな言語モデルのゼロショット性能にマッチするか、超えることを示した。 これらの結果は、暗黙の毒性に内在する複雑な課題に対処する際にlifetoxの有効性を強調する。

As large language models become increasingly integrated into daily life, detecting implicit toxicity across diverse contexts is crucial. To this end, we introduce LifeTox, a dataset designed for identifying implicit toxicity within a broad range of advice-seeking scenarios. Unlike existing safety datasets, LifeTox comprises diverse contexts derived from personal experiences through open-ended questions. Experiments demonstrate that RoBERTa fine-tuned on LifeTox matches or surpasses the zero-shot performance of large language models in toxicity classification tasks. These results underscore the efficacy of LifeTox in addressing the complex challenges inherent in implicit toxicity.
翻訳日:2023-11-17 16:26:05 公開日:2023-11-16
# GPT-4による医用テキスト評価の強化

Enhancing Medical Text Evaluation with GPT-4 ( http://arxiv.org/abs/2311.09581v1 )

ライセンス: Link先を確認
Yiqing Xie, Sheng Zhang, Hao Cheng, Zelalem Gero, Cliff Wong, Tristan Naumann, Hoifung Poon(参考訳) 医用テキスト生成の評価においては,各情報を精査し,評価の正確性を確保することが不可欠である。 既存の評価指標は、出力全体に対して1点のスコアを割り当てる粗いレベル評価にフォーカスするか、一般的な領域で訓練された評価モデルに依存するかのいずれかであり、医療領域に適応する際の不正確な結果となる。 そこで本研究では, 医用テキスト生成のためのファクトリティー中心の評価手法と対応するgpt-4ベースのメトリクスの設計を提案する。 臨床ノート作成や医療報告要約タスクにおいて,これらの指標を既存の指標と体系的に比較し,低相関性を示した。 総合的な人的評価では、提案したGPT-4ベースの指標は、既存の評価指標よりも人的判断とかなり高い一致を示した。 本研究は,医療用テキスト生成評価の理解に寄与し,既存の指標よりも信頼性の高い代替手段を提供する。

In the evaluation of medical text generation, it is essential to scrutinize each piece of information and ensure the utmost accuracy of the evaluation. Existing evaluation metrics either focus on coarse-level evaluation that assigns one score for the whole generated output or rely on evaluation models trained on general domain, resulting in inaccuracies when adapted to the medical domain. To address these issues, we propose a set of factuality-centric evaluation aspects and design corresponding GPT-4-based metrics for medical text generation. We systematically compare these metrics with existing ones on clinical note generation and medical report summarization tasks, revealing low inter-metric correlation. A comprehensive human evaluation confirms that the proposed GPT-4-based metrics exhibit substantially higher agreement with human judgments than existing evaluation metrics. Our study contributes to the understanding of medical text generation evaluation and offers a more reliable alternative to existing metrics.
翻訳日:2023-11-17 16:25:55 公開日:2023-11-16
# mmoe:マルチモーダルインタラクションの専門家の混合

MMOE: Mixture of Multimodal Interaction Experts ( http://arxiv.org/abs/2311.09580v1 )

ライセンス: Link先を確認
Haofei Yu, Paul Pu Liang, Ruslan Salakhutdinov, Louis-Philippe Morency(参考訳) 様々な入力モダリティに関する情報とインタラクションを研究するマルチモーダル機械学習は、画像と記述テキストの関係を理解する上で大きな進歩を遂げている。 しかし、これは現実世界で見られる潜在的なマルチモーダルな相互作用の一部に過ぎず、例えばサルカズムの予測において、対立する発話とジェスチャーの間の新たな相互作用は含まない。 特に、共有情報をキャプチャする現在の手法は、これらのよりニュアンスな相互作用にうまく及ばず、時にはバイナリ分類において50%の低性能を示す。 本稿では,マルチモーダルインタラクションの専門家の混在を念頭に,MMOEと呼ばれる新しいアプローチを用いてこの問題に対処する。 本手法は, ラベルのないマルチモーダルデータセットから, 対話タイプによって自動的にデータポイントを分類し, それぞれのインタラクションに特化モデルを用いる。 実験結果から,本手法は,これらの課題のあるインタラクションのパフォーマンスを10%以上向上させ,皮肉な予測などのタスクに対して全体の2%向上をもたらす。 その結果、インタラクションの定量化はデータセット分析に新たな洞察を与え、最先端のパフォーマンスを得るためのシンプルなアプローチをもたらす。

Multimodal machine learning, which studies the information and interactions across various input modalities, has made significant advancements in understanding the relationship between images and descriptive text. However, this is just a portion of the potential multimodal interactions seen in the real world and does not include new interactions between conflicting utterances and gestures in predicting sarcasm, for example. Notably, the current methods for capturing shared information often do not extend well to these more nuanced interactions, sometimes performing as low as 50% in binary classification. In this paper, we address this problem via a new approach called MMOE, which stands for a mixture of multimodal interaction experts. Our method automatically classifies data points from unlabeled multimodal datasets by their interaction type and employs specialized models for each specific interaction. Based on our experiments, this approach improves performance on these challenging interactions by more than 10%, leading to an overall increase of 2% for tasks like sarcasm prediction. As a result, interaction quantification provides new insights for dataset analysis and yields simple approaches that obtain state-of-the-art performance.
翻訳日:2023-11-17 16:25:37 公開日:2023-11-16
# LMのパラメトリック知識によるコンテキスト内例の作成

Crafting In-context Examples according to LMs' Parametric Knowledge ( http://arxiv.org/abs/2311.09579v1 )

ライセンス: Link先を確認
Yoonsang Lee, Pranav Atreya, Xi Ye, Eunsol Choi(参考訳) インコンテキスト学習は、質問応答のような知識豊富なタスクに適用されている。 このようなシナリオでは、インコンテキストの例を使って言語モデルの振る舞いをトリガーする。 文脈内例集合の構成を,文脈内例に関するモデルのパラメトリック知識に着目して検討する。 モデルがそのパラメトリックな知識から正しく答えられる'既知の'例と'未知の'例を識別する。 実験の結果, パラメトリックな知識を探索するよりも, 幻覚の促進に寄与するため, 未知例の促進が性能を低下させる可能性が示唆された。 既知の情報と未知の情報の両方を表示するコンテキスト内サンプルセットの構築は、さまざまな設定でベストを尽くします。 我々は3つの質問応答データセットの分析を行い、各回答に関するLMの知識に基づいて回答セット順序付け戦略をさらに研究することができる。 共に、知識豊富なタスクのためのコンテキスト内サンプルセットを最善に構築する方法を考察する。

In-context learning has been applied to knowledge-rich tasks such as question answering. In such scenarios, in-context examples are used to trigger a behaviour in the language model: namely, it should surface information stored in its parametric knowledge. We study the construction of in-context example sets, with a focus on the parametric knowledge of the model regarding in-context examples. We identify 'known' examples, where models can correctly answer from its parametric knowledge, and 'unknown' ones. Our experiments show that prompting with 'unknown' examples decreases the performance, potentially as it encourages hallucination rather than searching its parametric knowledge. Constructing an in-context example set that presents both known and unknown information performs the best across diverse settings. We perform analysis on three multi-answer question answering datasets, which allows us to further study answer set ordering strategies based on the LM's knowledge about each answer. Together, our study sheds lights on how to best construct in-context example sets for knowledge-rich tasks.
翻訳日:2023-11-17 16:25:18 公開日:2023-11-16
# Tied-Lora: 重み付けによるLoRAのパラメータ効率向上

Tied-Lora: Enhacing parameter efficiency of LoRA with weight tying ( http://arxiv.org/abs/2311.09578v1 )

ライセンス: Link先を確認
Adithya Renduchintala, Tugrul Konuk, Oleksii Kuchaiev(参考訳) 低ランク適応法 (LoRA) のパラメータ効率をさらに高めるために, 重み付けと選択訓練を利用した簡単なパラダイムであるTied-LoRAを提案する。 本研究は,性能と学習可能なパラメータ数との最適なバランスを特定するために,重み付けと組み合わせてパラメータのトレーニング/フリーズを行う。 様々なタスクと2つの基本言語モデルに関する実験を通じて、効率と性能のトレードオフを明らかにする分析を提供する。 実験では,標準のLoRA法で使用されるパラメータの13~5%しか使用せず,複数のタスクに比較した性能を示すことで,特筆すべきTied-LoRA構成を明らかにした。

We propose Tied-LoRA, a simple paradigm utilizes weight tying and selective training to further increase parameter efficiency of the Low-rank adaptation (LoRA) method. Our investigations include all feasible combinations parameter training/freezing in conjunction with weight tying to identify the optimal balance between performance and the number of trainable parameters. Through experiments covering a variety of tasks and two base language models, we provide analysis revealing trade-offs between efficiency and performance. Our experiments uncovered a particular Tied-LoRA configuration that stands out by demonstrating comparable performance across several tasks while employing only 13~\% percent of parameters utilized by the standard LoRA method.
翻訳日:2023-11-17 16:25:00 公開日:2023-11-16
# ワークステート中心AIエージェント:認知作業スレッドの設計、実装、管理

Work State-Centric AI Agents: Design, Implementation, and Management of Cognitive Work Threads ( http://arxiv.org/abs/2311.09576v1 )

ライセンス: Link先を確認
Chen Zhang(参考訳) aiエージェントは事前定義されたタスクの実行に優れていますが、タスク実行中の作業状態情報の動的管理は未調査領域のままです。 本稿では,タスク実行中の状態を記録・反映するために,作業ノートを用いた作業状態中心AIエージェントモデルを提案する。 本稿では,タスク監視のためのworkerスレッド,タスク分割と計画のためのplannerモジュール,reactにインスパイアされた思考行動ループを用いたサブタスクを実行するexecutorモジュールを特徴とする,モデルのアーキテクチャについて述べる。 我々は、総合的なワークジャーナルを構成する計画と成果を取り入れた、徹底的な作業状態記録を提供する。 その結果,本モデルはタスク実行効率を向上するだけでなく,その後のタスク分析と監査の基盤となることが示唆された。

AI agents excel in executing predefined tasks, but the dynamic management of work state information during task execution remains an underexplored area. We propose a work state-centric AI agent model employing "work notes" to record and reflect the state throughout task execution. This paper details the model's architecture, featuring worker threads for task oversight, planner modules for task decomposition and planning, and executor modules for performing subtasks using a ReAct-inspired thought-action loop. We provide an exhaustive work state record incorporating plans and outcomes, constituting a comprehensive work journal. Our results show that this model not only improves task execution efficiency but also lays a solid foundation for subsequent task analysis and auditing.
翻訳日:2023-11-17 16:24:46 公開日:2023-11-16
# LymphoML:リンパ腫の亜型と相関する形態学的特徴を解釈可能な人工知能に基づく同定法

LymphoML: An interpretable artificial intelligence-based method identifies morphologic features that correlate with lymphoma subtype ( http://arxiv.org/abs/2311.09574v1 )

ライセンス: Link先を確認
Vivek Shankar, Xiaoli Yang, Vrishab Krishna, Brent Tan, Oscar Silva, Rebecca Rojansky, Andrew Ng, Fabiola Valvert, Edward Briercheck, David Weinstock, Yasodha Natkunam, Sebastian Fernandez-Pol, Pranav Rajpurkar(参考訳) ヘマトキシリンおよびエオシン(H&E)染色組織を用いたリンパ腫サブタイプの正確な分類は、これらのがんが示す様々な形態学的特徴によって複雑である。 LymphoMLは,リンパ腫のサブタイプと相関する形態的特徴を識別する,解釈可能な機械学習手法である。 本手法は,h&e染色組織マイクロアレイコア,セグメント核および細胞を処理し,形態,テクスチャおよびアーキテクチャを包含する特徴を計算し,勾配強調モデルを訓練して診断予測を行う。 LymphoMLの解釈可能なモデルは、限られた量のH&E染色組織に基づいて開発され、グアテマラから8種類のリンパ腫の亜型にまたがる670件のデータセットで、全スライディング画像とブラックボックスの深層学習を用いて、病理医に非臨床診断精度を実現する。 shapley additive description (shap) 分析を用いて,各特徴のモデル予測への影響を評価し,dlbcl (f1-score: 78.7%) と古典的ホジキンリンパ腫 (f1-score: 74.5%) の核形態特徴を識別する。 最後に,H&E陽性組織の特徴と6つの免疫染色の標準化パネルの特徴を組み合わせたモデルが,同様の診断精度(85.3%)から46染色パネル(86.1%)に至ることを初めて示す。

The accurate classification of lymphoma subtypes using hematoxylin and eosin (H&E)-stained tissue is complicated by the wide range of morphological features these cancers can exhibit. We present LymphoML - an interpretable machine learning method that identifies morphologic features that correlate with lymphoma subtypes. Our method applies steps to process H&E-stained tissue microarray cores, segment nuclei and cells, compute features encompassing morphology, texture, and architecture, and train gradient-boosted models to make diagnostic predictions. LymphoML's interpretable models, developed on a limited volume of H&E-stained tissue, achieve non-inferior diagnostic accuracy to pathologists using whole-slide images and outperform black box deep-learning on a dataset of 670 cases from Guatemala spanning 8 lymphoma subtypes. Using SHapley Additive exPlanation (SHAP) analysis, we assess the impact of each feature on model prediction and find that nuclear shape features are most discriminative for DLBCL (F1-score: 78.7%) and classical Hodgkin lymphoma (F1-score: 74.5%). Finally, we provide the first demonstration that a model combining features from H&E-stained tissue with features from a standardized panel of 6 immunostains results in a similar diagnostic accuracy (85.3%) to a 46-stain panel (86.1%).
翻訳日:2023-11-17 16:24:31 公開日:2023-11-16
# 位相共変ガウスチャネルのメタ対数-ソボレフ不等式

A Meta Logarithmic-Sobolev Inequality for Phase-Covariant Gaussian Channels ( http://arxiv.org/abs/2311.09572v1 )

ライセンス: Link先を確認
Salman Beigi, Saleh Rahimi-Keshari(参考訳) ボソニック量子系の全ての単モード位相共変ガウスチャネルのリンドブラジアンに対するメタ対数ソボレフ不等式を導入し、この不等式が熱状態によって飽和していることを証明する。 我々の不等式は相共変ガウスチャネルに関する情報理論結果を導出するための一般的な枠組みを提供する。 具体的には、熱状態の最適性を用いて、量子 ornstein-uhlenbeck 半群に関連する $p$-log-sobolev の不等式である 1\leq p\leq 2$ に対して、最適定数 $\alpha_p$ を明示的に計算する。 これらの定数は以前は$p=1$で知られていた。 メタログソボレフの不等式はまた、単一モードの場合の制約最小出力エントロピー予想に対する代替の証明を与えることもできる。 具体的には、任意の単モード位相共変ガウスチャネル $\Phi$ に対して、任意の単モード状態 $\rho$ 上のフォン・ノイマンエントロピー $S\big(\Phi(\rho)\big)$ の最小値$S(\rho)$ が熱状態で達成されることを示す。

We introduce a meta logarithmic-Sobolev (log-Sobolev) inequality for the Lindbladian of all single-mode phase-covariant Gaussian channels of bosonic quantum systems, and prove that this inequality is saturated by thermal states. We show that our inequality provides a general framework to derive information theoretic results regarding phase-covariant Gaussian channels. Specifically, by using the optimality of thermal states, we explicitly compute the optimal constant $\alpha_p$, for $1\leq p\leq 2$, of the $p$-log-Sobolev inequality associated to the quantum Ornstein-Uhlenbeck semigroup. These constants were previously known for $p=1$ only. Our meta log-Sobolev inequality also enables us to provide an alternative proof for the constrained minimum output entropy conjecture in the single-mode case. Specifically, we show that for any single-mode phase-covariant Gaussian channel $\Phi$, the minimum of the von Neumann entropy $S\big(\Phi(\rho)\big)$ over all single-mode states $\rho$ with a given lower bound on $S(\rho)$, is achieved at a thermal state.
翻訳日:2023-11-17 16:24:05 公開日:2023-11-16
# 3dペイントブラシ:カスケードスコア蒸留による3d形状の局所スタイライゼーション

3D Paintbrush: Local Stylization of 3D Shapes with Cascaded Score Distillation ( http://arxiv.org/abs/2311.09571v1 )

ライセンス: Link先を確認
Dale Decatur, Itai Lang, Kfir Aberman, Rana Hanocka(参考訳) 本研究では,メッシュ上の局所的な意味領域を自動的にテキスト化する手法である3dペイントブラシを開発した。 本手法はメッシュ上で直接動作するように設計され,標準グラフィックスパイプラインにシームレスに統合されたテクスチャマップを生成する。 我々は, (編集領域を特定するために) ローカライズマップとそれに対応するテクスチャマップを同時に作成することを選んだ。 この相乗的アプローチは、ローカライゼーションとスタイリゼーションの両方の品質を改善する。 テクスチャ化された領域の詳細と解像度を高めるために,カスケード拡散モデルの複数の段階を活用して,画像から異なる解像度で学習した生成前の編集技術を監督する。 本手法はCSD (Cascaded Score Distillation) と呼ばれ, カスカデド方式で複数の解像度のスコアを同時に蒸留することにより, 監督の粒度とグローバルな理解の両面を制御できる。 異なる意味領域における形状の局所的テクスチャ化における3Dペイントブラシの有効性を示す。 プロジェクトページ: https://threedle.github.io/3d-paintbrush

In this work we develop 3D Paintbrush, a technique for automatically texturing local semantic regions on meshes via text descriptions. Our method is designed to operate directly on meshes, producing texture maps which seamlessly integrate into standard graphics pipelines. We opt to simultaneously produce a localization map (to specify the edit region) and a texture map which conforms to it. This synergistic approach improves the quality of both the localization and the stylization. To enhance the details and resolution of the textured area, we leverage multiple stages of a cascaded diffusion model to supervise our local editing technique with generative priors learned from images at different resolutions. Our technique, referred to as Cascaded Score Distillation (CSD), simultaneously distills scores at multiple resolutions in a cascaded fashion, enabling control over both the granularity and global understanding of the supervision. We demonstrate the effectiveness of 3D Paintbrush to locally texture a variety of shapes within different semantic regions. Project page: https://threedle.github.io/3d-paintbrush
翻訳日:2023-11-17 16:23:35 公開日:2023-11-16
# ランダムサンプリングによるプロンプト最適化

Prompt Optimisation with Random Sampling ( http://arxiv.org/abs/2311.09569v1 )

ライセンス: Link先を確認
Yao Lu, Jiayi Wang, Sebastian Riedel, Pontus Stenetorp(参考訳) 言語モデルの生成特性を用いてタスク関連セパレータを生成すると、「TL;DR」のような人為的なプロンプトに比べて競合する結果が得られる。 セパレータとしての語彙からランダムに選択されたトークンでさえ、最先端に近いパフォーマンスを達成できることを実証する。 我々は、この現象を3つの異なるランダム生成戦略を用いて詳細に分析し、基礎となる言語モデルサイズに関係なく、言語空間が潜在的に良い分離子で豊かであることを示す。 これらの観察は、効果的なプロンプトが人間の可読性またはタスク関連性であるべきだという一般的な仮定に挑戦する。 実験結果から, ランダムセパレータの使用は, 7つの言語モデルにおいて, 9つのテキスト分類タスクに対して平均16%の相対的な改善をもたらすことが明らかとなった。

Using the generative nature of a language model to generate task-relevant separators has shown competitive results compared to human-curated prompts like "TL;DR". We demonstrate that even randomly chosen tokens from the vocabulary as separators can achieve near-state-of-the-art performance. We analyse this phenomenon in detail using three different random generation strategies, establishing that the language space is rich with potential good separators, regardless of the underlying language model size. These observations challenge the common assumption that an effective prompt should be human-readable or task-relevant. Experimental results show that using random separators leads to an average 16% relative improvement across nine text classification tasks on seven language models, compared to human-curated separators, and is on par with automatic prompt searching methods.
翻訳日:2023-11-17 16:23:16 公開日:2023-11-16
# LLMエージェントのネットワークによるオピニオンダイナミクスのシミュレーション

Simulating Opinion Dynamics with Networks of LLM-based Agents ( http://arxiv.org/abs/2311.09618v1 )

ライセンス: Link先を確認
Yun-Shiuan Chuang, Agam Goyal, Nikunj Harlalka, Siddharth Suresh, Robert Hawkins, Sijia Yang, Dhavan Shah, Junjie Hu, Timothy T. Rogers(参考訳) 人間の意見の正確なシミュレーションは、偏光や誤情報の拡散など、様々な社会現象を理解するために重要である。 しかしながら、そのようなシミュレーションに一般的に使用されるエージェントベースモデル(ABM)は人間の行動に対する忠実さを欠いている。 本稿では,Large Language Models (LLMs) の集団に基づく意見力学のシミュレーション手法を提案する。 以上の結果から,LSMエージェントの正確な情報に対するバイアスが強く,科学的現実と一致していることが明らかとなった。 しかし、このバイアスは、気候変動のような問題に対する抵抗的な見解を持つ個人のシミュレーションを制限する。 プロンプトエンジニアリングによる確認バイアスを誘発した後,既存のエージェントベース研究と一致して意見の断片化を観察した。 これらの洞察は、この領域におけるllmエージェントの約束と限界を強調し、前進を示唆している:人間の信念の進化をよりよくシミュレートするために、現実世界の談話でllmを洗練する。

Accurately simulating human opinion dynamics is crucial for understanding a variety of societal phenomena, including polarization and the spread of misinformation. However, the agent-based models (ABMs) commonly used for such simulations lack fidelity to human behavior. We propose a new approach to simulating opinion dynamics based on populations of Large Language Models (LLMs). Our findings reveal a strong inherent bias in LLM agents towards accurate information, leading to consensus in line with scientific reality. However, this bias limits the simulation of individuals with resistant views on issues like climate change. After inducing confirmation bias through prompt engineering, we observed opinion fragmentation in line with existing agent-based research. These insights highlight the promise and limitations of LLM agents in this domain and suggest a path forward: refining LLMs with real-world discourse to better simulate the evolution of human beliefs.
翻訳日:2023-11-17 16:15:45 公開日:2023-11-16
# 検索の強化と言語モデル学習の限界について

On Retrieval Augmentation and the Limitations of Language Model Training ( http://arxiv.org/abs/2311.09615v1 )

ライセンス: Link先を確認
Ting-Rui Chiang, Xinyan Velocity Yu, Joshua Robinson, Ollie Liu, Isabelle Lee, Dani Yogatama(参考訳) トレーニングデータだけで言語モデル(LM)を$k$-nearest neighbors(kNN)検索で拡張することは、その難易度を低下させるが、その根底にある理由はまだ解明されていない。 この作業では、最初に、以前に提案された可能性である"ソフトマックスボトルネック"を除外します。 さらに,LMの最終MLP層がLM最適化を早期に阻害する,MDPハードル現象を同定する。 gpt-3.5-turboのような先進的なモデルでは、トレーニングデータの無関係な情報に一般化している。 しかし、バニラGPT-2117MにkNN検索を組み込むことで、この設定の性能を継続的に改善することができる。

Augmenting a language model (LM) with $k$-nearest neighbors (kNN) retrieval on its training data alone can decrease its perplexity, though the underlying reasons for this remains elusive. In this work, we first rule out one previously posited possibility -- the "softmax bottleneck." We further identify the MLP hurdle phenomenon, where the final MLP layer in LMs may impede LM optimization early on. We explore memorization and generalization in language models with two new datasets, where advanced model like GPT-3.5-turbo find generalizing to irrelevant information in the training data challenging. However, incorporating kNN retrieval to vanilla GPT-2 117M can consistently improve performance in this setting.
翻訳日:2023-11-17 16:15:29 公開日:2023-11-16
# PET/CT画像におけるリンパ腫病変の検出と定量化のためのディープニューラルネットワークの利用に関する総合的評価と考察

Comprehensive Evaluation and Insights into the Use of Deep Neural Networks to Detect and Quantify Lymphoma Lesions in PET/CT Images ( http://arxiv.org/abs/2311.09614v1 )

ライセンス: Link先を確認
Shadab Ahamed, Yixi Xu, Claire Gowdy, Joo H. O, Ingrid Bloise, Don Wilson, Patrick Martineau, Fran\c{c}ois B\'enard, Fereshteh Yousefirizi, Rahul Dodhia, Juan M. Lavista, William B. Weeks, Carlos F. Uribe, and Arman Rahmim(参考訳) 本研究はPET/CT画像からの悪性リンパ腫病変に対する4つのニューラルネットワークアーキテクチャ(UNet, SegResNet, DynUNet, SwinUNETR)の包括的評価を行う。 これらのネットワークは、611例の多様な多施設データセットで訓練、検証、テストされた。 内部検査 (88例, 全代謝腫瘍容積 (tmtv) 範囲 [0.52, 2300] ml) では, segresnet が 0.76 の中央 dice 類似度係数 (dsc) と 4.55 ml の中央値偽陽性体積 (fpv) を持ち, すべてのネットワークは中央値偽陰性体積 (fnv) が 0 ml であった。 検出されていない外部テストセット(tmtvの範囲が[0.10, 2480] mlの145例)では、segresnet は 0.68 の中央値 dsc と 21.46 mlの fpv を達成し、unet は 0.41 ml の fnv が最高であった。 本研究では,6つの病変の再現性を評価し,その予測誤差を算出し,これらの病変に対するDSCの評価を行い,セグメンテーション精度と臨床関連性について考察した。 さらに, 3つの病変検出基準を導入し, 病変の同定, 計数, 代謝学的特徴に基づくセグメンテーションの必要性に対処した。 また,より弾力性のあるセグメンテーションアルゴリズムの開発を支援するために, `easy' 対 ``hard'' の場合のセグメンテーションの課題を明らかにした。 最後に,複数の専門家アノテータを含む標準化された真実分割プロトコルの重要性を裏付けるサーバ間合意評価を行った。 コードは、https://github.com/microsoft/lymphoma-segmentation-dnnで入手できる。

This study performs comprehensive evaluation of four neural network architectures (UNet, SegResNet, DynUNet, and SwinUNETR) for lymphoma lesion segmentation from PET/CT images. These networks were trained, validated, and tested on a diverse, multi-institutional dataset of 611 cases. Internal testing (88 cases; total metabolic tumor volume (TMTV) range [0.52, 2300] ml) showed SegResNet as the top performer with a median Dice similarity coefficient (DSC) of 0.76 and median false positive volume (FPV) of 4.55 ml; all networks had a median false negative volume (FNV) of 0 ml. On the unseen external test set (145 cases with TMTV range: [0.10, 2480] ml), SegResNet achieved the best median DSC of 0.68 and FPV of 21.46 ml, while UNet had the best FNV of 0.41 ml. We assessed reproducibility of six lesion measures, calculated their prediction errors, and examined DSC performance in relation to these lesion measures, offering insights into segmentation accuracy and clinical relevance. Additionally, we introduced three lesion detection criteria, addressing the clinical need for identifying lesions, counting them, and segmenting based on metabolic characteristics. We also performed expert intra-observer variability analysis revealing the challenges in segmenting ``easy'' vs. ``hard'' cases, to assist in the development of more resilient segmentation algorithms. Finally, we performed inter-observer agreement assessment underscoring the importance of a standardized ground truth segmentation protocol involving multiple expert annotators. Code is available at: https://github.com/microsoft/lymphoma-segmentation-dnn
翻訳日:2023-11-17 16:15:15 公開日:2023-11-16
# デジタルソクラテス : 説明的批判によるLCMの評価

Digital Socrates: Evaluating LLMs through explanation critiques ( http://arxiv.org/abs/2311.09613v1 )

ライセンス: Link先を確認
Yuling Gu, Oyvind Tafjord, Peter Clark(参考訳) LLMは、その答えとともに推論された説明を提供することができるが、これらの説明の性質と品質はいまだに理解されていない。 これに対し、我々のゴールは、高価なAPI呼び出しや人的アノテーションに頼ることなく、このような特徴を自動生成できる、最新のモデルの説明機能を詳細に表現し、曖昧で解釈可能な説明評価ツールを作成することである。 私たちのアプローチは (a) 説明批判の新しいタスクを定義する - 説明の主要な欠陥を特定し、分類し、その欠陥に対処するための提案を提供する。 (b)このタスクのためのサイズ、人間認証データセットを作成し、 (c)このデータを用いてオープンソースの自動評定モデル(Digital Socrates)を訓練する。 量的および質的な分析を通じて、デジタルソクラテスが学生モデルについての洞察を明らかにするのにどのように役立つかを示し、それらのモデル説明の高品質でニュアンスの高い自動評価を初めて提供するかを示す。 したがって、デジタルソクラテスはモデルの説明行動を理解し改善するための評価ツールの重要なギャップを埋める。

While LLMs can provide reasoned explanations along with their answers, the nature and quality of those explanations are still poorly understood. In response, our goal is to define a detailed way of characterizing the explanation capabilities of modern models and to create a nuanced, interpretable explanation evaluation tool that can generate such characterizations automatically, without relying on expensive API calls or human annotations. Our approach is to (a) define the new task of explanation critiquing - identifying and categorizing any main flaw in an explanation and providing suggestions to address the flaw, (b) create a sizeable, human-verified dataset for this task, and (c) train an open-source, automatic critiquing model (called Digital Socrates) using this data. Through quantitative and qualitative analysis, we demonstrate how Digital Socrates is useful for revealing insights about student models by examining their reasoning chains, and how it can provide high-quality, nuanced, automatic evaluation of those model explanations for the first time. Digital Socrates thus fills an important gap in evaluation tools for understanding and improving the explanation behavior of models.
翻訳日:2023-11-17 16:14:17 公開日:2023-11-16
# Rationale蒸留による効率的な視覚文書理解

Efficient End-to-End Visual Document Understanding with Rationale Distillation ( http://arxiv.org/abs/2311.09612v1 )

ライセンス: Link先を確認
Wang Zhu, Alekh Agarwal, Mandar Joshi, Robin Jia, Jesse Thomason, Kristina Toutanova(参考訳) 視覚的に位置付けられた言語を理解するには、テキストと視覚要素を認識し、複雑なレイアウトを解釈する必要がある。 最先端の手法では、文書画像入力をテキストトークンの空間から抽出した情報にマッピングするocr(optical character recognition)システムのような特殊な前処理ツールが一般的であり、テキストトークン空間を推論するために大言語モデル(llm)を使うこともある。 しかし、外部ツールやllmからの利益は、計算とエンジニアリングの複雑さが増大するコストで得られる。 本稿では,ピクセルレベル視覚言語理解のためのエンド・ツー・エンドモデルの中間的推論ステップとして,事前学習された画像からテキストへの小さなモデルが選択テキストやレイアウトの認識や推論を学習できるかどうかを問う。 我々は,これらのOCRツールやLLM,および大規模マルチモーダルモデルの出力を,トレーニングデータに中間的な 'rationales'' として組み込んで,これらのトレーニング例に基づいて,理性と回答の両方を予測するために,小学生モデルを訓練する。 Pix2Struct(282Mパラメータ)に基づく学生モデルは、インフォグラフィック、スキャンされた文書、数字を表す3つのビジュアル文書理解ベンチマークに対して一貫した改善を達成し、回答を直接予測するPix2Structモデルよりも4倍以上絶対的に改善する。

Understanding visually situated language requires recognizing text and visual elements, and interpreting complex layouts. State-of-the-art methods commonly use specialized pre-processing tools, such as optical character recognition (OCR) systems, that map document image inputs to extracted information in the space of textual tokens, and sometimes also employ large language models (LLMs) to reason in text token space. However, the gains from external tools and LLMs come at the cost of increased computational and engineering complexity. In this paper, we ask whether small pretrained image-to-text models can learn selective text or layout recognition and reasoning as an intermediate inference step in an end-to-end model for pixel-level visual language understanding. We incorporate the outputs of such OCR tools, LLMs, and larger multimodal models as intermediate ``rationales'' on training data, and train a small student model to predict both rationales and answers for input questions based on those training examples. A student model based on Pix2Struct (282M parameters) achieves consistent improvements on three visual document understanding benchmarks representing infographics, scanned documents, and figures, with improvements of more than 4\% absolute over a comparable Pix2Struct model that predicts answers directly.
翻訳日:2023-11-17 16:13:59 公開日:2023-11-16
# 胎児超音波異常スコープを用いたマルチタスク学習による生体計測

Multi-Task Learning Approach for Unified Biometric Estimation from Fetal Ultrasound Anomaly Scans ( http://arxiv.org/abs/2311.09607v1 )

ライセンス: Link先を確認
Mohammad Areeb Qazi, Mohammed Talha Alam, Ibrahim Almakky, Werner Gerhard Diehl, Leanne Bricker, Mohammad Yaqub(参考訳) 超音波画像からの胎児バイオメトリパラメータの正確な推定は、胎児の成長、健康状態のモニタリング、潜在的な合併症の特定に不可欠である。 しかし, 超音波画像による胎児頭部, 腹部, 大腿骨の自動分画は, その後の胎児バイオメトリックスの測定とともに困難である。 本研究では,頭部,腹部,大腿骨に領域を分類し,関連するパラメータを推定するマルチタスク学習手法を提案する。 胎児超音波画像のデータセットにおいて,平均絶対誤差(mae)は頭周囲1.08mm,腹部周囲1.44mm,大腿骨長1.10mmであり,分類精度99.91\%であった。 これを実現するために, 重み付きジョイント分類とセグメンテーション損失関数を利用して, 付加された分類ヘッドを用いてu-netアーキテクチャを訓練する。 コードは \href{https://github.com/BioMedIA-MBZUAI/Multi-Task-Learning-for-Unified-Biometric-Estimation-from-Fetal-U ltrasound-Anomaly-Scans.git}{\texttt{Github} を通じてアクセスすることができる。

Precise estimation of fetal biometry parameters from ultrasound images is vital for evaluating fetal growth, monitoring health, and identifying potential complications reliably. However, the automated computerized segmentation of the fetal head, abdomen, and femur from ultrasound images, along with the subsequent measurement of fetal biometrics, remains challenging. In this work, we propose a multi-task learning approach to classify the region into head, abdomen and femur as well as estimate the associated parameters. We were able to achieve a mean absolute error (MAE) of 1.08 mm on head circumference, 1.44 mm on abdomen circumference and 1.10 mm on femur length with a classification accuracy of 99.91\% on a dataset of fetal Ultrasound images. To achieve this, we leverage a weighted joint classification and segmentation loss function to train a U-Net architecture with an added classification head. The code can be accessed through \href{https://github.com/BioMedIA-MBZUAI/Multi-Task-Learning-Approach-for-Unified-Biometric-Estimation-fro m-Fetal-Ultrasound-Anomaly-Scans.git}{\texttt{Github}
翻訳日:2023-11-17 16:13:31 公開日:2023-11-16
# GistScore: Gist Bottlenecksを使ったコンテキスト内サンプル選択のための表現の改善

GistScore: Learning Better Representations for In-Context Example Selection with Gist Bottlenecks ( http://arxiv.org/abs/2311.09606v1 )

ライセンス: Link先を確認
Shivanshu Gupta, Clemens Rosenbaum, Ethan R. Elenberg(参考訳) 大規模言語モデル(LLM)は、いくつかのタスク例を含むプロンプトを条件にすることで、新しいタスクのコンテキスト内学習(ICL)を実行することができる。 本研究は、テスト入力が与えられた場合のicl性能を改善するために、候補プールが与えられた最善の例を選択する問題を考察する。 既存のアプローチでは、より大きなLLMからのフィードバックによるトレーニングが必要か、あるいは計算コストがかかる。 本稿では,近年のタスク命令圧縮手法であるgistingを用いて,iclのサンプルレトリバーをトレーニングするための新しい手法であるgistcoreを提案する。 使いやすさでパフォーマンスをトレードオフするため、各データセット上のgistモデルの微調整と、多数のデータセット上の単一のモデルをマルチタスクでトレーニングする実験を行った。 9つのタスクにまたがる21の多様なデータセットについて、我々の微調整されたモデルが最先端のicl性能を得られることを示しました。 我々のマルチタスクモデルは、新しいタスクカテゴリ、データセット、そして、最高のトレーニングフリーメソッドよりも何千倍も高速な検索速度を持つテンプレートに、うまく最適化する。

Large language models (LLMs) have the ability to perform in-context learning (ICL) of new tasks by conditioning on prompts comprising a few task examples. This work studies the problem of selecting the best examples given a candidate pool to improve ICL performance on given a test input. Existing approaches either require training with feedback from a much larger LLM or are computationally expensive. We propose a novel metric, GistScore, based on Example Gisting, a novel approach for training example retrievers for ICL using an attention bottleneck via Gisting, a recent technique for compressing task instructions. To tradeoff performance with ease of use, we experiment with both fine-tuning gist models on each dataset and multi-task training a single model on a large collection of datasets. On 21 diverse datasets spanning 9 tasks, we show that our fine-tuned models get state-of-the-art ICL performance with 20% absolute average gain over off-the-shelf retrievers and 7% over the best prior methods. Our multi-task model generalizes well out-of-the-box to new task categories, datasets, and prompt templates with retrieval speeds that are consistently thousands of times faster than the best prior training-free method.
翻訳日:2023-11-17 16:13:09 公開日:2023-11-16
# 逆入力による部分入力に対する注意度の測定と改善

Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals ( http://arxiv.org/abs/2311.09605v1 )

ライセンス: Link先を確認
Yanai Elazar, Bhargavi Paranjape, Hao Peng, Sarah Wiegreffe, Khyathi Raghavi, Vivek Srikumar, Sameer Singh, Noah A. Smith(参考訳) トレーニングデータセットにおけるスプリアス相関の必然的な出現は、未知のデータに対するnlpモデルの一般化を損なう。 以前の研究では、ペアされた入力を持つデータセットは、入力の特定の部分(例えば nli の仮説)とラベルの間の相関性が高いことを発見した。 これらの相関関係は、全入力データでトレーニングされたモデルによって拾われるか? そこで本研究では,新たな評価手法であるCAT(Counterfactual Attentiveness Test)を提案する。 CATは、入力の一部を別の例(いくつかの制約に従う)から別の例に置き換えることによって反ファクトアルを使用し、予測を変更する注意深いモデルを期待する。 catを用いて,自然言語推論,読解理解,言い換え検出,視覚および言語推論の4つのタスクにまたがる10のデータセット上で,確立された教師付きおよび文脈内学習モデルを体系的に検討した。 CATは、そのような相関への依存は主にデータに依存していることを明らかにした。 意外なことに、GPT3はデモの数が増えるにつれて注意が減り、テストデータの精度は向上する。 その結果,訓練や実演データの強化は,モデルの注意力向上に有効であることが示された。 CATによって測定されたモデルの注意力は、データ内の相関を単に測定することとは異なる結論を示す。

The inevitable appearance of spurious correlations in training datasets hurts the generalization of NLP models on unseen data. Previous work has found that datasets with paired inputs are prone to correlations between a specific part of the input (e.g., the hypothesis in NLI) and the label; consequently, models trained only on those outperform chance. Are these correlations picked up by models trained on the full input data? To address this question, we propose a new evaluation method, Counterfactual Attentiveness Test (CAT). CAT uses counterfactuals by replacing part of the input with its counterpart from a different example (subject to some restrictions), expecting an attentive model to change its prediction. Using CAT, we systematically investigate established supervised and in-context learning models on ten datasets spanning four tasks: natural language inference, reading comprehension, paraphrase detection, and visual & language reasoning. CAT reveals that reliance on such correlations is mainly data-dependent. Surprisingly, we find that GPT3 becomes less attentive with an increased number of demonstrations, while its accuracy on the test data improves. Our results demonstrate that augmenting training or demonstration data with counterfactuals is effective in improving models' attentiveness. We show that models' attentiveness measured by CAT reveals different conclusions from solely measuring correlations in data.
翻訳日:2023-11-17 16:12:44 公開日:2023-11-16
# 決定論的量子場軌道とマクロ効果

Deterministic Quantum Field Trajectories and Macroscopic Effects ( http://arxiv.org/abs/2311.09604v1 )

ライセンス: Link先を確認
M. Akbari-Moghanjoughi(参考訳) この研究は、任意の縮退電子ガス中の集合励起の準粒子モデルに基づいて、マクロ的な量子効果の根元を明らかにする。 n$-electron量子系は、ポアソンの関係を通じてn$ストリーム結合と見なされ、これは実空間における電子の局在ではなく運動量空間に局所化され、通常の多くの体論で仮定される。 新しい波動関数表現を用いて、$N+1$-coupledシステムは、一般化された物質波の分散関係につながる準粒子(選択量子)モデルを介して単純な擬力方程式に還元される。 得られた二重長スケールド・ブロイの物質波理論は、静電場と局所電子数密度のカップリングによる電子ガス中を移動する電荷に対するマクロ量子効果と決定論的場軌道を予測する。 多数の相互作用粒子からなる量子多体系は、片手で顕微鏡的な単一粒子効果を制御し、他方でマクロ的な現象を制御している双対アームデバイスとして機能する。 電流解析はさらに、磁気ポテンシャルとスピン交換効果を含むように拡張することができる。 現在のモデルは、量子電子流体に埋め込まれた荷電粒子のマクロな絡み合いを確認するためにも用いられる。

In this work the root to macroscopic quantum effects is revealed based on the quasiparticle model of collective excitations in an arbitrary degenerate electron gas. The $N$-electron quantum system is considered as $N$ streams coupled, through the Poisson's relation, which are localized in momentum space rather than electron localization in real space, assumed in ordinary many body theories. Using a new wavefunction representation, the $N+1$-coupled system is reduced to simple pseudoforce equations via quasiparticle (collective quantum) model leading to a generalized matter wave dispersion relation. It is shown that the resulting dual lengthscale de Broglie's matter wave theory predicts macroscopic quantum effects and deterministic field trajectories for charges moving in the electron gas due to the coupling of the electrostatic field to the local electron number density. It is remarked that any quantum many body system composed of large number of interacting particles acts as a dual arm device controlling the microscopic single particle effects with one hand and the macroscopic phenomena with the other. Current analysis can be further extended to include the magnetic potential and spin exchange effects. Present model can also be used to confirm macroscopic entanglement of charged particles embedded in a quantum electron fluid.
翻訳日:2023-11-17 16:12:21 公開日:2023-11-16
# SCORE: 自己矛盾推論評価のためのフレームワーク

SCORE: A framework for Self-Contradictory Reasoning Evaluation ( http://arxiv.org/abs/2311.09603v1 )

ライセンス: Link先を確認
Ziyi Liu, Isabelle Lee, Yongkang Du, Soumya Sanyal, Jieyu Zhao(参考訳) 大規模言語モデル(LLM)は、様々な言語に基づくタスクにおいて印象的な推論能力を示している。 下流タスクのパフォーマンス向上を目的とした推論手法が数多く提案されているが、推論は予測を真にサポートするか、推論の質はどの程度信頼できるのか、という2つの基本的な疑問が続いている。 本稿では, LLM がどの程度理にかなっているかを分析するためのフレームワークであるtextsc{SCORE} を提案する。 具体的には、推論が予測をサポートしない自己矛盾推論に焦点を当てる。 LLMは、文脈情報や常識を含む推論タスクを行う際に、しばしば矛盾する。 モデルは証拠を見逃したり、ショートカットを使ったりして、自己矛盾行動を示す。 また,複数の視点から推論モデルを生成するためのpov(point-of-view)法を,さらなる解析のための診断ツールとして用いる。 LLMは1パースペクティブ設定ではよく動作するように見えるが、マルチパースペクティブ設定ではそのような動作を安定させることができない。 正しい予測であっても、推論は乱雑で不完全であり、適切な推論から容易にllmを導くことができる。 \textsc{score} の結果は、信頼できる推論に必要な堅牢さの欠如と、精度ベースのメトリクスを超えた推論の包括的な評価のためのベストプラクティスを確立するためのさらなる研究の緊急性を強調している。

Large language models (LLMs) have demonstrated impressive reasoning ability in various language-based tasks. Despite many proposed reasoning methods aimed at enhancing performance in downstream tasks, two fundamental questions persist: Does reasoning genuinely support predictions, and how reliable is the quality of reasoning? In this paper, we propose a framework \textsc{SCORE} to analyze how well LLMs can reason. Specifically, we focus on self-contradictory reasoning, where reasoning does not support the prediction. We find that LLMs often contradict themselves when performing reasoning tasks that involve contextual information and commonsense. The model may miss evidence or use shortcuts, thereby exhibiting self-contradictory behaviors. We also employ the Point-of-View (POV) method, which probes models to generate reasoning from multiple perspectives, as a diagnostic tool for further analysis. We find that though LLMs may appear to perform well in one-perspective settings, they fail to stabilize such behavior in multi-perspectives settings. Even for correct predictions, the reasoning may be messy and incomplete, and LLMs can easily be led astray from good reasoning. \textsc{SCORE}'s results underscore the lack of robustness required for trustworthy reasoning and the urgency for further research to establish best practices for a comprehensive evaluation of reasoning beyond accuracy-based metrics.
翻訳日:2023-11-17 16:12:01 公開日:2023-11-16
# 言語モデルは感情を予測するときに感情トリガーを考慮しない

Language Models (Mostly) Do Not Consider Emotion Triggers When Predicting Emotion ( http://arxiv.org/abs/2311.09602v1 )

ライセンス: Link先を確認
Smriti Singh, Cornelia Caragea, Junyi Jessy Li(参考訳) 状況と出来事は人間の感情を喚起するが、感情検出モデルの予測をどの程度知らせるのか? 感情をトリガーするイベントを認識するトレーニングモデルに焦点を当てた、感情のトリガーや原因の識別を行う以前の作業。 この研究は、人間に注釈付けされた感情が、モデルが感情の予測に適していると見なされる特徴とどのように相関するかを調査する。 まず,3つの異なるデータセットから得られた900のソーシャルメディア投稿からなる,新しいデータセットEmoTriggerを紹介した。 emotriggerを用いて,感情トリガを識別する大規模言語モデル(llm)の能力を評価し,llmと微調整モデルの間で重要と考えられる特徴の比較分析を行う。 分析の結果、感情のトリガーは感情予測モデルにとって健全な特徴ではなく、様々な特徴と感情検出のタスクの間に複雑な相互作用があることが判明した。

Situations and events evoke emotions in humans, but to what extent do they inform the prediction of emotion detection models? Prior work in emotion trigger or cause identification focused on training models to recognize events that trigger an emotion. Instead, this work investigates how well human-annotated emotion triggers correlate with features that models deemed salient in their prediction of emotions. First, we introduce a novel dataset EmoTrigger, consisting of 900 social media posts sourced from three different datasets; these were annotated by experts for emotion triggers with high agreement. Using EmoTrigger, we evaluate the ability of large language models (LLMs) to identify emotion triggers, and conduct a comparative analysis of the features considered important for these tasks between LLMs and fine-tuned models. Our analysis reveals that emotion triggers are largely not considered salient features for emotion prediction models, instead there is intricate interplay between various features and the task of emotion detection.
翻訳日:2023-11-17 16:11:40 公開日:2023-11-16
# コードモデルはゼロショットの前提条件です

Code Models are Zero-shot Precondition Reasoners ( http://arxiv.org/abs/2311.09601v1 )

ライセンス: Link先を確認
Lajanugen Logeswaran, Sungryull Sohn, Yiwei Lyu, Anthony Zhe Liu, Dong-Ki Kim, Dongsub Shim, Moontae Lee, Honglak Lee(参考訳) エージェントがタスクを完了させるために必要な基本的なスキルの1つは、どの時点でどのアクションが実行可能かを理解する能力である。 本研究は,シーケンシャルな意思決定タスクのためのアクション前提条件を推論するために,コード表現の新たな利用を探求する。 コード表現は、手続きアクティビティと関連する制約をモデル化する柔軟性と、制約満足度の実行と検証を可能にする。 コード表現を活用することで,事前学習したコードモデルを用いて,実演軌跡からゼロショット方式で動作前条件を抽出する。 抽出した事前条件から,政策によって予測される行動が事前条件と整合していることを保証する事前条件対応行動サンプリング戦略を提案する。 提案手法は,タスク指向ダイアログと組込みテキストワールドベンチマークにまたがる数ショットのポリシー学習手法の性能を向上させる。

One of the fundamental skills required for an agent acting in an environment to complete tasks is the ability to understand what actions are plausible at any given point. This work explores a novel use of code representations to reason about action preconditions for sequential decision making tasks. Code representations offer the flexibility to model procedural activities and associated constraints as well as the ability to execute and verify constraint satisfaction. Leveraging code representations, we extract action preconditions from demonstration trajectories in a zero-shot manner using pre-trained code models. Given these extracted preconditions, we propose a precondition-aware action sampling strategy that ensures actions predicted by a policy are consistent with preconditions. We demonstrate that the proposed approach enhances the performance of few-shot policy learning approaches across task-oriented dialog and embodied textworld benchmarks.
翻訳日:2023-11-17 16:11:24 公開日:2023-11-16
# 教師なしドメイン適応のための経時的ソースドメイン拡張

Gradual Source Domain Expansion for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2311.09599v1 )

ライセンス: Link先を確認
Thomas Westfechtel, Hao-Wei Yeh, Dexuan Zhang, Tatsuya Harada(参考訳) 教師なしドメイン適応(UDA)は、大量のラベル付きデータを持つソースデータセットからラベル付きデータを持たないターゲットデータセットに知識を転送することで、大きなラベル付きデータセットの必要性を克服しようとする。 ターゲットドメインにラベルがないため、初期ミスアライメントは後段に伝播し、エラーを発生させる可能性がある。 この問題を解決するために,段階的ソース領域拡張(GSDE)アルゴリズムを提案する。 GSDEはUDAタスクをスクラッチから数回トレーニングし、毎回ネットワークウェイトを再起動するが、毎回ターゲットデータでソースデータセットを拡張する。 特に、各擬似ラベルを用いて、前回の走行における最も高い目標データを疑似ソースサンプルとして採用する。 この戦略を用いて、疑似ソースサンプルは、新しいトレーニングの開始から直接、前回の実行から抽出した知識を誘導する。 これは、特に初期のトレーニング時代において、2つの領域をよりよく調整するのに役立ちます。 本研究では,まず,強力なベースラインネットワークを導入し,GSDE戦略を適用した。 本研究は,Office-31,OfficeHome,DomainNetの3つのベンチマーク実験とアブレーション試験を行い,最先端の手法より優れていることを示す。 さらに,提案したGSDE戦略は,様々な最先端UDAアプローチの精度を向上させることができることを示す。

Unsupervised domain adaptation (UDA) tries to overcome the need for a large labeled dataset by transferring knowledge from a source dataset, with lots of labeled data, to a target dataset, that has no labeled data. Since there are no labels in the target domain, early misalignment might propagate into the later stages and lead to an error build-up. In order to overcome this problem, we propose a gradual source domain expansion (GSDE) algorithm. GSDE trains the UDA task several times from scratch, each time reinitializing the network weights, but each time expands the source dataset with target data. In particular, the highest-scoring target data of the previous run are employed as pseudo-source samples with their respective pseudo-label. Using this strategy, the pseudo-source samples induce knowledge extracted from the previous run directly from the start of the new training. This helps align the two domains better, especially in the early training epochs. In this study, we first introduce a strong baseline network and apply our GSDE strategy to it. We conduct experiments and ablation studies on three benchmarks (Office-31, OfficeHome, and DomainNet) and outperform state-of-the-art methods. We further show that the proposed GSDE strategy can improve the accuracy of a variety of different state-of-the-art UDA approaches.
翻訳日:2023-11-17 16:11:10 公開日:2023-11-16
# 進化演算子は常にホロノミーと動的演算子の産物に分離される

Evolution Operator Can Always be Separated into the Product of Holonomy and Dynamic Operators ( http://arxiv.org/abs/2311.09597v1 )

ライセンス: Link先を確認
Xiao-Dong Yu, D. M. Tong(参考訳) 幾何学的位相は量子系のホロノミック特徴を特徴づける基本的な量である。 循環的進化を経る量子系の進化作用素は、ベリー位相、非アベリア幾何学相、非アベリア幾何学相に関する3つの特別な場合のホロノミックおよび動的成分の積として、単に記述することができることが知られている。 しかしながら、非断熱的非アベル幾何学相に関する最も一般的な場合において、進化作用素をホロノミック成分と動的成分に分離する方法は長年の未解決問題である。 この作業では、この問題を解決します。 量子系の進化作用素は常にホロノミーと動的作用素の積に分離できることを示す。 これに基づいて、循環進化のためのこの分離公式の行列表現を導出し、一般進化が純粋にホロノミックであるために必要な十分条件を与える。 我々の発見は、理論的な関心だけでなく、量子ホロノミーの応用における重要な重要性でもある。 adiabatic/nonadiabatic abelian/non-abelianの幾何学的位相に関する4つのタイプの全ての進化の表現を統一し、純粋にホロノミックな進化を実現する一般的なアプローチを提供する。

The geometric phase is a fundamental quantity characterizing the holonomic feature of quantum systems. It is well known that the evolution operator of a quantum system undergoing a cyclic evolution can be simply written as the product of holonomic and dynamical components for the three special cases concerning the Berry phase, adiabatic non-Abelian geometric phase, and nonadiabatic Abelian geometric phase. However, for the most general case concerning the nonadiabatic non-Abelian geometric phase, how to separate the evolution operator into holonomic and dynamical components is a long-standing open problem. In this work, we solve this open problem. We show that the evolution operator of a quantum system can always be separated into the product of holonomy and dynamic operators. Based on it, we further derive a matrix representation of this separation formula for cyclic evolution, and give a necessary and sufficient condition for a general evolution being purely holonomic. Our finding is not only of theoretical interest itself, but also of vital importance for the application of quantum holonomy. It unifies the representations of all four types of evolution concerning the adiabatic/nonadiabatic Abelian/non-Abelian geometric phase, and provides a general approach to realizing purely holonomic evolution.
翻訳日:2023-11-17 16:10:48 公開日:2023-11-16
# 病原性ハイパーグラフの併用による薬剤補充仮説の生成

Generating Drug Repurposing Hypotheses through the Combination of Disease-Specific Hypergraphs ( http://arxiv.org/abs/2311.09596v1 )

ライセンス: Link先を確認
Ayush Jain, Marie Laure-Charpignon, Irene Y. Chen, Anthony Philippakis, Ahmed Alaa(参考訳) 新しい化合物の薬物開発パイプラインは10~20年持続し、費用は100億ドルを超える。 薬物の再利用は、より時間とコスト効率のよい代替手段を提供する。 バイオメディカル知識グラフ表現に基づく計算的アプローチは、最近、新しい薬物再服用仮説を生み出した。 本研究では,様々な長さの生物学的経路の文脈的埋め込みを導出する新規な,疾患特異的なハイパーグラフ表現学習手法を提案する。 さらに,この手法をマルチダイザスハイパーグラフにも拡張する。 1,522種類の薬物の補充電位を決定するために,コサイン類似度値の薬物特異的分布を導出し,最終的にランキングの中央値を考慮する。 コサイン類似度値は、(1)検討された薬物から利害疾患までの全ての生物学的経路、(2)現在その疾患に対して処方され、利害疾患で終わる薬物から開始される全ての生物学的経路の間で計算される。 アルツハイマー病(AD)と高血圧(HTN)と2型糖尿病(T2D)の2つの危険因子について検討した。 ADのみ, AD + HTN, AD + T2D, AD + HTN + T2Dである。 特筆すべきは,2つの疾患を組み合わせたハイパーグラフにおいて,再導入の可能性が有意に高い2つの有望な薬物の同定につながったことである。ダパグリフロジン(抗糖尿病薬)とデブリソキン(抗高血圧薬)である。 本手法は, 臨床実験と半自動解析による生物医学文献の検証パイプラインと組み合わせ, 仮説生成ツールとして機能する。

The drug development pipeline for a new compound can last 10-20 years and cost over 10 billion. Drug repurposing offers a more time- and cost-effective alternative. Computational approaches based on biomedical knowledge graph representations have recently yielded new drug repurposing hypotheses. In this study, we present a novel, disease-specific hypergraph representation learning technique to derive contextual embeddings of biological pathways of various lengths but that all start at any given drug and all end at the disease of interest. Further, we extend this method to multi-disease hypergraphs. To determine the repurposing potential of each of the 1,522 drugs, we derive drug-specific distributions of cosine similarity values and ultimately consider the median for ranking. Cosine similarity values are computed between (1) all biological pathways starting at the considered drug and ending at the disease of interest and (2) all biological pathways starting at drugs currently prescribed against that disease and ending at the disease of interest. We illustrate our approach with Alzheimer's disease (AD) and two of its risk factors: hypertension (HTN) and type 2 diabetes (T2D). We compare each drug's rank across four hypergraph settings (single- or multi-disease): AD only, AD + HTN, AD + T2D, and AD + HTN + T2D. Notably, our framework led to the identification of two promising drugs whose repurposing potential was significantly higher in hypergraphs combining two diseases: dapagliflozin (antidiabetic; moved up, from top 32$\%$ to top 7$\%$, across all considered drugs) and debrisoquine (antihypertensive; moved up, from top 76$\%$ to top 23$\%$). Our approach serves as a hypothesis generation tool, to be paired with a validation pipeline relying on laboratory experiments and semi-automated parsing of the biomedical literature.
翻訳日:2023-11-17 16:10:27 公開日:2023-11-16
# 胸部X線画像の弱教師付き異常検出

Weakly Supervised Anomaly Detection for Chest X-Ray Image ( http://arxiv.org/abs/2311.09642v1 )

ライセンス: Link先を確認
Haoqi Ni, Ximiao Zhang, Min Xu, Ning Lang, and Xiuzhuang Zhou(参考訳) 胸部X線検査は胸部疾患を臨床的に評価するための一般的な方法である。 近年のディープラーニングの進歩は、CXR異常検出における視覚的分析の重要性を高めているが、現在の手法では、通常画像を用いた教師なしトレーニングに大きく依存するため、疾患領域の特定に不可欠な異常画像の鍵を欠くことが多い。 このレターは、トレーニング中にイメージレベルのラベルのみを持つ少数ショットの異常画像が利用できる、より実用的な設定に焦点を当てている。 そこで本研究では,CXRのための弱い教師付き異常検出フレームワークであるWSCXRを提案する。 WSCXRは、まず、通常画像と異常画像のセットを構成する。 そして、異常特徴採鉱によって正常な領域の特徴を排除し、異常画像の特徴を洗練し、疾患領域の希少かつ重要な特徴を完全に活用する。 さらに、WSCXRは、異常な特徴を増大させるために線形混合戦略を採用し、数発の異常画像を持つ異常検出器の訓練を容易にする。 2つのCXRデータセットの実験は、我々のアプローチの有効性を実証している。

Chest X-Ray (CXR) examination is a common method for assessing thoracic diseases in clinical applications. While recent advances in deep learning have enhanced the significance of visual analysis for CXR anomaly detection, current methods often miss key cues in anomaly images crucial for identifying disease regions, as they predominantly rely on unsupervised training with normal images. This letter focuses on a more practical setup in which few-shot anomaly images with only image-level labels are available during training. For this purpose, we propose WSCXR, a weakly supervised anomaly detection framework for CXR. WSCXR firstly constructs sets of normal and anomaly image features respectively. It then refines the anomaly image features by eliminating normal region features through anomaly feature mining, thus fully leveraging the scarce yet crucial features of diseased areas. Additionally, WSCXR employs a linear mixing strategy to augment the anomaly features, facilitating the training of anomaly detector with few-shot anomaly images. Experiments on two CXR datasets demonstrate the effectiveness of our approach.
翻訳日:2023-11-17 16:02:04 公開日:2023-11-16
# 大規模言語モデルに対する人間フィードバックを用いた強化学習の爆発性について

On the Exploitability of Reinforcement Learning with Human Feedback for Large Language Models ( http://arxiv.org/abs/2311.09641v1 )

ライセンス: Link先を確認
Jiongxiao Wang, Junlin Wu, Muhao Chen, Yevgeniy Vorobeychik, Chaowei Xiao(参考訳) 強化学習と人間フィードバック(Reinforcement Learning with Human Feedback, RLHF)は、LLMのアライメントにおいて重要な役割を果たす大規模言語モデル(LLM)と人間の嗜好を結びつけるために設計された方法論である。 その利点にもかかわらず、RLHFは人間のアノテータにテキストのランク付けを頼っており、敵のアノテータ(すなわち攻撃者)がLLMを敵に操るために悪意のあるテキストを上位に並べてランキングスコアを操作した場合、潜在的なセキュリティ上の脆弱性を導入することができる。 本稿では,人間の嗜好データ中毒に対するrlhfのレッドチーム化を評価するために,特定の悪意ある行動(例えば,長いシーケンスの生成,計算コストの増大など)に到達するために,候補の選好ランクをひっくり返すための中毒攻撃手法であるrankpoisonを提案する。 RankPoisonが生成した有毒なデータセットにより、LLMに対する中毒攻撃を実行して、元の安全アライメントのパフォーマンスを損なうことなく、より長いトークンを生成することができる。 RankPoisonを適用することで,LLMがトリガー語による質問に対して長い回答を生成できるバックドアアタックの実装に成功した。 我々の研究は、LLHFにおける重要なセキュリティ上の課題を浮き彫りにした。

Reinforcement Learning with Human Feedback (RLHF) is a methodology designed to align Large Language Models (LLMs) with human preferences, playing an important role in LLMs alignment. Despite its advantages, RLHF relies on human annotators to rank the text, which can introduce potential security vulnerabilities if any adversarial annotator (i.e., attackers) manipulates the ranking score by up-ranking any malicious text to steer the LLM adversarially. To assess the red-teaming of RLHF against human preference data poisoning, we propose RankPoison, a poisoning attack method on candidates' selection of preference rank flipping to reach certain malicious behaviors (e.g., generating longer sequences, which can increase the computational cost). With poisoned dataset generated by RankPoison, we can perform poisoning attacks on LLMs to generate longer tokens without hurting the original safety alignment performance. Moreover, applying RankPoison, we also successfully implement a backdoor attack where LLMs can generate longer answers under questions with the trigger word. Our findings highlight critical security challenges in RLHF, underscoring the necessity for more robust alignment methods for LLMs.
翻訳日:2023-11-17 16:01:29 公開日:2023-11-16
# トレーニングデータのない画像再構成の不確かさの定量化について

On the Quantification of Image Reconstruction Uncertainty without Training Data ( http://arxiv.org/abs/2311.09639v1 )

ライセンス: Link先を確認
Sirui Bi, Victor Fung, Jiaxin Zhang(参考訳) 計算画像はスパース測定から隠れた情報を決定する上で重要な役割を果たしている。 頑健な逆解法は、これらの測定によって引き起こされる不確実性を完全に特徴づけるのに不可欠である。 これにより、意思決定のための観測データの確率論的解釈が促進される。 本研究では,画像再構成の不確かさをトレーニングデータなしで効果的に定量化するために,深部生成モデルを用いて近似後続分布を学習する深部変動モデルを提案する。 フローベースモデルを用いて目標後方をパラメータ化し,そのカルバックライバ(kl)分岐を最小化し,正確な不確実性推定を行う。 安定性を高めるために,二方向の正則化による頑健なフローベースモデルを導入する。 さらに, 空間充填設計を組み込んで, 遅延前空間と目標後空間の両方において, 実質的な分散低減を実現する。 提案手法は,いくつかのベンチマークタスクと,fastmriとblack hole image reconstructionという2つの実世界のアプリケーションで検証した。 提案手法は信頼性と高品質な画像再構成を実現し,信頼性の高い不確実性を推定する。

Computational imaging plays a pivotal role in determining hidden information from sparse measurements. A robust inverse solver is crucial to fully characterize the uncertainty induced by these measurements, as it allows for the estimation of the complete posterior of unrecoverable targets. This, in turn, facilitates a probabilistic interpretation of observational data for decision-making. In this study, we propose a deep variational framework that leverages a deep generative model to learn an approximate posterior distribution to effectively quantify image reconstruction uncertainty without the need for training data. We parameterize the target posterior using a flow-based model and minimize their Kullback-Leibler (KL) divergence to achieve accurate uncertainty estimation. To bolster stability, we introduce a robust flow-based model with bi-directional regularization and enhance expressivity through gradient boosting. Additionally, we incorporate a space-filling design to achieve substantial variance reduction on both latent prior space and target posterior space. We validate our method on several benchmark tasks and two real-world applications, namely fastMRI and black hole image reconstruction. Our results indicate that our method provides reliable and high-quality image reconstruction with robust uncertainty estimation.
翻訳日:2023-11-17 16:01:04 公開日:2023-11-16
# 製造におけるフレキシブルなジョブショップスケジューリングのための多目的量子アニーリング手法

Multi-objective Quantum Annealing approach for solving flexible job shop scheduling in manufacturing ( http://arxiv.org/abs/2311.09637v1 )

ライセンス: Link先を確認
Philipp Schworm, Xiangquian Wu, Matthias Klar, Moritz Glatt, Jan C. Aurich(参考訳) フレキシブルジョブショップスケジューリング(FJSSP)は、製造における実際のプロセススケジューリングに不可欠な複雑な最適化問題である。 このような問題を効率的に解くことは競争力を維持するのに不可欠である。 本稿では、量子アニーリングと古典的手法を用いて、FJSSPに対処するための量子アニーリングに基づく解法(QASA)を提案する。 QASAは、フェイスパン、トータルワークロード、ジョブ優先度を同時に考慮したマルチクリタリアルFJSSPを最適化する。 ラグランジュパラメータを用いたハミルトンの定式化を用いて制約と目的を統合し、重み付けによる客観的優先順位付けを可能にする。 計算の複雑さを管理するために、大きなインスタンスをサブプロブレムに分解し、ボトルネック要因に基づく決定論理を用いる。 ベンチマーク問題の実験では、タブ検索、シミュレートされたアニーリング、量子アニーリングを組み合わせたQASAが、古典的解法アルゴリズム(CSA)をソリューション品質(設定カバレッジとハイパーボリューム比のメトリクス)で上回っている。 計算効率解析により、QASAはCSAに比べて計算時間が合理的に増加し、優れたPareto解が得られることを示した。

Flexible Job Shop Scheduling (FJSSP) is a complex optimization problem crucial for real-world process scheduling in manufacturing. Efficiently solving such problems is vital for maintaining competitiveness. This paper introduces Quantum Annealing-based solving algorithm (QASA) to address FJSSP, utilizing quantum annealing and classical techniques. QASA optimizes multi-criterial FJSSP considering makespan, total workload, and job priority concurrently. It employs Hamiltonian formulation with Lagrange parameters to integrate constraints and objectives, allowing objective prioritization through weight assignment. To manage computational complexity, large instances are decomposed into subproblems, and a decision logic based on bottleneck factors is used. Experiments on benchmark problems show QASA, combining tabu search, simulated annealing, and Quantum Annealing, outperforms a classical solving algorithm (CSA) in solution quality (set coverage and hypervolume ratio metrics). Computational efficiency analysis indicates QASA achieves superior Pareto solutions with a reasonable increase in computation time compared to CSA.
翻訳日:2023-11-17 16:00:43 公開日:2023-11-16
# コード生成のためのライブラリのインコンテキスト学習の評価

Evaluating In-Context Learning of Libraries for Code Generation ( http://arxiv.org/abs/2311.09635v1 )

ライセンス: Link先を確認
Arkil Patel, Siva Reddy, Dzmitry Bahdanau, Pradeep Dasigi(参考訳) 現代の大規模言語モデル(LLM)は、高いレベルのコード生成と理解能力を示す。 特に有望な分野は、ユーザが指示したタスクを解決するために、よく知らないライブラリからコードモジュールを解釈できることだ。 近年の研究では、大規模プロプライエタリなLLMがデモから新しいライブラリの使用法を学習できることが示されている。 これらの結果は、ライブラリ使用のデモが必要なのか、より小さな(そしてよりオープンな)モデルもそのような機能を持っているのか、といった、いくつかのオープンな疑問を引き起こします。 本研究では,3つのシナリオにまたがる多様なLCMの配列を体系的に評価することで,ドメインの特殊化のレベルを反映し,コンテキスト内で定義されたライブラリに基づいたコード生成の能力と限界を理解する。 以上の結果から,Llama-2やStarCoderのような小型のオープンソースLLMでさえ,コンテクストで提示された仕様に基づいて,新しいコードライブラリを十分に理解していることがわかる。 さらに,LLMは,自然言語記述や関数の生コード実装だけでも,新たなライブラリモジュールを学習する上で驚くほど高い習熟度を示し,実演よりも安価に入手できることが示唆された。 全体として、より適応的で動的なコーディング環境におけるLLMの活用の道を開いた。

Contemporary Large Language Models (LLMs) exhibit a high degree of code generation and comprehension capability. A particularly promising area is their ability to interpret code modules from unfamiliar libraries for solving user-instructed tasks. Recent work has shown that large proprietary LLMs can learn novel library usage in-context from demonstrations. These results raise several open questions: whether demonstrations of library usage is required, whether smaller (and more open) models also possess such capabilities, etc. In this work, we take a broader approach by systematically evaluating a diverse array of LLMs across three scenarios reflecting varying levels of domain specialization to understand their abilities and limitations in generating code based on libraries defined in-context. Our results show that even smaller open-source LLMs like Llama-2 and StarCoder demonstrate an adept understanding of novel code libraries based on specification presented in-context. Our findings further reveal that LLMs exhibit a surprisingly high proficiency in learning novel library modules even when provided with just natural language descriptions or raw code implementations of the functions, which are often cheaper to obtain than demonstrations. Overall, our results pave the way for harnessing LLMs in more adaptable and dynamic coding environments.
翻訳日:2023-11-17 16:00:24 公開日:2023-11-16
# ノイズ量子コンピュータにおける正確な量子化学計算に向けて

Towards Accurate Quantum Chemical Calculations on Noisy Quantum Computers ( http://arxiv.org/abs/2311.09634v1 )

ライセンス: Link先を確認
Naoki Iijima, Satoshi Imamura, Mikio Morita, Sho Takemori, Akihiko Kasagi, Yuhei Umeda and Eiji Yoshida(参考訳) variational quantum eigensolver (vqe) は、ノイズの多い中間スケール量子(nisq)コンピュータ向けに設計されたハイブリッド量子古典アルゴリズムである。 ターゲット分子の基底状態エネルギーを計算することができるため、量子化学計算(QCC)に期待されている。 VQEは、QCCの古典近似法よりも高い精度を達成する可能性があるが、ノイズの影響が大きいため、現在のNISQコンピュータでは実現が難しい。 密度行列埋め込み理論(DMET)は、分子を複数の断片に分割するよく知られた手法であり、VQEのノイズの影響を緩和するために用いられる。 しかし,予備評価の結果,DMETとVQEの組み合わせは金標準法よりも優れていないことがわかった。 本研究では,DMET+VQEの組み合わせによるノイズの影響を軽減するための3つの手法を提案する。 1) DMETにおける複数のフラグメント間の相互作用を表す浴槽軌道の数を減らすことにより, VQEが使用する量子回路のサイズを小さくする。 2) DMETの分子エネルギーを計算するために用いられる還元密度行列(RDM)は,ノイズレス量子計算機シミュレータを用いて量子回路の実行によって得られる期待値に基づいて正確に計算する。 3) vqeにより最適化された量子回路のパラメータを数学的後処理により洗練する。 ノイズ量子コンピュータシミュレータを用いた評価により,dmet+vqeの組み合わせの精度が大幅に向上した。 さらに,実nisqデバイスでは,この3つのアプローチを適用したdmet+vqeの組み合わせが,ゴールド標準古典法よりも高い精度が得られることを示す。

Variational quantum eigensolver (VQE) is a hybrid quantum-classical algorithm designed for noisy intermediate-scale quantum (NISQ) computers. It is promising for quantum chemical calculations (QCC) because it can calculate the ground-state energy of a target molecule. Although VQE has a potential to achieve a higher accuracy than classical approximation methods in QCC, it is challenging to achieve it on current NISQ computers due to the significant impact of noises. Density matrix embedding theory (DMET) is a well-known technique to divide a molecule into multiple fragments, which is available to mitigate the noise impact on VQE. However, our preliminary evaluation shows that the naive combination of DMET and VQE does not outperform a gold standard classical method. In this work, we present three approaches to mitigate the noise impact for the DMET+VQE combination. (1) The size of quantum circuits used by VQE is decreased by reducing the number of bath orbitals which represent interactions between multiple fragments in DMET. (2) Reduced density matrices (RDMs), which are used to calculate a molecular energy in DMET, are calculated accurately based on expectation values obtained by executing quantum circuits using a noise-less quantum computer simulator. (3) The parameters of a quantum circuit optimized by VQE are refined with mathematical post-processing. The evaluation using a noisy quantum computer simulator shows that our approaches significantly improve the accuracy of the DMET+VQE combination. Moreover, we demonstrate that on a real NISQ device, the DMET+VQE combination applying our three approaches achieves a higher accuracy than the gold standard classical method.
翻訳日:2023-11-17 16:00:00 公開日:2023-11-16
# 言語モデルのためのオンライン連続的知識学習

Online Continual Knowledge Learning for Language Models ( http://arxiv.org/abs/2311.09632v1 )

ライセンス: Link先を確認
Yuhao Wu and Tongjun Shi and Karthick Sharma and Chun Wei Seah and Shuhao Zhang(参考訳) 大規模言語モデル(LLM)は、幅広い世界の知識のリポジトリとして機能し、質問応答や事実チェックなどのタスクを実行できる。 しかし、この知識はグローバルコンテキストが変化するにつれて時代遅れになる可能性がある。 本稿では,連続学習の領域における新しい問題であるオンライン連続学習(ockl)を提案する。 この問題の定式化は,実時間制約下での世界知識の動的性質を管理することを目的としている。 本研究では,新しい知識獲得率と学習済み知識の保持率の両方を測定するための新しいベンチマークおよび評価指標を提案する。 我々は,様々な最先端手法を用いて経験的評価を行い,ocklのロバストなベースラインを確立する。 今回の結果から,ocklが抱えるユニークな課題に取り組む上で,既存の連続学習アプローチでは不十分であることが分かりました。 我々は,知識獲得と保持のトレードオフに影響を与える重要な要因を特定し,継続的な発展環境下でのLMの訓練方法の理解を深める。

Large Language Models (LLMs) serve as repositories of extensive world knowledge, enabling them to perform tasks such as question-answering and fact-checking. However, this knowledge can become obsolete as global contexts change. In this paper, we introduce a novel problem in the realm of continual learning: Online Continual Knowledge Learning (OCKL). This problem formulation aims to manage the dynamic nature of world knowledge in LMs under real-time constraints. We propose a new benchmark and evaluation metric designed to measure both the rate of new knowledge acquisition and the retention of previously learned knowledge. Our empirical evaluation, conducted using a variety of state-of-the-art methods, establishes robust base-lines for OCKL. Our results reveal that existing continual learning approaches are unfortunately insufficient for tackling the unique challenges posed by OCKL. We identify key factors that influence the trade-off between knowledge acquisition and retention, thereby advancing our understanding of how to train LMs in a continually evolving environment.
翻訳日:2023-11-17 15:59:35 公開日:2023-11-16
# QAC0のパウリスペクトルについて

On the Pauli Spectrum of QAC0 ( http://arxiv.org/abs/2311.09631v1 )

ライセンス: Link先を確認
Shivam Nadimpalli, Natalie Parham, Francisca Vasconcelos, Henry Yuen(参考訳) 回路クラス $\mathsf{QAC}^0$ はムーア (1999) によって、ゲート集合が多ビットトフォリゲートを含む定数深さ量子回路のモデルとして導入された。 そのような回路に対する下界の証明は、量子回路の複雑さにおける長年の挑戦であり、特に多項式サイズの$\mathsf{QAC}^0$がパリティ関数を計算できないことを示すことは、20年以上も未解決の問題のままである。 本研究では、古典的$\mathsf{ac}^0$回路のフーリエスペクトルの量子アナログと見なすことのできる、$\mathsf{qac}^0$回路のemph{pauli spectrum}の概念を同定する。 我々は、$\mathsf{qac}^0$回路のパウリスペクトルが、$\mathsf{ac}^0$回路の低次フーリエ濃度に関する有名なリニアル、nisan、マンスール定理の類似性で、 \emph{low-degree concentration} を満たすと推測する。 もし真なら、この予想は直ちに多項式サイズ$\mathsf{QAC}^0$回路がパリティを計算できないことを意味する。 我々はこの予想を、少なくとも$n^{O(1/d)}$補助量子ビットを持つ深さ=d$、多項式サイズ$\mathsf{QAC}^0$回路のクラスで証明する。 このクラスの回路は正しく計算できない -- (\frac{1}{2} + 2^{-\omega(n^{1/d})}) 入力のフラグメントと -- 入力の$(11/\mathrm{poly}(n))$-fractionでn$-bitパリティ関数を計算できない。 さらに、補助量子ビットが制限された$\mathsf{QAC}^0$回路のクラスは準ポリリノミカル標本の複雑さによって学習できることを示し、$\mathsf{QAC}^0$回路に対する最初の学習結果を与える。 より広範に、我々の結果は『Pauli-analytic'』技術が量子回路の研究において強力なツールであることを示す証拠を与える。

The circuit class $\mathsf{QAC}^0$ was introduced by Moore (1999) as a model for constant depth quantum circuits where the gate set includes many-qubit Toffoli gates. Proving lower bounds against such circuits is a longstanding challenge in quantum circuit complexity; in particular, showing that polynomial-size $\mathsf{QAC}^0$ cannot compute the parity function has remained an open question for over 20 years. In this work, we identify a notion of the \emph{Pauli spectrum} of $\mathsf{QAC}^0$ circuits, which can be viewed as the quantum analogue of the Fourier spectrum of classical $\mathsf{AC}^0$ circuits. We conjecture that the Pauli spectrum of $\mathsf{QAC}^0$ circuits satisfies \emph{low-degree concentration}, in analogy to the famous Linial, Nisan, Mansour theorem on the low-degree Fourier concentration of $\mathsf{AC}^0$ circuits. If true, this conjecture immediately implies that polynomial-size $\mathsf{QAC}^0$ circuits cannot compute parity. We prove this conjecture for the class of depth-$d$, polynomial-size $\mathsf{QAC}^0$ circuits with at most $n^{O(1/d)}$ auxiliary qubits. We obtain new circuit lower bounds and learning results as applications: this class of circuits cannot correctly compute -- the $n$-bit parity function on more than $(\frac{1}{2} + 2^{-\Omega(n^{1/d})})$-fraction of inputs, and -- the $n$-bit majority function on more than $(1 - 1/\mathrm{poly}(n))$-fraction of inputs. \end{itemize} Additionally we show that this class of $\mathsf{QAC}^0$ circuits with limited auxiliary qubits can be learned with quasipolynomial sample complexity, giving the first learning result for $\mathsf{QAC}^0$ circuits. More broadly, our results add evidence that ``Pauli-analytic'' techniques can be a powerful tool in studying quantum circuits.
翻訳日:2023-11-17 15:59:19 公開日:2023-11-16
# scroll to misbelief: ソーシャルメディア上の誤った情報に対する観察不能な感受性のモデル化

From Scroll to Misbelief: Modeling the Unobservable Susceptibility to Misinformation on Social Media ( http://arxiv.org/abs/2311.09630v1 )

ライセンス: Link先を確認
Yanchen Liu, Mingyu Derek Ma, Wenna Qin, Azure Zhou, Jiaao Chen, Weiyan Shi, Wei Wang, Diyi Yang(参考訳) 誤報に対する感受性は、人の精神過程に隠され観察できない、検証不可能な主張を信じる程度である。 既存の感受性研究は、自己報告された信念に大きく依存しており、ダウンストリームのアプリケーションでは、感受性のスケールが困難である。 これらの制約に対処するため,本研究では,ユーザの活動に対する感受性レベルを推定する計算モデルを提案する。 ユーザの感受性は再投稿行動の鍵となる指標であるため,観測可能な共有行動からの監督を利用して,その基盤となる感受性傾向を推定する。 評価の結果,本モデルでは,ユーザの感受性レベル比較において,人間の判断と高度に一致した推定値が得られた。 このような大規模サセプティビリティラベリングに基づいて、社会的要因の違いがサセプティビリティにどのように関係しているかを包括的に分析する。 政治的傾向や心理的要因は、様々な程度における感受性と関連している。

Susceptibility to misinformation describes the extent to believe unverifiable claims, which is hidden in people's mental process and infeasible to observe. Existing susceptibility studies heavily rely on the self-reported beliefs, making any downstream applications on susceptability hard to scale. To address these limitations, in this work, we propose a computational model to infer users' susceptibility levels given their activities. Since user's susceptibility is a key indicator for their reposting behavior, we utilize the supervision from the observable sharing behavior to infer the underlying susceptibility tendency. The evaluation shows that our model yields estimations that are highly aligned with human judgment on users' susceptibility level comparisons. Building upon such large-scale susceptibility labeling, we further conduct a comprehensive analysis of how different social factors relate to susceptibility. We find that political leanings and psychological factors are associated with susceptibility in varying degrees.
翻訳日:2023-11-17 15:58:33 公開日:2023-11-16
# CRISPR: 指示追従言語モデルからバイアスニューロンを除去する

CRISPR: Eliminating Bias Neurons from an Instruction-following Language Model ( http://arxiv.org/abs/2311.09627v1 )

ライセンス: Link先を確認
Nakyeong Yang, Taegwan Kang and Kyomin Jung(参考訳) 命令ベースのプロンプトを通じてタスクを実行する大規模言語モデル(LLM)は、ユーザ命令とトレーニング命令の分散の違いに起因する問題に直面することが多い。 これは、特に一貫性のない動的ラベルを扱う場合、注意散らかしやバイアスを引き起こす。 本稿では,LLMにおける命令-ラベルバイアスを軽減するために,新しいバイアス緩和手法であるCRISPRを提案する。 CRISPRは帰属法を用いてバイアス出力に影響を与えるバイアスニューロンを同定し、プルーニングを用いてバイアスニューロンを除去する。 実験結果から,既存の知識を損なうことなく,指導ベースプロンプトのバイアス軽減,社会的バイアスベンチマークにおける言語モデルの性能向上に有効であることが示された。 CRISPRは、非常に実用的で、モデルに依存しない、進化する社会的バイアスに適応する柔軟性を提供する。

Large language models (LLMs) executing tasks through instruction-based prompts often face challenges stemming from distribution differences between user instructions and training instructions. This leads to distractions and biases, especially when dealing with inconsistent dynamic labels. In this paper, we introduces a novel bias mitigation method, CRISPR, designed to alleviate instruction-label biases in LLMs. CRISPR utilizes attribution methods to identify bias neurons influencing biased outputs and employs pruning to eliminate the bias neurons. Experimental results demonstrate the method's effectiveness in mitigating biases in instruction-based prompting, enhancing language model performance on social bias benchmarks without compromising pre-existing knowledge. CRISPR proves highly practical, model-agnostic, offering flexibility in adapting to evolving social biases.
翻訳日:2023-11-17 15:58:18 公開日:2023-11-16
# DECDM: サイクル一貫性拡散モデルによる文書強調

DECDM: Document Enhancement using Cycle-Consistent Diffusion Models ( http://arxiv.org/abs/2311.09625v1 )

ライセンス: Link先を確認
Jiaxin Zhang, Joy Rimchala, Lalla Mouatadid, Kamalika Das, Sricharan Kumar(参考訳) 光文字認識(ocr)の性能は、文書画像の品質に大きく依存しており、自動文書処理や文書知性に欠かせない。 しかし、既存のドキュメント拡張メソッドの多くは教師付きデータペアを必要とするため、データの分離とプライバシ保護に関する懸念が高まり、これらのメソッドを新しいドメインペアに適用することが困難になる。 そこで本稿では,近年の拡散モデルに触発された文書レベルの画像翻訳手法であるdecdmを提案する。 提案手法は,ソースモデル(ノイズ入力)とターゲットモデル(クリーン出力)を独立にトレーニングすることで,ペア学習の限界を克服し,ドメイン固有拡散モデルを他のペアに適用可能にする。 DECDMは一度に1つのデータセットをトレーニングし、両方のデータセットを同時にスキャンする必要をなくし、ソースまたはターゲットドメインからのデータのプライバシを効果的に保存する。 また、翻訳中の文字・グリフ保存を改善するための単純なデータ拡張戦略も導入する。 我々は,DECMと複数の合成データおよびベンチマークデータセットに関する最先端の手法,例えば文書のデノイング(denoising)や {\color{black}shadow}除去(shadow)などを比較し,定量的かつ定性的に性能の優位性を示す。

The performance of optical character recognition (OCR) heavily relies on document image quality, which is crucial for automatic document processing and document intelligence. However, most existing document enhancement methods require supervised data pairs, which raises concerns about data separation and privacy protection, and makes it challenging to adapt these methods to new domain pairs. To address these issues, we propose DECDM, an end-to-end document-level image translation method inspired by recent advances in diffusion models. Our method overcomes the limitations of paired training by independently training the source (noisy input) and target (clean output) models, making it possible to apply domain-specific diffusion models to other pairs. DECDM trains on one dataset at a time, eliminating the need to scan both datasets concurrently, and effectively preserving data privacy from the source or target domain. We also introduce simple data augmentation strategies to improve character-glyph conservation during translation. We compare DECDM with state-of-the-art methods on multiple synthetic data and benchmark datasets, such as document denoising and {\color{black}shadow} removal, and demonstrate the superiority of performance quantitatively and qualitatively.
翻訳日:2023-11-17 15:58:06 公開日:2023-11-16
# 顧客エクスペリエンス向上のためのAIレコメンデーションシステム:新しい画像からテキストへのアプローチ

AI Recommendation System for Enhanced Customer Experience: A Novel Image-to-Text Method ( http://arxiv.org/abs/2311.09624v1 )

ライセンス: Link先を確認
Mohamaed Foued Ayedi, Hiba Ben Salem, Soulaimen Hammami, Ahmed Ben Said, Rateb Jabbar, Achraf CHabbouh(参考訳) 既存のファッションレコメンデーションシステムは、正確かつパーソナライズされたレコメンデーションのために視覚データを使用することが困難である。 本研究は、人工知能を用いてファッションレコメンデーションのきめ細かい視覚的解釈を提供する革新的なエンドツーエンドパイプラインについて述べる。 顧客が所望の商品や衣装の画像をアップロードすると、システムは自動的にスタイリスティックな要素を強調する意味のある説明を生成する。 これらのキャプションは、オリジナル画像の視覚特性に適合する類似の選択肢を提供するために、グローバルファッション製品カタログからの検索を導く。 10万点以上のファッション写真のデータセットで、パイプラインをトレーニングし、評価した。 対象検出モデルのf1-scoreは0.97で、推奨に最適化された正確なファッションオブジェクト認識能力を示す。 この視覚認識システムは、パーソナライズされたファッションレコメンデーションを通じて、顧客エンゲージメントの重要な進歩を示す

Existing fashion recommendation systems encounter difficulties in using visual data for accurate and personalized recommendations. This research describes an innovative end-to-end pipeline that uses artificial intelligence to provide fine-grained visual interpretation for fashion recommendations. When customers upload images of desired products or outfits, the system automatically generates meaningful descriptions emphasizing stylistic elements. These captions guide retrieval from a global fashion product catalogue to offer similar alternatives that fit the visual characteristics of the original image. On a dataset of over 100,000 categorized fashion photos, the pipeline was trained and evaluated. The F1-score for the object detection model was 0.97, exhibiting exact fashion object recognition capabilities optimized for recommendation. This visually aware system represents a key advancement in customer engagement through personalized fashion recommendations
翻訳日:2023-11-17 15:57:42 公開日:2023-11-16
# 注意に基づく時空間グラフ畳み込みニューラルネットワークを用いたアポトーシス分類

Apoptosis classification using attention based spatio temporal graph convolution neural network ( http://arxiv.org/abs/2311.09623v1 )

ライセンス: Link先を確認
Akash Awasthi(参考訳) アポトーシスの正確な分類は細胞生物学研究において重要な役割を果たす。 アポトーシス分類を行うために深層CNNを用いる最先端のアプローチは数多く存在するが、これらのアプローチは細胞間相互作用を考慮しない。 本稿では,ビデオ中の標的細胞に基づいて細胞死を分類するアテンショングラフ時空間グラフ畳み込みネットワークを提案する。 この方法は、各タイムスタンプにおける複数の標的細胞の相互作用を考察する。 ビデオシーケンス全体をグラフのセットとしてモデル化し、ビデオ内のターゲットセルをデッドまたはライブに分類する。 我々の手法は空間的・時間的関係に遭遇する。

Accurate classification of apoptosis plays an important role in cell biology research. There are many state-of-the-art approaches which use deep CNNs to perform the apoptosis classification but these approaches do not account for the cell interaction. Our paper proposes the Attention Graph spatio-temporal graph convolutional network to classify the cell death based on the target cells in the video. This method considers the interaction of multiple target cells at each time stamp. We model the whole video sequence as a set of graphs and classify the target cell in the video as dead or alive. Our method encounters both spatial and temporal relationships.
翻訳日:2023-11-17 15:57:29 公開日:2023-11-16
# gaia:out-of-distribution detectionのための勾配に基づく帰属異常の検討

GAIA: Delving into Gradient-based Attribution Abnormality for Out-of-distribution Detection ( http://arxiv.org/abs/2311.09620v1 )

ライセンス: Link先を確認
Jinggang Chen, Junjie Li, Xiaoyang Qu, Jianzong Wang, Jiguang Wan, Jing Xiao(参考訳) 実際の環境でのディープニューラルネットワークの信頼性と安全性を保証するためには、アウト・オブ・ディストリビューション(OOD)の例を検出することが不可欠である。 本稿では,モデルが予測決定を下そうとする際の不確実性を分析するため,IDとODデータの格差を定量化するための革新的な視点を提供する。 この視点は、勾配に基づく帰属法がOODデータに特徴的重要度を割り当てる際の課題に遭遇し、異なる説明パターンをもたらすという我々の観察に動機づけられている。 その結果, 帰属勾配が不確実な説明結果にどのように寄与するかを考察し, ゼロデフレ異常とチャネルワイド平均異常の2種類のOOD検出異常を導入した。 そこで我々は,グラディエント異常検査とアグリゲーションを組み込んだ簡易かつ効果的なGAIAを提案する。 GAIAの有効性は、一般的に使用されるCIFARと大規模(ImageNet-1k)ベンチマークの両方で検証される。 具体的には、GAIAはCIFAR10では平均FPR95を23.10%、CIFAR100では45.41%削減する。

Detecting out-of-distribution (OOD) examples is crucial to guarantee the reliability and safety of deep neural networks in real-world settings. In this paper, we offer an innovative perspective on quantifying the disparities between in-distribution (ID) and OOD data -- analyzing the uncertainty that arises when models attempt to explain their predictive decisions. This perspective is motivated by our observation that gradient-based attribution methods encounter challenges in assigning feature importance to OOD data, thereby yielding divergent explanation patterns. Consequently, we investigate how attribution gradients lead to uncertain explanation outcomes and introduce two forms of abnormalities for OOD detection: the zero-deflation abnormality and the channel-wise average abnormality. We then propose GAIA, a simple and effective approach that incorporates Gradient Abnormality Inspection and Aggregation. The effectiveness of GAIA is validated on both commonly utilized (CIFAR) and large-scale (ImageNet-1k) benchmarks. Specifically, GAIA reduces the average FPR95 by 23.10% on CIFAR10 and by 45.41% on CIFAR100 compared to advanced post-hoc methods.
翻訳日:2023-11-17 15:57:20 公開日:2023-11-16
# デモのインクリメンタルな効用を知るために一歩踏み出す - 数少ないインコンテキスト学習のためのリランキングの分析

Take One Step at a Time to Know Incremental Utility of Demonstration: An Analysis on Reranking for Few-Shot In-Context Learning ( http://arxiv.org/abs/2311.09619v1 )

ライセンス: Link先を確認
Kazuma Hashimoto, Karthik Raman, Michael Bendersky(参考訳) In-Context Learning (ICL) は、Large Language Models (LLM) の創発的な能力である。 LLMを新しいタスクのブラックボックスとして使用できるのは、ほんの少しのデモだけだ。 従来の研究では、ラベルとしてLLMの出力を使用することが、デモを選択するためのトレーニングモデルに有効であることが示されている。 このようなラベルは、ICLにおける実演の有用性を推定することが期待されているが、異なるラベル付け戦略が目的のタスクにどのように影響するかはよく分かっていない。 本稿では,地上出力のllms出力確率と,llmsの予測によるタスク固有報酬に着目し,異なるユーティリティ関数の解析を行う。 先行研究と異なり,新しいラベル付け手法であるインクリメンタル・ユーティリティを導入し,実演によってllmにどの程度の知識がもたらされるかを推定する。 アラビア語、英語、フィンランド語、日本語、スペイン語の2進・複数クラス分類、分節化、翻訳を指導したLLMを用いて実験を行った。 その結果,(1)確率値が(分類タスクにおいて)全値範囲に分布する場合に有効であること,(2)負の報酬値に長い出力(セグメンテーションや翻訳タスクにおいて)が与えられた場合,下流の計量はより頑健であることが示された。 次に,本提案手法は,実演の有無とllmの動作を対比することにより,さらにiclに寄与することを示す。

In-Context Learning (ICL) is an emergent capability of Large Language Models (LLMs). Only a few demonstrations enable LLMs to be used as blackbox for new tasks. Previous studies have shown that using LLMs' outputs as labels is effective in training models to select demonstrations. Such a label is expected to estimate utility of a demonstration in ICL; however, it has not been well understood how different labeling strategies affect results on target tasks. This paper presents an analysis on different utility functions by focusing on LLMs' output probability given ground-truth output, and task-specific reward given LLMs' prediction. Unlike the previous work, we introduce a novel labeling method, incremental utility, which estimates how much incremental knowledge is brought into the LLMs by a demonstration. We conduct experiments with instruction-tuned LLMs on binary/multi-class classification, segmentation, and translation across Arabic, English, Finnish, Japanese, and Spanish. Our results show that (1) the probability is effective when the probability values are distributed across the whole value range (on the classification tasks), and (2) the downstream metric is more robust when nuanced reward values are provided with long outputs (on the segmentation and translation tasks). We then show that the proposed incremental utility further helps ICL by contrasting how the LLMs perform with and without the demonstrations.
翻訳日:2023-11-17 15:56:57 公開日:2023-11-16
# オンラインでどこで物語を語るのか? オンラインコミュニティ全体でのストーリー検出

Where Do People Tell Stories Online? Story Detection Across Online Communities ( http://arxiv.org/abs/2311.09675v1 )

ライセンス: Link先を確認
Maria Antoniak, Joel Mire, Maarten Sap, Elliott Ash, Andrew Piper(参考訳) 人々は、自己開示、困難な個人的な経験の処理、必要な情報やエンターテイメントの提供、あるいは他人に信念を共有するよう説得するなど、無数の目的のためにオンラインでストーリーを共有する。 オンラインストーリーテリングの理解を深めることで、社会運動、センスメイキングプラクティス、説得戦略などのダイナミクスを照らすことができます。 しかし、書籍やビジュアルコンテンツなどの他のメディアとは異なり、オンラインコミュニティにおけるストーリーテリングの研究は、文書内や様々なトピックや設定にまたがるストーリーテリングと非ストーリーテリングの振る舞いが混在していることから困難である。 オンライン・コミュニティ・コーパス(オンライン・コミュニティ・コーパス)は、502の英語投稿と、ラベル付きストーリーとイベントスパンを持つコメントのエキスパート・アノテートされたデータセットである。 このコーパスを用いて,オンラインストーリー検出モデルを訓練し,評価し,異なるソーシャルコンテキストにおけるストーリーテリングの役割について検討する。 我々は,オンラインストーリーテリングの特徴,異なるコミュニティ間のストーリーテリングの頻度,およびストーリーテリングの会話パターンを識別する。

People share stories online for a myriad of purposes, whether as a means of self-disclosure, processing difficult personal experiences, providing needed information or entertainment, or persuading others to share their beliefs. Better understanding of online storytelling can illuminate the dynamics of social movements, sensemaking practices, persuasion strategies, and more. However, unlike other media such as books and visual content where the narrative nature of the content is often overtly signaled at the document level, studying storytelling in online communities is challenging due to the mixture of storytelling and non-storytelling behavior, which can be interspersed within documents and across diverse topics and settings. We introduce a codebook and create the Storytelling in Online Communities Corpus, an expert-annotated dataset of 502 English-language posts and comments with labeled story and event spans. Using our corpus, we train and evaluate an online story detection model, which we use to investigate the role storytelling of in different social contexts. We identify distinctive features of online storytelling, the prevalence of storytelling among different communities, and the conversational patterns of storytelling.
翻訳日:2023-11-17 15:49:07 公開日:2023-11-16
# 理論保証によるロバストなコントラスト学習

Robust Contrastive Learning With Theory Guarantee ( http://arxiv.org/abs/2311.09671v1 )

ライセンス: Link先を確認
Ngoc N. Tran, Lam Tran, Hoang Phan, Anh Bui, Tung Pham, Toan Tran, Dinh Phung, Trung Le(参考訳) コントラスト学習(CL)は,ラベル情報なしで意味のある特徴を抽出できる自己指導型学習パラダイムである。 典型的なCLフレームワークは2つのフェーズに分けられており、まずはラベル付きデータから特徴を学習し、次にそれらの特徴を使用してラベル付きデータで線形分類器を訓練する。 第1相の非教師的損失が第2相の教師的損失をどう支援するかを、かなりの量の理論的研究が分析しているが、非教師的損失とロバストな教師的損失との関連性は、CLの第1相の効果的な教師的損失の構築方法に光を当てることができない。 このギャップを埋めるために、我々の研究は厳密な理論を開発し、教師なし損失のどの成分が教師なし損失を改善するのに役立つかを特定し、その結果を検証するために適切な実験を行う。

Contrastive learning (CL) is a self-supervised training paradigm that allows us to extract meaningful features without any label information. A typical CL framework is divided into two phases, where it first tries to learn the features from unlabelled data, and then uses those features to train a linear classifier with the labeled data. While a fair amount of existing theoretical works have analyzed how the unsupervised loss in the first phase can support the supervised loss in the second phase, none has examined the connection between the unsupervised loss and the robust supervised loss, which can shed light on how to construct an effective unsupervised loss for the first phase of CL. To fill this gap, our work develops rigorous theories to dissect and identify which components in the unsupervised loss can help improve the robust supervised loss and conduct proper experiments to verify our findings.
翻訳日:2023-11-17 15:48:45 公開日:2023-11-16
# 単語の重要度スコアリングによるウォーターマーク大言語モデルの生成品質向上

Improving the Generation Quality of Watermarked Large Language Models via Word Importance Scoring ( http://arxiv.org/abs/2311.09668v1 )

ライセンス: Link先を確認
Yuhang Li, Yihan Wang, Zhouxing Shi, Cho-Jui Hsieh(参考訳) 大規模言語モデル(llm)の強力な汎用性は、悪意のあるユーザに制限なくアクセス可能な場合、潜在的な倫理的リスクをもたらす。 トークン確率分布をプレフィックストークンでシードされたプライベート乱数生成器で変更することにより、トークンレベルの透かしを生成されたテキストに挿入する。 しかし、この透かしアルゴリズムは、生成中のロジットを変更するため、入力によって重要度の低いトークンを推奨すると、テキストの品質が低下する可能性がある。 本研究では,透かし付き言語モデルが生成するテキストの品質を,WIS(Watermarking with Importance Scoring)によって改善することを提案する。 各世代ステップにおいて,生成するトークンの重要性を推定し,出力の意味的正確性に重要である場合,透かしによる影響を防止する。 さらに,摂動法とモデルに基づく2つの手法を含む,重要度得点を予測する3つの手法を提案する。 実験により,本手法は検出率に匹敵する品質のテキストを生成できることを示した。

The strong general capabilities of Large Language Models (LLMs) bring potential ethical risks if they are unrestrictedly accessible to malicious users. Token-level watermarking inserts watermarks in the generated texts by altering the token probability distributions with a private random number generator seeded by its prefix tokens. However, this watermarking algorithm alters the logits during generation, which can lead to a downgraded text quality if it chooses to promote tokens that are less relevant given the input. In this work, we propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS). At each generation step, we estimate the importance of the token to generate, and prevent it from being impacted by watermarking if it is important for the semantic correctness of the output. We further propose three methods to predict importance scoring, including a perturbation-based method and two model-based methods. Empirical experiments show that our method can generate texts with better quality with comparable level of detection rate.
翻訳日:2023-11-17 15:48:27 公開日:2023-11-16
# LLMエージェントグループダイナミクスの人間グループダイナミクスに対する評価 : 参加者の知恵を事例として

Evaluating LLM Agent Group Dynamics against Human Group Dynamics: A Case Study on Wisdom of Partisan Crowds ( http://arxiv.org/abs/2311.09665v1 )

ライセンス: Link先を確認
Yun-Shiuan Chuang, Siddharth Suresh, Nikunj Harlalka, Agam Goyal, Robert Hawkins, Sijia Yang, Dhavan Shah, Junjie Hu, Timothy T. Rogers(参考訳) 本研究では,大規模言語モデル(LLM)が,特に政治的に荷電した文脈において,人間のグループ力学をシミュレートする可能性について検討する。 我々は、LLMを用いてパルチザン集団の知恵を再現し、人間のグループ研究と似た構造的な相互作用を担いながら、民主党や共和党のペルソナとしての役割を演じる。 このアプローチは,エージェントの反応が社会的影響を通じてどのように進化するかを評価する。 重要な知見は, llmエージェントが詳細なペルソナをロールプレイし, チェーン・オブ・マインド(cot)の推論が人間の行動と密接に一致するのに対して, cot推論はアライメントを損なうことを示している。 しかし、エージェントプロンプトに明示的なバイアスを組み込むことは、必ずしもパルチザンの群衆の知恵を高めるものではない。 さらに、人間のデータによる微調整 LLM は、人間のような行動を達成することを約束するが、特定の行動に過度に適合するリスクがある。 これらの結果は,ヒト群現象のモデル化におけるllmエージェントの利用の可能性と限界を示している。

This study investigates the potential of Large Language Models (LLMs) to simulate human group dynamics, particularly within politically charged contexts. We replicate the Wisdom of Partisan Crowds phenomenon using LLMs to role-play as Democrat and Republican personas, engaging in a structured interaction akin to human group study. Our approach evaluates how agents' responses evolve through social influence. Our key findings indicate that LLM agents role-playing detailed personas and without Chain-of-Thought (CoT) reasoning closely align with human behaviors, while having CoT reasoning hurts the alignment. However, incorporating explicit biases into agent prompts does not necessarily enhance the wisdom of partisan crowds. Moreover, fine-tuning LLMs with human data shows promise in achieving human-like behavior but poses a risk of overfitting certain behaviors. These findings show the potential and limitations of using LLM agents in modeling human group phenomena.
翻訳日:2023-11-17 15:48:10 公開日:2023-11-16
# Zenkai - バックプロパゲーションを超えて探究するフレームワーク

Zenkai -- Framework For Exploring Beyond Backpropagation ( http://arxiv.org/abs/2311.09663v1 )

ライセンス: Link先を確認
Greg Short(参考訳) Zenkaiはオープンソースのフレームワークで、ディープラーニングマシンの構築と訓練よりも、研究者のコントロールと柔軟性を高める。 ディープラーニングマシンを、独自のターゲットと学習アルゴリズムを備えた半自律学習マシンの層に分割することで、これを実現できる。 これは、非微分可能なレイヤの使用や、エラーバックプロパゲーションに基づく学習アルゴリズムなど、研究者によるさらなる探索を可能にする。 Rumelhart et al. の略。 1986年]ディープラーニングは21世紀の最もエキサイティングな分野のひとつになりました。 その結果,バックプロパゲーションを用いたニューラルネットワークの効率的な実装とトレーニングを支援するソフトウェアツールが多数開発されている。 これらはディープラーニングの成功に不可欠だが、バックプロパゲーションを中心としたフレームワークの構築は、それに準拠しないソリューションの実装を難しくする可能性がある。 zenkaiは、これらの制限を回避することを容易にし、研究者がバックプロパゲーションフレームワークに厳密に準拠していない深層学習の新しいフロンティアを、より容易に探求することを目指している。

Zenkai is an open-source framework designed to give researchers more control and flexibility over building and training deep learning machines. It does this by dividing the deep learning machine into layers of semi-autonomous learning machines with their own target and learning algorithm. This is to allow researchers greater exploration such as the use of non-differentiable layers or learning algorithms beyond those based on error backpropagation. Backpropagation Rumelhart et al. [1986] has powered deep learning to become one of the most exciting fields of the 21st century. As a result, a large number of software tools have been developed to support efficient implementation and training of neural networks through the use of backpropa- gation. While these have been critical to the success of deep learning, building frameworks around backpropagation can make it challenging to implement solutions that do not adhere to it. Zenkai aims to make it easier to get around these limitations and help researchers more easily explore new frontiers in deep learning that do not strictly adhere to the backpropagation framework.
翻訳日:2023-11-17 15:47:49 公開日:2023-11-16
# テキスト分類のための事前学習言語モデルの進化するドメイン適応

Evolving Domain Adaptation of Pretrained Language Models for Text Classification ( http://arxiv.org/abs/2311.09661v1 )

ライセンス: Link先を確認
Yun-Shiuan Chuang, Yi Wu, Dhruv Gupta, Rheeya Uppaal, Ananya Kumar, Luhang Sun, Makesh Narsimhan Sreedhar, Sijia Yang, Timothy T. Rogers, Junjie Hu(参考訳) 進化するドメインシフト(EDS)の中で、時系列テキスト分類に事前訓練された言語モデル(PLM)を適用することは、スタンス検出のようなアプリケーションにおける精度を維持するために重要である。 本研究では, 自己学習, ドメイン・アドバイザリ・トレーニング, ドメイン・アダプティブ・プレトレーニングなど, 進化するドメイン適応(EDA)戦略の有効性を, 漸進的な自己学習手法に焦点をあてて評価する。 本手法は従来の領域適応手法よりも優れたPLMをEDSに適応させるのに優れていた。 これらの知見は,PLMを継続的に更新することの重要性を強調し,PLMの自然な時間的進化に対する堅牢性に関する今後の研究の道を開くものである。

Adapting pre-trained language models (PLMs) for time-series text classification amidst evolving domain shifts (EDS) is critical for maintaining accuracy in applications like stance detection. This study benchmarks the effectiveness of evolving domain adaptation (EDA) strategies, notably self-training, domain-adversarial training, and domain-adaptive pretraining, with a focus on an incremental self-training method. Our analysis across various datasets reveals that this incremental method excels at adapting PLMs to EDS, outperforming traditional domain adaptation techniques. These findings highlight the importance of continually updating PLMs to ensure their effectiveness in real-world applications, paving the way for future research into PLM robustness against the natural temporal evolution of language.
翻訳日:2023-11-17 15:47:32 公開日:2023-11-16
# 二光子結合スペクトルの二次元制御

Two-dimensional Control of a Biphoton Joint Spectrum ( http://arxiv.org/abs/2311.09660v1 )

ライセンス: Link先を確認
Anatoly Shukhin, Inbar Hurvitz, Sivan Trajtenberg-Mills, Ady Arie, Hagai Eisenberg(参考訳) 光子対の合同スペクトル振幅の制御は、スペクトル量子相関を含む多くの量子アプリケーションにとって非常に望ましいことが証明されており、光子の区別不可能性や複雑な量子関数や量子ビットの周波数符号化を含む将来的な応用に決定的な影響を及ぼす。 今日までこれは、カスタムポリング非線形結晶またはポンプパルスを形成することによって、単一の自由度で実現されてきた。 本研究では,位相整合関数とポンプスペクトルの2つの自由度を制御できる手法を提案する。 このアプローチは、結合スペクトル振幅の二次元制御を可能にし、周波数非相関状態、周波数ビンベル状態、二光子qudit状態を含む様々なスペクトル符号化量子状態を生成する。 さらに、結合スペクトル振幅は位相整合関数の対称性を反映したフォトン束縛とアンチ束縛によって制御される。

Control over the joint spectral amplitude of a photon pair has proved highly desirable for many quantum applications, since it contains the spectral quantum correlations, and has crucial effects on the indistinguishability of photons, as well as promising emerging applications involving complex quantum functions and frequency encoding of qudits. Until today, this has been achieved by engineering a single degree of freedom, either by custom poling nonlinear crystal or by shaping the pump pulse. We present a combined approach where two degrees of freedom, the phase-matching function, and the pump spectrum, are controlled. This approach enables the two-dimensional control of the joint spectral amplitude, generating a variety of spectrally encoded quantum states - including frequency uncorrelated states, frequency-bin Bell states, and biphoton qudit states. In addition, the joint spectral amplitude is controlled by photon bunching and anti-bunching, reflecting the symmetry of the phase-matching function.
翻訳日:2023-11-17 15:47:18 公開日:2023-11-16
# 大規模言語モデルを用いた構造化化学推論

Structured Chemistry Reasoning with Large Language Models ( http://arxiv.org/abs/2311.09656v1 )

ライセンス: Link先を確認
Siru Ouyang, Zhuosheng Zhang, Bing Yan, Xuan Liu, Jiawei Han, Lianhui Qin(参考訳) 本稿では,大規模言語モデル(LLM)を用いた複雑な化学問題の解法について検討する。 llm(gpt-4など)に関する広範な知識にもかかわらず、化学的な推論には様々な化学知識と化学相互作用の統合的な理解を必要とする。 我々は,LSMの化学的推論能力を大幅に向上させる新しい構造的推論手法であるInstructChemを提案する。 InstructChemは、後続の根拠付き推論の基礎を提供するLCMによる化学式の生成、事前回答のために特定された公式と多段階の導出を行うステップバイステップの推論、LCMが信頼を高めるために前のフェーズを段階的に修正する反復的なレビュー・アンド・リファインメントを含む3つの重要なフレーズを明示的に分解する。 量子化学、量子力学、物理化学、化学力学を含む4つの異なる化学課題について広範な実験を行う。 本手法は化学推論において GPT-4 を著しく向上させ, 8% の平均絶対改善, 30% のピーク改善をもたらす。 我々はさらに、GPT-4による生成推論を用いて、より小さなLM(例えば、Vicuna)を微調整し、より小さなLMの強い改善を観察する。 これにより、我々のアプローチを検証し、LLMが高品質な推論を作成できる。

This paper studies the problem of solving complex chemistry problems with large language models (LLMs). Despite the extensive general knowledge in LLMs (such as GPT-4), they struggle with chemistry reasoning that requires faithful grounded reasoning with diverse chemical knowledge and an integrative understanding of chemical interactions. We propose InstructChem, a new structured reasoning approach that substantially boosts the LLMs' chemical reasoning capabilities. InstructChem explicitly decomposes the reasoning into three critical phrases, including chemical formulae generation by LLMs that offers the basis for subsequent grounded reasoning, step-by-step reasoning that makes multi-step derivations with the identified formulae for a preliminary answer, and iterative review-and-refinement that steers LLMs to progressively revise the previous phases for increasing confidence, leading to the final high-confidence answer. We conduct extensive experiments on four different chemistry challenges, including quantum chemistry, quantum mechanics, physical chemistry, and chemistry kinetics. Our approach significantly enhances GPT-4 on chemistry reasoning, yielding an 8% average absolute improvement and a 30% peak improvement. We further use the generated reasoning by GPT-4 to fine-tune smaller LMs (e.g., Vicuna) and observe strong improvement of the smaller LMs. This validates our approach and enables LLMs to generate high-quality reasoning.
翻訳日:2023-11-17 15:47:01 公開日:2023-11-16
# 呼吸音分類のためのマルチビュースペクトログラム変換器

Multi-View Spectrogram Transformer for Respiratory Sound Classification ( http://arxiv.org/abs/2311.09655v1 )

ライセンス: Link先を確認
Wentao He, Yuchen Yan, Jianfeng Ren, Ruibin Bai, Xudong Jiang(参考訳) 深層ニューラルネットワークは呼吸音分類のための音声スペクトログラムに適用されている。 既存のモデルは、しばしば分光図を合成画像として扱い、物理特性を見下ろしている。 本稿では、視覚変換器に時間周波数特性の異なるビューを埋め込むために、MVST(Multi-View Spectrogram Transformer)を提案する。 提案したMVSTは, メリースペクトルを異なる大きさのパッチに分割し, 呼吸音の多視点音響特性を表す。 これらのパッチと位置埋め込みをトランスフォーマーエンコーダに入力し、自己保持機構を通じてパッチ間の注意情報を抽出する。 最後に、ゲート融合スキームは、特定のシナリオで最良のものを強調するために、マルチビュー機能を自動的に評価するように設計されている。 ICBHIデータセットによる実験結果から,提案したMVSTは呼吸音の分類方法に優れていた。

Deep neural networks have been applied to audio spectrograms for respiratory sound classification. Existing models often treat the spectrogram as a synthetic image while overlooking its physical characteristics. In this paper, a Multi-View Spectrogram Transformer (MVST) is proposed to embed different views of time-frequency characteristics into the vision transformer. Specifically, the proposed MVST splits the mel-spectrogram into different sized patches, representing the multi-view acoustic elements of a respiratory sound. These patches and positional embeddings are then fed into transformer encoders to extract the attentional information among patches through a self-attention mechanism. Finally, a gated fusion scheme is designed to automatically weigh the multi-view features to highlight the best one in a specific scenario. Experimental results on the ICBHI dataset demonstrate that the proposed MVST significantly outperforms state-of-the-art methods for classifying respiratory sounds.
翻訳日:2023-11-17 15:46:34 公開日:2023-11-16
# 疎水性によるトケンプースの改良

Improved TokenPose with Sparsity ( http://arxiv.org/abs/2311.09653v1 )

ライセンス: Link先を確認
Anning Li(参考訳) 過去数年間、視覚変換器とその様々な形態は人間のポーズ推定において重要視されてきた。 画像パッチをトークンとして扱うことで、トランスフォーマーはグローバルな関係を賢く捉え、視覚トークンを利用してキーポイントトークンを推定し、人間の姿勢を認識することができる。 それでも、グローバルに注目されるのは計算の要求であり、トランスフォーマーベースの方法を高解像度機能にスケールアップする上での課題となっている。 本稿では,人間のポーズ推定を改善するために,キーポイントトークンアテンションと視覚トークンアテンションの両方に空間性を導入する。 MPIIデータセットによる実験結果から,本モデルは精度が高く,本手法の有効性が証明され,新たな最先端結果が得られた。 このアイデアは他のトランスフォーマーベースのモデルへの参照を提供することもできる。

Over the past few years, the vision transformer and its various forms have gained significance in human pose estimation. By treating image patches as tokens, transformers can capture global relationships wisely, estimate the keypoint tokens by leveraging the visual tokens, and recognize the posture of the human body. Nevertheless, global attention is computationally demanding, which poses a challenge for scaling up transformer-based methods to high-resolution features. In this paper, we introduce sparsity in both keypoint token attention and visual token attention to improve human pose estimation. Experimental results on the MPII dataset demonstrate that our model has a higher level of accuracy and proved the feasibility of the method, achieving new state-of-the-art results. The idea can also provide references for other transformer-based models.
翻訳日:2023-11-17 15:46:18 公開日:2023-11-16
# 混合反射シーンにおけるイベントベースモーションロバスト高精度形状推定

Event-based Motion-Robust Accurate Shape Estimation for Mixed Reflectance Scenes ( http://arxiv.org/abs/2311.09652v1 )

ライセンス: Link先を確認
Aniket Dashpute, Jiazhang Wang, James Taylor, Oliver Cossairt, Ashok Veeraraghavan, Florian Willomitzer(参考訳) イベントベースの構造化光システムは、拡散面の3次元計測のための従来のフレームベースの三角測量システムのエキサイティングな代替として最近導入された。 重要なメリットは、データ品質が低くても、高速キャプチャ速度とイベントカメラが提供するダイナミックレンジだ。 これまでのところ、低精度のイベントベースと高精度のフレームベースの3Dイメージングシステムは、拡散やスペクトルのような特定の表面タイプに調整されており、より広い種類の物体表面には使用できない("mixed Reflectance scene")。 本稿では,複合反射シーンの高速3次元画像化を高精度に行うイベントベースの構造化光システムを提案する。 得られた事象に対して、本質的に測定された反射を拡散、2バウンススペクトルおよび他の多重バウンス反射に分解できるエピポーラ制約を用いる。 シーン内の拡散物体は三角測量により再構成される。 最終的に、再構成された拡散シーン部を「表示」として、偏向測定により鏡面シーン部を評価する。 本手法では, 走査レーザとイベントカメラのみを用いて, シーン全体を仮想スクリーンとして使用することができる。 得られたシステムは500ドル以下の精度で混合反射シーンの高速かつ運動ロバスト(14hz)再構成を実現する。 さらに,拡散シーンの3次元計測のための「超高速」キャプチャモード(250Hz)を導入する。

Event-based structured light systems have recently been introduced as an exciting alternative to conventional frame-based triangulation systems for the 3D measurements of diffuse surfaces. Important benefits include the fast capture speed and the high dynamic range provided by the event camera - albeit at the cost of lower data quality. So far, both low-accuracy event-based as well as high-accuracy frame-based 3D imaging systems are tailored to a specific surface type, such as diffuse or specular, and can not be used for a broader class of object surfaces ("mixed reflectance scenes"). In this paper, we present a novel event-based structured light system that enables fast 3D imaging of mixed reflectance scenes with high accuracy. On the captured events, we use epipolar constraints that intrinsically enable decomposing the measured reflections into diffuse, two-bounce specular, and other multi-bounce reflections. The diffuse objects in the scene are reconstructed using triangulation. Eventually, the reconstructed diffuse scene parts are used as a "display" to evaluate the specular scene parts via deflectometry. This novel procedure allows us to use the entire scene as a virtual screen, using only a scanning laser and an event camera. The resulting system achieves fast and motion-robust (14Hz) reconstructions of mixed reflectance scenes with < 500 $\mu$m accuracy. Moreover, we introduce a "superfast" capture mode (250Hz) for the 3D measurement of diffuse scenes.
翻訳日:2023-11-17 15:46:05 公開日:2023-11-16
# 「ジャーヴィスに似てはいないが、かなり近い!」-コンピュータサイエンスの学部生の間でのChatGPTの使用状況について

"It's not like Jarvis, but it's pretty close!" -- Examining ChatGPT's Usage among Undergraduate Students in Computer Science ( http://arxiv.org/abs/2311.09651v1 )

ライセンス: Link先を確認
Ishika Joshi, Ritvik Budhiraja, Harshal D Akolekar, Jagat Sesh Challa, Dhruv Kumar(参考訳) ChatGPTやGoogle Bardのような大規模言語モデル(LLM)は、学術界で大きな注目を集めている。 従来の研究は、プログラミング演習やソリューションの生成など、様々な用途でこれらのLSMを評価してきた。 しかし,これらの評価は,学生のllmの利用を考慮せず,インストラクターや研究者が主に実施している。 本研究は,OpenAI がリリースした人気の LLM である ChatGPT を,学部生がどのように活用するかを包括的に理解するための,学生主導のアプローチを採用する。 学生調査とインタビューを組み合わせることで,チャットgptに関するメリットや課題,改善提案について貴重な洞察を得ることができた。 以上の結果から,ほとんどの学生(57%以上)が,ChatGPTをコースワーク関連タスクの補助として採用する上で,極めて肯定的な見通しを抱いていることが示唆された。 しかし,本研究は,ChatGPTの長期受容のために解決すべき諸課題についても強調している。 この調査の結果は幅広い意味を持ち、他のllmやコンピュータ教育におけるその役割にも当てはまる可能性がある。

Large language models (LLMs) such as ChatGPT and Google Bard have garnered significant attention in the academic community. Previous research has evaluated these LLMs for various applications such as generating programming exercises and solutions. However, these evaluations have predominantly been conducted by instructors and researchers, not considering the actual usage of LLMs by students. This study adopts a student-first approach to comprehensively understand how undergraduate computer science students utilize ChatGPT, a popular LLM, released by OpenAI. We employ a combination of student surveys and interviews to obtain valuable insights into the benefits, challenges, and suggested improvements related to ChatGPT. Our findings suggest that a majority of students (over 57%) have a convincingly positive outlook towards adopting ChatGPT as an aid in coursework-related tasks. However, our research also highlights various challenges that must be resolved for long-term acceptance of ChatGPT amongst students. The findings from this investigation have broader implications and may be applicable to other LLMs and their role in computing education.
翻訳日:2023-11-17 15:45:41 公開日:2023-11-16
# ICXML: ゼロショット極端のマルチラベル分類のためのコンテキスト学習フレームワーク

ICXML: An In-Context Learning Framework for Zero-Shot Extreme Multi-Label Classification ( http://arxiv.org/abs/2311.09649v1 )

ライセンス: Link先を確認
Yaxin Zhu and Hamed Zamani(参考訳) 本稿では,非常に大きなラベル空間から各インスタンスの複数のラベルを予測することを目的とした,エクストリームマルチラベル分類(XMC)の課題に焦点を当てる。 既存の研究は主に完全な教師付きXMCに焦点を当てているが、現実のシナリオでは完全な監視信号が欠如しており、ゼロショット設定の重要性を強調している。 大きなラベル空間を考えると、コンテキスト内学習アプローチを利用するのは簡単ではない。 これは2段階のフレームワークで、incontext learningを通じて一連の候補ラベルを生成して検索空間を縮小し、それらを再ランク付けする。 大規模な実験は、ICXMLが2つの異なる公開ベンチマークで最先端の技術を推し進めていることを示唆している。

This paper focuses on the task of Extreme Multi-Label Classification (XMC) whose goal is to predict multiple labels for each instance from an extremely large label space. While existing research has primarily focused on fully supervised XMC, real-world scenarios often lack complete supervision signals, highlighting the importance of zero-shot settings. Given the large label space, utilizing in-context learning approaches is not trivial. We address this issue by introducing In-Context Extreme Multilabel Learning (ICXML), a two-stage framework that cuts down the search space by generating a set of candidate labels through incontext learning and then reranks them. Extensive experiments suggest that ICXML advances the state of the art on two diverse public benchmarks.
翻訳日:2023-11-17 15:45:22 公開日:2023-11-16
# イベント因果性は計算的ストーリー理解の鍵となる

Event Causality Is Key to Computational Story Understanding ( http://arxiv.org/abs/2311.09648v1 )

ライセンス: Link先を確認
Yidan Sun, Qin Chao, Boyang Li(参考訳) 心理学的研究は、人間のストーリー理解における出来事因果関係の中心的な役割を示唆している。 さらに、イベント因果関係は象徴的なストーリー生成に広く利用されている。 しかしながら、オープンワールド因果関係を識別するための信頼性の高い方法が欠如していることから、イベント因果関係を用いる機械学習システムはほとんどない。 大規模言語モデル (LLM) の最近の進歩を生かして, 事象因果同定のための最初の手法を提案する。 GPTから事象因果関係を抽出するための特定のプロンプトを設計する。 グルコースデータセットにおけるヒューマンアノテートされた事象因果関係に対して,本手法は教師付きモデルと同等の性能を持ち,異なる種類や長さのストーリーに容易に一般化できる。 抽出された因果関係は、ストーリー品質評価において5.7 %、ストーリービデオテキストアライメントにおいて8.7 %の改善をもたらす。 以上より,計算的ストーリー理解における事象因果性は極めて大きい可能性が示唆された。

Psychological research suggests the central role of event causality in human story understanding. Further, event causality has been heavily utilized in symbolic story generation. However, few machine learning systems for story understanding employ event causality, partially due to the lack of reliable methods for identifying open-world causal event relations. Leveraging recent progress in large language models (LLMs), we present the first method for event causality identification that leads to material improvements in computational story understanding. We design specific prompts for extracting event causal relations from GPT. Against human-annotated event causal relations in the GLUCOSE dataset, our technique performs on par with supervised models, while being easily generalizable to stories of different types and lengths. The extracted causal relations lead to 5.7\% improvements on story quality evaluation and 8.7\% on story video-text alignment. Our findings indicate enormous untapped potential for event causality in computational story understanding.
翻訳日:2023-11-17 15:45:08 公開日:2023-11-16
# 単一符号化画像からの連続光場再構成

Reconstructing Continuous Light Field From Single Coded Image ( http://arxiv.org/abs/2311.09646v1 )

ライセンス: Link先を確認
Yuya Ishikawa and Keita Takahashi and Chihiro Tsutake and Toshiaki Fujii(参考訳) 本研究では,対象シーンの連続光場を単一観測画像から再構成する手法を提案する。 本手法は, 圧縮光場取得のための関節開口露光符号化と, 視野合成のためのニューラル放射場 (NeRF) の2つの世界を最大限に活用する。 カメラに実装された共同開口露光符号化により、観測画像に3次元シーン情報を効果的に埋め込むことができるが、以前の研究では、離散光界ビューの再構成にのみ使用された。 NeRFベースのニューラルレンダリングは、連続的な視点から3Dシーンの高品質なビュー合成を可能にするが、入力として1つの画像のみが与えられる場合、満足のいく品質を達成するのに苦労する。 本手法は,これら2つの手法を効率良くエンドツーエンドのトレーニング可能なパイプラインに統合する。 様々な場面で学習し,テスト時間最適化なしに連続光場を高精度かつ効率的に再構築することができる。 私たちの知る限り、これは2つの世界を橋渡しする最初の仕事です。3d情報とニューラルネットワークのレンダリングを効率的に獲得するためのカメラ設計です。

We propose a method for reconstructing a continuous light field of a target scene from a single observed image. Our method takes the best of two worlds: joint aperture-exposure coding for compressive light-field acquisition, and a neural radiance field (NeRF) for view synthesis. Joint aperture-exposure coding implemented in a camera enables effective embedding of 3-D scene information into an observed image, but in previous works, it was used only for reconstructing discretized light-field views. NeRF-based neural rendering enables high quality view synthesis of a 3-D scene from continuous viewpoints, but when only a single image is given as the input, it struggles to achieve satisfactory quality. Our method integrates these two techniques into an efficient and end-to-end trainable pipeline. Trained on a wide variety of scenes, our method can reconstruct continuous light fields accurately and efficiently without any test time optimization. To our knowledge, this is the first work to bridge two worlds: camera design for efficiently acquiring 3-D information and neural rendering.
翻訳日:2023-11-17 15:44:51 公開日:2023-11-16
# 最小誘導型言語モデルによる自律的仮説検証に向けて

Towards Autonomous Hypothesis Verification via Language Models with Minimal Guidance ( http://arxiv.org/abs/2311.09706v1 )

ライセンス: Link先を確認
Shiro Takagi, Ryutaro Yamauchi, Wataru Kumagai(参考訳) 研究自動化は通常、研究プロセス内の特定のタスクを自動化するツールとしてAIを使用する。 真に研究を行うaiを作成するには、仮説、設計検証計画、検証の実行を独立に生成する必要がある。 そこで我々は,AI自体がおもちゃの機械学習研究問題の仮説を自動生成し,検証できるかどうかを検討した。 我々はGPT-4に仮説とPythonコードを生成するよう促した。 以上の結果から,GPT-4は詳細なガイダンスを伴わずに仮説を自動生成し,検証することが可能であることが示唆された。 これは有望な結果ですが、検証には欠陥はなく、汎用的な指示だけで自律的な人間レベルの研究を実現する上で大きな課題が残っています。 これらの発見は、汎用的で自律的なAI研究者を開発するための継続的な調査の必要性を浮き彫りにしている。

Research automation efforts usually employ AI as a tool to automate specific tasks within the research process. To create an AI that truly conduct research themselves, it must independently generate hypotheses, design verification plans, and execute verification. Therefore, we investigated if an AI itself could autonomously generate and verify hypothesis for a toy machine learning research problem. We prompted GPT-4 to generate hypotheses and Python code for hypothesis verification with limited methodological guidance. Our findings suggest that, in some instances, GPT-4 can autonomously generate and validate hypotheses without detailed guidance. While this is a promising result, we also found that none of the verifications were flawless, and there remain significant challenges in achieving autonomous, human-level research using only generic instructions. These findings underscore the need for continued exploration to develop a general and autonomous AI researcher.
翻訳日:2023-11-17 15:37:58 公開日:2023-11-16
# VDMにおける国際量ライブラリー

International System of Quantities library in VDM ( http://arxiv.org/abs/2311.09704v1 )

ライセンス: Link先を確認
Leo Freitas(参考訳) 1960年にISQ(International Systems of Quantities)標準が公表され、例えばメートルキログラム秒に対してセンチメートルグラム秒のような世界中の様々な測定システムが開発されている。 このような標準は、互換性のないユニット間の変換における ``trivial''' (エラーが発生しやすい) の潜在的な誤りに非常に動機づけられている。 宇宙飛行や医療機器等ではこのような事故があった。 したがって、モデリングやシミュレーションの実験は使用不可能または安全ではない。 本稿では, 単純, 高精度, 高速, 有効である textbf{SAFE}-ISQ VDM-library を提供することによりこの問題に対処する。 これは他のVDM数学的ツールキット拡張のエコシステムを拡張しており、Isabelle の https://github.com/leouk/VDM_Toolkit での VDM の翻訳と証明環境を含んでいる。

The International Systems of Quantities (ISQ) standard was published in 1960 to tame the wide diversity of measurement systems being developed across the world, such as the centimetre-gram-second versus the meter-kilogram-second for example. Such a standard is highly motivated by the potential of ``trivial'' (rather error-prone) mistakes in converting between incompatible units. There have been such accidents in space missions, medical devices, etc. Thus, rendering modelling or simulation experiments unusable or unsafe. We address this problem by providing a \textbf{SAFE}-ISQ VDM-library that is: Simple, Accurate, Fast, and Effective. It extends an ecosystem of other VDM mathematical toolkit extensions, which include a translation and proof environment for VDM in Isabelle at https://github.com/leouk/VDM_Toolkit.
翻訳日:2023-11-17 15:37:34 公開日:2023-11-16
# 推論チェーンにおける意味的ショートカットを欺く: 幻覚なしでモデルがどこまで進むのか?

Deceiving Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination? ( http://arxiv.org/abs/2311.09702v1 )

ライセンス: Link先を確認
Bangzheng Li, Ben Zhou, Fei Wang, Xingyu Fu, Dan Roth, Muhao Chen(参考訳) 大規模言語モデル(LLM)の最近の進歩と、多くのベンチマークにおける高いパフォーマンスにもかかわらず、最近の研究はLLMが幻覚や不誠実な推論に悩まされていることを明らかにした。 本研究はセマンティックアソシエーションによって誘発される特定の種類の幻覚の研究である。 具体的には、LLMが正しい推論経路に従うのではなく、プロンプト内の特定のキーワード/エンタリティバイアスからショートカットをどの程度取るかを検討する。 この現象を定量化するために,EureQAと呼ばれる新しい探索手法とベンチマークを提案する。 まず LLM が完全確実性で正しく答える質問から始め、重要なエンティティを証拠文で再帰的に隠蔽し、モデルに質問に答える前に、一連の証拠に従ってマスクされたエンティティを見つけるよう求めます。 証拠を構築する際には、意図的な意味的手がかり (entities) を置き換えて、正しい答えに直結するのではなく、連鎖的な推論プロセスを必要とする注意深い手がかり (evidence) で正しい答えを導く。 注意散らしの手掛かりを省略する代わりに、モデルが正しい推論チェーンに従うことができるかどうかを評価する。 既存のLSMは正しい推論経路を辿り、欲張りのショートカットに抵抗するために必要な機能を持っていないことがわかった。 注意散らしのセマンティック・アソシエーションは、しばしばモデル幻覚を引き起こすことが示され、これは現在のLSM推論の有効性を疑問視する強い証拠である。

Despite the recent advancement in large language models (LLMs) and their high performances across numerous benchmarks, recent research has unveiled that LLMs suffer from hallucinations and unfaithful reasoning. This work studies a specific type of hallucination induced by semantic associations. Specifically, we investigate to what extent LLMs take shortcuts from certain keyword/entity biases in the prompt instead of following the correct reasoning path. To quantify this phenomenon, we propose a novel probing method and benchmark called EureQA. We start from questions that LLMs will answer correctly with utmost certainty, and mask the important entity with evidence sentence recursively, asking models to find masked entities according to a chain of evidence before answering the question. During the construction of the evidence, we purposefully replace semantic clues (entities) that may lead to the correct answer with distractor clues (evidence) that will not directly lead to the correct answer but require a chain-like reasoning process. We evaluate if models can follow the correct reasoning chain instead of short-cutting through distractor clues. We find that existing LLMs lack the necessary capabilities to follow correct reasoning paths and resist the attempt of greedy shortcuts. We show that the distractor semantic associations often lead to model hallucination, which is strong evidence that questions the validity of current LLM reasoning.
翻訳日:2023-11-17 15:37:05 公開日:2023-11-16
# ハイブリッド古典量子分岐結合アルゴリズムによる整数線形問題の解法

Hybrid classical-quantum branch-and-bound algorithm for solving integer linear problems ( http://arxiv.org/abs/2311.09700v1 )

ライセンス: Link先を確認
Claudio Sanavio, Edoardo Tignone, Elisa Ercolessi(参考訳) 量子アニールは、QUBOの定式化で表されるいくつかのロジスティック最適化問題を解くのに適している。 しかし、量子異方体が提案する解は一般に最適ではなく、計算に関わる量子ビットの数が大きすぎると熱ノイズやその他の乱雑な効果が生じる。 この問題に対処するため,我々は,問題をより少ないキュービット数で記述される部分問題に分割する古典的な分岐・バウンドアルゴリズムの利用を提案する。 我々は,この手法の性能を,knapsack問題と旅行セールスマン問題という2つの問題で解析する。 提案手法の利点は,ユーザが危険を冒すであろう量子ハードウェアの解の誤差量と,アルゴリズムが行わなければならないステップ数とをバランスさせることである。 すべての結果は、量子アネラーd波のアドバンテージで実際に実行される。

Quantum annealers are suited to solve several logistic optimization problems expressed in the QUBO formulation. However, the solutions proposed by the quantum annealers are generally not optimal, as thermal noise and other disturbing effects arise when the number of qubits involved in the calculation is too large. In order to deal with this issue, we propose the use of the classical branch-and-bound algorithm, that divides the problem into sub-problems which are described by a lower number of qubits. We analyze the performance of this method on two problems, the knapsack problem and the traveling salesman problem. Our results show the advantages of this method, that balances the number of steps that the algorithm has to make with the amount of error in the solution found by the quantum hardware that the user is willing to risk. All the results are actual runs on the quantum annealer D-Wave Advantage.
翻訳日:2023-11-17 15:36:26 公開日:2023-11-16
# Babelにおけるファムブル:ChatGPTの言語識別能力の検討

Fumbling in Babel: An Investigation into ChatGPT's Language Identification Ability ( http://arxiv.org/abs/2311.09696v1 )

ライセンス: Link先を確認
Wei-Rui Chen, Ife Adebara, Khai Duy Doan, Qisheng Liao, Muhammad Abdul-Mageed(参考訳) 最近、ChatGPTはいくつかのタスクを実行できる強力なNLPツールとして登場した。 しかし、ChatGPTが扱える言語の範囲はいまだに謎のままである。 本研究では,ChatGPTの言語識別能力について検討する。 この目的のために、Babel-670をコンパイルする。これは、23ドルの言語ファミリーを表す670ドルの言語からなるベンチマークである。 Babel-670の言語は、非常に高いリソースと非常に低いリソースの間のガムを実行し、5つの大陸で話されている。 次にChatGPT(GPT-3.5とGPT-4の両方)の能力について研究する。 (i)言語名と言語コードの両方を識別する (ii)ゼロショット条件と少数ショット条件 (iii)ラベルの記載の有無 より小さな言語識別ツールと比較すると、ChatGPTが遅れていることが分かります。 われわれの実証分析は、chatgptが多様なコミュニティに十分に役立つ前に、まだ潜在的な強化状態にあるという事実を示しています。

Recently, ChatGPT has emerged as a powerful NLP tool that can carry out several tasks. However, the range of languages ChatGPT can handle remains largely a mystery. In this work, we investigate ChatGPT's language identification abilities. For this purpose, we compile Babel-670, a benchmark comprising $670$ languages representing $23$ language families. Languages in Babel-670 run the gamut between the very high-resource to the very low-resource and are spoken in five continents. We then study ChatGPT's (both GPT-3.5 and GPT-4) ability to (i) identify both language names and language codes (ii) under both zero- and few-shot conditions (iii) with and without provision of label set. When compared to smaller finetuned language identification tools, we find that ChatGPT lags behind. Our empirical analysis shows the reality that ChatGPT still resides in a state of potential enhancement before it can sufficiently serve diverse communities.
翻訳日:2023-11-17 15:35:40 公開日:2023-11-16
# NLPロバストネスにおけるTriumphエコー中のダウトのささやき

Whispers of Doubt Amidst Echoes of Triumph in NLP Robustness ( http://arxiv.org/abs/2311.09694v1 )

ライセンス: Link先を確認
Ashim Gupta, Rishanth Rajendhran, Nathan Stringham, Vivek Srikumar, Ana Marasovi\'c(参考訳) NLPの長年にわたる堅牢性問題は、今日の大規模でパフォーマンスの高いモデルによって解決されているか? この問題に対処するために、異なるアーキテクチャ選択と事前学習目的にまたがる19種類のモデルを用いて、徹底的な調査を行う。 私たちは評価を行います (a)OODとチャレンジテストセット (b)チェックリスト。 (c)コントラストセット、及び (d) 逆入力。 分析の結果、OODテストのすべてが堅牢性に関するさらなる洞察を提供するわけではないことが判明した。 CheckListとコントラストセットによる評価は、モデルパフォーマンスにおいて大きなギャップを示している。 最後に、モデルの敵対的評価に対する現在のアプローチはそれ自体が問題であり、それらは容易に妨害され、現在の形式ではモデルの堅牢性に関する十分に深いプローブを表現していないことを指摘した。 我々はNLPにおけるロバスト性の問題が未解決であるだけでなく、ロバスト性を測定するアプローチも再評価する必要があると結論付けている。

Are the longstanding robustness issues in NLP resolved by today's larger and more performant models? To address this question, we conduct a thorough investigation using 19 models of different sizes spanning different architectural choices and pretraining objectives. We conduct evaluations using (a) OOD and challenge test sets, (b) CheckLists, (c) contrast sets, and (d) adversarial inputs. Our analysis reveals that not all OOD tests provide further insight into robustness. Evaluating with CheckLists and contrast sets shows significant gaps in model performance; merely scaling models does not make them sufficiently robust. Finally, we point out that current approaches for adversarial evaluations of models are themselves problematic: they can be easily thwarted, and in their current forms, do not represent a sufficiently deep probe of model robustness. We conclude that not only is the question of robustness in NLP as yet unresolved, but even some of the approaches to measure robustness need to be reassessed.
翻訳日:2023-11-17 15:35:27 公開日:2023-11-16
# BLT: 大規模言語モデルは基本法文を扱えるか?

BLT: Can Large Language Models Handle Basic Legal Text? ( http://arxiv.org/abs/2311.09693v1 )

ライセンス: Link先を確認
Andrew Blair-Stanek, Nils Holzenberger, Benjamin Van Durme(参考訳) GPT-4 や PaLM 2 のような公開可能な LLM は、現在、証人の供述の行や契約のサブセクションでテキストを検索するなど、弁護士や法務官が必要とする基本的なテキストハンドリングでは不十分である。 この性能の低下を定量的に評価するためのベンチマークを導入し、LLMの現在の信頼性が法的実践に欠かせないことを疑う。 これらのタスクの微調整は、テストセットのほぼ完全なパフォーマンスに古いllmをもたらし、関連する法的タスクのパフォーマンスも向上します。 この大きな成果は、LLMトレーニングにおけるより多くのドメイン専門知識の必要性を浮き彫りにする。

We find that the best publicly available LLMs like GPT-4 and PaLM 2 currently perform poorly at basic text handling required of lawyers or paralegals, such as looking up the text at a line of a witness deposition or at a subsection of a contract. We introduce a benchmark to quantify this poor performance, which casts into doubt LLMs' current reliability as-is for legal practice. Finetuning for these tasks brings an older LLM to near-perfect performance on our test set and also raises performance on a related legal task. This stark result highlights the need for more domain expertise in LLM training.
翻訳日:2023-11-17 15:34:54 公開日:2023-11-16
# 自己参照による教師なし強化学習の強化

Augmenting Unsupervised Reinforcement Learning with Self-Reference ( http://arxiv.org/abs/2311.09692v1 )

ライセンス: Link先を確認
Andrew Zhao, Erle Zhu, Rui Lu, Matthieu Lin, Yong-Jin Liu, Gao Huang(参考訳) 人間は、新しいタスクを学習し、それに応じて適用する際に、過去の経験を明示的に描く能力を持っている。 この自己参照能力は,教師なし事前学習環境における強化学習エージェントにとって特に有益である。 事前訓練中、エージェントの過去の経験を明示的に利用して、内在的な報酬の非定常性を軽減することができる。 微調整の段階では、歴史的軌跡を参照することは、貴重な探索行動の未学習を妨げる。 これらの利点を生かした自己参照(SR)アプローチは,歴史情報を活用するためのアドオンモジュールであり,プリトレイン・ファイントゥン・パラダイム内でのエージェント性能の向上を目的としている。 提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,モデルフリー手法の86%のIQMと16%の最適ギャップを記録できる。 さらに、現在のアルゴリズムを最大17%のIQMで改善し、最適化ギャップを31%削減する。 パフォーマンスの向上に加えて、自己参照アドオンは実世界のアプリケーションにとって重要な属性であるサンプル効率も向上する。

Humans possess the ability to draw on past experiences explicitly when learning new tasks and applying them accordingly. We believe this capacity for self-referencing is especially advantageous for reinforcement learning agents in the unsupervised pretrain-then-finetune setting. During pretraining, an agent's past experiences can be explicitly utilized to mitigate the nonstationarity of intrinsic rewards. In the finetuning phase, referencing historical trajectories prevents the unlearning of valuable exploratory behaviors. Motivated by these benefits, we propose the Self-Reference (SR) approach, an add-on module explicitly designed to leverage historical information and enhance agent performance within the pretrain-finetune paradigm. Our approach achieves state-of-the-art results in terms of Interquartile Mean (IQM) performance and Optimality Gap reduction on the Unsupervised Reinforcement Learning Benchmark for model-free methods, recording an 86% IQM and a 16% Optimality Gap. Additionally, it improves current algorithms by up to 17% IQM and reduces the Optimality Gap by 31%. Beyond performance enhancement, the Self-Reference add-on also increases sample efficiency, a crucial attribute for real-world applications.
翻訳日:2023-11-17 15:34:41 公開日:2023-11-16
# CDMPP:テンソルプログラムの遅延予測のためのデバイスモデル非依存フレームワーク

CDMPP: A Device-Model Agnostic Framework for Latency Prediction of Tensor Programs ( http://arxiv.org/abs/2311.09690v1 )

ライセンス: Link先を確認
Hanpeng Hu, Junwei Su, Juntao Zhao, Yanghua Peng, Yibo Zhu, Haibin Lin, Chuan Wu(参考訳) Deep Neural Networks (DNN)は、幅広い機械学習アプリケーションで優れたパフォーマンスを示している。 特定のデバイス上でDNNモデルやテンソルプログラムを実行するレイテンシを知ることは、DNNグラフやテンソルレベルの最適化やデバイス選択など、さまざまなタスクで有用である。 全ての組み合わせの直接プロファイリングを妨げるDNNモデルとデバイスの大きなスペースを考えると、近年の取り組みは、異なるデバイス上でのDNNモデルのパフォーマンスをモデル化する予測器の構築に焦点を当てている。 しかし、既存のどの試みも、トレーニングと推論アクセラレータの両方をサポートしながら、様々なテンソルプログラムのパフォーマンスを正確に予測できるコストモデルを達成していない。 クロスモデルおよびクロスデバイス予測のための効率的なテンソルプログラム遅延予測フレームワークCDMPPを提案する。 我々は、テンソルプログラムの内部構造を捉えるために、コンパクトASTと呼ばれるテンソルプログラムの情報的かつ効率的な表現と、プレオーダーベースの位置符号化法を設計する。 我々は,ドメイン非不変表現を学習し,予測器が異なるドメイン(DNN演算子やデバイス)から学習するためのKMeansに基づくサンプリングアルゴリズムを考案するドメイン適応型手法を開発した。 多様なDNNモデルとデバイスに関する広範な実験により、CDMPPは、それぞれ14.03%と10.85%の予測誤差と1桁のトレーニング効率で、最先端のベースラインを著しく上回ることを示した。 実装と拡張されたデータセットはhttps://github.com/joapolarbear/cdmppで利用可能である。

Deep Neural Networks (DNNs) have shown excellent performance in a wide range of machine learning applications. Knowing the latency of running a DNN model or tensor program on a specific device is useful in various tasks, such as DNN graph- or tensor-level optimization and device selection. Considering the large space of DNN models and devices that impede direct profiling of all combinations, recent efforts focus on building a predictor to model the performance of DNN models on different devices. However, none of the existing attempts have achieved a cost model that can accurately predict the performance of various tensor programs while supporting both training and inference accelerators. We propose CDMPP, an efficient tensor program latency prediction framework for both cross-model and cross-device prediction. We design an informative but efficient representation of tensor programs, called compact ASTs, and a pre-order-based positional encoding method, to capture the internal structure of tensor programs. We develop a domain-adaption-inspired method to learn domain-invariant representations and devise a KMeans-based sampling algorithm, for the predictor to learn from different domains (i.e., different DNN operators and devices). Our extensive experiments on a diverse range of DNN models and devices demonstrate that CDMPP significantly outperforms state-of-the-art baselines with 14.03% and 10.85% prediction error for cross-model and cross-device prediction, respectively, and one order of magnitude higher training efficiency. The implementation and the expanded dataset are available at https://github.com/joapolarbear/cdmpp.
翻訳日:2023-11-17 15:34:21 公開日:2023-11-16
# 言語モデルに基づく政治バイアスの導入は議論に対する党派的な反応を期待する

Inducing Political Bias Allows Language Models Anticipate Partisan Reactions to Controversies ( http://arxiv.org/abs/2311.09687v1 )

ライセンス: Link先を確認
Zihao He, Siyi Guo, Ashwin Rao, Kristina Lerman(参考訳) ソーシャルメディアプラットフォームは政治的に告発された議論に苦しめられている。 そのため,大規模言語モデル(llm)を用いたパルチザンバイアスの解読と予測がますます重要になっている。 本研究では,LLMを用いたデジタル談話における政治的偏見の理解という課題に対処する。 従来のアプローチは、それぞれの政治派閥ごとに微調整されたモデルに頼っていることが多いが、我々の研究は、政治的イデオロギーのスペクトルを反映するために、独特な指導による LLM を用いて革新する。 本稿では,実世界の政治イデオロギーと,態度・感情・モラル基盤の観点からモデルの連携を評価するために,偏差偏差評価と偏差傾向予測からなる包括的分析枠組みを提案する。 本研究は,感情的・道徳的ニュアンスを捉える上でのモデルの有効性を明らかにするとともに,政治的にセンシティブな文脈におけるNLPツールの複雑さと改善の可能性を強調した。 この研究は、特に政治的偏見の急激な認識を必要とするアプリケーションにおいて、LLMにおけるニュアンスな政治的理解の実現可能性と重要性を示すことによって、この分野に大きく貢献する。

Social media platforms are rife with politically charged discussions. Therefore, accurately deciphering and predicting partisan biases using Large Language Models (LLMs) is increasingly critical. In this study, we address the challenge of understanding political bias in digitized discourse using LLMs. While traditional approaches often rely on finetuning separate models for each political faction, our work innovates by employing a singular, instruction-tuned LLM to reflect a spectrum of political ideologies. We present a comprehensive analytical framework, consisting of Partisan Bias Divergence Assessment and Partisan Class Tendency Prediction, to evaluate the model's alignment with real-world political ideologies in terms of stances, emotions, and moral foundations. Our findings reveal the model's effectiveness in capturing emotional and moral nuances, albeit with some challenges in stance detection, highlighting the intricacies and potential for refinement in NLP tools for politically sensitive contexts. This research contributes significantly to the field by demonstrating the feasibility and importance of nuanced political understanding in LLMs, particularly for applications requiring acute awareness of political bias.
翻訳日:2023-11-17 15:33:52 公開日:2023-11-16
# 医師は突き刺す方法を知っているか? 臨床ノート作成における自動プロンプト最適化支援の必要性

Do Physicians Know How to Prompt? The Need for Automatic Prompt Optimization Help in Clinical Note Generation ( http://arxiv.org/abs/2311.09684v1 )

ライセンス: Link先を確認
Zonghai Yao, Ahmed Jaafar, Beining Wang, Yue Zhu, Zhichao Yang, Hong Yu(参考訳) 本研究は,臨床ノート作成における言語モデル(LLM)の性能に及ぼす即時工学の影響について検討する。 本稿では,医療専門家,非医療専門家,APPO強化GPT3.5およびGPT4のアウトプットを比較し,初期プロンプトを洗練するための自動プロンプト最適化(APO)フレームワークを提案する。 その結果, GPT4 APO は, 臨床検査項目間での即時品質の標準化に優れていた。 Human-in-the-loopアプローチは、専門家が自身の修正を好んでAPO以降のコンテンツ品質を維持することを示し、専門家のカスタマイズの価値を示唆している。 整合性にはAPO-GPT4、パーソナライズにはエキスパートインプットを利用する2相最適化プロセスを提案する。

This study examines the effect of prompt engineering on the performance of Large Language Models (LLMs) in clinical note generation. We introduce an Automatic Prompt Optimization (APO) framework to refine initial prompts and compare the outputs of medical experts, non-medical experts, and APO-enhanced GPT3.5 and GPT4. Results highlight GPT4 APO's superior performance in standardizing prompt quality across clinical note sections. A human-in-the-loop approach shows that experts maintain content quality post-APO, with a preference for their own modifications, suggesting the value of expert customization. We recommend a two-phase optimization process, leveraging APO-GPT4 for consistency and expert input for personalization.
翻訳日:2023-11-17 15:33:30 公開日:2023-11-16
# モバイルデータトラヒックを用いた時空間スケールでの日々のモビリティのモデル化

Modelling daily mobility using mobile data traffic at fine spatiotemporal scale ( http://arxiv.org/abs/2311.09683v1 )

ライセンス: Link先を確認
Panayotis Christidis, Maria Vega Gonzalo, Miklos Radics(参考訳) 我々は,都市環境におけるモビリティ・パターンのモデル化において,netmob 2023データセットの利用性を検討するデータ駆動アプローチを適用した。 このデータと、ヨーロッパ中の昼夜人口を推定する1km×1kmのグリッドを提供する、非常に適した外部ソースであるenactデータセットを組み合わせる。 NetMob2023で使用される100m x 100mのグリッドセルの人口を,ENACT値を用いて,データセットでカバーされた68のオンラインサービスのモバイルデータトラフィックに基づいて予測する3つのXGBoostモデルを開発した。 以上の結果から,NetMob 2023のデータは昼夜の人口とグリッドセルレベルの推定に有用であり,都市移動のダイナミクスの一部を説明できる可能性が示唆された。

We applied a data-driven approach that explores the usability of the NetMob 2023 dataset in modelling mobility patterns within an urban context. We combined the data with a highly suitable external source, the ENACT dataset, which provides a 1 km x 1km grid with estimates of the day and night population across Europe. We developed three sets of XGBoost models that predict the population in each 100m x 100m grid cell used in NetMob2023 based on the mobile data traffic of the 68 online services covered in the dataset, using the ENACT values as ground truth. The results suggest that the NetMob 2023 data can be useful for the estimation of the day and night population and grid cell level and can explain part of the dynamics of urban mobility.
翻訳日:2023-11-17 15:33:18 公開日:2023-11-16
# MacGyver: 大きな言語モデルは創造的な問題解決なのか?

MacGyver: Are Large Language Models Creative Problem Solvers? ( http://arxiv.org/abs/2311.09682v1 )

ライセンス: Link先を確認
Yufei Tian, Abhilasha Ravichander, Lianhui Qin, Ronan Le Bras, Raja Marjieh, Nanyun Peng, Yejin Choi, Thomas L. Griffiths, Faeze Brahman(参考訳) 我々は,現代大規模言語モデル(llms)の創造的問題解決能力を制約された環境で検討する。 この設定では、心理学において「機能的固定性」と呼ばれる認知バイアスを回避し、革新的または非伝統的な方法で親しみやすい物体を使用する必要がある。 この目的のためにMacGyverは,機能的固定性を意図的に引き起こし,‘out-of-the-box’を考える必要のある,1,600の現実世界の問題からなる自動生成データセットである。 次に、LLMと人間の両方に問題のコレクションを提示し、それらの問題解決能力を比較して比較する。 MacGyverはどちらのグループでも難しいが、ユニークで相補的な方法では難しい。 例えば、人間は通常、慣れ親しんだ問題を解決するのに優れているが、ドメイン固有の知識を必要とするタスクに苦しむことがある。 一方、LLMは様々な専門知識に晒され、より広範な問題を試みるが、自信過剰になりがちであり、物理的に不可能または非効率な行動を提案する。 また, LLMの詳細な誤差解析を行い, 反復的なステップワイドリフレクションや発散コンバージェント思考といった新しいプロンプト技術により, 問題解決能力を高める可能性を示す。 この研究は、人間とAIの創造的な問題解決能力についての洞察を与え、人間と機械を比較するための大規模タスクに心理的パラダイムをどのように拡張できるかを説明している。

We explore the creative problem-solving capabilities of modern large language models (LLMs) in a constrained setting. The setting requires circumventing a cognitive bias known in psychology as ''functional fixedness'' to use familiar objects in innovative or unconventional ways. To this end, we create MacGyver, an automatically generated dataset consisting of 1,600 real-world problems that deliberately trigger functional fixedness and require thinking 'out-of-the-box'. We then present our collection of problems to both LLMs and humans to compare and contrast their problem-solving abilities. We show that MacGyver is challenging for both groups, but in unique and complementary ways. For example, humans typically excel in solving problems that they are familiar with but may struggle with tasks requiring domain-specific knowledge, leading to a higher variance. On the other hand, LLMs, being exposed to a variety of highly specialized knowledge, attempt broader problems but are prone to overconfidence and propose actions that are physically infeasible or inefficient. We also provide a detailed error analysis of LLMs, and demonstrate the potential of enhancing their problem-solving ability with novel prompting techniques such as iterative step-wise reflection and divergent-convergent thinking. This work provides insight into the creative problem-solving capabilities of humans and AI and illustrates how psychological paradigms can be extended into large-scale tasks for comparing humans and machines.
翻訳日:2023-11-17 15:33:02 公開日:2023-11-16
# 信頼できる大規模ビジョンモデル:サーベイ

Trustworthy Large Models in Vision: A Survey ( http://arxiv.org/abs/2311.09680v1 )

ライセンス: Link先を確認
Ziyan Guo and Jun Liu(参考訳) 大規模モデル(LM)の急速な進歩は、最近、自然言語処理(NLP)からコンピュータビジョン(CV)まで、様々な分野の深層学習に革命をもたらした。 しかし、LMは強力な性能を持つが信頼できない行動のため、学界や業界によってますます批判され、信頼性の高い方法で緊急に緩和する必要がある。 言語における信頼できるLMに関する文献が豊富にあるにもかかわらず、視覚におけるLMの信頼性を特に調査する体系的な調査はいまだに残っていない。 このギャップを緩和するために,本調査におけるlmsの視点における信頼に値する利用を妨げる4つの懸念を要約する。 1)人間の誤用。 2)脆弱性。 3)本質的な問題 4) 解釈可能。 本調査は,各トピックにおける課題,対策,議論を強調することにより,読者のフィールド理解を促進し,LMと人間の期待の一致を促進し,信頼性の高いLMを人間社会の災害ではなく福祉として機能させることを期待する。

The rapid progress of Large Models (LMs) has recently revolutionized various fields of deep learning with remarkable grades, ranging from Natural Language Processing (NLP) to Computer Vision (CV). However, LMs are increasingly challenged and criticized by academia and industry due to their powerful performance but untrustworthy behavior, which urgently needs to be alleviated in reliable methods. Despite the abundance of literature on trustworthy LMs in language, a systematic survey specifically delving into the trustworthiness of LMs in vision remains absent. In order to mitigate this gap, we summarize four relevant concerns that obstruct the trustworthy usage in vision of LMs in this survey, including 1) human misuse, 2) vulnerability, 3) inherent issue and 4) interpretability. By highlighting corresponding challenge, countermeasures, and discussion in each topic, we hope this survey will facilitate readers' understanding of the field, promote alignment of LMs with human expectations and enable trustworthy LMs to serve as welfare rather than disaster for human society.
翻訳日:2023-11-17 15:32:36 公開日:2023-11-16
# R-Tuning: 未知の疑問を解消するために大規模言語モデルを教える

R-Tuning: Teaching Large Language Models to Refuse Unknown Questions ( http://arxiv.org/abs/2311.09677v1 )

ライセンス: Link先を確認
Hanning Zhang, Shizhe Diao, Yong Lin, Yi R. Fung, Qing Lian, Xingyao Wang, Yangyi Chen, Heng Ji, Tong Zhang(参考訳) 大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。 主な問題は、これらのモデルが存在しない事実を生み出す傾向であり、幻覚と呼ばれる。 本研究は,先行する命令調律手法が,モデルが知識を知っていなくても文を完結させるという観察に動機づけられている。 質問がパラメトリックな知識から外れている場合、何かを作り上げて、それが知識を欠いていることを示そうとしないでしょう。 本稿では,Refusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しい手法を提案する。 このアプローチは、まずパラメトリック知識と命令チューニングデータとの知識ギャップを特定することで定式化される。 そして,知識交叉に基づく拒絶認識データを構築し,そのパラメトリック知識を超えた質問への応答を抑えるためにLLMをチューニングする。 実験の結果、この新しい命令チューニング手法は、既知の質問に答え、未知の質問に答えることを控えるモデルの能力を効果的に改善することを示しています。 さらに、ドメイン外データセットでテストすると、拒否能力は他のタスクに一般化可能なメタスキルであることが判明した。 さらなる分析の結果、トレーニング中に不確実性を学ぶことは、不確実性に基づくテストよりも不確実性を推定する能力を示すことがわかった。 私たちのコードはhttps://github.com/shizhediao/R-Tuning.comでリリースされます。

Large language models (LLMs) have revolutionized numerous domains with their impressive performance but still face their challenges. A predominant issue is the propensity for these models to generate non-existent facts, a concern termed hallucination. Our research is motivated by the observation that previous instruction tuning methods force the model to complete a sentence no matter whether the model knows the knowledge or not. When the question is out of the parametric knowledge, it will try to make up something and fail to indicate when it lacks knowledge. In this paper, we present a new approach called Refusal-Aware Instruction Tuning (R-Tuning). This approach is formalized by first identifying the knowledge gap between parametric knowledge and the instruction tuning data. Then, we construct the refusal-aware data based on the knowledge intersection, to tune LLMs to refrain from responding to questions beyond its parametric knowledge. Experimental results demonstrate this new instruction tuning approach effectively improves a model's ability to answer known questions and refrain from answering unknown questions. Furthermore, when tested on out-of-domain datasets, the refusal ability was found to be a meta-skill that could be generalized to other tasks. Further analysis surprisingly finds that learning the uncertainty during training displays a better ability to estimate uncertainty than uncertainty-based testing. Our code will be released at https://github.com/shizhediao/R-Tuning.
翻訳日:2023-11-17 15:32:19 公開日:2023-11-16
# Moka: モラルイベント抽出のためのモラル知識強化

MOKA: Moral Knowledge Augmentation for Moral Event Extraction ( http://arxiv.org/abs/2311.09733v1 )

ライセンス: Link先を確認
Xinliang Frederick Zhang, Winston Wu, Nick Beauchamp, Lu Wang(参考訳) ニュースメディアは道徳的な言葉を使って記憶に残る物語を作り、読者はしばしば自分の価値観に合致したコンテンツを扱っている。 モラル理論は独立して道徳価値を研究するニュース分析に応用され、モラル事象の形成に関わる関係者間の複雑なダイナミクスは見過ごされている。 これは主に、明らかなイデオロギーと価値を隠すために不明瞭な言語を使用することと、LPMが例外ではない既存のほとんどのNLPシステムにおいて、道徳的推論能力の不足が原因である。 この現象を研究するために、我々はまず474のニュース記事に対する5,494の構造化アノテーションからなる新しいデータセットMORAL EVENTSを、政治的スペクトルの様々な米国メディアによって注釈付けした。 さらに,モカ(moka)は,モラル語やモラルシナリオに由来する知識を活用し,モラル知識の強化を伴うモラルイベント抽出フレームワークを提案する。 実験の結果,mokaは3つのモラルイベント理解タスクにおいて,競合ベースラインよりも優れていた。 さらに、異なるイデオロギー傾向のメディアによる道徳的出来事の選択的報告を照らし、ニュースにおける出来事レベルの道徳的分析の重要性を示唆する。 私たちのデータセットとコードベースはhttps://github.com/launchnlp/mokaで利用可能です。

News media employ moral language to create memorable stories, and readers often engage with the content that align with their values. Moral theories have been applied to news analysis studying moral values in isolation, while the intricate dynamics among participating entities in shaping moral events have been overlooked. This is mainly due to the use of obscure language to conceal evident ideology and values, coupled with the insufficient moral reasoning capability in most existing NLP systems, where LLMs are no exception. To study this phenomenon, we first annotate a new dataset, MORAL EVENTS, consisting of 5,494 structured annotations on 474 news articles by diverse US media across the political spectrum. We further propose MOKA, a moral event extraction framework with MOral Knowledge Augmentation, that leverages knowledge derived from moral words and moral scenarios. Experimental results show that MOKA outperforms competitive baselines across three moral event understanding tasks. Further analyses illuminate the selective reporting of moral events by media outlets of different ideological leanings, suggesting the significance of event-level morality analysis in news. Our datasets and codebase are available at https://github.com/launchnlp/MOKA.
翻訳日:2023-11-17 15:23:55 公開日:2023-11-16
# ソースプロンプト:複数ソースからの多様なコーパス上での言語モデルの協調事前学習

Source Prompt: Coordinated Pre-training of Language Models on Diverse Corpora from Multiple Sources ( http://arxiv.org/abs/2311.09732v1 )

ライセンス: Link先を確認
Yipei Xu, Dakuan Lu, Jiaqing Liang, Xintao Wang, Yipeng Geng, Yingsi Xin, Hengkui Wu, Ken Chen, ruiji zhang, Yanghua Xiao(参考訳) プレトレーニング言語モデル(PLM)は、NLPの分野で新しいパラダイムを確立している。 より強力なplmの場合、最も人気があり成功した方法の1つは、モデルのサイズとトレーニング済みコーパスを継続的にスケールアップすることである。 これらの大きなコーパスは、一般的に複数のソースからより小さなコーパスを収束させることで得られる。 しかし、これらの余剰収束コーパスの副作用はいまだ検討されていない。 本稿では,PLMの事前学習を行う複数のソースから異種コーパスの欠点を同定する。 さらに,各種コーパスにおける事前学習の協調に向けて,事前学習および微調整段階におけるデータソースのモデルを明確に促進するソースプロンプト(SP)を提案する。 広範囲な実験の結果,SPで事前学習したPLMは,様々な下流タスクにおいて顕著な改善が得られた。

Pre-trained language models (PLMs) have established the new paradigm in the field of NLP. For more powerful PLMs, one of the most popular and successful way is to continuously scale up sizes of the models and the pre-training corpora. These large corpora are generally obtained by converging smaller ones from multiple sources, they are thus growing increasingly diverse. However, the side-effects of these colossal converged corpora remain understudied. In this paper, we identify the disadvantage of heterogeneous corpora from multiple sources for pre-training PLMs. Towards coordinated pre-training on diverse corpora, we further propose source prompts (SP), which explicitly prompt the model of the data source at the pre-training and fine-tuning stages. Results of extensive experiments demonstrate that PLMs pre-trained with SP on diverse corpora gain significant improvement in various downstream tasks.
翻訳日:2023-11-17 15:23:30 公開日:2023-11-16
# うるさい沈黙か 愚かなバブルか? 未知言語に対する大規模言語モデルの応答の検討

Prudent Silence or Foolish Babble? Examining Large Language Models' Responses to the Unknown ( http://arxiv.org/abs/2311.09731v1 )

ライセンス: Link先を確認
Genglin Liu, Xingyao Wang, Lifan Yuan, Yangyi Chen, Hao Peng(参考訳) 大規模言語モデル(llm)は、センシカルな応答を生成するための前提知識が欠如している状況に直面した場合、しばしば苦労する。 これらの場合、モデルは人間のように不確実性を適切に信号するよりも、生成し幻覚する傾向がある。 この行動は人間の会話規範と誤解し、責任と倫理的AI開発を取り巻く課題を示す。 本研究は,このような状況下でのLSMの挙動を体系的に調査することを目的とする。 LLMのトレーニングデータから欠落した情報を対象とした,回答不能な質問を含む逆質問回答ベンチマークをキュレートする。 具体的には、これらの疑問には存在しない概念や偽の前提が含まれている。 そのような不可解な質問を提示する場合、llmは不確実性を適切に伝達し、前提に挑戦し、応答を拒否するべきである。 有効な質問に直面する一方で、モデルは精度と信頼性の正の相関を示すべきである。 モデルに依存しない統一的信頼評価手法を用いて、人間のフィードバック(RLHF)からの指導微調整と強化学習を経たLLMは、そうでないものよりもはるかに優れた性能を示す。 また,本手法による不確実性表現1は,LLMの直接応答に対する信頼感と必ずしも一致しない。 我々の研究は、LSMに不確実性を積極的に確実に表現するよう、さらなる研究を求めるものである。

Large Language Models (LLMs) often struggle when faced with situations where they lack the prerequisite knowledge to generate a sensical response. In these cases, models tend to fabricate and hallucinate, rather than appropriately signaling uncertainty as humans would. This behavior misaligns with human conversational norms and presents challenges surrounding responsible and ethical AI development. This work aims to systematically investigate LLMs' behaviors in such situations. We curate an adversarial question-answering benchmark containing unanswerable questions targeting information absent from the LLM's training data. Concretely, these unanswerable questions contain non-existent concepts or false premises. When presented with such unanswerable questions, an LLM should appropriately convey uncertainty, and be able to challenge the premise and refuse to generate a response. While facing answerable valid questions, a model should demonstrate a positive correlation between accuracy and confidence. Using a model-agnostic unified confidence elicitation approach, we observe that LLMs that have gone through instruction finetuning and reinforcement learning from human feedback (RLHF) perform significantly better than their counterparts that do not. Moreover, uncertainty expression 1 through our elicitation method does not always stay consistent with the perceived confidence of the direct response of an LLM. Our findings call for further research into teaching LLMs to proactively and reliably express uncertainty.
翻訳日:2023-11-17 15:23:15 公開日:2023-11-16
# Whomと互換性がある? 主観的NLP課題におけるジェンダーとラシアルバイアスを持つ大規模言語モデル

Aligning with Whom? Large Language Models Have Gender and Racial Biases in Subjective NLP Tasks ( http://arxiv.org/abs/2311.09730v1 )

ライセンス: Link先を確認
Huaman Sun, Jiaxin Pei, Minje Choi, David Jurgens(参考訳) 言語に対する人間の認識は、性別や民族といった個人的背景に依存する。 既存の研究では、大きな言語モデル(LLM)が特定の社会的グループに近い値を持っていることが示されているが、主観的NLPタスクにおける予測挙動が同様のバイアスを示すかどうかは不明である。 本研究では, 多様な人口背景のアノテーションを含むPOPQUORNデータセットを活用し, 集団差と潜在的な偏見を丁寧さと不快さの予測において理解する能力について, 4つのLLMを用いて一連の実験を行った。 どちらのタスクでも、モデル予測は白人と女性の参加者のラベルに近いことが分かりました。 さらに,ターゲット層ラベルによるプロンプトについて検討し,プロンプトにターゲット層を含めることで,実際にモデルのパフォーマンスが低下することを示す。 より具体的には、"黒人"と"アジア人"の視点から反応するよう促されたモデルでは、全体的なスコアと対応するグループからのスコアの両方を予測する際のパフォーマンスが低下する。 以上の結果から,LSMは主観的NLPタスクに対して性別や人種的偏見を持っていることが示唆された。 コードとデータはhttps://github.com/jiaxin-pei/llm-group-biasで入手できる。

Human perception of language depends on personal backgrounds like gender and ethnicity. While existing studies have shown that large language models (LLMs) hold values that are closer to certain societal groups, it is unclear whether their prediction behaviors on subjective NLP tasks also exhibit a similar bias. In this study, leveraging the POPQUORN dataset which contains annotations of diverse demographic backgrounds, we conduct a series of experiments on four popular LLMs to investigate their capability to understand group differences and potential biases in their predictions for politeness and offensiveness. We find that for both tasks, model predictions are closer to the labels from White and female participants. We further explore prompting with the target demographic labels and show that including the target demographic in the prompt actually worsens the model's performance. More specifically, when being prompted to respond from the perspective of "Black" and "Asian" individuals, models show lower performance in predicting both overall scores as well as the scores from corresponding groups. Our results suggest that LLMs hold gender and racial biases for subjective NLP tasks and that demographic-infused prompts alone may be insufficient to mitigate such effects. Code and data are available at https://github.com/Jiaxin-Pei/LLM-Group-Bias.
翻訳日:2023-11-17 15:22:55 公開日:2023-11-16
# ソフトウェア開発pblにおける文書検査におけるコメントの分析と学生への影響の検討

Analysis of Comments Given in Documents Inspection in Software Development PBL and Investigation of the Impact on Students ( http://arxiv.org/abs/2311.09727v1 )

ライセンス: Link先を確認
Oh Sato and Atsuo Hazeyama(参考訳) 本研究は,ソフトウェア開発PBLにおける検査を学習フィードバックとみなし,各検査コメントが学生に与える影響を考察する。 著者たちはすでに、要求仕様だけでなく、UMLダイアグラムに関するほとんどのインスペクションコメントをGitHubで収集している。 著者らは、FigmaからGitHubへのコメントを収集するツールを開発した。 本研究は,学生が提出した無記名質問紙に基づいて,各検査コメントの分類が学生に与える影響について検討する。 最後に、検査コメントの分類がpblにもたらす利点と、テキストベースのコメントによって実現される機械学習による自動コメント分類と、検査コメントの自動分類によって実現されるソフトウェア開発pbl支援アプリケーションの概念について述べる。

This study considers inspection conducted in software development PBL as learning feedback and investigates the impact of each inspection comment on students. The authors have already collected most inspection comments for not only requirements specification but also UML diagrams on GitHub. The authors develop a tool that collects comments given in Figma to GitHub. We examine the impact on students of each classification of inspection comments based on the post-lesson questionnaire submitted by the students. Finally, we present the benefits that classification of inspection comments can bring to PBL and discuss automatic comment classification by machine learning enabled by text-based comments and the concept of software development PBL support application enabled by automatic classification of inspection comments.
翻訳日:2023-11-17 15:22:32 公開日:2023-11-16
# MS-Former:Patch-Levelアノテーションによる弱教師付き変更検出のためのメモリ対応トランス

MS-Former: Memory-Supported Transformer for Weakly Supervised Change Detection with Patch-Level Annotations ( http://arxiv.org/abs/2311.09726v1 )

ライセンス: Link先を確認
Zhenglai Li, Chang Tang, Xinwang Liu, Changdong Li, Xianju Li, Wei Zhang(参考訳) 完全な教師付き変更検出手法は性能の大幅な進歩を遂げているが、コストの高いピクセルレベルのラベルの取得に大きく依存している。 パッチレベルのアノテーションは、変更対象と変更対象の両方に対応する豊富な情報をバイテンポラルイメージに含んでいることを考えると、直感的な解決策は、変更をパッチレベルのアノテーションで分割することである。 パッチレベルのアノテーションから変更や変更のあった領域に関する意味的なバリエーションを捉えて、有望な変更結果を得るには、弱い教師付き変更検出タスクにとって重要な課題となる。 本稿では,2方向アテンションブロック(BAB)とパッチレベル監視スキーム(PSS)で構成される新しいフレームワークであるメモリ支援トランスフォーマー(MS-Former)を提案する。 具体的には、BAMは時間差の特徴から変化および変化しない領域に関連するコンテキストをキャプチャし、メモリバンクに格納された情報的プロトタイプを構築する。 一方,BAMは,時間差特性を向上し,変化領域や変化領域を識別しやすくするため,プロトタイプから有用な情報を補足コンテキストとして抽出する。 その後、pssはパッチレベルのアノテーションから貴重な知識を学ぶネットワークをガイドし、パフォーマンスをさらに向上させる。 3つのベンチマークデータセットにおける実験結果から,提案手法の有効性が示唆された。 私たちの作業のデモコードは、 \url{https://github.com/guanyuezhen/MS-Former}で公開されます。

Fully supervised change detection methods have achieved significant advancements in performance, yet they depend severely on acquiring costly pixel-level labels. Considering that the patch-level annotations also contain abundant information corresponding to both changed and unchanged objects in bi-temporal images, an intuitive solution is to segment the changes with patch-level annotations. How to capture the semantic variations associated with the changed and unchanged regions from the patch-level annotations to obtain promising change results is the critical challenge for the weakly supervised change detection task. In this paper, we propose a memory-supported transformer (MS-Former), a novel framework consisting of a bi-directional attention block (BAB) and a patch-level supervision scheme (PSS) tailored for weakly supervised change detection with patch-level annotations. More specifically, the BAM captures contexts associated with the changed and unchanged regions from the temporal difference features to construct informative prototypes stored in the memory bank. On the other hand, the BAM extracts useful information from the prototypes as supplementary contexts to enhance the temporal difference features, thereby better distinguishing changed and unchanged regions. After that, the PSS guides the network learning valuable knowledge from the patch-level annotations, thus further elevating the performance. Experimental results on three benchmark datasets demonstrate the effectiveness of our proposed method in the change detection task. The demo code for our work will be publicly available at \url{https://github.com/guanyuezhen/MS-Former}.
翻訳日:2023-11-17 15:22:20 公開日:2023-11-16
# 数学的推論における計画のための結果教師付き検証器

Outcome-supervised Verifiers for Planning in Mathematical Reasoning ( http://arxiv.org/abs/2311.09724v1 )

ライセンス: Link先を確認
Fei Yu, Anningzhe Gao, Benyou Wang(参考訳) 大規模言語モデル(LLM)は、数学的推論における中間的推論ステップの列の精度を維持するのにしばしば苦労し、最終的な結果を損なうエラーの伝播につながる。 この問題を軽減するための現在の方法論は、主に検証モデルを使用して生成したソリューション候補の正当性を評価し、全体的な推論パスや不完全な推論パスに焦点を当てる。 このアプローチを再考することで、不完全な推論パスの可能性を評価することは、正しい最終的な答えを導き、タスクを \textit{planning}問題に変換することでより有利になる、と主張する。 提案する検証手法であるOutcome-supervision Value Model (OVM) は,単にステップ毎の正確さよりも正確な結論に至るステップの優先順位付けによって,‘textit{planning’ の効率的かつ直感的な手法を提供する。 さらに、OVMは、ステップレベルの正確性に対する労働集約的なアノテーションの必要性を回避し、スケーラビリティを向上します。 GSM8KとGame of 24の2つの多段階数学的推論データセットに関する実験により,OVMモデルの優れた性能を示す。 特に、GSM8Kでは、我々の \textbf{OVM-7B モデルは、最大 13B パラメータの LLM 間の最先端結果を達成するが、特に GPT-4 やコード実行は利用しない。 これらの知見は、多段階推論タスクのトレーニング検証における成果管理の役割に関する新たな視点を提供し、計画における価値推定の利点を理論的に正当化するものである。

Large language models (LLMs) often struggle with maintaining accuracy across a sequence of intermediate reasoning steps in mathematical reasoning, leading to error propagation that undermines the final result. The current methodology to mitigate this issue primarily involves using a verifier model to assess the correctness of generated solution candidates, focusing either on the overall reasoning path or on an incomplete reasoning path. By rethinking this approach, we argue that assessing potentials of incomplete reasoning paths could be more advantageous as it guides towards correct final answers, transforming the task into a \textit{planning} problem. Our proposed verifier, the Outcome-supervision Value Model (OVM), employs outcome supervision for training, offering an efficient and intuitive method for \textit{planning} by prioritizing steps that lead to accurate conclusions over mere per-step correctness. Furthermore, the OVM eschews the need for labor-intensive annotations on step-level correctness, enhancing its scalability. Our experiments on two multi-step mathematical reasoning datasets, GSM8K and Game of 24, demonstrate the superior performance of the OVM model. Notably, in GSM8K, our \textbf{OVM-7B model achieves state-of-the-art results among LLMs up to 13B parameters}; especially it does not utilize GPT-4 or code execution. These findings offer a novel perspective on the role of outcome supervision in training verifiers for multi-step reasoning tasks and provide theoretical justification for its advantage in value estimation for planning.
翻訳日:2023-11-17 15:21:54 公開日:2023-11-16
# データベース質問応答を用いたLLMエージェントにおける推論と行動の統合性の評価

On Evaluating the Integration of Reasoning and Action in LLM Agents with Database Question Answering ( http://arxiv.org/abs/2311.09721v1 )

ライセンス: Link先を確認
Linyong Nan, Ellen Zhang, Weijin Zou, Yilun Zhao, Wenfei Zhou, Arman Cohan(参考訳) 本研究では,Large Language Models(LLM)がSQLインタープリタとどのように相互作用するかを評価するために設計された,新しい長文データベース質問応答データセットを提案する。 このタスクは、複数のSQLクエリを戦略的に生成し、データベースから十分なデータを取得し、取得したコンテキストを推論し、それらを包括的な分析的な物語に合成する必要がある。 この課題は,最新のGPT-4モデルにおいても大きな課題となる。 我々は,2つのインタラクション戦略を提案し,評価し,インタラクションにおける個々のステージの詳細な分析を行う。 重要な発見は、効果的な相互作用を妨げる2つの主要なボトルネックを特定することである。 回答品質を正確に評価する課題に対処するために,学術的ピアレビュープロセスをシミュレートし,評価の正確性と信頼性を高めるマルチエージェント評価フレームワークを提案する。 このフレームワークは、複雑な検索および推論タスクにおいて、現在のLLMの強みと制限をより微妙に理解することができる。

This study introduces a new long-form database question answering dataset designed to evaluate how Large Language Models (LLMs) interact with a SQL interpreter. The task necessitates LLMs to strategically generate multiple SQL queries to retrieve sufficient data from a database, to reason with the acquired context, and to synthesize them into a comprehensive analytical narrative. Our findings highlight that this task poses great challenges even for the state-of-the-art GPT-4 model. We propose and evaluate two interaction strategies, and provide a fine-grained analysis of the individual stages within the interaction. A key discovery is the identification of two primary bottlenecks hindering effective interaction: the capacity for planning and the ability to generate multiple SQL queries. To address the challenge of accurately assessing answer quality, we introduce a multi-agent evaluation framework that simulates the academic peer-review process, enhancing the precision and reliability of our evaluations. This framework allows for a more nuanced understanding of the strengths and limitations of current LLMs in complex retrieval and reasoning tasks.
翻訳日:2023-11-17 15:21:23 公開日:2023-11-16
# 拡張性へのショートカット:理論的枠組み、異なる方法間の関係、および汎用近似

Shortcuts to adiabaticity: theoretical framework, relations between different methods, and versatile approximations ( http://arxiv.org/abs/2311.09720v1 )

ライセンス: Link先を確認
Takuya Hatomura(参考訳) adiabaticity guideへのショートカットは、高速トラックを介して、adiabatic controlの最終目的地にシステムを与える。 様々な手法が近道の変種として提案された。 adiabaticityへの近道の基本理論は2010年代に確立されたが、まだ発展途上であり、多くの基本的な発見が報告されている。 このトピックレビューでは,断熱性への近道の理論を教育的に紹介し,異なる方法間の関係を再検討する。 adiabaticityへの近道の1つである対断駆動におけるいくつかの多彩な近似は、詳しく説明される。 また,近年のショートカット研究の進歩を要約した。

Shortcuts to adiabaticity guide given systems to final destinations of adiabatic control via fast tracks. Various methods were proposed as varieties of shortcuts to adiabaticity. Basic theory of shortcuts to adiabaticity was established in the 2010s, but it has still been developing and many fundamental findings have been reported. In this Topical Review, we give a pedagogical introduction to theory of shortcuts to adiabaticity and revisit relations between different methods. Some versatile approximations in counterdiabatic driving, which is one of the methods of shortcuts to adiabaticity, will be explained in detail. We also summarize recent progress in studies of shortcuts to adiabaticity.
翻訳日:2023-11-17 15:21:05 公開日:2023-11-16
# これらのモデルが信頼できないことを知るためにパーソナリティテストは必要ない - 心理測定器を用いた大規模言語モデルの信頼性評価

You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments ( http://arxiv.org/abs/2311.09718v1 )

ライセンス: Link先を確認
Bangzhao Shu, Lechen Zhang, Minje Choi, Lavinia Dunagan, Dallas Card, David Jurgens(参考訳) 自然言語理解タスクにおける大規模言語モデル(llm)の汎用性は、社会科学の研究に人気を博した。 特に、LLMの特性と本質的なペルソナを適切に理解するために、研究者は特定の意見をLLMに尋ねる質問の形でプロンプトを使用する研究を行っている。 本研究は,LLMが一貫した,堅牢な応答を提供するのに,現在のプロンプト形式が有効であるかどうかを慎重に検討する。 まず,39種類のペルソナ測定機器を含む693の質問を含むデータセットを構築した。 さらに,小変量を含む一連のプロンプトを設計し,LLMの正確な解を生成する能力や,オプション順序の切り換えなどの単純な摂動に対する一貫性を検証するための整合性の変化について検討する。 15の異なるオープンソース LLM 実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させるには十分であり,ほとんどの LLM は否定整合性が低いことがわかった。 以上の結果から,現在広く普及しているプロンプトの実践は,モデル知覚を正確に捉えるには不十分であり,この問題を改善するための潜在的な選択肢について考察する。

The versatility of Large Language Models (LLMs) on natural language understanding tasks has made them popular for research in social sciences. In particular, to properly understand the properties and innate personas of LLMs, researchers have performed studies that involve using prompts in the form of questions that ask LLMs of particular opinions. In this study, we take a cautionary step back and examine whether the current format of prompting enables LLMs to provide responses in a consistent and robust manner. We first construct a dataset that contains 693 questions encompassing 39 different instruments of persona measurement on 115 persona axes. Additionally, we design a set of prompts containing minor variations and examine LLM's capabilities to generate accurate answers, as well as consistency variations to examine their consistency towards simple perturbations such as switching the option order. Our experiments on 15 different open-source LLMs reveal that even simple perturbations are sufficient to significantly downgrade a model's question-answering ability, and that most LLMs have low negation consistency. Our results suggest that the currently widespread practice of prompting is insufficient to accurately capture model perceptions, and we discuss potential alternatives to improve such issues.
翻訳日:2023-11-17 15:20:49 公開日:2023-11-16
# ソフトウェアテストにおける多様性に基づく手法のメトリクス、利用、および課題に関する調査

A Survey of the Metrics, Uses, and Subjects of Diversity-Based Techniques in Software Testing ( http://arxiv.org/abs/2311.09714v1 )

ライセンス: Link先を確認
Islam T. Elgendy and Robert M. Hierons and Phil McMinn(参考訳) 過去20年間、ソフトウェアテストにおける多様性に基づくテスト技術の利用に多くの関心が寄せられてきた。 多様性ベースのテスト(DBT)技術は、ソフトウェアテスト問題に対処するために、要件、抽象モデル、プログラム構造、入力といったソフトウェアアーチファクト間の相似性を活用するために、類似度メトリクスを使用する。 DBTテクニックは、テストケースの生成、優先順位付け、非常に大規模なテストスイートの削減など、さまざまなタイプの問題の解決策を見つけるのに使用されています。 本論文は,研究者が11種類のソフトウェアテスト問題に対処するために使用した,24種類のソフトウェアアーティファクトと70種類の類似度指標を使用したことを報告した144の論文の要点と傾向を要約したDBT手法の体系的な調査である。 さらに、最近のdbt技術の動向を分析し、その技術が適用されている異なるアプリケーションドメインをレビューし、研究者が開発したツールの概要を述べる。 最後に,今後の課題となるDBTの課題について述べる。

There has been a significant amount of interest regarding the use of diversity-based testing techniques in software testing over the past two decades. Diversity-based testing (DBT) technique uses similarity metrics to leverage the dissimilarity between software artefacts - such as requirements, abstract models, program structures, or inputs - in order to address a software testing problem. DBT techniques have been used to assist in finding solutions to several different types of problems including generating test cases, prioritising them, and reducing very large test suites. This paper is a systematic survey of DBT techniques that summarises the key aspects and trends of 144 papers that report the use of 70 different similarity metrics with 24 different types of software artefacts, which have been used by researchers to tackle 11 different types of software testing problems. We further present an analysis of the recent trends in DBT techniques and review the different application domains to which the techniques have been applied, giving an overview of the tools developed by researchers to do so. Finally, the paper identifies some DBT challenges that are potential topics for future work.
翻訳日:2023-11-17 15:20:26 公開日:2023-11-16
# 正規化規約:現実的な推論のモデルとしての平衡計算

Regularized Conventions: Equilibrium Computation as a Model of Pragmatic Reasoning ( http://arxiv.org/abs/2311.09712v1 )

ライセンス: Link先を確認
Athul Paul Jacob, Gabriele Farina, Jacob Andreas(参考訳) 本稿では,信号ゲームの正規化平衡を探索することによって発話を生成・理解する実用的な言語理解モデルを提案する。 このモデル(正規化規約ではrecoと呼ばれます)では、話者とリスナーは、ゲーム理論上最適な規約に近く、共有された'デフォルト'セマンティクスに近いコンテキスト的に適切な発話-意味マッピングを検索します。 実用的コミュニケーションを平衡探索として特徴付けることにより,コミュニケーションの成功と自然性の間のトレードオフに関する原理的サンプリングアルゴリズムと形式的保証を得る。 実用的模倣に関する現実的および理想化された人間の判断をキャプチャするいくつかのデータセットをまたいで、ベストレスポンスと合理的な言語理解行動モデルによってなされた予測と一致または改善する。

We present a model of pragmatic language understanding, where utterances are produced and understood by searching for regularized equilibria of signaling games. In this model (which we call ReCo, for Regularized Conventions), speakers and listeners search for contextually appropriate utterance--meaning mappings that are both close to game-theoretically optimal conventions and close to a shared, ''default'' semantics. By characterizing pragmatic communication as equilibrium search, we obtain principled sampling algorithms and formal guarantees about the trade-off between communicative success and naturalness. Across several datasets capturing real and idealized human judgments about pragmatic implicatures, ReCo matches or improves upon predictions made by best response and rational speech act models of language understanding.
翻訳日:2023-11-17 15:20:06 公開日:2023-11-16
# 語彙ショートリストを用いた大規模言語モデル推論

Large Language Model Inference with Lexical Shortlisting ( http://arxiv.org/abs/2311.09709v1 )

ライセンス: Link先を確認
Nikolay Bogoychev, Pinzhen Chen, Barry Haddow, Alexandra Birch(参考訳) 大規模言語モデル(llm)の推論は計算とメモリ集約であるため、両方の改善を期待する語彙的ショートリストをそれに適合させます。 語彙的ショートリストは機械翻訳のようなタスクでよく研究されているが、意図された用途が異なるため、LLMに適合する前に修正が必要である。 我々の研究は、LLM推論時間におけるサブ語彙をショートリスト化する2つのヒューリスティックス:Unicodeベースのスクリプトフィルタリングとコーパスベースの選択について研究している。 我々は、異なるllmファミリーとサイズを調査し、辞書的ショートリストにより、いくつかのモデルのメモリ使用量を約50\%削減し、世代速度を25\%向上させることができることを見出した。 本実験では,このような語彙選択手法の欠点を特定し,今後の研究への道筋を提案する。

Large language model (LLM) inference is computation and memory intensive, so we adapt lexical shortlisting to it hoping to improve both. While lexical shortlisting is well-explored in tasks like machine translation, it requires modifications before being suitable for LLMs as the intended applications vary significantly. Our work studies two heuristics to shortlist sub-vocabulary at LLM inference time: Unicode-based script filtering and corpus-based selection. We explore different LLM families and sizes, and we find that lexical shortlisting can reduce the memory usage of some models by nearly 50\% and has an upper bound of 25\% improvement in generation speed. In this pilot study, we also identify the drawbacks of such vocabulary selection methods and propose avenues for future research.
翻訳日:2023-11-17 15:19:49 公開日:2023-11-16
# 教師なしアスペクトカテゴリー検出のための自己強調型マルチタスクフレームワーク

A Self-enhancement Multitask Framework for Unsupervised Aspect Category Detection ( http://arxiv.org/abs/2311.09708v1 )

ライセンス: Link先を確認
Thi-Nhung Nguyen, Hoang Ngo, Kiem-Hieu Nguyen, Tuan-Dung Cao(参考訳) 本研究は,少数のシードワードを用いた教師なしアスペクトカテゴリー検出の問題に対処する。 最近の研究は、文とアスペクトの類似性を確立するために、シード語と文の埋め込み空間を学習することに焦点を当てている。 しかしながら、アスペクト表現は初期シード語の品質によって制限され、モデル性能はノイズによって損なわれる。 この制限を緩和するために,初期シード単語の品質を自動向上し,データセット全体を使用するのではなく,高品質な文を選択するシンプルなフレームワークを提案する。 私たちの主な概念は、初期セットに多くのシードワードを追加し、ノイズ解決のタスクを低リソースタスクのデータ拡張のタスクとして扱うことです。 さらに,Aspect Term extract と Aspect Term Polarity を併用してAspect Term Detection を訓練し,さらなる性能向上を図る。 このアプローチは共有表現学習を促進し、アスペクトカテゴリ検出は、他のタスクが提供する追加のガイダンスの恩恵を受けることができる。 大規模な実験によって、私たちのフレームワークは標準データセットの強いベースラインを超えています。

Our work addresses the problem of unsupervised Aspect Category Detection using a small set of seed words. Recent works have focused on learning embedding spaces for seed words and sentences to establish similarities between sentences and aspects. However, aspect representations are limited by the quality of initial seed words, and model performances are compromised by noise. To mitigate this limitation, we propose a simple framework that automatically enhances the quality of initial seed words and selects high-quality sentences for training instead of using the entire dataset. Our main concepts are to add a number of seed words to the initial set and to treat the task of noise resolution as a task of augmenting data for a low-resource task. In addition, we jointly train Aspect Category Detection with Aspect Term Extraction and Aspect Term Polarity to further enhance performance. This approach facilitates shared representation learning, allowing Aspect Category Detection to benefit from the additional guidance offered by other tasks. Extensive experiments demonstrate that our framework surpasses strong baselines on standard datasets.
翻訳日:2023-11-17 15:19:33 公開日:2023-11-16
# GenCodeSearchNet: プログラミング言語理解における一般化を評価するベンチマークテストスイート

GenCodeSearchNet: A Benchmark Test Suite for Evaluating Generalization in Programming Language Understanding ( http://arxiv.org/abs/2311.09707v1 )

ライセンス: Link先を確認
Andor Diera, Abdelhalim Dahou, Lukas Galke, Fabian Karl, Florian Sihler, Ansgar Scherp(参考訳) 言語モデルは、生産性を高めるためのソフトウェア開発者にとって貴重なツールとなり得る。 大規模な生成モデルはコード生成やコード補完に利用でき、より小さなエンコーダのみのモデルでは自然言語クエリを使ってコード検索タスクを実行できるが、これらの機能は利用可能なトレーニングデータの品質と多様性に大きく影響されている。 トレーニングに使用されるソースコードデータセットは一般的に最も一般的な言語に焦点を合わせ、テストはたいてい同じディストリビューションで行われ、しばしば低リソースのプログラミング言語を見渡す。 Hupkesらによって提案されたNLP一般化分類に動機づけられた。 である。 既存の自然言語コード検索データセットを基盤として,言語モデルの一般化機能を体系的に評価する,gencodesearchnet(gecs)と呼ばれる新しいベンチマークデータセットを提案する。 完全なデータセットの一部として、コンピュータサイエンスの分野以外の研究者がよく使っている、人気があるがあまり使われていないプログラミング言語rに焦点を当てた、手作業でキュレートされたサブセット statcodesearch を紹介します。 評価と比較のために,ゼロショット設定のbert型モデルとgpt型大規模言語モデルを用いて,いくつかのベースライン結果を収集した。

Language models can serve as a valuable tool for software developers to increase productivity. Large generative models can be used for code generation and code completion, while smaller encoder-only models are capable of performing code search tasks using natural language queries.These capabilities are heavily influenced by the quality and diversity of the available training data. Source code datasets used for training usually focus on the most popular languages and testing is mostly conducted on the same distributions, often overlooking low-resource programming languages. Motivated by the NLP generalization taxonomy proposed by Hupkes et.\,al., we propose a new benchmark dataset called GenCodeSearchNet (GeCS) which builds upon existing natural language code search datasets to systemically evaluate the programming language understanding generalization capabilities of language models. As part of the full dataset, we introduce a new, manually curated subset StatCodeSearch that focuses on R, a popular but so far underrepresented programming language that is often used by researchers outside the field of computer science. For evaluation and comparison, we collect several baseline results using fine-tuned BERT-style models and GPT-style large language models in a zero-shot setting.
翻訳日:2023-11-17 15:19:16 公開日:2023-11-16
# MAFALDA: 誤検出と分類のベンチマークと総合的研究

MAFALDA: A Benchmark and Comprehensive Study of Fallacy Detection and Classification ( http://arxiv.org/abs/2311.09761v1 )

ライセンス: Link先を確認
Chadi Helwe, Tom Calamai, Pierre-Henri Paris, Chlo\'e Clavel, Fabian Suchanek(参考訳) 誤認は偽情報、偽ニュース、プロパガンダの拡散に利用され、その検出の重要性が強調される。 しかし、タスクの本質的な主観性と既存の研究における包括的かつ統一的なアプローチの必要性から、誤字の自動検出と分類は依然として困難である。 そこで本研究では,従来の分類を整理・洗練する誤用の新しい分類法,主観的nlpタスクに適した新しいアノテーションスキーム,精度,リコール,f1-scoreメトリクスに適合した主観性を扱うための新しい評価手法を提案する。 本手法を用いて,金の標準データセットであるMAFALDA(Multi-level Annotated FALlacy DAtaset)を提案する。 MAFALDAは、3つのレベルの粒度にまたがって、我々の統合分類下の様々な既存の誤用データセットの例に基づいている。 そして、MAFALDAを用いてゼロショット学習環境下で複数の言語モデルを評価し、その誤検出と分類能力を評価する。 我々の総合的な評価は、これらのモデルのパフォーマンスをベンチマークするだけでなく、誤った推論に対処する上での強みと限界に対する貴重な洞察を提供します。

Fallacies can be used to spread disinformation, fake news, and propaganda, underlining the importance of their detection. Automated detection and classification of fallacies, however, remain challenging, mainly because of the innate subjectivity of the task and the need for a comprehensive, unified approach in existing research. Addressing these limitations, our study introduces a novel taxonomy of fallacies that aligns and refines previous classifications, a new annotation scheme tailored for subjective NLP tasks, and a new evaluation method designed to handle subjectivity, adapted to precision, recall, and F1-Score metrics. Using our annotation scheme, the paper introduces MAFALDA (Multi-level Annotated FALlacy DAtaset), a gold standard dataset. MAFALDA is based on examples from various previously existing fallacy datasets under our unified taxonomy across three levels of granularity. We then evaluate several language models under a zero-shot learning setting using MAFALDA to assess their fallacy detection and classification capability. Our comprehensive evaluation not only benchmarks the performance of these models but also provides valuable insights into their strengths and limitations in addressing fallacious reasoning.
翻訳日:2023-11-17 15:12:40 公開日:2023-11-16
# FairytaleCQA: 子どもの物語に常識知識グラフを統合する

FairytaleCQA: Integrating a Commonsense Knowledge Graph into Children's Storybook Narratives ( http://arxiv.org/abs/2311.09756v1 )

ライセンス: Link先を確認
Jiaju Chen, Yuxuan Lu, Shao Zhang, Bingsheng Yao, Yuanzhe Dong, Ying Xu, Yunyao Li, Qianwen Wang, Dakuo Wang, Yuling Sun(参考訳) aiモデル(llmを含む)は、下流の子供教育アプリケーションをサポートするためにカスタマイズされたqa機能を提供するために、物語的質問応答(qa)データセットに依存することが多いが、既存のデータセットには、所定のストーリーブックコンテンツに基礎を置くqaペアのみが含まれている。 児童教育の専門家が注釈を付したfairytalecqaデータセットを導入し、278の物語を教育的に適切なコモンセンス知識で補完する。 データセットには5,868のQAペアがあり、ストーリーブックの物語に由来するだけでなく、外部知識グラフ(ConceptNet)に基づく常識知識も含んでいる。 フォローアップ実験では、FairytaleCQAで微調整された小さなモデル(T5-large)が、新しいQAペア生成タスク(QAG)において、より大きなプロンプトエンジニアリングLLM(例えば、GPT-4)よりも確実に優れていることを示した。 この結果は次のように示唆する。 1)我々のデータセットは既存のLCMに新たな課題をもたらし、 2)人間の専門家のデータアノテーションは,子どもの教育領域においてLLMが知らないようなニュアンスな知識を多く持っているため,いまだに批判的である。

AI models (including LLM) often rely on narrative question-answering (QA) datasets to provide customized QA functionalities to support downstream children education applications; however, existing datasets only include QA pairs that are grounded within the given storybook content, but children can learn more when teachers refer the storybook content to real-world knowledge (e.g., commonsense knowledge). We introduce the FairytaleCQA dataset, which is annotated by children education experts, to supplement 278 storybook narratives with educationally appropriate commonsense knowledge. The dataset has 5,868 QA pairs that not only originate from the storybook narrative but also contain the commonsense knowledge grounded by an external knowledge graph (i.e., ConceptNet). A follow-up experiment shows that a smaller model (T5-large) fine-tuned with FairytaleCQA reliably outperforms much larger prompt-engineered LLM (e.g., GPT-4) in this new QA-pair generation task (QAG). This result suggests that: 1) our dataset brings novel challenges to existing LLMs, and 2) human experts' data annotation are still critical as they have much nuanced knowledge that LLMs do not know in the children educational domain.
翻訳日:2023-11-17 15:12:17 公開日:2023-11-16
# キャリブレーションデータは大規模言語モデルの学習後処理と量子化にどう影響するか?

How Does Calibration Data Affect the Post-training Pruning and Quantization of Large Language Models? ( http://arxiv.org/abs/2311.09755v1 )

ライセンス: Link先を確認
Miles Williams, Nikolaos Aletras(参考訳) プルーニングと量子化は、ニューラルネットワークのモデル圧縮の基礎を形成し、大きな言語モデル(LLM)の効率的な推論を可能にする。 近年,様々な量子化と刈り取り技術が,訓練後における最先端のパフォーマンスを実証している。 彼らはレイヤーアクティベーションを生成するために、ラベルなしサンプルの小さなセットであるキャリブレーションデータに依存している。 しかし, キャリブレーションデータがモデル圧縮法の有効性に与える影響について, 事前調査は行われていない。 本稿では,キャリブレーションデータによるllm性能への影響について,最初の大規模実験を行った。 我々は、様々なプルーニングおよび量子化手法、タスク、モデル、データセットを試行する。 驚くべきことに、キャリブレーションデータに対するロバスト性の向上を示唆する既存の作業とは対照的に、下流のタスクパフォーマンスにかなりの変化があります。 最後に,LLM量子化およびプルーニングにおけるキャリブレーションデータの有効利用を推奨する。

Pruning and quantization form the foundation of model compression for neural networks, enabling efficient inference for large language models (LLMs). Recently, various quantization and pruning techniques have demonstrated state-of-the-art performance in a post-training setting. They rely upon calibration data, a small set of unlabeled examples, to generate layer activations. However, no prior work has systematically investigated how the calibration data impacts the effectiveness of model compression methods. In this paper, we present the first extensive empirical study on the effect of calibration data upon LLM performance. We trial a variety of pruning and quantization methods, tasks, models, and datasets. Surprisingly, we find substantial variations in downstream task performance, contrasting existing work that suggests a greater level of robustness to the calibration data. Finally, we make a series of recommendations for the effective use of calibration data in LLM quantization and pruning.
翻訳日:2023-11-17 15:11:48 公開日:2023-11-16
# DIFFNAT:自然画像統計を用いた拡散画像の品質向上

DIFFNAT: Improving Diffusion Image Quality Using Natural Image Statistics ( http://arxiv.org/abs/2311.09753v1 )

ライセンス: Link先を確認
Aniket Roy, Maiterya Suin, Anshul Shah, Ketul Shah, Jiang Liu, Rama Chellappa(参考訳) 拡散モデルは、自然主義的な画像の編集と作成に関して、高度な生成AIを持っている。 しかし、画像品質の効率向上は依然として最重要課題である。 この文脈では、画像品質を高めるため、任意の標準拡散モデルパイプラインに容易に適用可能な、一般的な「自然性」保存損失関数(viz., kurtosis concentration (KC)損失)を提案する。 我々のモチベーションは自然画像のクルトシス濃度特性を投影することに由来し、自然画像は様々なバンドパスバージョンにわたってクルトシス値がほぼ一定であることを示している。 生成された画像の「自然性」を維持するために、画像の帯域通過バージョン(例えば離散ウェーブレット変換(dwt))における最高値と最低値の間のギャップを小さくすることを強制する。 画像品質を改善するために分類器や分類器フリーガイダンスのような追加のガイダンスは不要である。 提案手法は,(1)テキストガイダンスを用いたパーソナライズされた少数ショットファインタニング,(2)非条件画像生成,(3)画像超解像の3つのタスクに対して検証する。 提案したKC損失を統合することで,FID,MUSIQスコア,ユーザ評価の両面で,これらのタスクの知覚品質が向上した。

Diffusion models have advanced generative AI significantly in terms of editing and creating naturalistic images. However, efficiently improving generated image quality is still of paramount interest. In this context, we propose a generic "naturalness" preserving loss function, viz., kurtosis concentration (KC) loss, which can be readily applied to any standard diffusion model pipeline to elevate the image quality. Our motivation stems from the projected kurtosis concentration property of natural images, which states that natural images have nearly constant kurtosis values across different band-pass versions of the image. To retain the "naturalness" of the generated images, we enforce reducing the gap between the highest and lowest kurtosis values across the band-pass versions (e.g., Discrete Wavelet Transform (DWT)) of images. Note that our approach does not require any additional guidance like classifier or classifier-free guidance to improve the image quality. We validate the proposed approach for three diverse tasks, viz., (1) personalized few-shot finetuning using text guidance, (2) unconditional image generation, and (3) image super-resolution. Integrating the proposed KC loss has improved the perceptual quality across all these tasks in terms of both FID, MUSIQ score, and user evaluation.
翻訳日:2023-11-17 15:11:33 公開日:2023-11-16
# 量子分類器の集合

Ensembles of Quantum Classifiers ( http://arxiv.org/abs/2311.09750v1 )

ライセンス: Link先を確認
Emiliano Tolotti, Enrico Zardini, Enrico Blanzieri, Davide Pastorello(参考訳) ノイズ中間スケール量子(nisq)として知られる現在の時代には、大量のデータを量子デバイスにエンコードすることは困難であり、ノイズの影響は得られた結果の品質に大きく影響する。 量子分類アルゴリズムの実行に有効なアプローチは、よく知られた機械学習パラダイム、すなわちアンサンブルメソッドの導入である。 実際、アンサンブルは複数の内部分類器を組み合わせており、訓練に使用するデータサブセットが小さいため、コンパクトなサイズが特徴で、より正確で堅牢な予測性能を実現する。 このようにして、1つの大きな分類器に関してqubitsの要求を削減し、同等の性能または改善された性能を達成することができる。 本稿では,二元分類のための量子分類器のアンサンブルの実装と,その有効性,限界,および基礎量子モデルの性能向上の可能性について考察する。 特に、3つの古典的アンサンブル法と3つの量子分類器がここで考慮されている。 したがって、(pythonで)実装されたスキームには、ハイブリッドな性質がある。 実世界のデータセットから得られる)結果は、単一の量子分類器に対するアンサンブル技法の精度上の優位性を示し、ロバスト性の向上も示している。 実際、アンサンブルは不適切なデータの正規化と繰り返し測定の不正確さを緩和し、量子分類器をより安定させることが判明した。

In the current era, known as Noisy Intermediate-Scale Quantum (NISQ), encoding large amounts of data in the quantum devices is challenging and the impact of noise significantly affects the quality of the obtained results. A viable approach for the execution of quantum classification algorithms is the introduction of a well-known machine learning paradigm, namely, the ensemble methods. Indeed, the ensembles combine multiple internal classifiers, which are characterized by compact sizes due to the smaller data subsets used for training, to achieve more accurate and robust prediction performance. In this way, it is possible to reduce the qubits requirements with respect to a single larger classifier while achieving comparable or improved performance. In this work, we present an implementation and an extensive empirical evaluation of ensembles of quantum classifiers for binary classification, with the purpose of providing insights into their effectiveness, limitations, and potential for enhancing the performance of basic quantum models. In particular, three classical ensemble methods and three quantum classifiers have been taken into account here. Hence, the scheme that has been implemented (in Python) has a hybrid nature. The results (obtained on real-world datasets) have shown an accuracy advantage for the ensemble techniques with respect to the single quantum classifiers, and also an improvement in robustness. In fact, the ensembles have turned out to be able to mitigate both unsuitable data normalizations and repeated measurement inaccuracies, making quantum classifiers more stable.
翻訳日:2023-11-17 15:10:55 公開日:2023-11-16
# トルコ語用翻訳アライメント文埋め込み

Translation Aligned Sentence Embeddings for Turkish Language ( http://arxiv.org/abs/2311.09748v1 )

ライセンス: Link先を確認
Eren Unlu, Unver Ciftci(参考訳) トルコ語における文組込み訓練のための高品質データセットが限られているため,文組込みモデルを開発するための訓練手法と体系を提案する。 中心となるアイデアは単純だが効果的であり、事前訓練されたエンコーダ・デコーダモデルを2段階連続的に微調整することであり、第1段階は埋め込み空間と変換ペアとの整合を伴う。 このアライメントにより、ターゲット言語データセットが限定された短時間で精度良く微調整できる文埋め込み設定において、メインモデルの確率をより良くターゲット言語に投影することができる。

Due to the limited availability of high quality datasets for training sentence embeddings in Turkish, we propose a training methodology and a regimen to develop a sentence embedding model. The central idea is simple but effective : is to fine-tune a pretrained encoder-decoder model in two consecutive stages, where the first stage involves aligning the embedding space with translation pairs. Thanks to this alignment, the prowess of the main model can be better projected onto the target language in a sentence embedding setting where it can be fine-tuned with high accuracy in short duration with limited target language dataset.
翻訳日:2023-11-17 15:10:12 公開日:2023-11-16
# 腹腔鏡下空間感覚の再定義:立体画像を用いたAIを用いた術中・術後計測

Redefining the Laparoscopic Spatial Sense: AI-based Intra- and Postoperative Measurement from Stereoimages ( http://arxiv.org/abs/2311.09744v1 )

ライセンス: Link先を確認
Leopold M\"uller, Patrick Hemmer, Moritz Queisner, Igor Sauer, Simeon Allmendinger, Johannes Jakubik, Michael V\"ossing, Niklas K\"uhl(参考訳) 画像誘導手術における重要な課題は、血管セグメント、切除マージン、腸の長さなどの関連構造の正確な測定作業である。 この作業は多くの手術に不可欠な要素であるが、かなりの人的努力が必要であり、不正確さに陥りやすい。 本稿では,外科医が指導する立体視を利用した,新しい腹腔鏡下腹腔鏡計測法を開発した。 総合的質的要求分析に基づいて,raft-stereoやyolov8といった最先端の機械学習アーキテクチャを含む包括的な計測手法を提案する。 本手法は, 様々な実験評価環境において評価される。 提案手法が1mm以下の誤差で精度の高い距離測定を実現する可能性について概説した。 さらに, 表面測定により, 無テクスチャ領域の挑戦環境に適用した場合のロバスト性を示す。 総合的に, 画像誘導手術の本来の課題に対処し, より堅牢で正確な術中計測, 術後測定のためのソリューションの基礎を整備し, より正確に, 安全かつ効率的な手術を行えるようにした。

A significant challenge in image-guided surgery is the accurate measurement task of relevant structures such as vessel segments, resection margins, or bowel lengths. While this task is an essential component of many surgeries, it involves substantial human effort and is prone to inaccuracies. In this paper, we develop a novel human-AI-based method for laparoscopic measurements utilizing stereo vision that has been guided by practicing surgeons. Based on a holistic qualitative requirements analysis, this work proposes a comprehensive measurement method, which comprises state-of-the-art machine learning architectures, such as RAFT-Stereo and YOLOv8. The developed method is assessed in various realistic experimental evaluation environments. Our results outline the potential of our method achieving high accuracies in distance measurements with errors below 1 mm. Furthermore, on-surface measurements demonstrate robustness when applied in challenging environments with textureless regions. Overall, by addressing the inherent challenges of image-guided surgery, we lay the foundation for a more robust and accurate solution for intra- and postoperative measurements, enabling more precise, safe, and efficient surgical procedures.
翻訳日:2023-11-17 15:09:53 公開日:2023-11-16
# 主観的学習課題におけるクラウドソーシングアノテータの視点の把握

Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks ( http://arxiv.org/abs/2311.09743v1 )

ライセンス: Link先を確認
Negar Mokhberian, Myrl G. Marmarelis, Frederic R. Hopp, Valerio Basile, Fred Morstatter, Kristina Lerman(参考訳) ほとんどの分類モデルでは、各データポイントに対して単一の真実ラベルを持つと仮定されている。 しかし、毒性分類のような主観的なタスクは、アノテーターの間で真の不一致を引き起こす可能性がある。 このような場合、ラベルを集約するとバイアス付きラベルが生まれ、その結果、少数派の意見を見渡すことができるバイアス付きモデルが生まれる。 これまでの研究はラベルアグリゲーションの落とし穴に光を当て、この問題に取り組むための実践的なアプローチをいくつか導入してきた。 近年,アノテータ毎にラベルを個別に予測するマルチアノテータモデルが,小さなサンプルを持つアノテータのアンダー決定に脆弱である。 この問題は特にクラウドソースのデータセットで問題となる。 本研究では、主観的分類タスクのためのテキスト用アノテーション認識表現(AART)を提案する。 注記者の視点を捉えた上での性能を評価する指標について,提案手法の改善を示す。 さらに、アノテーションの表現を学習し、キャプチャしたアノテーションの振る舞いを探索する手法である。

In most classification models, it has been assumed to have a single ground truth label for each data point. However, subjective tasks like toxicity classification can lead to genuine disagreement among annotators. In these cases aggregating labels will result in biased labeling and, consequently, biased models that can overlook minority opinions. Previous studies have shed light on the pitfalls of label aggregation and have introduced a handful of practical approaches to tackle this issue. Recently proposed multi-annotator models, which predict labels individually per annotator, are vulnerable to under-determination for annotators with small samples. This problem is especially the case in crowd-sourced datasets. In this work, we propose Annotator Aware Representations for Texts (AART) for subjective classification tasks. We will show the improvement of our method on metrics that assess the performance on capturing annotators' perspectives. Additionally, our approach involves learning representations for annotators, allowing for an exploration of the captured annotation behaviors.
翻訳日:2023-11-17 15:09:09 公開日:2023-11-16
# 誠実な要約とは何か? ニュース要約における著者視点の保存

What Constitutes a Faithful Summary? Preserving Author Perspectives in News Summarization ( http://arxiv.org/abs/2311.09741v1 )

ライセンス: Link先を確認
Yuhan Liu, Shangbin Feng, Xiaochuang Han, Vidhisha Balachandran, Chan Young Park, Sachin Kumar, Yulia Tsvetkov(参考訳) 本研究では,著者の意見や視点に忠実な要約システムを設計するための第一歩を踏み出す。 ニュース要約における政治的視点の保存に関する事例研究から,既存のアプローチは,要約の50%以上において,新聞記事の政治的意見やスタンスを変化させるものであり,ニュース作家の意図や視点を誤解していることがわかった。 そこで我々は,p^3sumという拡散モデルに基づく要約手法を提案する。 p^3sumでは、生成された要約の政治的傾倒を復号ステップ毎に反復的に評価し、記事の本来のスタンスからのドリフトは、埋め込み層にバックプロパゲーションされた損失を伴い、推測時に要約の政治的スタンスを操る。 3つのニュース要約データセットの大規模な実験により、P^3Sumはスタンス保存の成功率において最先端の要約システムと大規模言語モデルを最大11.4%上回り、標準要約ユーティリティメトリクスのオンパーパフォーマンスを示す。 これらの知見は、最先端モデルであっても、ニュース要約において著者の視点を維持することは依然として困難であり、一方p^3sumは著者の意図や視点に忠実な要約システムの評価と開発のための重要な第一歩であることを示している。

In this work, we take a first step towards designing summarization systems that are faithful to the author's opinions and perspectives. Focusing on a case study of preserving political perspectives in news summarization, we find that existing approaches alter the political opinions and stances of news articles in more than 50% of summaries, misrepresenting the intent and perspectives of the news authors. We thus propose P^3Sum, a diffusion model-based summarization approach controlled by political perspective classifiers. In P^3Sum, the political leaning of a generated summary is iteratively evaluated at each decoding step, and any drift from the article's original stance incurs a loss back-propagated to the embedding layers, steering the political stance of the summary at inference time. Extensive experiments on three news summarization datasets demonstrate that P^3Sum outperforms state-of-the-art summarization systems and large language models by up to 11.4% in terms of the success rate of stance preservation, with on-par performance on standard summarization utility metrics. These findings highlight the lacunae that even for state-of-the-art models it is still challenging to preserve author perspectives in news summarization, while P^3Sum presents an important first step towards evaluating and developing summarization systems that are faithful to author intent and perspectives.
翻訳日:2023-11-17 15:08:49 公開日:2023-11-16
# 超解法の再定義:古典的シミュレーションを伴わないPDE予測

Redefining Super-Resolution: Fine-mesh PDE predictions without classical simulations ( http://arxiv.org/abs/2311.09740v1 )

ライセンス: Link先を確認
Rajat Kumar Sarkar, Ritam Majumdar, Vishal Jadhav, Sagar Srinivas Sakhinana, Venkataramana Runkana(参考訳) 計算流体力学(CFD)では、粗いメッシュシミュレーションは計算効率を提供するが、精度は低いことが多い。 これらのシミュレーションに従来の超解像を適用することは、高分解能画像のダウンサンプリングと低分解能物理のオーステンシャルエミュレーションの基本的なコントラストのために大きな課題となる。 前者の手法は、現実のシナリオの通常の制約を超越して、基礎となる物理学をより保存する。 PDEに基づく問題に適した超解像の新たな定義を提案する。 高解像度データセットから単純にサンプリングする代わりに、粗いグリッドシミュレーションデータを入力として使用し、細粒度シミュレーション結果を予測する。 物理拡散型UNetアップスケーリング法を用いて,バーガー方程式の不連続検出,メタン燃焼,産業熱交換器のファウリングなど,様々な2次元CFD問題に対して有効性を示す。 提案手法は,従来のシミュレーションを通過させることで,基礎となる真理結果に対する計算的保存と忠実性の確保を可能にする。 トレーニング中の境界条件の多様さにより,本手法の堅牢性をさらに確立し,工学および科学的CFD解法における幅広い応用の道を開く。

In Computational Fluid Dynamics (CFD), coarse mesh simulations offer computational efficiency but often lack precision. Applying conventional super-resolution to these simulations poses a significant challenge due to the fundamental contrast between downsampling high-resolution images and authentically emulating low-resolution physics. The former method conserves more of the underlying physics, surpassing the usual constraints of real-world scenarios. We propose a novel definition of super-resolution tailored for PDE-based problems. Instead of simply downsampling from a high-resolution dataset, we use coarse-grid simulated data as our input and predict fine-grid simulated outcomes. Employing a physics-infused UNet upscaling method, we demonstrate its efficacy across various 2D-CFD problems such as discontinuity detection in Burger's equation, Methane combustion, and fouling in Industrial heat exchangers. Our method enables the generation of fine-mesh solutions bypassing traditional simulation, ensuring considerable computational saving and fidelity to the original ground truth outcomes. Through diverse boundary conditions during training, we further establish the robustness of our method, paving the way for its broad applications in engineering and scientific CFD solvers.
翻訳日:2023-11-17 15:08:18 公開日:2023-11-16
# 偏光化学のための機械学習:化学動力学へのアクセス

Machine Learning for Polaritonic Chemistry: Accessing chemical kinetics ( http://arxiv.org/abs/2311.09739v1 )

ライセンス: Link先を確認
Christian Sch\"afer, Jakub Fojt, Eric Lindgren, Paul Erhart(参考訳) 閉じ込められた光学環境における化学反応性と物質構造の変化は増加傾向にあるが、微視的なメカニズムに関する決定的な理解はいまだに解明されていない。 これは主に、現実的な分子の溶解したアンサンブルの振動と反応性のダイナミクスを正確に予測することは小さな試みではなく、強い光-物質相互作用を加えることは物事を単純化しないという事実に由来する。 本稿では、密度関数理論計算と分子動力学を用いて学習した機械学習(ml)モデルの組合せに基づく枠組みを構築し、シミュレーションを高速化する。 次に, 従来実験およびアブイニチノシミュレーションを用いて検討されてきた1-フェニル-2-トリメチルシリルアセチレンの脱保護反応に対する強結合, 反応速度定数の変化, エンタルピーおよびエントロピーへの影響について検討した。 特に運動学の変化に関して、批判的な実験観測と定性的な一致が見いだされる一方で、従来の理論的な予測との違いも見いだされる。 ml-acceleratedとab initioシミュレーションが一致する特徴は, 実験的に推定された運動挙動を示す。 対立する特徴は、反応過程における電子分極の寄与が、現在より関係があることを示唆している。 我々の研究は、分極化学におけるMLの実用的利用を実証し、共通近似の限界を論じ、分極化学をより包括的に記述する方法を舗装する。

Altering chemical reactivity and material structure in confined optical environments is on the rise, and yet, a conclusive understanding of the microscopic mechanisms remains elusive. This originates mostly from the fact that accurately predicting vibrational and reactive dynamics for soluted ensembles of realistic molecules is no small endeavor, and adding (collective) strong light-matter interaction does not simplify matters. Here, we establish a framework based on a combination of machine learning (ML) models, trained using density-functional theory calculations, and molecular dynamics to accelerate such simulations. We then apply this approach to evaluate strong coupling, changes in reaction rate constant, and their influence on enthalpy and entropy for the deprotection reaction of 1-phenyl-2-trimethylsilylacetylene, which has been studied previously both experimentally and using ab initio simulations. While we find qualitative agreement with critical experimental observations, especially with regard to the changes in kinetics, we also find differences in comparison with previous theoretical predictions. The features for which the ML-accelerated and ab initio simulations agree show the experimentally estimated kinetic behavior. Conflicting features indicate that a contribution of electronic polarization to the reaction process is more relevant then currently believed. Our work demonstrates the practical use of ML for polaritonic chemistry, discusses limitations of common approximations and paves the way for a more holistic description of polaritonic chemistry.
翻訳日:2023-11-17 15:07:56 公開日:2023-11-16
# クロスモダリティmriセグメンテーションのための勾配マップ誘導適応領域一般化

Gradient-Map-Guided Adaptive Domain Generalization for Cross Modality MRI Segmentation ( http://arxiv.org/abs/2311.09737v1 )

ライセンス: Link先を確認
Bingnan Li, Zhitong Gao, Xuming He(参考訳) クロスモーダルMRIセグメント化はコンピュータ支援医療診断において非常に有用であり、柔軟なデータ取得とモデル一般化を可能にしている。 しかし、既存のほとんどのメソッドは、ドメインシフトの局所的なバリエーションを扱うのが困難であり、訓練に大量のデータを必要とするため、実際には使用を妨げている。 これらの問題に対処するために,画像勾配マップに基づく学習フリーなクロスドメイン表現と,局所領域シフトを緩和するクラス事前変換テスト時間適応戦略を統合する,新しい適応型ドメイン一般化フレームワークを提案する。 6つのクロスモーダルセグメンテーションタスクを含む2つのマルチモーダルmriデータセットに対するアプローチを検証する。 すべてのタスク設定において,本手法は競合するアプローチを一貫して上回っており,限られたトレーニングデータでも安定した性能を示す。

Cross-modal MRI segmentation is of great value for computer-aided medical diagnosis, enabling flexible data acquisition and model generalization. However, most existing methods have difficulty in handling local variations in domain shift and typically require a significant amount of data for training, which hinders their usage in practice. To address these problems, we propose a novel adaptive domain generalization framework, which integrates a learning-free cross-domain representation based on image gradient maps and a class prior-informed test-time adaptation strategy for mitigating local domain shift. We validate our approach on two multi-modal MRI datasets with six cross-modal segmentation tasks. Across all the task settings, our method consistently outperforms competing approaches and shows a stable performance even with limited training data.
翻訳日:2023-11-17 15:07:27 公開日:2023-11-16
# CARE:臨床文献から実験的発見を抽出する

CARE: Extracting Experimental Findings From Clinical Literature ( http://arxiv.org/abs/2311.09736v1 )

ライセンス: Link先を確認
Aakanksha Naik, Bailey Kuehl, Erin Bransom, Doug Downey, Tom Hope(参考訳) 文献から詳細な実験結果を抽出することは、科学的応用に多大な有用性をもたらす。 以前の作業では、この問題の限られた側面のためのアノテーションスキーマとデータセットの開発に重点を置いており、より単純な情報抽出データセットは、このタスクに必要な現実世界の複雑さとニュアンスを捉えていない。 バイオメディシンに焦点を当てた本研究は,臨床所見抽出のための新しいIEデータセットであるCARE(Clinical Agrregation-oriented Result extract)を提示する。 我々は,非連続的なエンティティスパン,ネスト関係,可変arity n-ary関係など,現在のIEシステムにおいて困難な現象を含む,エンティティと属性間のn-ary関係として微細な発見をキャプチャする新しいアノテーションスキーマを開発した。 このスキーマを用いて,臨床試験とケースレポートの2つのソースから,700の抽象概念に対する広範なアノテーションを収集した。 また、データセット上での様々な最先端IEシステムの性能をベンチマークし、完全な教師付きおよび制限されたデータ設定において、抽出モデルと生成LDMを含む。 その結果,gpt4 などの sota モデル,特に関係抽出において,データセットの難易度が示された。 文献からの科学的知見の抽出と集約に関するさらなる研究を奨励するために、アノテーションスキーマとCAREをリリースする。

Extracting fine-grained experimental findings from literature can provide massive utility for scientific applications. Prior work has focused on developing annotation schemas and datasets for limited aspects of this problem, leading to simpler information extraction datasets which do not capture the real-world complexity and nuance required for this task. Focusing on biomedicine, this work presents CARE (Clinical Aggregation-oriented Result Extraction) -- a new IE dataset for the task of extracting clinical findings. We develop a new annotation schema capturing fine-grained findings as n-ary relations between entities and attributes, which includes phenomena challenging for current IE systems such as discontinuous entity spans, nested relations, and variable arity n-ary relations. Using this schema, we collect extensive annotations for 700 abstracts from two sources: clinical trials and case reports. We also benchmark the performance of various state-of-the-art IE systems on our dataset, including extractive models and generative LLMs in fully supervised and limited data settings. Our results demonstrate the difficulty of our dataset -- even SOTA models such as GPT4 struggle, particularly on relation extraction. We release our annotation schema and CARE to encourage further research on extracting and aggregating scientific findings from literature.
翻訳日:2023-11-17 15:07:13 公開日:2023-11-16
# GEO: 生成エンジン最適化

GEO: Generative Engine Optimization ( http://arxiv.org/abs/2311.09735v1 )

ライセンス: Link先を確認
Pranjal Aggarwal and Vishvak Murahari and Tanmay Rajpurohit and Ashwin Kalyan and Karthik R Narasimhan and Ameet Deshpande(参考訳) 大規模言語モデル (LLMs) の出現は, ユーザクエリに応答するための情報収集と要約に生成モデルを使用する検索エンジンの新たなパラダイムに根ざしている。 この新技術は、私たちがge(unified framework of generative engines)の下で公式化したもので、正確かつパーソナライズされた応答を生成し、googleやbingといった従来の検索エンジンを急速に置き換えています。 生成エンジンは通常、複数のソースから情報を合成し、LLMの助けを借りてそれらを要約することでクエリを満たす。 このシフトは、 \textit{user}ユーティリティと \textit{generative search engine}トラフィックを大幅に改善する一方で、第3のステークホルダーであるwebサイトとコンテンツクリエーターにとって大きな課題となる。 生成エンジンのブラックボックスと高速に動く性質を考えると、コンテンツ制作者はコンテンツの表示時期や表示方法についてほとんどコントロールできない。 生成エンジンが存続すれば、クリエーターの経済が著しく不利にならないよう、適切なツールが提供されるべきです。 そこで我々は,コンテンツクリエーターが生成エンジン応答におけるコンテンツの可視性を向上させるための新しいパラダイムである生成エンジン最適化(geo)を,可視性メトリクスの最適化と定義のためのブラックボックス最適化フレームワークを通じて紹介する。 我々は,複数のドメインにまたがる多様なユーザクエリのベンチマークであるGEO-benchを導入することで,この新しいパラダイムの体系的評価を促進する。 厳密な評価により、GEOは生成エンジン応答の最大40%の可視性を向上できることを示す。 さらに、これらの戦略の有効性はドメインごとに異なり、ドメイン固有のメソッドの必要性を強調する。 我々の研究は、情報発見システム分野の新たなフロンティアを開き、生成エンジンやコンテンツクリエーターに深く影響している。

The advent of large language models (LLMs) has ushered in a new paradigm of search engines that use generative models to gather and summarize information to answer user queries. This emerging technology, which we formalize under the unified framework of Generative Engines (GEs), has the potential to generate accurate and personalized responses, and is rapidly replacing traditional search engines like Google and Bing. Generative Engines typically satisfy queries by synthesizing information from multiple sources and summarizing them with the help of LLMs. While this shift significantly improves \textit{user} utility and \textit{generative search engine} traffic, it results in a huge challenge for the third stakeholder -- website and content creators. Given the black-box and fast-moving nature of Generative Engines, content creators have little to no control over when and how their content is displayed. With generative engines here to stay, the right tools should be provided to ensure that creator economy is not severely disadvantaged. To address this, we introduce Generative Engine Optimization (GEO), a novel paradigm to aid content creators in improving the visibility of their content in Generative Engine responses through a black-box optimization framework for optimizing and defining visibility metrics. We facilitate systematic evaluation in this new paradigm by introducing GEO-bench, a benchmark of diverse user queries across multiple domains, coupled with sources required to answer these queries. Through rigorous evaluation, we show that GEO can boost visibility by up to 40\% in generative engine responses. Moreover, we show the efficacy of these strategies varies across domains, underscoring the need for domain-specific methods. Our work opens a new frontier in the field of information discovery systems, with profound implications for generative engines and content creators.
翻訳日:2023-11-17 15:06:50 公開日:2023-11-16
# 公文書のニュース価値を追跡する

Tracking the Newsworthiness of Public Documents ( http://arxiv.org/abs/2311.09734v1 )

ライセンス: Link先を確認
Alexander Spangher, Emilio Ferrara, Ben Welsh, Nanyun Peng, Serdar Tumgoren, Jonathan May(参考訳) ジャーナリストは仕事の一部として、大量のテキストデータ(リーク、請求書、プレスリリースなど)の中にストーリーを見つけなければなりません。 しかし、ラベル付きリンクが非常に少なく、コーパス間の言語使用は非常に異なり、様々な理由でテキストがカバーされる可能性があるため、これは難しい。 本研究は,サンフランシスコ・クロニクルによるサンフランシスコ・ベイエリアにおける地方公共政策のニュース報道に焦点を当てる。 まず,ニュース記事,公開政策文書,会議記録を収集し,確率的リレーショナルモデリングを用いてリンクする。 第二に、ポリシー項目がカバーされるかどうかを予測するために、ニューズサステイネス予測という新しいタスクを定義します。 公共政策議論の異なる側面は、ニュース価値の異なるシグナルをもたらすことを示す。 最後に、専門家のジャーナリストと人間による評価を行い、68%のf1でニュース価値と考えるポリシーを識別し、84%の得票率で私たちのカバレッジ勧告が役に立ちます。

Journalists must find stories in huge amounts of textual data (e.g. leaks, bills, press releases) as part of their jobs: determining when and why text becomes news can help us understand coverage patterns and help us build assistive tools. Yet, this is challenging because very few labelled links exist, language use between corpora is very different, and text may be covered for a variety of reasons. In this work we focus on news coverage of local public policy in the San Francisco Bay Area by the San Francisco Chronicle. First, we gather news articles, public policy documents and meeting recordings and link them using probabilistic relational modeling, which we show is a low-annotation linking methodology that outperforms other retrieval-based baselines. Second, we define a new task: newsworthiness prediction, to predict if a policy item will get covered. We show that different aspects of public policy discussion yield different newsworthiness signals. Finally we perform human evaluation with expert journalists and show our systems identify policies they consider newsworthy with 68% F1 and our coverage recommendations are helpful with an 84% win-rate.
翻訳日:2023-11-17 15:06:12 公開日:2023-11-16
# 大規模言語モデルの現代ベンチマークにおけるデータ汚染の調査

Investigating Data Contamination in Modern Benchmarks for Large Language Models ( http://arxiv.org/abs/2311.09783v1 )

ライセンス: Link先を確認
Chunyuan Deng, Yilun Zhao, Xiangru Tang, Mark Gerstein, Arman Cohan(参考訳) 近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けており、評価ベンチマークの汚染の可能性への懸念が高まっている。 この問題は、トレーニングデータの透明性が欠如しているクローズドソースモデルや特定のオープンソースモデルにとって特に重要である。 本稿では,オープンソースLLMとプロプライエタリLLMの両方に適した2つの手法を提案する。 まず,評価ベンチマークと事前学習コーパスの重なりを探索する検索ベースシステムを提案する。 さらに、オープンモデルとプロプライエタリモデルの両方に適用可能な、新しい調査プロトコルである \textbf{T}estset \textbf{S}lot Guessing (\textit{TS-Guessing})を提案する。 このアプローチでは、複数の選択の質問で間違った回答をマスキングし、モデルにギャップを埋めるよう促す。 さらに、評価例ではありそうにない単語を省略し、モデルにそれを生成するように要求する。 いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。 具体的には、TruthfulQAベンチマークにおいて、LLMは、ベンチマークに追加メタデータを提供すると、顕著なパフォーマンス向上を示す。 さらに、MMLUベンチマークでは、ベンチマークテストデータに欠けているオプションを推測するために、ChatGPTとGPT-4がそれぞれ52\%と57\%の正確な一致率を示した。 これらの結果は、この分野におけるより堅牢な評価手法とベンチマークの必要性を裏付けるものと期待している。

Recent observations have underscored a disparity between the inflated benchmark scores and the actual performance of LLMs, raising concerns about potential contamination of evaluation benchmarks. This issue is especially critical for closed-source models and certain open-source models where training data transparency is lacking. In this paper we study data contamination by proposing two methods tailored for both open-source and proprietary LLMs. We first introduce a retrieval-based system to explore potential overlaps between evaluation benchmarks and pretraining corpora. We further present a novel investigation protocol named \textbf{T}estset \textbf{S}lot Guessing (\textit{TS-Guessing}), applicable to both open and proprietary models. This approach entails masking a wrong answer in a multiple-choice question and prompting the model to fill in the gap. Additionally, it involves obscuring an unlikely word in an evaluation example and asking the model to produce it. We find that certain commercial LLMs could surprisingly guess the missing option in various test sets. Specifically, in the TruthfulQA benchmark, we find that LLMs exhibit notable performance improvement when provided with additional metadata in the benchmark. Further, in the MMLU benchmark, ChatGPT and GPT-4 demonstrated an exact match rate of 52\% and 57\%, respectively, in guessing the missing options in benchmark test data. We hope these results underscore the need for more robust evaluation methodologies and benchmarks in the field.
翻訳日:2023-11-17 14:58:23 公開日:2023-11-16
# より多くのサンプルか、もっとプロンプト入力か? LLMFew-Shot Prompt Engineeringのための効果的なインコンテキストサンプリングの探索

More Samples or More Prompt Inputs? Exploring Effective In-Context Sampling for LLM Few-Shot Prompt Engineering ( http://arxiv.org/abs/2311.09782v1 )

ライセンス: Link先を確認
Bingsheng Yao, Guiming Chen, Ruishi Zou, Yuxuan Lu, Jiachen Li, Shao Zhang, Sijia Liu, James Hendler, Dakuo Wang(参考訳) LLMのプロンプトエンジニアリングは、単一のプロンプトインプット(In-Context Learning や ICL)の中で、より優れたデータサンプルを選択する方法のみに焦点を当てていますが、複数のプロンプトインプットを一緒に設計し、活用してLLMのパフォーマンスをさらに向上させることはできないでしょうか? In-Context Smpling (ICS) は低リソースのLCMプロンプトエンジニアリング技術であり、複数のICLプロンプト入力を最適化することにより最も確実な予測結果を生成する。 2つのSOTA LLM(FlanT5-XLとMistral-7B)による3つのNLIデータセット(e-SNLI、Multi-NLI、ANLI)による大規模な実験により、ICSはLLMの予測性能と信頼性を一貫して向上できることが示された。 アブレーション研究では、多様性に基づくICS戦略により、LCMのパフォーマンスがさらに向上し、将来有望な新たな研究方向性に光を当てることが示唆されている。

While most existing works on LLM prompt-engineering focus only on how to select a better set of data samples inside one single prompt input (In-Context Learning or ICL), why can't we design and leverage multiple prompt inputs together to further improve the LLM performance? In this work, we propose In-Context Sampling (ICS), a low-resource LLM prompt-engineering technique to produce the most confident prediction results by optimizing the construction of multiple ICL prompt inputs. Extensive experiments with two SOTA LLMs (FlanT5-XL and Mistral-7B) on three NLI datasets (e-SNLI, Multi-NLI, and ANLI) illustrate that ICS can consistently enhance LLM's prediction performance and confidence. An ablation study suggests that a diversity-based ICS strategy may further improve LLM's performance, which sheds light on a new yet promising future research direction.
翻訳日:2023-11-17 14:57:57 公開日:2023-11-16
# クローズドループ型ロボットリアクティブ計画のためのモデルチェック

Model Checking for Closed-Loop Robot Reactive Planning ( http://arxiv.org/abs/2311.09780v1 )

ライセンス: Link先を確認
Christopher Chandler (School of Computing Science, University of Glasgow), Bernd Porr (School of Biomedical Engineering, University of Glasgow), Alice Miller (School of Computing Science, University of Glasgow), Giulia Lafratta (School of Engineering, University of Glasgow)(参考訳) 本稿では、モデル検査を用いて、ディファレンシャルドライブホイールロボットのマルチステップ計画を作成し、即時危険を避ける方法について述べる。 簡単な生物エージェントのエゴセントリックな反応を反映した,小型で汎用的なモデル検査アルゴリズムを用いて,リアルタイムで計画を生成する。 我々のアプローチは、自律的なエージェントが望ましい行動(あるいは休息状態)から逸脱するローカル環境の障害を取り除くために発生する一時的な制御システムの連鎖に基づいている。 この方法は、2次元LiDARデータの新たな離散化を伴い、即時環境における有界確率変動に敏感である。 第1のテストケースとしてcul-de-sacシナリオを用いて,前方探索による不変チェックを用いて多段階計画を行う。 その結果,局所障害回避のための効率的な軌道計画にモデルチェックが利用可能となり,1ステップしか計画できないリアクティブエージェントの性能が向上した。 事前計算したデータを用いずに、ほぼリアルタイムでこれを実現する。 われわれの手法には限界があるが、自動運転車の文脈で安全で信頼性が高く透明な軌道計画を開発するための道として、我々のアプローチは有望だと考えている。

In this paper, we show how model checking can be used to create multi-step plans for a differential drive wheeled robot so that it can avoid immediate danger. Using a small, purpose built model checking algorithm in situ we generate plans in real-time in a way that reflects the egocentric reactive response of simple biological agents. Our approach is based on chaining temporary control systems which are spawned to eliminate disturbances in the local environment that disrupt an autonomous agent from its preferred action (or resting state). The method involves a novel discretization of 2D LiDAR data which is sensitive to bounded stochastic variations in the immediate environment. We operationalise multi-step planning using invariant checking by forward depth-first search, using a cul-de-sac scenario as a first test case. Our results demonstrate that model checking can be used to plan efficient trajectories for local obstacle avoidance, improving on the performance of a reactive agent which can only plan one step. We achieve this in near real-time using no pre-computed data. While our method has limitations, we believe our approach shows promise as an avenue for the development of safe, reliable and transparent trajectory planning in the context of autonomous vehicles.
翻訳日:2023-11-17 14:57:36 公開日:2023-11-16
# 列車記号分類のための認証制御

Certified Control for Train Sign Classification ( http://arxiv.org/abs/2311.09778v1 )

ライセンス: Link先を確認
Jan Ro{\ss}bach (Heinrich-Heine-Universit\"at D\"usseldorf), Michael Leuschel (Heinrich-Heine-Universit\"at D\"usseldorf)(参考訳) 鉄道システム、特に完全自律列車システムにAI技術を統合することに産業的な関心がある。 KI-LOK研究プロジェクトは、このようなAIベースのシステムの認証方法の開発に関わっている。 本稿では,AIに基づく認識システムにおける交通信号の偽陽性検出を防止するランタイムモニタの認証制御アーキテクチャの有用性を検討する。 このモニターは、古典的なコンピュータビジョンアルゴリズムを使用して、aiオブジェクト検出モデルによって検出された標識が事前定義された仕様に適合しているかをチェックする。 我々は、いくつかの重要な兆候に対してそのような仕様を提供し、モニターのPythonプロトタイプを一般的なオブジェクト検出モデルと統合し、生成されたデータ上の関連するパフォーマンスメトリクスを測定する。 我々の最初の成果は有望であり、小さなリコールの削減だけでかなりの精度を達成できるが、さらなる一般化可能性の検討が必要である。

There is considerable industrial interest in integrating AI techniques into railway systems, notably for fully autonomous train systems. The KI-LOK research project is involved in developing new methods for certifying such AI-based systems. Here we explore the utility of a certified control architecture for a runtime monitor that prevents false positive detection of traffic signs in an AI-based perception system. The monitor uses classical computer vision algorithms to check if the signs -- detected by an AI object detection model -- fit predefined specifications. We provide such specifications for some critical signs and integrate a Python prototype of the monitor with a popular object detection model to measure relevant performance metrics on generated data. Our initial results are promising, achieving considerable precision gains with only minor recall reduction; however, further investigation into generalization possibilities will be necessary.
翻訳日:2023-11-17 14:57:17 公開日:2023-11-16
# HuatuoGPT-II : LLMの医療適応のためのワンステージトレーニング

HuatuoGPT-II, One-stage Training for Medical Adaption of LLMs ( http://arxiv.org/abs/2311.09774v1 )

ライセンス: Link先を確認
Junying Chen, Xidong Wang, Anningzhe Gao, Feng Jiang, Shunian Chen, Hongbo Zhang, Dingjie Song, Wenya Xie, Chuyi Kong, Jianquan Li, Xiang Wan, Haizhou Li, Benyou Wang(参考訳) 言語モデルを特定のドメインに適応させる「ドメイン適応」は、例えば医学のような専門知識がLlama2のような一般的な言語モデルにカプセル化されない場合、一般的な慣習である。 この課題は、言語、ジャンル、フォーマットによって異なるため、2つのトレーニング段階にわたるデータの均一性にある。 そこで本研究では,学習プロトコルを単純化するために,事前学習段階と教師付き段階の両方から,統一された簡易な入力出力ペア形式へ異種データを変換する手法を提案する。 従来の漢方医学など,ChatGPTのような独自LLMが比較的貧弱な領域において,新たなプロトコルを検証する。 開発されたモデルであるHuatuoGPT-IIは、医学ライセンス試験など、いくつかのベンチマークで、中国の医学領域における最先端のパフォーマンスを示している。 さらに、ChatGPTやGPT-4といったプロプライエタリなモデルよりも、特に中国伝統医学において優れています。 専門家による手作業による評価により、HuatuoGPT-II の既存の LLM に対する優位性がさらに証明された。 特に、HuatuoGPT-IIは中国の新しい医学ライセンス試験でベンチマークされ、その性能だけでなく、その一般化能力も示した。

Adapting a language model into a specific domain, a.k.a `domain adaption', is a common practice when specialized knowledge, e.g. medicine, is not encapsulated in a general language model like Llama2. The challenge lies in the heterogeneity of data across the two training stages, as it varies in languages, genres, or formats. To tackle this and simplify the learning protocol, we propose to transform heterogeneous data, from the both pre-training and supervised stages, into a unified, simple input-output pair format. We validate the new protocol in the domains where proprietary LLMs like ChatGPT perform relatively poorly, such as Traditional Chinese Medicine. The developed model, HuatuoGPT-II, has shown state-of-the-art performance in Chinese medicine domain on a number of benchmarks, e.g. medical licensing exams. It even outperforms proprietary models like ChatGPT and GPT-4 in some aspects, especially in Traditional Chinese Medicine. Expert manual evaluations further validate HuatuoGPT-II's advantages over existing LLMs. Notably, HuatuoGPT-II was benchmarked in a fresh Chinese National Medical Licensing Examination where it achieved the best performance, showcasing not only its effectiveness but also its generalization capabilities.
翻訳日:2023-11-17 14:57:05 公開日:2023-11-16
# to be be or not to be? 連続制御可能なプロンプトエンジニアリングの探求

To be or not to be? an exploration of continuously controllable prompt engineering ( http://arxiv.org/abs/2311.09773v1 )

ライセンス: Link先を確認
Yuhan Sun, Mukai Li, Yixin Cao, Kun Wang, Wenxiao Wang, Xingyu Zeng, Rui Zhao(参考訳) 大規模言語モデルの使用が広まるにつれて、パラメータ効率の良い微調整や制御された生成方法といった手法が、モデルをカスタマイズし、出力を管理するための牽引力を高めている。 しかし、これらのモデルに影響を及ぼすプロンプトを正確に制御することの難しさは、さらなる調査に欠かせない領域である。 これに対して,制御PE (Continuously Controllable Prompt Engineering) を導入する。 ControlPEは、効果を促進させ、既存のプロンプトエンジニアリングを補完し、継続的な目標を効果的に制御する。 このアプローチはLoRA(Low-Rank Adaptation)の力を利用して、重み付けを早める効果を生み出し、プロンプトの影響を微調整できる。 提案手法では, プロンプト蒸留のための特別なデータセットの生成, それらのプロンプトをLoRAモデルに組み込んで, プロンプトの影響を調節するために, LoRAマージ重量を慎重に調整する。 これは、プロンプト制御のための動的で適応可能なツールを提供する。 実験により, controlpeの実用性と有効性を検証した。 短い応答のプロンプトの生成、拒絶のプロンプト、チェーン・オブ・シント・プロンプトなど、さまざまなプロンプトを制御するための有望なソリューションであることが証明されている。

As the use of large language models becomes more widespread, techniques like parameter-efficient fine-tuning and other methods for controlled generation are gaining traction for customizing models and managing their outputs. However, the challenge of precisely controlling how prompts influence these models is an area ripe for further investigation. In response, we introduce ControlPE (Continuously Controllable Prompt Engineering). ControlPE enables finer adjustments to prompt effects, complementing existing prompt engineering, and effectively controls continuous targets. This approach harnesses the power of LoRA (Low-Rank Adaptation) to create an effect akin to prompt weighting, enabling fine-tuned adjustments to the impact of prompts. Our methodology involves generating specialized datasets for prompt distillation, incorporating these prompts into the LoRA model, and carefully adjusting LoRA merging weight to regulate the influence of prompts. This provides a dynamic and adaptable tool for prompt control. Through our experiments, we have validated the practicality and efficacy of ControlPE. It proves to be a promising solution for control a variety of prompts, ranging from generating short responses prompts, refusal prompts to chain-of-thought prompts.
翻訳日:2023-11-17 14:56:43 公開日:2023-11-16
# オブジェクト検出におけるデータセット親和性予測を用いたトレーニングデータの評価

Utilizing dataset affinity prediction in object detection to assess training data ( http://arxiv.org/abs/2311.09768v1 )

ライセンス: Link先を確認
Stefan Becker and Jens Bayer and Ronny Hug and Wolfgang H\"ubner and Michael Arens(参考訳) データプーリングは、サンプルサイズの増加、一般化の改善、サンプリングバイアスの低減、データのスパーシリティと品質への対処など、さまざまな利点を提供するが、単純ではなく、非生産的かもしれない。 個々のデータセットの全体的な情報内容の推定が困難であるため、原則的にデータセットをプーリングすることの有効性を評価するのは困難である。 そこで本研究では,標準オブジェクト検出パイプラインにデータソース予測モジュールを組み込むことを提案する。 モジュールは推論時間中に最小のオーバーヘッドで動作し、個々の検出に割り当てられたデータソースに関する追加情報を提供する。 車両データセットの異種プールから自動的にサンプルを選択することで,いわゆるデータセット親和性スコアの利点を示す。 その結果,検出精度を損なうことなく,極めてスパーザーなトレーニングサンプルセットで物体検出器を訓練できることがわかった。

Data pooling offers various advantages, such as increasing the sample size, improving generalization, reducing sampling bias, and addressing data sparsity and quality, but it is not straightforward and may even be counterproductive. Assessing the effectiveness of pooling datasets in a principled manner is challenging due to the difficulty in estimating the overall information content of individual datasets. Towards this end, we propose incorporating a data source prediction module into standard object detection pipelines. The module runs with minimal overhead during inference time, providing additional information about the data source assigned to individual detections. We show the benefits of the so-called dataset affinity score by automatically selecting samples from a heterogeneous pool of vehicle datasets. The results show that object detectors can be trained on a significantly sparser set of training samples without losing detection accuracy.
翻訳日:2023-11-17 14:56:21 公開日:2023-11-16
# 自己愛的評価指標としてのLLM:Egoが評価スコアを膨らませたとき

LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores ( http://arxiv.org/abs/2311.09766v1 )

ライセンス: Link先を確認
Yiqi Liu, Nafise Sadat Moosavi, Chenghua Lin(参考訳) 生成したテキストコンテンツの自動評価は、NLP分野において進行中の課題である。 様々なnlpタスクにまたがる現代言語モデル(lms)の印象的な能力を考えると、これらのモデルを用いて生成タスクの自動評価のための革新的な評価指標を作成する傾向が高まっている。 言語モデル駆動評価メトリクスは、本質的に同じ基礎となる言語モデルによって生成されたテキストに有利なバイアスを示すか? 具体的には,BARTScore,T5Score,GPTScoreなどの著名なLM評価指標が,要約タスクの文脈において,それぞれのLMに対して好ましいバイアスを与えるかどうかを評価する。 以上の結果から,金サマリーを使わずに,その評価指標を参照フリーで使用する場合,特に潜伏バイアスが顕在化した。 これらの結果は、生成的評価モデルによって提供される評価は、本質的なテキスト品質以上の要因に影響され、将来より信頼性の高い評価プロトコルを開発する必要性を強調している。

Automatic evaluation of generated textual content presents an ongoing challenge within the field of NLP. Given the impressive capabilities of modern language models (LMs) across diverse NLP tasks, there is a growing trend to employ these models in creating innovative evaluation metrics for automated assessment of generation tasks. This paper investigates a pivotal question: Do language model-driven evaluation metrics inherently exhibit bias favoring texts generated by the same underlying language model? Specifically, we assess whether prominent LM-based evaluation metrics--namely, BARTScore, T5Score, and GPTScore--demonstrate a favorable bias toward their respective underlying LMs in the context of summarization tasks. Our findings unveil a latent bias, particularly pronounced when such evaluation metrics are used in an reference-free manner without leveraging gold summaries. These results underscore that assessments provided by generative evaluation models can be influenced by factors beyond the inherent text quality, highlighting the necessity of developing more dependable evaluation protocols in the future.
翻訳日:2023-11-17 14:56:05 公開日:2023-11-16
# Back to Basics: デンスエンコーダのドメイン外検索を改善するためのシンプルなレシピ

Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in Dense Encoders ( http://arxiv.org/abs/2311.09765v1 )

ライセンス: Link先を確認
Hyunji Lee, Luca Soldaini, Arman Cohan, Minjoon Seo, Kyle Lo(参考訳) 今日の一般的な研究慣行は、msmarcoのような既存の大規模データセットに密集したレトリバーを訓練し、未発見のドメインに対してゼロショット一般化機能を改善する方法を実験することに依存している。 先行研究では、データ強化、アーキテクチャ修正、モデルサイズの増加、さらにベースモデル事前訓練といったリソース集約的なステップを通じてこの課題に取り組んできたが、トレーニング手順自体を改良して、結果モデルにより良い一般化能力をもたらすことができるかどうかについては、比較的調査されていない。 そこで本研究では,loraのようなパラメータ効率のよい手法でmsmarcoをトレーニングし,構造化されたハードネガが与えられない限り,バッチ内ネガを使用する方法を選択するという,高密度エンコーダのトレーニングのためのシンプルなレシピを提案する。 BEIRベンチマークを用いてこれらのレコメンデーションを検証し、高密度エンコーダとベースモデルサイズを選択した上で、アーキテクチャ修正や追加事前学習といったドメイン外一般化のための他のリソース集約戦略を補完する結果が得られた。 他のリソース集約的手法を補強する様々なトレーニングテクニックに関するこの徹底的で公平な研究は、単一のデータセットでトレーニングしても効果的に一般化する高密度検索モデルを開発するための実用的な洞察を提供することを願っている。

Prevailing research practice today often relies on training dense retrievers on existing large datasets such as MSMARCO and then experimenting with ways to improve zero-shot generalization capabilities to unseen domains. While prior work has tackled this challenge through resource-intensive steps such as data augmentation, architectural modifications, increasing model size, or even further base model pretraining, comparatively little investigation has examined whether the training procedures themselves can be improved to yield better generalization capabilities in the resulting models. In this work, we recommend a simple recipe for training dense encoders: Train on MSMARCO with parameter-efficient methods, such as LoRA, and opt for using in-batch negatives unless given well-constructed hard negatives. We validate these recommendations using the BEIR benchmark and find results are persistent across choice of dense encoder and base model size and are complementary to other resource-intensive strategies for out-of-domain generalization such as architectural modifications or additional pretraining. We hope that this thorough and impartial study around various training techniques, which augments other resource-intensive methods, offers practical insights for developing a dense retrieval model that effectively generalizes, even when trained on a single dataset.
翻訳日:2023-11-17 14:55:46 公開日:2023-11-16
# ディフェンシブな記述を伴うブラックボックス大言語モデルのテスト時バックドア緩和

Test-time Backdoor Mitigation for Black-Box Large Language Models with Defensive Demonstrations ( http://arxiv.org/abs/2311.09763v1 )

ライセンス: Link先を確認
Wenjie Mo, Jiashu Xu, Qin Liu, Jiongxiao Wang, Jun Yan, Chaowei Xiao, Muhao Chen(参考訳) バックドアディフェンスにおける既存の研究は、テスト時間ディフェンスの重要な側面を見越して、トレーニングフェーズに重点を置いている。 このギャップは、WebサービスとしてデプロイされるLarge Language Models(LLM)のコンテキストにおいて特に顕著になる。 このギャップを埋めるため、当社では、blackboxの大規模言語モデルのための革新的なバックドア防御戦略である defense demonstrationsを導入しています。 本手法では,タスクの特定と非汚染プールからのタスク関連デモンストレーションの検索を行う。 これらのデモンストレーションはユーザクエリと組み合わせられ、テスト中にブラックボックスモデルの変更や内部メカニズムへの洞察を必要とせずにモデルに提示される。 ディフェンシブ・デモはトリガーの悪影響を防止し、テスト時間評価中に有毒モデルの振る舞いを再検討し修正することを目的としている。 大規模な実験により、防御デモは、有害なモデルの振る舞いを是正するだけでなく、ほとんどのシナリオにおいて既存のベースラインを超えた、インスタンスレベルと命令レベルのバックドア攻撃の防御に有効であることが示された。

Existing studies in backdoor defense have predominantly focused on the training phase, overlooking the critical aspect of testing time defense. This gap becomes particularly pronounced in the context of Large Language Models (LLMs) deployed as Web Services, which typically offer only black-box access, rendering training-time defenses impractical. To bridge this gap, our work introduces defensive demonstrations, an innovative backdoor defense strategy for blackbox large language models. Our method involves identifying the task and retrieving task-relevant demonstrations from an uncontaminated pool. These demonstrations are then combined with user queries and presented to the model during testing, without requiring any modifications/tuning to the black-box model or insights into its internal mechanisms. Defensive demonstrations are designed to counteract the adverse effects of triggers, aiming to recalibrate and correct the behavior of poisoned models during test-time evaluations. Extensive experiments show that defensive demonstrations are effective in defending both instance-level and instruction-level backdoor attacks, not only rectifying the behavior of poisoned models but also surpassing existing baselines in most scenarios.
翻訳日:2023-11-17 14:55:19 公開日:2023-11-16
# 大規模言語モデルにおけるマルチホップ質問応答のためのグラフガイド推論

Graph-Guided Reasoning for Multi-Hop Question Answering in Large Language Models ( http://arxiv.org/abs/2311.09762v1 )

ライセンス: Link先を確認
Jinyoung Park, Ameen Patel, Omar Zia Khan, Hyunwoo J. Kim, Joo-Kyung Kim(参考訳) chain-of-thought(cot)プロンプトは、最終回答の前に一連の根拠を生成することによって、大規模言語モデル(llm)の多段階推論能力を高めた。 cotが生成する推論経路を分析し,多段階推論における2つの問題点を見出す。 (i)問題と無関係な合理性を生み出すこと。 (ii)関連するすべての情報の生成及び取得のためのサブクエストやクエリを作成できないこと。 そこで本研究では,LLMをグラフ表現/検証ステップで正しい解に導くためのグラフ誘導CoTプロンプト手法を提案する。 具体的には,まず LLM を利用して,初期質問と先行ステップで生成した有理性に基づいて知識抽出を行うことにより,「探索/論理グラフ」を構築する。 そして、グラフ検証ステップは、既存の問合せグラフと比較して現在の合理化三重項を診断し、無関係な理化をフィルタリングし、フォローアップ質問を生成して関連情報を得る。 さらに,抽出したグラフ情報を除外したCoTパスを生成し,グラフ抽出から欠落したコンテキスト情報を表現する。 グラフ誘導推論手法は,従来のCoTプロンプトやマルチホップ質問応答ベンチマークデータセットの変種よりも優れた性能を示す。

Chain-of-Thought (CoT) prompting has boosted the multi-step reasoning capabilities of Large Language Models (LLMs) by generating a series of rationales before the final answer. We analyze the reasoning paths generated by CoT and find two issues in multi-step reasoning: (i) Generating rationales irrelevant to the question, (ii) Unable to compose subquestions or queries for generating/retrieving all the relevant information. To address them, we propose a graph-guided CoT prompting method, which guides the LLMs to reach the correct answer with graph representation/verification steps. Specifically, we first leverage LLMs to construct a "question/rationale graph" by using knowledge extraction prompting given the initial question and the rationales generated in the previous steps. Then, the graph verification step diagnoses the current rationale triplet by comparing it with the existing question/rationale graph to filter out irrelevant rationales and generate follow-up questions to obtain relevant information. Additionally, we generate CoT paths that exclude the extracted graph information to represent the context information missed from the graph extraction. Our graph-guided reasoning method shows superior performance compared to previous CoT prompting and the variants on multi-hop question answering benchmark datasets.
翻訳日:2023-11-17 14:54:56 公開日:2023-11-16
# テキスト条件拡散モデルに基づくシーンテキスト画像の超解像

Scene Text Image Super-resolution based on Text-conditional Diffusion Models ( http://arxiv.org/abs/2311.09759v1 )

ライセンス: Link先を確認
Chihiro Noguchi, Shun Fukuda, Masao Yamanaka(参考訳) シーンテキスト画像超解像(STISR)は,シーンテキスト認識のための前処理手法として最近大きな成功を収めている。 STISRは、現実世界の設定でぼやけた低解像度(LR)テキストイメージを、シーンテキスト認識に適した鮮明な高解像度(HR)テキストイメージに変換することを目的としている。 本研究では,テキストから画像への印象的な合成能力で知られるdms(text-conditional diffusion model)をstisrタスクに活用する。 実験の結果,テキスト条件DMは既存のSTISR法をはるかに上回ることがわかった。 特にLRテキスト画像からのテキストが入力として与えられると、テキスト条件DMは高品質な高解像度テキスト画像を生成することができる。 この機能を利用して、LR-HRペアテキスト画像データセットを合成する新しいフレームワークを提案する。 このフレームワークは3つの特殊なテキスト条件DMで構成され、それぞれがテキスト画像合成、超解像、画像劣化に特化している。 これらの3つのモジュールは、STISR法の訓練に適している異なるLRとHRのペア画像の合成に不可欠である。 実験により,これらの合成画像対はテキストZoom評価におけるSTISR法の性能を大幅に向上させることを確認した。

Scene Text Image Super-resolution (STISR) has recently achieved great success as a preprocessing method for scene text recognition. STISR aims to transform blurred and noisy low-resolution (LR) text images in real-world settings into clear high-resolution (HR) text images suitable for scene text recognition. In this study, we leverage text-conditional diffusion models (DMs), known for their impressive text-to-image synthesis capabilities, for STISR tasks. Our experimental results revealed that text-conditional DMs notably surpass existing STISR methods. Especially when texts from LR text images are given as input, the text-conditional DMs are able to produce superior quality super-resolution text images. Utilizing this capability, we propose a novel framework for synthesizing LR-HR paired text image datasets. This framework consists of three specialized text-conditional DMs, each dedicated to text image synthesis, super-resolution, and image degradation. These three modules are vital for synthesizing distinct LR and HR paired images, which are more suitable for training STISR methods. Our experiments confirmed that these synthesized image pairs significantly enhance the performance of STISR methods in the TextZoom evaluation.
翻訳日:2023-11-17 14:54:33 公開日:2023-11-16
# OrchestraLLM: 対話状態追跡のための言語モデルの効率的なオーケストレーション

OrchestraLLM: Efficient Orchestration of Language Models for Dialogue State Tracking ( http://arxiv.org/abs/2311.09758v1 )

ライセンス: Link先を確認
Chia-Hsuan Lee, Hao Cheng, Mari Ostendorf(参考訳) 大規模言語モデル(LLM)は自然言語処理システムの状況に革命をもたらしたが、計算コストは高い。 性能を犠牲にすることなくコストを削減するため,従来の研究では,Small Language Models (SLMs) の可能性を,より大きな言語に対するコスト効率の代替手段として活用するための様々なアプローチが検討されている。 構造化知識抽出タスクにおいて, SLM と LLM が相補的な強みを示すという知見により, 計算効率の向上とタスク性能の向上を目的とした新しい SLM/LLM ルーティングフレームワークを提案する。 まず、各LMがより信頼性の高い回答を提供するコンテキストのタイプを表現し、文脈の類似性が対話状態の類似性に近いように微調整された文を埋め込む。 そして、推論中に、テストインスタンスに対するk-nearest例証を検索し、多数決に従ってインスタンスをルーティングする。 対話状態追跡タスクにおいて、提案するルーティングフレームワークは、計算コストを50%以上削減しつつ、LLMのみに依存するよりも性能を大幅に向上させる。

Large language models (LLMs) have revolutionized the landscape of Natural Language Processing systems, but are computationally expensive. To reduce the cost without sacrificing performance, previous studies have explored various approaches to harness the potential of Small Language Models (SLMs) as cost-effective alternatives to their larger counterparts. Driven by findings that SLMs and LLMs exhibit complementary strengths in a structured knowledge extraction task, this work presents a novel SLM/LLM routing framework designed to improve computational efficiency and enhance task performance. First, exemplar pools are created to represent the types of contexts where each LM provides a more reliable answer, leveraging a sentence embedding fine-tuned so that context similarity is close to dialogue state similarity. Then, during inference, the k-nearest exemplars to the testing instance are retrieved, and the instance is routed according to majority vote. In dialogue state tracking tasks, the proposed routing framework enhances performance substantially compared to relying solely on LLMs, while reducing the computational costs by over 50%.
翻訳日:2023-11-17 14:54:12 公開日:2023-11-16
# UFPS:異種データ分散における部分アノテーション付きフェデレーションセグメンテーションのための統合フレームワーク

UFPS: A unified framework for partially-annotated federated segmentation in heterogeneous data distribution ( http://arxiv.org/abs/2311.09757v1 )

ライセンス: Link先を確認
Le Jiang, Li Yan Ma, Tie Yong Zeng, Shi Hui Ying(参考訳) 部分教師付きセグメンテーションは、ラベル付きおよび干渉した分数クラスを持つデータセットに基づくラベル保存手法である。 しかし、プライバシーの懸念とデータの異質性のため、現実世界の医療アプリケーションにはまだ到達していない。 プライバシリークのない治療法として、フェデレートされた部分教師付きセグメンテーション(FPSS)がこの研究で定式化されている。 FPSSの主な課題は、クラスの不均一性とクライアントのドリフトである。 そこで本論文では,全クラス内の画素を部分注釈付きデータセットに分割するためのufps(federated partial-labeled segmentation)フレームワークを提案する。 我々のフレームワークには、クラスと特徴空間の統一のためのUnified Label LearningとUnified Sharpness Aware Minimizationが含まれる。 従来手法のバニラ組み合わせによる部分教師付きセグメンテーションとフェデレーション学習は,主に実験によるクラス衝突によって阻害されている。 実際の医療データセットに関する包括的実験により,UFPSのデコンプリケーションと一般化能力は,修正手法と比較して向上した。

Partially supervised segmentation is a label-saving method based on datasets with fractional classes labeled and intersectant. However, it is still far from landing on real-world medical applications due to privacy concerns and data heterogeneity. As a remedy without privacy leakage, federated partially supervised segmentation (FPSS) is formulated in this work. The main challenges for FPSS are class heterogeneity and client drift. We propose a Unified Federated Partially-labeled Segmentation (UFPS) framework to segment pixels within all classes for partially-annotated datasets by training a totipotential global model without class collision. Our framework includes Unified Label Learning and sparsed Unified Sharpness Aware Minimization for unification of class and feature space, respectively. We find that vanilla combinations for traditional methods in partially supervised segmentation and federated learning are mainly hampered by class collision through empirical study. Our comprehensive experiments on real medical datasets demonstrate better deconflicting and generalization ability of UFPS compared with modified methods.
翻訳日:2023-11-17 14:53:52 公開日:2023-11-16
# suql: 大規模言語モデルによる構造化および非構造化データの会話検索

SUQL: Conversational Search over Structured and Unstructured Data with Large Language Models ( http://arxiv.org/abs/2311.09818v1 )

ライセンス: Link先を確認
Shicheng Liu, Jialiang Xu, Wesley Tjangnaka, Sina J. Semnani, Chen Jie Yu, Gui D\'avid, Monica S. Lam(参考訳) 多くの知識ソースは、リレーショナルデータベースのような構造化情報と非構造化自由テキストの両方から成り立っている。 このようなデータソースへの対話インターフェースの構築は難しい。 本稿では、構造化および非構造化データクエリの構成を自然にカバーする最初の形式的実行可能表現であるSUQL、Structured and Unstructured Query Languageを紹介する。 具体的には、SQLをいくつかのフリーテキストプリミティブで拡張し、正確で簡潔で表現力のある表現を形成する。 本稿では,SUQLの文脈意味解析機能を含む,大規模言語モデルに基づく対話型検索エージェントを提案する。 このアプローチを検証するために,実際のレストランに関するクラウドソース質問と会話からなるデータセットを導入する。 データセットの51%以上が構造化データと非構造化データの両方を必要としており、これは一般的な現象であることを示している。 SUQLをベースとした会話エージェントでは,強い,一般的に使用されるベースラインの65.0%に対して,すべてのユーザの要求を満たすエンティティが89.3%であることがわかった。

Many knowledge sources consist of both structured information such as relational databases as well as unstructured free text. Building a conversational interface to such data sources is challenging. This paper introduces SUQL, Structured and Unstructured Query Language, the first formal executable representation that naturally covers compositions of structured and unstructured data queries. Specifically, it augments SQL with several free-text primitives to form a precise, succinct, and expressive representation. This paper also presents a conversational search agent based on large language models, including a few-shot contextual semantic parser for SUQL. To validate our approach, we introduce a dataset consisting of crowdsourced questions and conversations about real restaurants. Over 51% of the questions in the dataset require both structured and unstructured data, suggesting that it is a common phenomenon. We show that our few-shot conversational agent based on SUQL finds an entity satisfying all user requirements 89.3% of the time, compared to just 65.0% for a strong and commonly used baseline.
翻訳日:2023-11-17 14:47:44 公開日:2023-11-16
# PixT3:Pixelベースのタブレットからテキスト生成

PixT3: Pixel-based Table To Text generation ( http://arxiv.org/abs/2311.09808v1 )

ライセンス: Link先を確認
I\~nigo Alonso, Eneko Agirre, Mirella Lapata(参考訳) Table-to-Textは伝統的に、テキスト問題に対する線形言語としてアプローチされてきた。 しかし、視覚的に表されるテーブルは視覚情報に富み、データとその関係を表現する簡潔で効果的な形式として機能する。 テキストベースのアプローチを使用する場合、線形化プロセスの後、この情報は失われるか、非効率な方法で表現される。 この非効率性は、テキストベースのアプローチが大きなテーブルで苦労する上で、常に課題となっている。 本稿では,従来のテキスト線形化よりも,表の画像表現の方が空間効率が良く,マルチモーダルな手法は表からテキストへのタスクにおいて競争力があることを示す。 PixT3は、制御されたTable-to-Textシナリオにおいて競争力を維持しながら、純粋なTable-to-Text設定でToTToベンチマークの最先端(SotA)より優れるマルチモーダルテーブル-テキストモデルである。 また、すべての世代設定でToTTo SotAよりも優れた、見当たらないデータセットを一般化する。 さらに, 表構造意識強化のための中間教育カリキュラムを新たに導入し, モデルの生成と全体としての忠実性の向上に繋がる。

Table-to-Text has been traditionally approached as a linear language to text problem. However, visually represented tables are rich in visual information and serve as a concise, effective form of representing data and its relationships. When using text-based approaches, after the linearization process, this information is either lost or represented in a space inefficient manner. This inefficiency has remained a constant challenge for text-based approaches making them struggle with large tables. In this paper, we demonstrate that image representation of tables are more space-efficient than the typical textual linearizations, and multi-modal approaches are competitive in Table-to-Text tasks. We present PixT3, a multimodal table-to-text model that outperforms the state-of-the-art (SotA) in the ToTTo benchmark in a pure Table-to-Text setting while remaining competitive in controlled Table-to-Text scenarios. It also generalizes better in unseen datasets, outperforming ToTTo SotA in all generation settings. Additionally, we introduce a new intermediate training curriculum to reinforce table structural awareness, leading to improved generation and overall faithfulness of the models.
翻訳日:2023-11-17 14:47:26 公開日:2023-11-16
# 言語多様性の奇妙な衰退--合成テキストを用いた言語モデルの訓練

The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text ( http://arxiv.org/abs/2311.09807v1 )

ライセンス: Link先を確認
Yanzhu Guo, Guokan Shang, Michalis Vazirgiannis and Chlo\'e Clavel(参考訳) 本研究では,前任者が生成した合成データに対する大規模言語モデル(llm)の学習結果について検討する。 通常、パフォーマンスメトリクスに重点を置きながら、このトレーニング方法論が言語多様性に与える影響、特に時間とともに繰り返し実行される場合に焦点を当てます。 これを評価するために, 語彙, 構文, 意味の多様性を対象とする新しい指標を開発し, 様々な自然言語生成タスクにおける再帰的微調整実験に適用した。 その結果,連続反復によるモデル出力の多様性の顕著な低下が判明した。 この傾向は、特に言語豊かさの保存に関して、前者生成テキスト上でLLMを訓練する潜在的なリスクを浮き彫りにする。 本研究は,LLMの言語能力に対する訓練アプローチの長期的影響を慎重に検討することの必要性を強調した。

This study investigates the consequences of training large language models (LLMs) on synthetic data generated by their predecessors, an increasingly prevalent practice aimed at addressing the limited supply of human-generated training data. Diverging from the usual emphasis on performance metrics, we focus on the impact of this training methodology on linguistic diversity, especially when conducted recursively over time. To assess this, we developed a set of novel metrics targeting lexical, syntactic, and semantic diversity, applying them in recursive fine-tuning experiments across various natural language generation tasks. Our findings reveal a marked decrease in the diversity of the models' outputs through successive iterations. This trend underscores the potential risks of training LLMs on predecessor-generated text, particularly concerning the preservation of linguistic richness. Our study highlights the need for careful consideration of the long-term effects of such training approaches on the linguistic capabilities of LLMs.
翻訳日:2023-11-17 14:47:11 公開日:2023-11-16
# EvaSurf: モバイルデバイス上での効率的なビューアウェアインプットテクスチャ表面再構成

EvaSurf: Efficient View-Aware Implicit Textured Surface Reconstruction on Mobile Devices ( http://arxiv.org/abs/2311.09806v1 )

ライセンス: Link先を確認
Jingnan Gao, Zhuo Chen, Yichao Yan, Bowen Pan, Zhe Wang, Jiangjing Lyu, Xiaokang Yang(参考訳) 現実世界の3Dオブジェクトの再構築は、仮想現実、ビデオゲーム、アニメーションなどのコンピュータビジョンに多くの応用がある。 理想的には、3次元再構成法はリアルタイムに3次元整合性のある高忠実度結果を生成する。 従来の方法では、フォトコンシスタンス制約や学習した機能を使って画像間でピクセルをマッチさせるが、neural radiance fields(nerf)のような差別化可能なレンダリング手法では、表面ベースの表現や微分可能なボリュームレンダリングを使用して高忠実なシーンを生成する。 しかし、これらのメソッドはレンダリングに過剰なランタイムを必要とし、日々のアプリケーションでは実用的でない。 これらの課題に対処するため、モバイルデバイス上の$\textbf{EvaSurf}$, a $\textbf{E}$fficient $\textbf{V}$iew-$\textbf{A}$ware Implicit Textured $\textbf{Surf}$ace Reconstruction methodを提示する。 提案手法では,まず,マルチビュー監視モジュールを用いた効率的な表面モデルを用いて,正確なメッシュ生成を実現する。 高忠実度レンダリングを可能にするために,ガウスローブの集合に埋め込まれた暗黙のテクスチャを学習し,ビュー依存情報を取得する。 さらに、明示的な幾何学と暗黙的なテクスチャによって、計算コストを削減し、一般的なモバイルデバイスでのリアルタイムレンダリングをさらにサポートするために、軽量のニューラルシェーダを用いることができる。 広範な実験により,合成データと実世界のデータセットの両方において,高品質な外観と正確なメッシュを再現できることが実証された。 さらに,1つのGPUで1~2時間でトレーニングし,40FPS (Frames Per Second) 以上のモバイルデバイス上で動作させることも可能で,最終的なパッケージは40~50MBのレンダリングに必要である。

Reconstructing real-world 3D objects has numerous applications in computer vision, such as virtual reality, video games, and animations. Ideally, 3D reconstruction methods should generate high-fidelity results with 3D consistency in real-time. Traditional methods match pixels between images using photo-consistency constraints or learned features, while differentiable rendering methods like Neural Radiance Fields (NeRF) use surface-based representations or differentiable volume rendering to generate high-fidelity scenes. However, these methods require excessive runtime for rendering, making them impractical for daily applications. To address these challenges, we present $\textbf{EvaSurf}$, an $\textbf{E}$fficient $\textbf{V}$iew-$\textbf{A}$ware Implicit Textured $\textbf{Surf}$ace Reconstruction method on Mobile Devices. In our method, we first employ an efficient surface-based model with a multi-view supervision module to ensure accurate mesh creation. To enable high-fidelity rendering, we learn an implicit texture embedded with a set of Gaussian lobes to capture view-dependent information. Furthermore, With the explicit geometry and the implicit texture, we can employ a lightweight neural shader to reduce the expense of computation and further support real-time rendering on common mobile devices. Extensive experiments demonstrate that our method can reconstruct high-quality appearance and accurate mesh on both synthetic and real-world datasets. Moreover, our method can be trained in just 1-2 hours using a single GPU and run on mobile devices at over 40FPS (Frames Per Second), with a final package required for rendering taking up only 40-50 MB.
翻訳日:2023-11-17 14:46:55 公開日:2023-11-16
# DocMath-Eval:長期文書理解におけるLLMの数値推論能力の評価

DocMath-Eval: Evaluating Numerical Reasoning Capabilities of LLMs in Understanding Long Documents with Tabular Data ( http://arxiv.org/abs/2311.09805v1 )

ライセンス: Link先を確認
Yilun Zhao, Yitao Long, Hongjun Liu, Linyong Nan, Lyuhao Chen, Ryo Kamoi, Yixin Liu, Xiangru Tang, Rui Zhang, Arman Cohan(参考訳) 近年のLLMは、試験のような数学用語の問題を解く際、顕著な性能を示した。 しかし、これらの数値推論スキルが現実のシナリオ、特にエキスパートドメインで有効である程度はまだ明らかにされていない。 本稿では,テキストと表の両方を含む財務文書の理解と分析の文脈において,LLMの数値推論と問題解決能力を評価するための総合的なベンチマークであるDocMath-Evalを紹介する。 コーディングとファイナンスに特化したものを含め、幅広い範囲の19 llmを評価した。 DocMath-Evalにおける既存のLLMの機能と限界を包括的に評価するために、さまざまなプロンプト戦略(すなわちChain-of-ThoughtsとProgram-of-Thoughts)も取り入れています。 現状のベストパフォーマンスシステム(GPT-4)は、短い文書コンテキスト内での財務指標の増加率の計算など、単純な問題でもうまく機能するが、より長い文脈で基礎をおくより複雑な問題では、人間の専門家がかなり遅れていることがわかった。 DocMath-Evalは、専門家ドメインにおける数値推論問題の解決にLLMの能力を評価するための貴重なベンチマークとして利用できると考えている。 ベンチマークとコードをhttps://github.com/yale-nlp/docmath-evalでリリースします。

Recent LLMs have demonstrated remarkable performance in solving exam-like math word problems. However, the degree to which these numerical reasoning skills are effective in real-world scenarios, particularly in expert domains, is still largely unexplored. This paper introduces DocMath-Eval, a comprehensive benchmark specifically designed to evaluate the numerical reasoning and problem-solving capabilities of LLMs in the context of understanding and analyzing financial documents containing both text and tables. We evaluate a wide spectrum of 19 LLMs, including those specialized in coding and finance. We also incorporate different prompting strategies (i.e., Chain-of-Thoughts and Program-of-Thoughts) to comprehensively assess the capabilities and limitations of existing LLMs in DocMath-Eval. We found that, although the current best-performing system (i.e., GPT-4), can perform well on simple problems such as calculating the rate of increase in a financial metric within a short document context, it significantly lags behind human experts in more complex problems grounded in longer contexts. We believe DocMath-Eval can be used as a valuable benchmark to evaluate LLMs' capabilities to solve challenging numerical reasoning problems in expert domains. We will release the benchmark and code at https://github.com/yale-nlp/DocMath-Eval.
翻訳日:2023-11-17 14:46:14 公開日:2023-11-16
# 因果的かつ信頼できる推論証明をもたらすニューロシンボリック統合

Neuro-Symbolic Integration Brings Causal and Reliable Reasoning Proofs ( http://arxiv.org/abs/2311.09802v1 )

ライセンス: Link先を確認
Sen Yang, Xin Li, Leyang Cui, Lidong Bing, Wai Lam(参考訳) 様々な推論構造を持つ LLM を推し進めることは、答えとともに推論証明を生成するが、これらの証明は LLM 固有の欠陥のため因果的かつ信頼性が保証されない。 このような欠陥を追及し,ニューラルネットワークによるLLMの知識表現と,LLMを含まないシンボリック・ソルバを用いて,その知識を用いた熟考的推論を行うニューラルシンボリック・インテグレーション手法を提案する。 具体的には、カスタマイズされたメタインタプリタにより、推論証明の作成とフレキシブル検索戦略のサポートが可能となる。 これらの推論証明は、シンボリック・ソルバの決定論的実行性のために因果的かつ信頼性が保証される。 ProofWriterでは,提案手法がCoTベースラインをほぼ2倍に越え,証明の類似性も3倍以上に向上した。 また, GSM8Kでは精度が向上し, ほぼ倍近い証明類似性を示した。 私たちのコードはhttps://github.com/DAMO-NLP-SG/CaRingで公開されています。

Though prompting LLMs with various reasoning structures produces reasoning proofs along with answers, these proofs are not ensured to be causal and reliable due to the inherent defects of LLMs. Tracking such deficiencies, we present a neuro-symbolic integration method, in which a neural LLM is used to represent the knowledge of the problem while an LLM-free symbolic solver is adopted to do deliberative reasoning using the knowledge. Specifically, our customized meta-interpreters allow the production of reasoning proofs and support flexible search strategies. These reasoning proofs are ensured to be causal and reliable because of the deterministic executing nature of the symbolic solvers. Empirically, on ProofWriter, our method surpasses the CoT baseline by nearly double in accuracy and more than triple in proof similarity. On GSM8K, our method also shows accuracy improvements and nearly doubled proof similarity. Our code is released at https://github.com/DAMO-NLP-SG/CaRing
翻訳日:2023-11-17 14:45:50 公開日:2023-11-16
# $\textit{Dial BeInfo for Faithfulness}$:Behavioural Fine-Tuningによる情報探索対話の実態改善

$\textit{Dial BeInfo for Faithfulness}$: Improving Factuality of Information-Seeking Dialogue via Behavioural Fine-Tuning ( http://arxiv.org/abs/2311.09800v1 )

ライセンス: Link先を確認
Evgeniia Razumovskaia, Ivan Vuli\'c, Pavle Markovi\'c, Tomasz Cichy, Qian Zheng, Tsung-Hsien Wen, Pawe{\l} Budzianowski(参考訳) システムはユーザのクエリに応答し、応答が有意義で、システムに提供された知識に合致するようにすべきである。 しかし、現代の大言語モデルのほとんどは幻覚に悩まされており、知識源に支持されない、あるいは矛盾しない応答を生成する。 情報検索対話システムの課題を緩和し、信頼性を高めるために、情報閲覧対話を支援するために行動調整を適用するシンプルかつ効果的な手法であるbeinfoを紹介する。 3つの標準データセットに基づいて、BeInfo}で調整されたモデルが、BeInfo-tuning中に見られるデータセットとドメイン、およびゼロショット方式で適用された未確認ドメインの両方の知識ソースに対して、かなり忠実になることを示す。 さらに,beinfoでチューニングされた3bパラメータ(例えばflan-t5)のモデルでは,実際の「プロダクション」対話からのデータに対して強いパフォーマンスを示し,そのような現実的なドメイン内対話の限られた量でチューニングした場合,gpt4よりも優れていた。

Factuality is a crucial requirement in information seeking dialogue: the system should respond to the user's queries so that the responses are meaningful and aligned with the knowledge provided to the system. However, most modern large language models suffer from hallucinations, that is, they generate responses not supported by or contradicting the knowledge source. To mitigate the issue and increase faithfulness of information-seeking dialogue systems, we introduce BeInfo, a simple yet effective method that applies behavioural tuning to aid information-seeking dialogue. Relying on three standard datasets, we show that models tuned with BeInfo} become considerably more faithful to the knowledge source both for datasets and domains seen during BeInfo-tuning, as well as on unseen domains, when applied in a zero-shot manner. In addition, we show that the models with 3B parameters (e.g., Flan-T5) tuned with BeInfo demonstrate strong performance on data from real `production' conversations and outperform GPT4 when tuned on a limited amount of such realistic in-domain dialogues.
翻訳日:2023-11-17 14:45:32 公開日:2023-11-16
# 大規模言語モデルからどこまで様々な視点を抽出できるか? 基準に基づくダイバーシティ・プロンプティング!

How Far Can We Extract Diverse Perspectives from Large Language Models? Criteria-Based Diversity Prompting! ( http://arxiv.org/abs/2311.09799v1 )

ライセンス: Link先を確認
Shirley Anugrah Hayati, Minhwa Lee, Dheeraj Rajagopal, Dongyeop Kang(参考訳) 主観的NLPトピックに関する多様な人的データを収集するのは費用がかかり難い。 LLM(Large Language Models)が人間のような能力を開発したため、多種多様なデータを生成するための人間とLLMの協調的な取り組みが最近流行し、潜在的にスケーラブルで効率的なソリューションを提供している。 しかしながら、主観的話題に対する多様な視点を生み出すllmsの能力は、未解決の疑問である。 本研究では,社会規範や論証文などの主観的話題に多様な視点と理性をもたらすLLMの能力について検討する。 本稿では, LLMにおける多様性抽出としてこの問題を定式化し, 多様な意見に基づいて, 生成した基準語から視点の多様性を計測するための基準ベースプロンプト手法を提案する。 その結果,文の埋め込みと距離計測による意味的多様性の測定は,視点の多様性を計測するには不十分であることがわかった。 LLMからどの程度多様な視点を抽出できるか、あるいは多様性カバレッジと呼ばれるかを調べるため、反復的な方法でモデルからより多くの出力を生成するためにステップバイステップのリコールプロンプトを採用している。 提案手法を他のタスク(hate speech labeling と story continuation)に適用すると,llm はタスクの主観度に応じて多様な意見を生成することができることがわかった。

Collecting diverse human data on subjective NLP topics is costly and challenging. As Large Language Models (LLMs) have developed human-like capabilities, there is a recent trend in collaborative efforts between humans and LLMs for generating diverse data, offering potential scalable and efficient solutions. However, the extent of LLMs' capability to generate diverse perspectives on subjective topics remains an unexplored question. In this study, we investigate LLMs' capacity for generating diverse perspectives and rationales on subjective topics, such as social norms and argumentative texts. We formulate this problem as diversity extraction in LLMs and propose a criteria-based prompting technique to ground diverse opinions and measure perspective diversity from the generated criteria words. Our results show that measuring semantic diversity through sentence embeddings and distance metrics is not enough to measure perspective diversity. To see how far we can extract diverse perspectives from LLMs, or called diversity coverage, we employ a step-by-step recall prompting for generating more outputs from the model in an iterative manner. As we apply our prompting method to other tasks (hate speech labeling and story continuation), indeed we find that LLMs are able to generate diverse opinions according to the degree of task subjectivity.
翻訳日:2023-11-17 14:45:10 公開日:2023-11-16
# KnowledgeMath:財務分野における知識集約型数学語問題解決

KnowledgeMath: Knowledge-Intensive Math Word Problem Solving in Finance Domains ( http://arxiv.org/abs/2311.09797v1 )

ライセンス: Link先を確認
Yilun Zhao, Hongjun Liu, Yitao Long, Rui Zhang, Chen Zhao, Arman Cohan(参考訳) 本稿では,LLMの複雑な単語問題に対する財務知識の適用能力を評価するための新しいベンチマークであるKnowledgeMathを紹介する。 先行研究と比較して,本研究は3つの中心的進歩を特徴としている。 まず、knowledgemathはテキストコンテンツと表コンテンツのハイブリッドによる1,259の問題を含み、効果的な解決のために金融分野の大学レベルの知識を必要とする。 第二に、Pythonプログラムフォーマットで専門家による詳細なソリューション参照を提供し、LLMアセスメントのための高品質なベンチマークを保証する。 最後に,14 llmの幅広いスペクトルを評価し,思考の連鎖や思考のプログラムなど,さまざまなプロンプト戦略を行った。 現在の最高性能システム(GPT-4とProgram-of-Thoughts)は45.4%の精度しか達成せず、改善の余地は残っていない。 知識提供型llmは、パフォーマンス(例えば、gpt-3.5の23.9%から32.0%)を向上できるが、それでも推定された人間エキスパートのパフォーマンスは94%とかなり低い。 我々は,知識マスが将来,ドメイン固有の知識検索と算術語問題解決プロセスへの拡張を促進できると考えている。 ベンチマークとコードをhttps://github.com/yale-nlp/knowledgemathでリリースします。

We introduce KnowledgeMath, a novel benchmark designed to evaluate LLMs' capabilities in applying financial knowledge to solve complex math word problems. Compared to prior works, this study features three core advancements. First, KnowledgeMath includes 1,259 problems with a hybrid of textual and tabular content and require college-level knowledge in the finance domain for effective resolution. Second, we provide expert-annotated, detailed solution references in Python program format, ensuring a high-quality benchmark for LLM assessment. Finally, we evaluate a wide spectrum of 14 LLMs with different prompting strategies like Chain-of-Thoughts and Program-of-Thoughts. The current best-performing system (i.e., GPT-4 with Program-of-Thoughts) achieves only 45.4% accuracy, leaving substantial room for improvement. While knowledge-augmented LLMs can improve the performance (e.g., from 23.9% to 32.0% for GPT-3.5), it is still significantly lower the estimated human expert performance of 94%. We believe that KnowledgeMath can facilitate future research on domain-specific knowledge retrieval and augmentation into the math word problem-solving process. We will release the benchmark and code at https://github.com/yale-nlp/KnowledgeMath.
翻訳日:2023-11-17 14:44:32 公開日:2023-11-16
# 自然言語立位指示の文脈におけるユーザ要求の解釈

Interpreting User Requests in the Context of Natural Language Standing Instructions ( http://arxiv.org/abs/2311.09796v1 )

ライセンス: Link先を確認
Nikita Moghe and Patrick Xia and Jacob Andreas and Jason Eisner and Benjamin Van Durme and Harsh Jhamtani(参考訳) 自然言語インタフェースのユーザは、通常、Large Language Models (LLMs) を使っており、しばしば同様の要求を行うたびに好みを繰り返す必要がある。 これを軽減するために,自然言語におけるユーザの好みや指示 - 集合的にスタンディングインストラクション - を,そのようなインターフェースの追加コンテキストとして含めることを提案する。 例えば、お腹が空いているとお腹が空いているとすると、事前に表現されたペルシャ料理がLLMプロンプトに自動的に追加され、関連するレストランの検索に影響を与えます。 NLSIは17のドメインにまたがる2.4K以上の対話からなる言語間データセットで、各対話はユーザプロファイル(ユーザ固有のスタンディング命令のセット)と対応する構造化表現(API呼び出し)とがペアリングされる。 NLSIの鍵となる課題は、ある対話に適用可能なスタンディング命令のサブセットを特定することである。 NLSIには、単純な好みから、ユーザーがイベントのチケットを予約しているたびにホテルの検索をトリガーするといった相互依存的な指示まで、さまざまな現象が含まれている。 大規模言語モデルと各種検索アプローチによるプロンプトを用いてnlsi実験を行い,最大44.7%の精度でapi予測を行う。 以上より,関連するスタンディング命令とそのapi呼び出しへの解釈を識別する上での課題を示す。

Users of natural language interfaces, generally powered by Large Language Models (LLMs),often must repeat their preferences each time they make a similar request. To alleviate this, we propose including some of a user's preferences and instructions in natural language -- collectively termed standing instructions -- as additional context for such interfaces. For example, when a user states I'm hungry, their previously expressed preference for Persian food will be automatically added to the LLM prompt, so as to influence the search for relevant restaurants. We develop NLSI, a language-to-program dataset consisting of over 2.4K dialogues spanning 17 domains, where each dialogue is paired with a user profile (a set of users specific standing instructions) and corresponding structured representations (API calls). A key challenge in NLSI is to identify which subset of the standing instructions is applicable to a given dialogue. NLSI contains diverse phenomena, from simple preferences to interdependent instructions such as triggering a hotel search whenever the user is booking tickets to an event. We conduct experiments on NLSI using prompting with large language models and various retrieval approaches, achieving a maximum of 44.7% exact match on API prediction. Our results demonstrate the challenges in identifying the relevant standing instructions and their interpretation into API calls.
翻訳日:2023-11-17 14:44:01 公開日:2023-11-16
# Fossil 2.0: 動的モデルの検証と制御のための形式証明書合成

Fossil 2.0: Formal Certificate Synthesis for the Verification and Control of Dynamical Models ( http://arxiv.org/abs/2311.09793v1 )

ライセンス: Link先を確認
Alec Edwards, Andrea Peruffo, Alessandro Abate(参考訳) 本稿では、通常の微分方程式と差分方程式をモデル化した力学系に対する証明(例えば、リャプノフとバリア関数)を合成するためのソフトウェアツールの新たなメジャーリリースであるFossil 2.0を提案する。 Fossil 2.0は、新しいインターフェース、大幅に拡張された証明書ポートフォリオ、コントローラ合成、拡張性など、最初のリリースから大幅に改善されている。 このツールペーパーの一部として,これらの新機能を紹介する。 Fossilは、その方法の音質を保証する反例誘導誘導合成(CEGIS)ループを実装している。 提案ツールでは,ニューラルネットワークをテンプレートとして,アサーション検証を行うSMTソルバによって正式に証明された候補関数を生成する。 最初のリリースに関する改善には、幅広い証明書、制御法則の合成、離散時間モデルのサポートが含まれる。

This paper presents Fossil 2.0, a new major release of a software tool for the synthesis of certificates (e.g., Lyapunov and barrier functions) for dynamical systems modelled as ordinary differential and difference equations. Fossil 2.0 is much improved from its original release, including new interfaces, a significantly expanded certificate portfolio, controller synthesis and enhanced extensibility. We present these new features as part of this tool paper. Fossil implements a counterexample-guided inductive synthesis (CEGIS) loop ensuring the soundness of the method. Our tool uses neural networks as templates to generate candidate functions, which are then formally proven by an SMT solver acting as an assertion verifier. Improvements with respect to the first release include a wider range of certificates, synthesis of control laws, and support for discrete-time models.
翻訳日:2023-11-17 14:43:21 公開日:2023-11-16
# ブレーキング境界:ディープワイヤレストラフィック予測におけるバランシング性能とロバスト性

Breaking Boundaries: Balancing Performance and Robustness in Deep Wireless Traffic Forecasting ( http://arxiv.org/abs/2311.09790v1 )

ライセンス: Link先を確認
Ilbert Romain, V. Hoang Thai, Zhang Zonghua, Palpanas Themis(参考訳) 正確性と堅牢性の間のトレードオフのバランスは、時系列予測における長年の課題である。 既存のロバストなアルゴリズムのほとんどは、クリーンなデータに対してある種の準最適性能を達成したが、データ摂動の存在下では同じパフォーマンスレベルを維持することは、非常に難しいままである。 % 本稿では,様々な摂動シナリオを考察し,実世界の通信データを用いた敵攻撃に対する防御機構を提案する。 我々は,$\ell_{\infty}$-norm,$\in [0.1,0.4]$で定義される最大許容摂動の範囲で,既存の2つの敵訓練アルゴリズムと比較する。 以上の結果から,我々のハイブリッド戦略は,敵対的サンプルを検出する分類器,摂動データサンプルからノイズを除去するデノイザ,および標準予測器から成り,クリーンデータと摂動データの両方で最高の性能を達成していることが明らかとなった。 私たちの最適モデルは、クリーンデータにおける平均二乗誤差(mse)の観点から、元の予測モデルのパフォーマンスを最大$92.02\%保持できます。 MSEは2.71$\times$と2.51$\times$で、通常のデータと摂動データの比較値よりも低い。 さらに、モデルのコンポーネントを並列にトレーニングすることで、計算効率も向上します。 その結果, 高度かつ破壊的な毒殺攻撃が存在する場合でも, 分類器とデノイザーを改良することにより, 予測モデルの性能とロバスト性のトレードオフを最適にバランスできることがわかった。

Balancing the trade-off between accuracy and robustness is a long-standing challenge in time series forecasting. While most of existing robust algorithms have achieved certain suboptimal performance on clean data, sustaining the same performance level in the presence of data perturbations remains extremely hard. % In this paper, we study a wide array of perturbation scenarios and propose novel defense mechanisms against adversarial attacks using real-world telecom data. We compare our strategy against two existing adversarial training algorithms under a range of maximal allowed perturbations, defined using $\ell_{\infty}$-norm, $\in [0.1,0.4]$. % Our findings reveal that our hybrid strategy, which is composed of a classifier to detect adversarial examples, a denoiser to eliminate noise from the perturbed data samples, and a standard forecaster, achieves the best performance on both clean and perturbed data. % Our optimal model can retain up to $92.02\%$ the performance of the original forecasting model in terms of Mean Squared Error (MSE) on clean data, while being more robust than the standard adversarially trained models on perturbed data. Its MSE is 2.71$\times$ and 2.51$\times$ lower than those of comparing methods on normal and perturbed data, respectively. In addition, the components of our models can be trained in parallel, resulting in better computational efficiency. % Our results indicate that we can optimally balance the trade-off between the performance and robustness of forecasting models by improving the classifier and denoiser, even in the presence of sophisticated and destructive poisoning attacks.
翻訳日:2023-11-17 14:42:39 公開日:2023-11-16
# 3vltl:3値ltlのautomattaを生成するツール

3vLTL: A Tool to Generate Automata for Three-valued LTL ( http://arxiv.org/abs/2311.09787v1 )

ライセンス: Link先を確認
Francesco Belardinelli (Imperial College London), Angelo Ferrando (University of Genoa), Vadim Malvone (Telecom Paris)(参考訳) 多値論理は、実行時検証を含むシステム検証に関する文献において長い伝統を持っている。 しかし、多値仕様言語向けの比較的少ないモデルチェックツールが開発されている。 線形時間時間時間論理(LTL)の式からBuchi Automaticaを生成するツールである3vLTLを3値意味論で解釈する。 ltl公式と、オートマトンのためのアルファベットとしての原子命題の集合と真理値が与えられたとき、この手順は、選択された真理値をltl公式に割り当てる全ての単語を受け入れるbuchiオートマトンを生成する。 ツールの出力の特定のタイプを考えると、自然な方法でサードパーティのライブラリによってシームレスに処理することもできる。 すなわち、buchiオートマトンは形式的検証の文脈において、与えられたモデル上で ltl の公式が真であるか偽であるか未定義であるかをチェックするために用いられる。

Multi-valued logics have a long tradition in the literature on system verification, including run-time verification. However, comparatively fewer model-checking tools have been developed for multi-valued specification languages. We present 3vLTL, a tool to generate Buchi automata from formulas in Linear-time Temporal Logic (LTL) interpreted on a three-valued semantics. Given an LTL formula, a set of atomic propositions as the alphabet for the automaton, and a truth value, our procedure generates a Buchi automaton that accepts all the words that assign the chosen truth value to the LTL formula. Given the particular type of the output of the tool, it can also be seamlessly processed by third-party libraries in a natural way. That is, the Buchi automaton can then be used in the context of formal verification to check whether an LTL formula is true, false, or undefined on a given model.
翻訳日:2023-11-17 14:41:50 公開日:2023-11-16
# 形式的抽象化による確率的・不確実な力学モデルの正しい構成制御

Correct-by-Construction Control for Stochastic and Uncertain Dynamical Models via Formal Abstractions ( http://arxiv.org/abs/2311.09786v1 )

ライセンス: Link先を確認
Thom Badings (Radboud University), Nils Jansen (Radboud University), Licio Romao (University of Oxford), Alessandro Abate (University of Oxford)(参考訳) 自律システムのための正しい構成制御器の自動合成は、安全クリティカルなシナリオへの展開に不可欠である。 このような自律システムは自然に確率力学モデルとしてモデル化される。 一般的な問題は、確率論的時相論理仕様として表される与えられたタスクを確実に満足するコントローラを計算することである。 しかし、確率的不確実性、不正確なパラメータ、ハイブリッド特徴などの要因がこの問題を難しくしている。 我々は,様々なモデリング仮定の下でこの問題を解決するための抽象化フレームワークを開発した。 我々のアプローチは確率的力学モデルの頑健な有限状態抽象化を確率の間隔(iMDP)を持つマルコフ決定過程の形で基礎としている。 我々は、与えられた仕様を満たすための保証とともに、iMDPの最適ポリシーを計算するために最先端の検証技術を使用する。 次に、このポリシーを設計することで、これらの保証が動的モデルに受け継がれるフィードバックコントローラに洗練することができることを示す。 本稿では,本分野における最近の研究を概観し,現在進行中の研究に対処することを目的とした2つの課題(スケーラビリティと非線形力学への対応)を取り上げる。

Automated synthesis of correct-by-construction controllers for autonomous systems is crucial for their deployment in safety-critical scenarios. Such autonomous systems are naturally modeled as stochastic dynamical models. The general problem is to compute a controller that provably satisfies a given task, represented as a probabilistic temporal logic specification. However, factors such as stochastic uncertainty, imprecisely known parameters, and hybrid features make this problem challenging. We have developed an abstraction framework that can be used to solve this problem under various modeling assumptions. Our approach is based on a robust finite-state abstraction of the stochastic dynamical model in the form of a Markov decision process with intervals of probabilities (iMDP). We use state-of-the-art verification techniques to compute an optimal policy on the iMDP with guarantees for satisfying the given specification. We then show that, by construction, we can refine this policy into a feedback controller for which these guarantees carry over to the dynamical model. In this short paper, we survey our recent research in this area and highlight two challenges (related to scalability and dealing with nonlinear dynamics) that we aim to address with our ongoing research.
翻訳日:2023-11-17 14:41:36 公開日:2023-11-16
# システムレベルシミュレーションのためのシナリオの自動生成-自律運転システムの検証-

Automatic Generation of Scenarios for System-level Simulation-based Verification of Autonomous Driving Systems ( http://arxiv.org/abs/2311.09784v1 )

ライセンス: Link先を確認
Srajan Goyal (Fondazione Bruno Kessler and University of Trento), Alberto Griggio (Fondazione Bruno Kessler), Jacob Kimblad (Fondazione Bruno Kessler), Stefano Tonetta (Fondazione Bruno Kessler)(参考訳) ADS(Automated Driving Systems)の複雑さが増すにつれ、安全性と信頼性の確保が重要な課題となっている。 これらのシステムの検証と検証(V&V)は、AIコンポーネントが知覚機能や制御機能を実装する際に特に要求される。 ESAが出資するプロジェクトVIVASでは,自律システムのシステムレベルのシミュレーションに基づくV&Vのための汎用的なフレームワークを開発した。 このアプローチは、システムのシミュレーションモデル、システムの振る舞いを象徴的に記述する抽象モデル、シナリオを生成し、シミュレーションの実行を検証するフォーマルな方法に基づいている。 シナリオの自動生成を導くために、さまざまなカバレッジ基準を定義することができる。 本稿では,ADSケーススタディにおけるVIVASフレームワークのインスタンス化について述べる。 これは、広く使われている運転シミュレータCARLAと、多様な複雑な運転シナリオの作成を可能にするScenarioRunnerツールの統合に基づいている。 これはcarlaの自動運転チャレンジでも使われ、carlaコミュニティが共有するaiに基づく認識と制御のためのさまざまな広告エージェントを検証する。 本稿では,ADSモデルの構築と,ADSを検証対象とする車両に対する車両の挙動に着目したカバレッジ基準の定式化について述べる。 VIVASフレームワークを活用して、さまざまな駆動シナリオを生成し、実行することで、AIコンポーネントの機能をテストする。 CARLAとScenarioRunnerを用いた自動運転システムのシステムレベルシミュレーションに基づくV&Vのシナリオ自動生成におけるVIVASの有効性を示す。 そのため、ADS V&V方法論の将来における強力なツールとしてのアプローチの可能性を強調している。

With increasing complexity of Automated Driving Systems (ADS), ensuring their safety and reliability has become a critical challenge. The Verification and Validation (V&V) of these systems are particularly demanding when AI components are employed to implement perception and/or control functions. In ESA-funded project VIVAS, we developed a generic framework for system-level simulation-based V&V of autonomous systems. The approach is based on a simulation model of the system, an abstract model that describes symbolically the system behavior, and formal methods to generate scenarios and verify the simulation executions. Various coverage criteria can be defined to guide the automated generation of the scenarios. In this paper, we describe the instantiation of the VIVAS framework for an ADS case study. This is based on the integration of CARLA, a widely-used driving simulator, and its ScenarioRunner tool, which enables the creation of diverse and complex driving scenarios. This is also used in the CARLA Autonomous Driving Challenge to validate different ADS agents for perception and control based on AI, shared by the CARLA community. We describe the development of an abstract ADS model and the formulation of a coverage criterion that focuses on the behaviors of vehicles relative to the vehicle with ADS under verification. Leveraging the VIVAS framework, we generate and execute various driving scenarios, thus testing the capabilities of the AI components. The results show the effectiveness of VIVAS in automatically generating scenarios for system-level simulation-based V&V of an automated driving system using CARLA and ScenarioRunner. Therefore, they highlight the potential of the approach as a powerful tool in the future of ADS V&V methodologies.
翻訳日:2023-11-17 14:41:17 公開日:2023-11-16
# AutoPlanBench: : PDDLによるLCMプランナの自動ベンチマーク

AutoPlanBench: : Automatically generating benchmarks for LLM planners from PDDL ( http://arxiv.org/abs/2311.09830v1 )

ライセンス: Link先を確認
Katharina Stein and Alexander Koller(参考訳) LLMは計画スタイルのタスクにますます使われていますが、計画や推論の能力はあまり理解されていません。 本稿では,PDDLで記述された計画ベンチマークを自動的にテキスト記述に変換する手法を提案する。 優れたLCMプランナーは、多くの計画タスクでうまく機能するが、他のプランナーは現在の手法には及ばない。

LLMs are being increasingly used for planning-style tasks, but their capabilities for planning and reasoning are poorly understood. We present a novel method for automatically converting planning benchmarks written in PDDL into textual descriptions and offer a benchmark dataset created with our method. We show that while the best LLM planners do well on many planning tasks, others remain out of reach of current methods.
翻訳日:2023-11-17 14:32:28 公開日:2023-11-16
# followeval:大規模言語モデルの命令追従能力評価のための多次元ベンチマーク

FollowEval: A Multi-Dimensional Benchmark for Assessing the Instruction-Following Capability of Large Language Models ( http://arxiv.org/abs/2311.09829v1 )

ライセンス: Link先を確認
Yimin Jing, Renren Jin, Jiahao Hu, Huishi Qiu, Xiaohua Wang, Peng Wang, Deyi Xiong(参考訳) 大規模言語モデル(LLM)の指示追従能力を効果的に評価することは重要である。 人間の指示に従えないモデルは、信頼できる有用な応答を提供できないかもしれない。 この目標を追求するため、これらのモデルの命令追従能力を評価するために様々なベンチマークが構築されている。 しかしながら、これらのベンチマークは単一の言語に限定されており、自動アプローチを使用して構築されているため、適用性やテスト例の品質が制限される。 このギャップを埋めるため,本論文では,後続ベンチマークを紹介する。 このベンチマークは英語と中国語の両方の例で構成されており、すべてのテスト例は人間の専門家によって作成されています。 さらに、nextevalベンチマークは、文字列操作、コモンセンス推論、論理推論、空間推論、応答制約の5つの重要な範囲にわたるllmを評価するように設計されている。 複雑さを高め、十分な課題を示すために、各テスト例は複数の次元を評価するように設計されています。 followevalベンチマークを用いて様々なllmを評価し,その性能が人間のそれよりも大幅に遅れていることを確認した。 これは、これらのモデルの命令追従能力の改善の余地を浮き彫りにしている。

The effective assessment of the instruction-following ability of large language models (LLMs) is of paramount importance. A model that cannot adhere to human instructions might be not able to provide reliable and helpful responses. In pursuit of this goal, various benchmarks have been constructed to evaluate the instruction-following capacity of these models. However, these benchmarks are limited to a single language and are constructed using automated approaches, which restricts their applicability and the quality of the test examples they contain. To bridge this gap, we introduce the FollowEval benchmark in this paper. This benchmark is composed of instances in both English and Chinese, and all test examples are crafted by human experts. Furthermore, the FollowEval benchmark is designed to assess LLMs across five critical dimensions of instruction following: string manipulation, commonsense reasoning, logical reasoning, spatial reasoning, and response constraints. To enhance the complexity and present a sufficient challenge, each test example is designed to evaluate more than one dimension. We have evaluated various LLMs using the FollowEval benchmark and found that their performance significantly lags behind that of humans. This highlights the considerable room for improvement in the instruction-following ability of these models.
翻訳日:2023-11-17 14:32:20 公開日:2023-11-16
# AfriMTEとAfriCOMET: COMETをオープンソースでないアフリカの言語に組み込む

AfriMTE and AfriCOMET: Empowering COMET to Embrace Under-resourced African Languages ( http://arxiv.org/abs/2311.09828v1 )

ライセンス: Link先を確認
Jiayi Wang, David Ifeoluwa Adelani, Sweta Agrawal, Ricardo Rei, Eleftheria Briakou, Marine Carpuat, Marek Masiak, Xuanli He, Sofia Bourhim, Andiswa Bukula, Muhidin Mohamed, Temitayo Olatoye, Hamam Mokayede, Christine Mwase, Wangui Kimotho, Foutse Yuehgoh, Anuoluwapo Aremu, Jessica Ojo, Shamsuddeen Hassan Muhammad, Salomey Osei, Abdul-Hakeem Omotayo, Chiamaka Chukwuneke, Perez Ogayo, Oumaima Hourrane, Salma El Anigri, Lolwethu Ndolela, Thabiso Mangwana, Shafie Abdi Mohamed, Ayinde Hassan, Oluwabusayo Olufunke Awoyomi, Lama Alkhaled, Sana Al-Azzawi, Naome A. Etori, Millicent Ochieng, Clemencia Siro, Samuel Njoroge, Eric Muchiri, Wangari Kimotho, Lyse Naomi Wamba Momo, Daud Abolade, Simbiat Ajao, Tosin Adewumi, Iyanuoluwa Shode, Ricky Macharm, Ruqayya Nasir Iro, Saheed S. Abdullahi, Stephen E. Moore, Bernard Opoku, Zainab Akinjobi, Abeeb Afolabi, Nnaemeka Obiefuna, Onyekachi Raphael Ogbu, Sam Brian, Verrah Akinyi Otiende, Chinedu Emmanuel Mbonu, Sakayo Toadoum Sari, Pontus Stenetorp(参考訳) マルチリンガル機械翻訳(MT)モデルと評価データを複数のアンダーリソースアフリカ言語に拡張する過程で記録した進歩にもかかわらず、人間の判断と相関の悪いBLEUのようなn-gramマッチングメトリクスで評価が行われるため、これらの言語で行った進歩を正確に測定することは困難である。 しかし、COMETのような埋め込みベースのメトリクスは相関性が高いが、アンダーリソース言語に対する評価データと評価データの欠如、多次元品質指標(MQM)のようなアノテーションガイドラインの複雑さ、多言語エンコーダの言語カバレッジの制限によりアフリカ言語への適用が妨げられている。 本稿では, ミススパンアノテーションと直接評価(DA)のための簡易なMQMガイドラインを用いた高品質な人的評価データを作成することで, 13のアフリカ言語に対して, これらの課題に対処する。 さらに,高リソース言語とアフリカ中心多言語エンコーダ(AfroXLM-Roberta)のDAトレーニングデータを利用して,アフリカ言語MTの最先端評価指標を作成することで,人間の判断とのスピアマンランク相関(+0.406)についてアフリカ言語のCOMETを作成する。

Despite the progress we have recorded in scaling multilingual machine translation (MT) models and evaluation data to several under-resourced African languages, it is difficult to measure accurately the progress we have made on these languages because evaluation is often performed on n-gram matching metrics like BLEU that often have worse correlation with human judgments. Embedding-based metrics such as COMET correlate better; however, lack of evaluation data with human ratings for under-resourced languages, complexity of annotation guidelines like Multidimensional Quality Metrics (MQM), and limited language coverage of multilingual encoders have hampered their applicability to African languages. In this paper, we address these challenges by creating high-quality human evaluation data with a simplified MQM guideline for error-span annotation and direct assessment (DA) scoring for 13 typologically diverse African languages. Furthermore, we develop AfriCOMET, a COMET evaluation metric for African languages by leveraging DA training data from high-resource languages and African-centric multilingual encoder (AfroXLM-Roberta) to create the state-of-the-art evaluation metric for African languages MT with respect to Spearman-rank correlation with human judgments (+0.406).
翻訳日:2023-11-17 14:32:01 公開日:2023-11-16
# cognitive overload: 過剰な論理思考を伴う大規模言語モデルのジェイルブレイク

Cognitive Overload: Jailbreaking Large Language Models with Overloaded Logical Thinking ( http://arxiv.org/abs/2311.09827v1 )

ライセンス: Link先を確認
Nan Xu, Fei Wang, Ben Zhou, Bang Zheng Li, Chaowei Xiao, Muhao Chen(参考訳) 大規模言語モデル(llm)は、パワーの増大を実証しているが、それらは幅広い有害な行動を引き起こしている。 代表として、ジェイルブレイク攻撃は、安全アライメントの後でも、llmから有害あるいは非倫理的な応答を引き起こす可能性がある。 本稿では,llmの認知構造と過程をターゲットとしたジェイルブレイク攻撃の新たなカテゴリについて検討する。 具体的には,(1)多言語認知過負荷,(2)veiled expression,(3) effect-to- because reasoningの対面におけるllmsの安全性脆弱性を分析した。 これまでのジェイルブレイク攻撃とは異なり、提案されている認知過剰はブラックボックス攻撃であり、モデルアーキテクチャやモデル重み付けへのアクセスに関する知識は不要である。 AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。 認知心理学における認知的負荷管理の取り組みにより,認知的過負荷攻撃の防御を2つの視点から検討した。 実験的な研究によると、我々の認知的過負荷は3つの観点から、すべての研究されたLSMを脱獄させる可能性がある。

While large language models (LLMs) have demonstrated increasing power, they have also given rise to a wide range of harmful behaviors. As representatives, jailbreak attacks can provoke harmful or unethical responses from LLMs, even after safety alignment. In this paper, we investigate a novel category of jailbreak attacks specifically designed to target the cognitive structure and processes of LLMs. Specifically, we analyze the safety vulnerability of LLMs in the face of (1) multilingual cognitive overload, (2) veiled expression, and (3) effect-to-cause reasoning. Different from previous jailbreak attacks, our proposed cognitive overload is a black-box attack with no need for knowledge of model architecture or access to model weights. Experiments conducted on AdvBench and MasterKey reveal that various LLMs, including both popular open-source model Llama 2 and the proprietary model ChatGPT, can be compromised through cognitive overload. Motivated by cognitive psychology work on managing cognitive load, we further investigate defending cognitive overload attack from two perspectives. Empirical studies show that our cognitive overload from three perspectives can jailbreak all studied LLMs successfully, while existing defense strategies can hardly mitigate the caused malicious uses effectively.
翻訳日:2023-11-17 14:31:35 公開日:2023-11-16
# LLMに勝つ人間--ドメイン特化アノテーション課題におけるアクティブラーニングの実証的研究

Human Still Wins over LLM: An Empirical Study of Active Learning on Domain-Specific Annotation Tasks ( http://arxiv.org/abs/2311.09825v1 )

ライセンス: Link先を確認
Yuxuan Lu, Bingsheng Yao, Shao Zhang, Yun Wang, Peng Zhang, Tun Lu, Toby Jia-Jun Li, Dakuo Wang(参考訳) 大規模言語モデル(LLM)は大きな進歩を示しており、その性能を超越した主張がなされている。 しかし、現実世界のタスクでは、しばしばドメイン知識が必要である。 ドメインエキスパートアノテーションのコストに取り組むために、active learning(al)のような低リソースの学習方法が提案されており、次のような疑問を投げかけている。 本研究では,3つの異なる領域から得られた4つのデータセットについて経験的実験を行い,soma llmとalを用いた専門家アノテーションで学習した小モデルを比較した。 その結果,小モデルは数百倍のラベル付きデータでGPT-3.5より優れており,GPT-4では数百倍の精度で高い性能が得られることがわかった。 これらの結果から, LLM予測は実世界のアプリケーションにおいてウォームアップ手法として利用でき, ドメイン固有の知識によって駆動されるデータアノテーションに関わるタスクには人間の専門家が不可欠である。

Large Language Models (LLMs) have demonstrated considerable advances, and several claims have been made about their exceeding human performance. However, in real-world tasks, domain knowledge is often required. Low-resource learning methods like Active Learning (AL) have been proposed to tackle the cost of domain expert annotation, raising this question: Can LLMs surpass compact models trained with expert annotations in domain-specific tasks? In this work, we conduct an empirical experiment on four datasets from three different domains comparing SOTA LLMs with small models trained on expert annotations with AL. We found that small models can outperform GPT-3.5 with a few hundreds of labeled data, and they achieve higher or similar performance with GPT-4 despite that they are hundreds time smaller. Based on these findings, we posit that LLM predictions can be used as a warmup method in real-world applications and human experts remain indispensable in tasks involving data annotation driven by domain-specific knowledge.
翻訳日:2023-11-17 14:31:09 公開日:2023-11-16
# MAM-E:拡散モデルを用いたマンモグラフィ合成画像生成

MAM-E: Mammographic synthetic image generation with diffusion models ( http://arxiv.org/abs/2311.09822v1 )

ライセンス: Link先を確認
Ricardo Montoya-del-Angel, Karla Sam-Millan, Joan C Vilanova, Robert Mart\'i(参考訳) 生成モデルは、医療画像領域で直面するデータ不足問題を解決するための代替データ拡張技術として使用される。 拡散モデルは、その革新的生成手法、生成画像の高品質、および生成逆ネットワークと比較して比較的複雑な訓練プロセスのために特に注目されている。 医療領域におけるそのようなモデルの実装は、まだ初期段階にある。 本研究では,最先端の条件付き拡散パイプラインを用いた高品質フルフィールドデジタルマンモグラム生成のための拡散モデルの利用について検討する。 さらに, 健康なマンモグラムに対する合成病変の塗布に安定な拡散モデルを適用することを提案する。 MAM-Eは,テキストプロンプトによって制御される高品質なマンモグラフィ合成のための生成モデルのパイプラインであり,乳房の特定の部位に合成病変を発生させることができる。 最後に,生成画像の定量的・質的評価とマンモグラフィ合成のための使いやすいグラフィカルユーザインタフェースを提供する。

Generative models are used as an alternative data augmentation technique to alleviate the data scarcity problem faced in the medical imaging field. Diffusion models have gathered special attention due to their innovative generation approach, the high quality of the generated images and their relatively less complex training process compared with Generative Adversarial Networks. Still, the implementation of such models in the medical domain remains at early stages. In this work, we propose exploring the use of diffusion models for the generation of high quality full-field digital mammograms using state-of-the-art conditional diffusion pipelines. Additionally, we propose using stable diffusion models for the inpainting of synthetic lesions on healthy mammograms. We introduce MAM-E, a pipeline of generative models for high quality mammography synthesis controlled by a text prompt and capable of generating synthetic lesions on specific regions of the breast. Finally, we provide quantitative and qualitative assessment of the generated images and easy-to-use graphical user interfaces for mammography synthesis.
翻訳日:2023-11-17 14:30:52 公開日:2023-11-16
# マルチホップQAデータセットと擬似指導チューニングによる大規模言語モデルのロバスト時間推論に向けて

Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning ( http://arxiv.org/abs/2311.09821v1 )

ライセンス: Link先を確認
Qingyu Tan, Hwee Tou Ng, Lidong Bing(参考訳) 現実世界の知識は常に更新されている。 しかし、大きな言語モデル(LLM)を頻繁に更新するのはコストがかかる。 したがって、llmは時間知識の概念を理解することが重要である。 しかしながら、時間的質問応答に関する先行研究では、マルチアンウェル型やマルチホップ型の時間的推論は強調されなかった。 本稿では,マルチアンワーとマルチホップの時間推論に焦点をあてた,qaデータセットであるcomplex-trを提案する。 また,LLMの複雑な時間的推論能力とロバスト性を改善するための新しいデータ拡張戦略を提案する。 複数の時間的QAデータセットについて実験を行った。 実験結果から,本手法は時間的QAベンチマークにおけるLLMの性能をかなりのマージンで向上できることが示された。

Knowledge in the real world is being updated constantly. However, it is costly to frequently update large language models (LLMs). Therefore, it is crucial for LLMs to understand the concept of temporal knowledge. However, prior works on temporal question answering did not emphasize multi-answer and multi-hop types of temporal reasoning. In this paper, we propose a complex temporal question-answering (QA) dataset Complex-TR that focuses on multi-answer and multi-hop temporal reasoning. Besides, we also propose a novel data augmentation strategy to improve the complex temporal reasoning capability and robustness of LLMs. We conducted experiments on multiple temporal QA datasets. Experimental results show that our method is able to improve LLMs' performance on temporal QA benchmarks by significant margins.
翻訳日:2023-11-17 14:30:35 公開日:2023-11-16
# PWISeg:手術器具のポイントベース弱監視型インスタンスセグメンテーション

PWISeg: Point-based Weakly-supervised Instance Segmentation for Surgical Instruments ( http://arxiv.org/abs/2311.09819v1 )

ライセンス: Link先を確認
Zhen Sun, Huan Xu, Jinlin Wu, Zhen Chen, Zhen Lei, Hongbin Liu(参考訳) 外科手術では、正しい計数が不可欠である。 インスタンスセグメンテーションは、オブジェクトのバウンディングボックスだけでなく、各ピクセルの特定の詳細を特定するロケーションメソッドである。 しかし、マスクレベルのアノテーションを得ることは、インスタンスのセグメンテーションにおいて労働集約的です。 この問題に対処するために,PWISeg (Point-based Weakly-supervised Instance Segmentation) という,比較的効果的な手術器具インスタンス分割手法を提案する。 PWISegはFCNベースのアーキテクチャを採用し、特徴点とバウンディングボックスの関係をモデル化し、FPN上の特徴点とセグメンテーションマスクをモデル化し、単一のモデルで機器検出とセグメンテーションを共同で行う。 マスクレベルのアノテーションは現実世界では利用が難しいため,予測マスクとボックスの関係を監視信号として利用して,教師なしの投影損失を導入する。 一方、各楽器のキーピクセルとしていくつかのピクセルを注釈付けする。 これに基づいて,鍵画素相関損失と鍵画素分布損失を更に提案し,より正確なセグメンテーション予測を生成するために,ポイント・ツー・マスク分岐を駆動する。 この課題を総合的に評価するために,手動アノテーションを用いた新しい手術器具データセットを公開し,さらなる研究のためのベンチマークを作成する。 我々の総合的な調査試験は、我々のPWISegの優れた性能を実証した。 その結果,手術器具のセグメント化の精度が向上し,弱教師付きバウンディングボックスによるインスタンス分割のほとんどの手法を上回った。 この改善は、提案したデータセットと、パブリックなHOSPI-Toolsデータセットに適用した場合に一貫して観察される。

In surgical procedures, correct instrument counting is essential. Instance segmentation is a location method that locates not only an object's bounding box but also each pixel's specific details. However, obtaining mask-level annotations is labor-intensive in instance segmentation. To address this issue, we propose a novel yet effective weakly-supervised surgical instrument instance segmentation approach, named Point-based Weakly-supervised Instance Segmentation (PWISeg). PWISeg adopts an FCN-based architecture with point-to-box and point-to-mask branches to model the relationships between feature points and bounding boxes, as well as feature points and segmentation masks on FPN, accomplishing instrument detection and segmentation jointly in a single model. Since mask level annotations are hard to available in the real world, for point-to-mask training, we introduce an unsupervised projection loss, utilizing the projected relation between predicted masks and bboxes as supervision signal. On the other hand, we annotate a few pixels as the key pixel for each instrument. Based on this, we further propose a key pixel association loss and a key pixel distribution loss, driving the point-to-mask branch to generate more accurate segmentation predictions. To comprehensively evaluate this task, we unveil a novel surgical instrument dataset with manual annotations, setting up a benchmark for further research. Our comprehensive research trial validated the superior performance of our PWISeg. The results show that the accuracy of surgical instrument segmentation is improved, surpassing most methods of instance segmentation via weakly supervised bounding boxes. This improvement is consistently observed in our proposed dataset and when applied to the public HOSPI-Tools dataset.
翻訳日:2023-11-17 14:30:23 公開日:2023-11-16
# 神経・生理的ヒューマン・オブジェクトインタラクション検出

Neural-Logic Human-Object Interaction Detection ( http://arxiv.org/abs/2311.09817v1 )

ライセンス: Link先を確認
Liulei Li, Jianan Wei, Wenguan Wang, Yi Yang(参考訳) 一般的なトランスフォーマーベースのHOI検出器で使用される相互作用デコーダは、通常、プリコンプットされた人間と物体のペアを入力として受け入れる。 優れた性能を達成する一方で、そのようなパラダイムは実現不可能であり、デコード中にエンティティよりも新しい組み合わせを探索することができない。 本稿では,ニューラルロジック推論を利用した新しいHOI検出器であるL OGIC HOIと,実体間の相互作用を推測するTransformerを提案する。 具体的には,バニラ変圧器の自己保持機構を改変し,<人,行動,対象>三重項を推論し,新たな相互作用を構成する。 一方、そのような推論過程はHOIを理解するための2つの重要な性質によって導かれる: 余裕(物体が促進する潜在的な行動)とプロキシ(人間と物体の間の空間的関係)である。 この2つの特性を一階述語論理で定式化し,それらを連続空間に固定することで,学習過程を制約し,性能向上とゼロショット一般化を実現する。 我々は,V-COCOとHICO-DETのL OGIC HOIを,通常の設定とゼロショット設定の両方で評価し,既存の手法よりも大幅に改善した。

The interaction decoder utilized in prevalent Transformer-based HOI detectors typically accepts pre-composed human-object pairs as inputs. Though achieving remarkable performance, such paradigm lacks feasibility and cannot explore novel combinations over entities during decoding. We present L OGIC HOI, a new HOI detector that leverages neural-logic reasoning and Transformer to infer feasible interactions between entities. Specifically, we modify the self-attention mechanism in vanilla Transformer, enabling it to reason over the <human, action, object> triplet and constitute novel interactions. Meanwhile, such reasoning process is guided by two crucial properties for understanding HOI: affordances (the potential actions an object can facilitate) and proxemics (the spatial relations between humans and objects). We formulate these two properties in first-order logic and ground them into continuous space to constrain the learning process of our approach, leading to improved performance and zero-shot generalization capabilities. We evaluate L OGIC HOI on V-COCO and HICO-DET under both normal and zero-shot setups, achieving significant improvements over existing methods.
翻訳日:2023-11-17 14:29:50 公開日:2023-11-16
# ウォーターマークによる大規模言語モデルの性能トレードオフ

Performance Trade-offs of Watermarking Large Language Models ( http://arxiv.org/abs/2311.09816v1 )

ライセンス: Link先を確認
Anirudh Ajith, Sameer Singh, Danish Pruthi(参考訳) 大きな言語モデル(LLM)が誤情報の生成や宿題の完了に誤用されているという懸念が高まっている中、透かしは人間の書き起こしとLLM生成テキストの識別に有効な解決策として現れてきた。 顕著な透かし戦略は、生成したテキストにトークンのサブセットを世代毎にアップサンプリングすることで信号を埋め込むことである。 この信号は人間の読み手には認識できないが、統計的検査によって検出できる。 しかし、そのような信号を埋め込むとモデルの出力分布が変化し、下流のアプリケーションに透かしのLLMを使用すると意図しない効果が生じる。 本研究では,テキスト分類,テキストの包含,推論,質問応答,翻訳,要約,言語モデリングなど,多種多様なタスクにおいて,透かし付きLLMの性能を評価する。 平均ケースにおけるkクラス分類問題として提案されるタスクのパフォーマンスには,透かしの影響が無視できることがわかった。 しかし、精度はいくつかのシナリオ(無視できない確率で起こる)のランダムな分類器のそれに急上昇することがある。 複数選択質問やショートフォーム生成などのタスクは、ウォーターマークによって驚くほど影響を受けない。 要約や翻訳を含む長い世代のタスクでは、ウォーターマーキングによるパフォーマンスが15~20%低下しています。 以上の結果から,透かしモデルを用いた場合,ユーザが認識すべきトレードオフに注目し,今後の研究が既存のトレードオフを改善する可能性を示す。

Amidst growing concerns of large language models (LLMs) being misused for generating misinformation or completing homework assignments, watermarking has emerged as an effective solution for distinguishing human-written and LLM-generated text. A prominent watermarking strategy is to embed a signal into generated text by upsampling a (pseudorandomly-chosen) subset of tokens at every generation step. Although this signal is imperceptible to a human reader, it is detectable through statistical testing. However, implanting such signals alters the model's output distribution and can have unintended effects when watermarked LLMs are used for downstream applications. In this work, we evaluate the performance of watermarked LLMs on a diverse suite of tasks, including text classification, textual entailment, reasoning, question answering, translation, summarization, and language modeling. We find that watermarking has negligible impact on the performance of tasks posed as k-class classification problems in the average case. However, the accuracy can plummet to that of a random classifier for some scenarios (that occur with non-negligible probability). Tasks that are cast as multiple-choice questions and short-form generation are surprisingly unaffected by watermarking. For long-form generation tasks, including summarization and translation, we see a drop of 15-20% in the performance due to watermarking. Our findings highlight the trade-offs that users should be cognizant of when using watermarked models, and point to cases where future research could improve existing trade-offs.
翻訳日:2023-11-17 14:29:28 公開日:2023-11-16
# プロパガンダスパンアノテーションのための大規模言語モデル

Large Language Models for Propaganda Span Annotation ( http://arxiv.org/abs/2311.09812v1 )

ライセンス: Link先を確認
Maram Hasanain, Fatema Ahmed, Firoj Alam(参考訳) 近年,オンライン・コミュニケーションにおけるプロパガンダ的手法の利用が増加し,オンライン・オーディエンスの操作が目指されている。 様々なモデリングシナリオに対処するため、これらのコンテンツを自動で検出・削除する努力がなされている。 内容(テキスト、画像、またはマルチモーダル)を決定することを含む。 (i)プロパガンダである。 (二)一つ以上の技法を駆使し、 (iii) スパンを識別できる技術を含む。 最初の2つのシナリオは、後者と比較して重要な研究努力が注がれている。 そこで本研究では,プロパガンダ的テキストスパンの検出に焦点をあてる。 GPT-4のような大規模言語モデルを用いてアノテータのタスクを実行できるかを検討する。 実験では、複数のアノテーションによるアノテーションからなる社内開発データセットを使用した。 提案手法は,人間のアノテーションよりもアノテーションの合意や性能が向上し,モデルにより多くの情報を提供することを示唆している。 gpt-4を含む複数のアノテータからの注釈付きラベルをコミュニティに提供する予定です。

The use of propagandistic techniques in online communication has increased in recent years, aiming to manipulate online audiences. Efforts to automatically detect and debunk such content have been made, addressing various modeling scenarios. These include determining whether the content (text, image, or multimodal) (i) is propagandistic, (ii) employs one or more techniques, and (iii) includes techniques with identifiable spans. Significant research efforts have been devoted to the first two scenarios compared to the latter. Therefore, in this study, we focus on the task of detecting propagandistic textual spans. We investigate whether large language models such as GPT-4 can be utilized to perform the task of an annotator. For the experiments, we used an in-house developed dataset consisting of annotations from multiple annotators. Our results suggest that providing more information to the model as prompts improves the annotation agreement and performance compared to human annotations. We plan to make the annotated labels from multiple annotators, including GPT-4, available for the community.
翻訳日:2023-11-17 14:29:03 公開日:2023-11-16
# 強化学習アルゴリズムのための学習特性のランタイム検証

Runtime Verification of Learning Properties for Reinforcement Learning Algorithms ( http://arxiv.org/abs/2311.09811v1 )

ライセンス: Link先を確認
Tommaso Mannucci (TNO -- Netherlands Organisation for Applied Scientific Research), Julio de Oliveira Filho (TNO -- Netherlands Organisation for Applied Scientific Research)(参考訳) 強化学習(RL)アルゴリズムは、試行錯誤方式で環境と相互作用する。 このような相互作用は、シミュレーションではなく物理システムで学ぶ場合、高価で非効率で、タイムリーである。 学習フェーズが満たしていないか、あるいは質的でタイムリーな期待を満たさないかを予測するための、新しいランタイム検証手法を開発した。 本稿では,RLアルゴリズムにおける学習の質とタイムラインに関する3つの検証特性について述べる。 各特性を用いて,システムの動作中の特性の監視と評価を行う設計手順を提案する。

Reinforcement learning (RL) algorithms interact with their environment in a trial-and-error fashion. Such interactions can be expensive, inefficient, and timely when learning on a physical system rather than in a simulation. This work develops new runtime verification techniques to predict when the learning phase has not met or will not meet qualitative and timely expectations. This paper presents three verification properties concerning the quality and timeliness of learning in RL algorithms. With each property, we propose design steps for monitoring and assessing the properties during the system's operation.
翻訳日:2023-11-17 14:28:50 公開日:2023-11-16
# 自動システムの安全性評価のための形式的断層注入法

Towards Formal Fault Injection for Safety Assessment of Automated Systems ( http://arxiv.org/abs/2311.09810v1 )

ライセンス: Link先を確認
Ashfaq Farooqui (Dependable Transport Systems, RISE Research Institutes of Sweden, Bor{\aa}s, Sweden), Behrooz Sangchoolie (Dependable Transport Systems, RISE Research Institutes of Sweden, Bor{\aa}s, Sweden)(参考訳) 自律システムの安全性、セキュリティ、その他の信頼性特性に関する推論は、日々の生活でそのようなシステムを採用する前に対処する必要がある課題である。 形式的手法は、システムの振る舞いを数学的に推論する手法のクラスである。 したがって、システムの信頼性を結論付けるには正当性証明が十分である。 しかしながら、これらの手法は通常、実際のシステムを完全に表現していないシステムの抽象モデルに適用される。 一方、フォールトインジェクションは、システムの依存性を評価するためのテスト方法である。 しかし、システムを評価するのに必要なテストの量は、かなり大きく、しばしば問題となる。 本稿では, 自律システムの信頼性を高めるため, 開発ライフサイクルを通じてこれら2つの技術を融合した形式的欠陥注入を導入する。 我々は,形式的手法と断層注入の相互支援の5つの領域を同定し,より密着的なアプローチを提唱する。 この2つの分野をより強く結びつけることで、安全で信頼性の高い自律システムを開発する方法を確立しました。 本稿では,統合の可能性について考察し,今後の研究の道筋について概説する。

Reasoning about safety, security, and other dependability attributes of autonomous systems is a challenge that needs to be addressed before the adoption of such systems in day-to-day life. Formal methods is a class of methods that mathematically reason about a system's behavior. Thus, a correctness proof is sufficient to conclude the system's dependability. However, these methods are usually applied to abstract models of the system, which might not fully represent the actual system. Fault injection, on the other hand, is a testing method to evaluate the dependability of systems. However, the amount of testing required to evaluate the system is rather large and often a problem. This vision paper introduces formal fault injection, a fusion of these two techniques throughout the development lifecycle to enhance the dependability of autonomous systems. We advocate for a more cohesive approach by identifying five areas of mutual support between formal methods and fault injection. By forging stronger ties between the two fields, we pave the way for developing safe and dependable autonomous systems. This paper delves into the integration's potential and outlines future research avenues, addressing open challenges along the way.
翻訳日:2023-11-17 14:28:42 公開日:2023-11-16
# 学習システムのための微分論理の比較:研究プレビュー

Comparing Differentiable Logics for Learning Systems: A Research Preview ( http://arxiv.org/abs/2311.09809v1 )

ライセンス: Link先を確認
Thomas Flinkow (Maynooth University), Barak A. Pearlmutter (Maynooth University), Rosemary Monahan (Maynooth University)(参考訳) 機械学習(ML)システムの形式的検証に関する広範な研究は、データのみから学ぶことは、基礎となる背景知識を捉えるのに失敗することが多いことを示している。 機械学習モデルが正確性と安全性を満足するように、様々な検証器が開発されたが、これらの検証器は通常、固定重量の訓練されたネットワークを仮定する。 ML対応の自律システムは、誤った予測を検出するだけでなく、自己修正、継続的な改善、適応の能力も必要である。 制約を本質的に満足するMLモデルを作成するための有望なアプローチは、バックグラウンド知識を論理的制約としてエンコードし、いわゆる微分可能な論理を通じて学習プロセスを導くことである。 本研究プレビューでは,弱教師付き文脈における文学の諸論理の比較・評価を行い,その結果を提示し,今後の課題を浮き彫りにする。 実験結果は文献で報告された結果と大きく一致しているが,異なる論理を用いた学習ではチューニングが困難で,論理の有効性に大きな影響を及ぼす新しいハイパーパラメータが導入された。

Extensive research on formal verification of machine learning (ML) systems indicates that learning from data alone often fails to capture underlying background knowledge. A variety of verifiers have been developed to ensure that a machine-learnt model satisfies correctness and safety properties, however, these verifiers typically assume a trained network with fixed weights. ML-enabled autonomous systems are required to not only detect incorrect predictions, but should also possess the ability to self-correct, continuously improving and adapting. A promising approach for creating ML models that inherently satisfy constraints is to encode background knowledge as logical constraints that guide the learning process via so-called differentiable logics. In this research preview, we compare and evaluate various logics from the literature in weakly-supervised contexts, presenting our findings and highlighting open problems for future work. Our experimental results are broadly consistent with results reported previously in literature; however, learning with differentiable logics introduces a new hyperparameter that is difficult to tune and has significant influence on the effectiveness of the logics.
翻訳日:2023-11-17 14:28:26 公開日:2023-11-16
# 効率的なデバイス非依存量子鍵分布

Efficient Device-Independent Quantum Key Distribution ( http://arxiv.org/abs/2311.09871v1 )

ライセンス: Link先を確認
Shih-Hsuan Chen, Chun-Hao Chang, Chih-Sung Chuu, Che-Ming Li(参考訳) デバイス非依存の量子鍵分布(DIQKD)は、セキュリティが量子物理学の法則に基づいているが、プロトコルで使用されるデバイスに関する仮定を一切必要としない鍵分布スキームである。 既存の絡み合いベースのDIQKDプロトコルのセキュリティはベルテストに依存している。 本稿では,ある参加者が状態を作成し,それを他の参加者に送信して測定する,デバイス非依存の量子鍵分布(ediqkd)プロトコルを提案する。 本プロトコルでは、セキュリティのためのプロセストモグラフィーに基づいて、参加者間の伝送過程を特徴付け、古典的な初期、送信、最終状態を用いて模倣を除外する。 生鍵の最小ビット数、すなわち鍵ラウンド数を比較して集団攻撃に対するセキュリティを保証する場合、ediqkdプロトコルの効率は信頼性の高い鍵に対するdiqkdプロトコルの2桁以上であり、量子ビットエラー率は最大6.5%である。 この利点により、参加者は絡み合ったペアの要求されたリソースと測定値を実質的に保存することができる。 最近の最新のフォトニクス実験において最も高い検出効率により、我々のプロトコルは非ゼロ鍵レートで実現でき、通常のDIQKDよりも効率的である。 我々のプロトコルとそのセキュリティ分析は、典型的な準備と測定の量子情報タスクをデバイスに依存しないシナリオで識別する上で有用な洞察を提供するかもしれない。

Device-independent quantum key distribution (DIQKD) is a key distribution scheme whose security is based on the laws of quantum physics but does not require any assumptions about the devices used in the protocol. The security of the existing entanglement-based DIQKD protocol relies on the Bell test. Here, we propose an efficient device-independent quantum key distribution (EDIQKD) protocol in which one participant prepares states and transmits them to another participant through a quantum channel to measure. In this prepare-and-measure protocol, the transmission process between participants is characterized according to the process tomography for security, ruling out any mimicry using the classical initial, transmission, and final state. When comparing the minimum number of bits of the raw key, i.e., the key rounds, to guarantee security against collective attacks, the efficiency of the EDIQKD protocol is two orders of magnitude more than that of the DIQKD protocol for the reliable key, the quantum bit error rate of which is allowed up to 6.5%. This advantage will enable participants to substantially conserve the entangled pair's demanded resources and the measurement. According to the highest detection efficiency in the recent most advanced photonic experiment, our protocol can be realized with a non-zero key rate and remains more efficient than usual DIQKD. Our protocol and its security analysis may offer helpful insight into identifying the typical prepare-and-measure quantum information tasks with the device-independent scenario.
翻訳日:2023-11-17 14:20:51 公開日:2023-11-16
# フェデレーションラーニングにおけるコントリビューション評価 : 最新のアプローチの検討

Contribution Evaluation in Federated Learning: Examining Current Approaches ( http://arxiv.org/abs/2311.09856v1 )

ライセンス: Link先を確認
Vasilis Siomos and Jonathan Passerat-Palmbach(参考訳) フェデレーション学習(federated learning, fl)は、データに対するプライバシとガバナンスを維持しながら、協調的にモデルをトレーニングしたい場合への関心が高まっている。 flでは、プライベートなデータと潜在的に異種なデータと計算リソースを持つクライアントが集まって、ローカライズされたデータなしで共通のモデルをトレーニングする。 代わりに、参加者はローカルモデルのアップデートを共有することで貢献します。 これらの貢献の価値を定量的に評価することは、貢献評価(CE)問題と呼ばれる。 我々は、各クライアントの公正値を効率的に計算するために、基礎となる数学的フレームワークからの現在のCEアプローチをレビューする。 さらに、我々は、MNISTとCIFAR-10で導入した新しいアプローチとともに、最も有望な最先端アプローチのいくつかをベンチマークして、それらの相違を示す。 公平で効率的なCE方式を設計する一方で、全体のFLシステム設計のごく一部は、FLの主流となっている。

Federated Learning (FL) has seen increasing interest in cases where entities want to collaboratively train models while maintaining privacy and governance over their data. In FL, clients with private and potentially heterogeneous data and compute resources come together to train a common model without raw data ever leaving their locale. Instead, the participants contribute by sharing local model updates, which, naturally, differ in quality. Quantitatively evaluating the worth of these contributions is termed the Contribution Evaluation (CE) problem. We review current CE approaches from the underlying mathematical framework to efficiently calculate a fair value for each client. Furthermore, we benchmark some of the most promising state-of-the-art approaches, along with a new one we introduce, on MNIST and CIFAR-10, to showcase their differences. Designing a fair and efficient CE method, while a small part of the overall FL system design, is tantamount to the mainstream adoption of FL.
翻訳日:2023-11-17 14:20:25 公開日:2023-11-16
# 量子ウォークによる異常頂点のスコア付け

Scoring Anomalous Vertices Through Quantum Walks ( http://arxiv.org/abs/2311.09855v1 )

ライセンス: Link先を確認
Andrew Vlasic and Anh Pham(参考訳) 過去数十年にわたるデータの爆発により、ラベル付きデータ、擬似ラベル付きデータ、ラベルなしのデータから情報を抽出する技術がそれぞれ爆発的に増えている。 最良の準ラベルを持つデータの場合、グラフはポイントを接続して情報を抽出する自然な構造である。 特にグラフにおける異常検出は、どのデータポイントが他のデータの潜伏特性に当てはまらないかを決定する方法である。 グラフに関して異常なレベルの頂点をスコアする様々な古典的な手法があり、ニューラルネットワークを複雑化するノードの局所トポロジをチェックする簡単な方法にまたがっている。 グラフの構造を活用することで,各ノードの異常スコアを連続的にグラフをトラバースすることで計算する,量子ベースの最初の手法を提案する。 提案アルゴリズムは、量子ランダムウォークのよく知られた特性を取り入れ、回路の深さの増大を軽減するためにアルゴリズムの調整を行う。 このアルゴリズムは、初期条件に関して期待確率に収束することが厳密に示されている。

With the explosion of data over the past decades there has been a respective explosion of techniques to extract information from the data from labeled data, quasi-labeled data, and data with no labels known a priori. For data with at best quasi-labels, graphs are a natural structure to connect points to further extract information. In particular, anomaly detection in graphs is a method to determine which data points do not posses the latent characteristics of the other data. There have been a variety of classical methods to score vertices on their anomalous level with respect to the graph, spanning straightforward methods of checking the local topology of a node to intricate neural networks. Leveraging the structure of the graph, we propose a first ever quantum-based technique to calculate the anomaly score of each node by continuously traversing the graph in a particular manner. The proposed algorithm incorporates well-known characteristics of quantum random walks, and an adjustment to the algorithm is given to mitigate the increasing depth of the circuit. This algorithm is rigorously shown to converge to the expected probability, with respect to the initial condition.
翻訳日:2023-11-17 14:20:08 公開日:2023-11-16
# SurvTimeSurvival: 複数の訪問/記録を持つ患者の生存分析

SurvTimeSurvival: Survival Analysis On The Patient With Multiple Visits/Records ( http://arxiv.org/abs/2311.09854v1 )

ライセンス: Link先を確認
Hung Le, Ong Eng-Jon, Bober Miroslaw(参考訳) 近年の人工知能の進歩にもかかわらず、重症疾患患者の生存時間の正確な予測は重要な課題である。 本研究では, トランスフォーマーモデルを用いて, 時間変動型共変量の複雑さだけでなく, データの共変量も扱う「survtimesurvival: survival analysis on multiple visits/records」を提案する。 また,モデル学習プロセスに合成データ生成を統合することで,サバイバル解析データセットに共通するデータスパーシティ問題にも対処した。 本手法は,共変量と時変共変量のいずれにおいても,最先端のディープラーニングアプローチに勝ることを示す。 本研究の目的は, 患者個人生存軌跡の理解を深め, 予測精度を向上させるだけでなく, 臨床治験の設計や新しい治療法の創出において重要な役割を担うことである。

The accurate prediction of survival times for patients with severe diseases remains a critical challenge despite recent advances in artificial intelligence. This study introduces "SurvTimeSurvival: Survival Analysis On Patients With Multiple Visits/Records", utilizing the Transformer model to not only handle the complexities of time-varying covariates but also covariates data. We also tackle the data sparsity issue common to survival analysis datasets by integrating synthetic data generation into the learning process of our model. We show that our method outperforms state-of-the-art deep learning approaches on both covariates and time-varying covariates datasets. Our approach aims not only to enhance the understanding of individual patient survival trajectories across various medical conditions, thereby improving prediction accuracy, but also to play a pivotal role in designing clinical trials and creating new treatments.
翻訳日:2023-11-17 14:19:50 公開日:2023-11-16
# ドローンの短期対長期協調:分散最適化が深層強化学習と出会うとき

Short vs. Long-term Coordination of Drones: When Distributed Optimization Meets Deep Reinforcement Learning ( http://arxiv.org/abs/2311.09852v1 )

ライセンス: Link先を確認
Chuhao Qin and Evangelos Pournaras(参考訳) 充電技術をサポートするスマートドローンの群れは、交通監視や災害対応といったスマートシティの完全なセンシング機能を提供する。 分散最適化と深層強化学習(DRL)を含む既存のアプローチは、コスト効率が高く高品質なナビゲーション、センシング、リチャージを実現するためにドローンを協調することを目的としている。 短期最適化は持続的なメリットを提供するのに苦労するが、長期DRLにはスケーラビリティ、レジリエンス、柔軟性がない。 そこで本稿では,このギャップを埋めるために,分散最適化に基づく計画と選択,およびdrlに基づく飛行方向スケジューリングを包含する新しいプログレッシブアプローチを提案する。 実際の都市移動から生成されたデータセットによる大規模な実験は、3つのベースライン手法と比較して,交通監視における提案手法の優れた性能を示す。

Swarms of smart drones, with the support of charging technology, can provide completing sensing capabilities in Smart Cities, such as traffic monitoring and disaster response. Existing approaches, including distributed optimization and deep reinforcement learning (DRL), aim to coordinate drones to achieve cost-effective, high-quality navigation, sensing, and recharging. However, they have distinct challenges: short-term optimization struggles to provide sustained benefits, while long-term DRL lacks scalability, resilience, and flexibility. To bridge this gap, this paper introduces a new progressive approach that encompasses the planning and selection based on distributed optimization, as well as DRL-based flying direction scheduling. Extensive experiment with datasets generated from realisitic urban mobility demonstrate the outstanding performance of the proposed solution in traffic monitoring compared to three baseline methods.
翻訳日:2023-11-17 14:19:35 公開日:2023-11-16
# 都市交通渋滞制御 : DeePC の変更

Urban traffic congestion control: a DeePC change ( http://arxiv.org/abs/2311.09851v1 )

ライセンス: Link先を確認
Alessio Rimoldi, Carlo Cenedese, Alberto Padoan, Florian D\"orfler, John Lygeros(参考訳) 都市交通渋滞は、利用可能なデータの豊富さと政策立案者の努力にもかかわらず、急速に拡大している都市では依然として差し迫った課題である。 本稿では,行動システム理論とデータ駆動制御を活用することで,動的な交通信号による都市交通制御の文脈でDeePCアルゴリズムを利用する。 本手法を検証するために,都市モビリティシミュレーションソフトウェアパッケージシミュレーション(sumo)を用いて,忠実度の高いケーススタディを提案する。 予備的な結果は、DeePCが旅行時間やCO$2$排出など、様々な主要な指標で既存のアプローチよりも優れており、効果的な交通管理の可能性を示していることを示している。

Urban traffic congestion remains a pressing challenge in our rapidly expanding cities, despite the abundance of available data and the efforts of policymakers. By leveraging behavioral system theory and data-driven control, this paper exploits the DeePC algorithm in the context of urban traffic control performed via dynamic traffic lights. To validate our approach, we consider a high-fidelity case study using the state-of-the-art simulation software package Simulation of Urban MObility (SUMO). Preliminary results indicate that DeePC outperforms existing approaches across various key metrics, including travel time and CO$_2$ emissions, demonstrating its potential for effective traffic management
翻訳日:2023-11-17 14:19:21 公開日:2023-11-16
# 駅保守のための画像処理によるラッキー検出

Rusty Detection Using Image Processing For Maintenance Of Stations ( http://arxiv.org/abs/2311.09849v1 )

ライセンス: Link先を確認
Dao Duy Tung, Ho Xuan Hung(参考訳) 本研究は, 塗工面上のスラグ断面積を正確に把握することの課題に対処する。 塗膜上に存在するさびの割合を計算するために,デジタル画像処理を利用した手法を検討した。 提案手法は,HSV色モデルに基づく。 光度を等しくし、照明の影響を軽減するために、単一スケール網膜の基本モデルを飽和成分に適用する。 その後、画像はさらに処理を行い、手動カラーフィルタリングを行う。 このステップはスラスト領域の同定を洗練するために重要である。 精度を高め、ノイズを除去するために、色フィルタリングによって選択された画素領域をDBScanアルゴリズムで処理する。 この多段階のプロセスは, 塗装面上のスラスト領域の堅牢なセグメンテーションを実現することを目的としており, 腐食検出・解析の分野に重要な貢献をする。

This study addresses the challenge of accurately seg-menting rusted areas on painted construction surfaces. A method leveraging digital image processing is explored to calculate the percentage of rust present on painted coatings. The proposed segmentation approach is based on the HSV color model. To equalize luminosity and mitigate the influence of illumination, a fundamental model of single-scale Retinex is applied specifically to the saturation component. Subsequently, the image undergoes further processing, involv-ing manual color filtering. This step is crucial for refining the identification of rusted regions. To enhance precision and filter out noise, the pixel areas selected through color filtering are subjected to the DBScan algorithm. This multi-step process aims to achieve a robust segmentation of rusted areas on painted construction surfaces, providing a valuable contribution to the field of corrosion detection and analysis.
翻訳日:2023-11-17 14:19:08 公開日:2023-11-16
# 拡散誘導神経プロセス

Diffusion-Augmented Neural Processes ( http://arxiv.org/abs/2311.09848v1 )

ライセンス: Link先を確認
Lorenzo Bonito, James Requeima, Aliaksandra Shysheya, Richard E. Turner(参考訳) ここ数年、医療や気候科学など、データが少なく予測の不確実性の推定が不可欠である多くの応用分野において、神経プロセスは有用なモデリングツールになっています。 しかし、この分野の最先端技術(AR CNPs; Bruinsma et al., 2023)は、その普及を妨げるいくつかの問題を提起している。 この研究は、ノイズ付きデータセットの条件付けを通じて、これらの制限の多くに対処すると同時に、SOTA性能を超越した代替の拡散ベースアプローチを提案する。

Over the last few years, Neural Processes have become a useful modelling tool in many application areas, such as healthcare and climate sciences, in which data are scarce and prediction uncertainty estimates are indispensable. However, the current state of the art in the field (AR CNPs; Bruinsma et al., 2023) presents a few issues that prevent its widespread deployment. This work proposes an alternative, diffusion-based approach to NPs which, through conditioning on noised datasets, addresses many of these limitations, whilst also exceeding SOTA performance.
翻訳日:2023-11-17 14:18:55 公開日:2023-11-16
# 基礎的マルチタスクモデルによる生体イメージングにおけるデータ不足の克服

Overcoming Data Scarcity in Biomedical Imaging with a Foundational Multi-Task Model ( http://arxiv.org/abs/2311.09847v1 )

ライセンス: Link先を確認
Raphael Sch\"afer, Till Nicke, Henning H\"ofener, Annkristin Lange, Dorit Merhof, Friedrich Feuerhake, Volkmar Schulz, Johannes Lotz, Fabian Kiessling(参考訳) 基礎モデルは、大規模に訓練され、非医学領域でかなりの成功を収めている。 しかし、これらのモデルのトレーニングには、概して大規模で包括的なデータセットが必要であり、バイオメディカルイメージングで一般的なより小さく不均一なデータセットとは対照的である。 本稿では,メモリ要求からトレーニングタスク数を分離するマルチタスク学習戦略を提案する。 トモグラフィー,顕微鏡,X線画像を含むマルチタスクデータベース上で,分類,セグメンテーション,オブジェクト検出などのラベル付け手法を用いて,UMedPT(Universal BioMedical PreTrained Model)を訓練した。 UMedPTの基礎モデルはImageNetの事前トレーニングと過去の最先端モデルよりも優れていた。 事前トレーニングデータベースに関連するタスクについては、元のトレーニングデータのわずか1%で、微調整なしでパフォーマンスを維持した。 ドメイン外のタスクでは、元のトレーニングデータの50%以上が必要だった。 UMedPTを用いて抽出した外部独立バリデーション画像特徴は, クロスセンター転送可能性の新たな標準となった。

Foundational models, pretrained on a large scale, have demonstrated substantial success across non-medical domains. However, training these models typically requires large, comprehensive datasets, which contrasts with the smaller and more heterogeneous datasets common in biomedical imaging. Here, we propose a multi-task learning strategy that decouples the number of training tasks from memory requirements. We trained a Universal bioMedical PreTrained model (UMedPT) on a multi-task database including tomographic, microscopic, and X-ray images, with various labelling strategies such as classification, segmentation, and object detection. The UMedPT foundational model outperformed ImageNet pretraining and the previous state-of-the-art models. For tasks related to the pretraining database, it maintained its performance with only 1% of the original training data and without fine-tuning. For out-of-domain tasks it required not more than 50% of the original training data. In an external independent validation imaging features extracted using UMedPT proved to be a new standard for cross-center transferability.
翻訳日:2023-11-17 14:18:47 公開日:2023-11-16
# GroupMixer: 病理画像からの乳癌検出のためのパッチベースグループ畳み込みニューラルネットワーク

GroupMixer: Patch-based Group Convolutional Neural Network for Breast Cancer Detection from Histopathological Images ( http://arxiv.org/abs/2311.09846v1 )

ライセンス: Link先を確認
Ardavan Modarres, Erfan Ebrahim Esfahani, Mahsa Bahrami(参考訳) 早期乳癌の悪性度診断は、その副作用を制御するための重要なステップである。 病理組織学的解析は悪性乳癌の検出にユニークな機会を提供する。 しかし、そのような作業は、病理学者にとって退屈で時間がかかります。 ディープニューラルネットワークは,手動による特徴抽出なしに生の病理像から直接情報的特徴を学習することができる。 畳み込みニューラルネットワーク(cnns)はコンピュータビジョンの分野で支配的なアーキテクチャであるが、トランスフォーマーベースのアーキテクチャは異なるコンピュータビジョンタスクで有望な結果を示している。 Transformerベースのアーキテクチャの機能を医療画像分析に活用することは興味深いように思われるが、これらのアーキテクチャは大規模で、トレーニング可能なパラメータが多数あり、医療領域ではまれな大規模なデータセットを必要とする。 コンピュータビジョン領域におけるTransformerベースのアーキテクチャの性能の少なくとも一部は、パッチ埋め込み操作に由来すると主張され実証されている。 本稿では,以前紹介した完全畳み込み型ニューラルネットワークアーキテクチャとパッチ埋め込み操作を統合するアイデアを借用し,病理組織像から乳癌の悪性度を検出するための効率的なcnnアーキテクチャを提案する。 他の手法よりもはるかに小さいパラメータの数にもかかわらず、精度は97.65%、98.92%、99.21%、98.01%でそれぞれ40倍、100倍、200倍、400倍になった。 我々は、Group ConvolutionとChannel Shufflingのアイデアを使ってアーキテクチャを改良し、トレーニング可能なパラメータの数をさらに減らし、パフォーマンスが無視できるほど低下し、それぞれ95.42%、98.16%、96.05%、97.92%の精度を達成した。

Diagnosis of breast cancer malignancy at the early stages is a crucial step for controlling its side effects. Histopathological analysis provides a unique opportunity for malignant breast cancer detection. However, such a task would be tedious and time-consuming for the histopathologists. Deep Neural Networks enable us to learn informative features directly from raw histopathological images without manual feature extraction. Although Convolutional Neural Networks (CNNs) have been the dominant architectures in the computer vision realm, Transformer-based architectures have shown promising results in different computer vision tasks. Although harnessing the capability of Transformer-based architectures for medical image analysis seems interesting, these architectures are large, have a significant number of trainable parameters, and require large datasets to be trained on, which are usually rare in the medical domain. It has been claimed and empirically proved that at least part of the superior performance of Transformer-based architectures in Computer Vision domain originates from patch embedding operation. In this paper, we borrowed the previously introduced idea of integrating a fully Convolutional Neural Network architecture with Patch Embedding operation and presented an efficient CNN architecture for breast cancer malignancy detection from histopathological images. Despite the number of parameters that is significantly smaller than other methods, the accuracy performance metrics achieved 97.65%, 98.92%, 99.21%, and 98.01% for 40x, 100x, 200x, and 400x magnifications respectively. We took a step forward and modified the architecture using Group Convolution and Channel Shuffling ideas and reduced the number of trainable parameters even more with a negligible decline in performance and achieved 95.42%, 98.16%, 96.05%, and 97.92% accuracy for the mentioned magnifications respectively.
翻訳日:2023-11-17 14:18:19 公開日:2023-11-16
# 学習知識グラフ質問応答におけるLLMの活用

Leveraging LLMs in Scholarly Knowledge Graph Question Answering ( http://arxiv.org/abs/2311.09841v1 )

ライセンス: Link先を確認
Tilahun Abedissa Taffa and Ricardo Usbeck(参考訳) 本稿では,大言語モデル(llm)を手軽に活用し,書誌的自然言語質問に答える学習的ナレッジグラフ質問応答(kgqa)を提案する。 このモデルは、まず、BERTベースの文エンコーダを介して、与えられたテスト問題に関連するトップn類似のトレーニング質問を特定し、対応するSPARQLを検索する。 トップnの類似質問-SPARQLペアを例として使用して、テスト質問がプロンプトを生成する。 次に、プロンプトをLLMに渡し、SPARQLを生成する。 最後に、基盤となるKG - ORKG(Open Research KG)エンドポイントに対してSPARQLを実行し、回答を返す。 我々のシステムは、Scholarly-QALD-23チャレンジベンチマークの一つであるSciQAのF1スコア99.0%を達成する。

This paper presents a scholarly Knowledge Graph Question Answering (KGQA) that answers bibliographic natural language questions by leveraging a large language model (LLM) in a few-shot manner. The model initially identifies the top-n similar training questions related to a given test question via a BERT-based sentence encoder and retrieves their corresponding SPARQL. Using the top-n similar question-SPARQL pairs as an example and the test question creates a prompt. Then pass the prompt to the LLM and generate a SPARQL. Finally, runs the SPARQL against the underlying KG - ORKG (Open Research KG) endpoint and returns an answer. Our system achieves an F1 score of 99.0%, on SciQA - one of the Scholarly-QALD-23 challenge benchmarks.
翻訳日:2023-11-17 14:17:30 公開日:2023-11-16
# PELMS: 効果的な低ショットマルチドキュメント要約のための事前学習

PELMS: Pre-training for Effective Low-Shot Multi-Document Summarization ( http://arxiv.org/abs/2311.09836v1 )

ライセンス: Link先を確認
Joseph J. Peper, Wenzhao Qiu, Lu Wang(参考訳) 本稿では,抽象的多文書要約(MDS)のための事前学習手法について検討する。 近年の研究では,事前学習戦略設計における情報saienceの強調効果が実証されているが,mdsの重要な特性である抽象的・反射的要約の生成に苦慮している。 そこで本研究では,意味的コヒーレンス・ヒューリスティックスと,ラベルのない多文書入力による忠実度制約に基づく目標を用いた事前学習モデル PELMS を提案し,簡潔で流動的で忠実な要約の生成を促進する。 PELMSのトレーニングを支援するために,9300万以上の文書を含むマルチドキュメント事前学習コーパスであるMultiPTをコンパイルし,300万以上の未ラベルのトピック中心のドキュメントクラスタを構築し,製品レビューやニュース,一般知識などのさまざまなジャンルをカバーする。 我々は,多種多様なMDSデータセットにおける低ショット設定におけるPELMSの広範な評価を行う。 我々のアプローチは、全体的な情報性、抽象性、一貫性、忠実性に関する競争比較を一貫して上回る。

We investigate pre-training techniques for abstractive multi-document summarization (MDS), which is much less studied than summarizing single documents. Though recent work has demonstrated the effectiveness of highlighting information salience for pre-training strategy design, it struggles to generate abstractive and reflective summaries, which are critical properties for MDS. To this end, we present PELMS, a pre-trained model that uses objectives based on semantic coherence heuristics and faithfulness constraints with un-labeled multi-document inputs, to promote the generation of concise, fluent, and faithful summaries. To support the training of PELMS, we compile MultiPT, a multi-document pre-training corpus containing over 93 million documents to form more than 3 million unlabeled topic-centric document clusters, covering diverse genres such as product reviews, news, and general knowledge. We perform extensive evaluation of PELMS in low-shot settings on a wide range of MDS datasets. Our approach consistently outperforms competitive comparisons with respect to overall informativeness, abstractiveness, coherence, and faithfulness.
翻訳日:2023-11-17 14:17:08 公開日:2023-11-16
# ML-Bench: 機械学習タスクのためのオープンソースのライブラリを活用する大規模言語モデル

ML-Bench: Large Language Models Leverage Open-source Libraries for Machine Learning Tasks ( http://arxiv.org/abs/2311.09835v1 )

ライセンス: Link先を確認
Yuliang Liu, Xiangru Tang, Zefan Cai, Junjie Lu, Yichi Zhang, Yanjun Shao, Zexuan Deng, Helan Hu, Zengxian Yang, Kaikai An, Ruijun Huang, Shuzheng Si, Sheng Chen, Haozhe Zhao, Zhengliang Li, Liang Chen, Yiming Zong, Yan Wang, Tianyu Liu, Zhiwei Jiang, Baobao Chang, Yujia Qin, Wangchunshu Zhou, Yilun Zhao, Arman Cohan, Mark Gerstein(参考訳) 大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。 しかし、これらのベンチマークの成果と実用性の間にはかなりの違いがあり、これは主に既存のライブラリに依存した現実世界のプログラミングによるものである。 LLMをスクラッチからコードに評価するのではなく、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案する。 そこで本研究では,オープンソースライブラリの既存機能を活用したllmの有効性を評価するために開発したml-benchを提案する。 注目すべき14の機械学習GitHubリポジトリに130のタスクにまたがる10044のサンプルで構成されている。 この設定では、特定の機械学習タスク命令とそれに伴うREADMEをコードベースで与えると、LCMがタスクを達成するためのコードを生成する。 これは、長い言語コードをインターリーブした文書の理解と、複雑なクロスファイルのコード構造を理解し、新しい課題を導入する必要がある。 特に GPT-4 は他の LLM よりも著しく改善されているが、39.73 % のタスクしか達成できず、改善の余地が残されている。 コードベースを効果的にナビゲートし、ドキュメンテーションを特定し、コードを検索し、実行可能なコードを生成するML-Agentを提案することで、これらの課題に対処する。 GPT-4上に構築されたML-Agentは、さらなる改善をもたらすことが実証された。 コード、データ、モデルは \url{https://ml-bench.github.io/} で入手できる。

Large language models have shown promising performance in code generation benchmarks. However, a considerable divide exists between these benchmark achievements and their practical applicability, primarily attributed to real-world programming's reliance on pre-existing libraries. Instead of evaluating LLMs to code from scratch, this work aims to propose a new evaluation setup where LLMs use open-source libraries to finish machine learning tasks. Therefore, we propose ML-Bench, an expansive benchmark developed to assess the effectiveness of LLMs in leveraging existing functions in open-source libraries. Consisting of 10044 samples spanning 130 tasks over 14 notable machine learning GitHub repositories. In this setting, given a specific machine learning task instruction and the accompanying README in a codebase, an LLM is tasked to generate code to accomplish the task. This necessitates the comprehension of long and language-code interleaved documents, as well as the understanding of complex cross-file code structures, introducing new challenges. Notably, while GPT-4 exhibits remarkable improvement over other LLMs, it manages to accomplish only 39.73\% of the tasks, leaving a huge space for improvement. We address these challenges by proposing ML-Agent, designed to effectively navigate the codebase, locate documentation, retrieve code, and generate executable code. Empirical results demonstrate that ML-Agent, built upon GPT-4, results in further improvements. Code, data, and models are available at \url{https://ml-bench.github.io/}.
翻訳日:2023-11-17 14:16:35 公開日:2023-11-16
# FIRE 2023におけるHASOCサブトラックの概要:スパン検出による英語の明示的ヘイトに寄与するトークンの同定

Overview of the HASOC Subtrack at FIRE 2023: Identification of Tokens Contributing to Explicit Hate in English by Span Detection ( http://arxiv.org/abs/2311.09834v1 )

ライセンス: Link先を確認
Sarah Masud, Mohammad Aflah Khan, Md. Shad Akhtar, Tanmoy Chakraborty(参考訳) ウェブ上でヘイトスピーチが増加し続けており、それを緩和する計算方法を開発することがますます重要になっている。 反応的に、ヘイトフルなコンテンツを特定するためにブラックボックスモデルを使用することで、投稿がヘイトフルであると自動的にフラグを付ける理由をユーザーに混乱させる可能性がある。 一方で、投稿の公開前にリプレースを提案することで、積極的な緩和を図ることができる。 しかし、どちらの緩和技術も、投稿のどの部分が憎悪の側面を含んでいるか、すなわち、テキスト内のどの範囲が憎悪を伝えるかに関する情報を必要としている。 このようなスパンのより良い検出は、Web上で明らかに憎しみのあるコンテンツを著しく減少させる。 HASOC-FIRE 2023でHateNormを組織し、英語のつぶやきにおける明示的なスパン検出に焦点を当てた。 合計12チームが参加し、マクロF1は0.58で観測された。

As hate speech continues to proliferate on the web, it is becoming increasingly important to develop computational methods to mitigate it. Reactively, using black-box models to identify hateful content can perplex users as to why their posts were automatically flagged as hateful. On the other hand, proactive mitigation can be achieved by suggesting rephrasing before a post is made public. However, both mitigation techniques require information about which part of a post contains the hateful aspect, i.e., what spans within a text are responsible for conveying hate. Better detection of such spans can significantly reduce explicitly hateful content on the web. To further contribute to this research area, we organized HateNorm at HASOC-FIRE 2023, focusing on explicit span detection in English Tweets. A total of 12 teams participated in the competition, with the highest macro-F1 observed at 0.58.
翻訳日:2023-11-17 14:16:08 公開日:2023-11-16
# X-Mark: 語彙冗長性による無意味な透かしを目指して

X-Mark: Towards Lossless Watermarking Through Lexical Redundancy ( http://arxiv.org/abs/2311.09832v1 )

ライセンス: Link先を確認
Liang Chen, Yatao Bian, Yang Deng, Shuaiyi Li, Bingzhe Wu, Peilin Zhao, Kam-fai Wong(参考訳) テキスト透かしは機械生成テキストを検出する重要な技術として出現した。 しかし、既存の手法は任意の語彙分割によってテキストの品質を著しく低下させ、言語モデルの表現性を阻害し、テキストの一貫性を損なう。 これを軽減するために,語彙空間内のテキスト冗長性を活かした新しいアプローチであるXMarkを導入する。 具体的には、XMarkは、言語モデル復号プロセス中に同義語を相互排他的に排他的に規定し、事前知識を語彙分割と言語生成能力の保存に組み込む。 本稿では,XMarkが透かし検出性を維持しつつテキスト生成頻度を大幅に向上することを示す理論的解析と実証的証拠を示す。 さらに,ゼロショットおよび少数ショットの知識リコール,論理的推論,命令追従を含む,大規模言語モデルの創発的能力に対する透かしの影響について検討する。 我々の総合的な実験により、XMarkはLLMのこれらの重要な機能を維持する上で、既存の手法よりも一貫して優れています。

Text watermarking has emerged as an important technique for detecting machine-generated text. However, existing methods can severely degrade text quality due to arbitrary vocabulary partitioning, which disrupts the language model's expressiveness and impedes textual coherence. To mitigate this, we introduce XMark, a novel approach that capitalizes on text redundancy within the lexical space. Specifically, XMark incorporates a mutually exclusive rule for synonyms during the language model decoding process, thereby integrating prior knowledge into vocabulary partitioning and preserving the capabilities of language generation. We present theoretical analyses and empirical evidence demonstrating that XMark substantially enhances text generation fluency while maintaining watermark detectability. Furthermore, we investigate watermarking's impact on the emergent abilities of large language models, including zero-shot and few-shot knowledge recall, logical reasoning, and instruction following. Our comprehensive experiments confirm that XMark consistently outperforms existing methods in retaining these crucial capabilities of LLMs.
翻訳日:2023-11-17 14:15:45 公開日:2023-11-16
# 強結合分子系における分極子の加熱速度

Thermalization rate of polaritons in strongly-coupled molecular systems ( http://arxiv.org/abs/2311.09896v1 )

ライセンス: Link先を確認
Evgeny A. Tereshchenkov, Ivan V. Panyukov, Vladislav Yu. Shishkov, Evgeny S. Andrianov and Anton V. Zasedatelev(参考訳) ポラリトン熱化は、低温の固体半導体マイクロキャビティから室温の分子による表面プラズモンナノキャビティまで、光物質ボース-アインシュタイン凝縮を達成するための重要なプロセスである。 偏光子状態の物質成分に由来する、熱化の顕微鏡機構は特定の材料特性と密接に結びついている。 本研究では, 強結合分子系の偏光子熱化について検討する。 電子-フォノン相互作用(ビブロニックカップリング)と低エネルギー分子振動による偏光子熱化に対処する顕微鏡理論を開発した。 本理論は、ストークスシフトやフォトルミネッセンスの温度依存性線幅などの素分子の実験的にアクセス可能なスペクトル特性と、よく知られた光学キャビティのパラメータを併用して、温度依存偏光子熱速度を計算する簡単な解析方法を提案する。 本研究は, 地中および励起状態の非平衡偏光子凝縮に関する最近の実験報告と顕著な一致を示し, 低温で観測された熱化ボトルネック効果を説明する。 本研究は、偏光子凝縮における振動自由度の重要性を示し、適切な材料システムとキャビティ設計の選択を含む将来の実験に実用的なガイダンスを提供する。

Polariton thermalization is a key process in achieving light-matter Bose--Einstein condensation, spanning from solid-state semiconductor microcavities at cryogenic temperatures to surface plasmon nanocavities with molecules at room temperature. Originated from the matter component of polariton states, the microscopic mechanisms of thermalization are closely tied to specific material properties. In this work, we investigate polariton thermalization in strongly-coupled molecular systems. We developed a microscopic theory addressing polariton thermalization through electron-phonon interactions (known as vibronic coupling) with low-energy molecular vibrations. This theory presents a simple analytical method to calculate the temperature-dependent polariton thermalization rate, utilizing experimentally accessible spectral properties of bare molecules, such as the Stokes shift and temperature-dependent linewidth of photoluminescence, in conjunction with well-known parameters of optical cavities. Our findings demonstrate remarkable agreement with recent experimental reports of nonequilibrium polariton condensation in both ground and excited states, and explain the thermalization bottleneck effect observed at low temperatures. This study showcases the significance of vibrational degrees of freedom in polariton condensation and offers practical guidance for future experiments, including the selection of suitable material systems and cavity designs.
翻訳日:2023-11-17 14:08:08 公開日:2023-11-16
# 雑音量子コンピュータにおける分子エネルギーに対する浅部深度アンサッツの動的構築への自由測定手法

Measurement Free Approach towards Dynamic Construction of a Shallow Depth Ansatz for Molecular Energetics in Noisy Quantum Computers ( http://arxiv.org/abs/2311.09895v1 )

ライセンス: Link先を確認
Dipanjali Halder, Dibyendu Mondal, Rahul Maitra(参考訳) 量子情報と量子科学の最近の進歩は、ノイズ中間スケール量子(NISQ)デバイスで実現可能な、様々なコンパクトな動的構造化アンサツェの開発にインスピレーションを与えている。 しかし、このようなアンサーゼ造成戦略は、かなりの事前回路計測を伴い、NISQプラットフォームにおいて理想的な構造からかなり逸脱する。 したがって、強い相関の度合いに応じて自分自身を調整できるアンザッツの表現性と動的構造を維持しながら、量子資源の使用を最小化する必要がある。 本稿では,<textit{ab-initio}多体摂動理論に基づく新しいアンザッツ構成法を提案する。 ansatzに関連する精度と量子複雑性は、事前定義された摂動次数によってのみ決定され、従ってチューニング可能である。 さらに、アンザッツ構成パイプラインの基盤となる摂動構造により、高摂動順序で現れる高階励起を様々な低階演算子に分解し、実行ゲート深さを最小限に抑えることができる。 強相関系における多くの挑戦的な応用により,我々のansatzは,結合したユニタリ結合クラスタベースのansatzeと比較して,精度,パラメータ数,回路深さの点で有意に優れた性能を示す。

Recent advances in quantum information and quantum science have inspired the development of various compact dynamic structured ansatze that are expected to be realizable in the Noisy Intermediate-Scale Quantum (NISQ) devices. However, such ansatze construction strategies hitherto developed involve considerable pre-circuit measurements, and thus they deviate significantly in NISQ platform from their ideal structures. It is thus imperative that the usage of quantum resources must be minimized while retaining the expressivity and dynamical structure of the ansatz that can tailor itself depending on the degree of strong correlation. We propose a novel ansatz construction strategy based on the \textit{ab-initio} many-body perturbation theory that requires \textit{no} pre-circuit measurement and thus it remains structurally unaffected by any hardware noise. The accuracy and quantum complexity associated with the ansatz are solely dictated by a pre-defined perturbative order as desired and hence are tunable. Furthermore, the underlying perturbative structure of the ansatz construction pipeline enables us to decompose any high-rank excitation that appears in higher perturbative orders into various low-rank operators, and thus keeps the execution gate-depth to its minimum. With a number of challenging applications on strongly correlated system, we demonstrate that our ansatz performs significantly better, both in terms of accuracy, parameter count and circuit depth, in comparison to the allied unitary coupled cluster based ansatze.
翻訳日:2023-11-17 14:07:45 公開日:2023-11-16
# AIに基づく発見を妨げるデータベースの解明的側面について:超伝導材料を事例として

On some elusive aspects of databases hindering AI based discovery: A case study on superconducting materials ( http://arxiv.org/abs/2311.09891v1 )

ライセンス: Link先を確認
Giovanni Trezza, Eliodoro Chiavazzo(参考訳) ビッグデータの量と品質が、正確なAI駆動モデルを構築する上で重要な意味を持つのは理にかなっている。 それでも、本書ではしばしば過小評価され、議論されていないデータベースには、依然として重要な障害があると考えています。 我々の見解では、そのような問題は、高品質で十分に大きく、信頼性の高いデータソースが利用可能であっても、AIベースの発見プロセスに深刻な障害を与える可能性がある。 ここでは, 超伝導材料と熱電材料を2つの代表的なケーススタディとして, 偏りのある試料選択, 隠れ変数の可能性, 異種データ年代という3つの側面を考察した。 重要なことは、本質的なデータバイアスの存在を検知し、定量化できる最初の戦略を提案することである。

It stands to reason that the amount and the quality of big data is of key importance for setting up accurate AI-driven models. Nonetheless, we believe there are still critical roadblocks in the inherent generation of databases, that are often underestimated and poorly discussed in the literature. In our view, such issues can seriously hinder the AI-based discovery process, even when high quality, sufficiently large and highly reputable data sources are available. Here, considering superconducting and thermoelectric materials as two representative case studies, we specifically discuss three aspects, namely intrinsically biased sample selection, possible hidden variables, disparate data age. Importantly, to our knowledge, we suggest and test a first strategy capable of detecting and quantifying the presence of the intrinsic data bias.
翻訳日:2023-11-17 14:07:19 公開日:2023-11-16
# ヒト脳活動からの言語生成

Language Generation from Human Brain Activities ( http://arxiv.org/abs/2311.09889v1 )

ライセンス: Link先を確認
Ziyi Ye, Qingyao Ai, Yiqun Liu, Min Zhang, Christina Lioma, Tuukka Ruotsalo(参考訳) 非侵襲的脳-コンピュータインタフェース(BCI)による人間の言語の生成は、障害者に提供したりコミュニケーションを改善するなど、多くの応用を解き放つ可能性がある。 しかし、現在、bcisによる言語生成は、最も可能性の高い皮質意味表現を持つ前生成文継続候補を選択するための分類設定でのみ成功している。 脳と大規模計算言語モデルとの関係を明らかにする最近の研究に触発されて,意味的脳デコーダと組み合わせて,機能的磁気共鳴画像(fMRI)入力から言語を直接生成する,大規模言語モデル(LLM)のキャパシティを利用する生成言語BCIを提案する。 提案モデルは,事前生成した候補の事前知識を必要とせず,視覚刺激や聴覚刺激の意味的内容に整合したコヒーレントな言語系列を生成することができる。 提案したモデルから生成された言語を,ランダム制御,事前生成言語選択アプローチ,および標準LCMと比較し,統計的言語学習データに基づいて,次の単語の確率のみに基づいて共通コヒーレントテキストを生成する。 提案モデルでは,脳の入力がサンプリングされたときのセマンティック刺激とより整合した言語を生成する。 本研究は,直接言語生成におけるbcis活用の可能性と実現可能性を示す。

Generating human language through non-invasive brain-computer interfaces (BCIs) has the potential to unlock many applications, such as serving disabled patients and improving communication. Currently, however, generating language via BCIs has been previously successful only within a classification setup for selecting pre-generated sentence continuation candidates with the most likely cortical semantic representation. Inspired by recent research that revealed associations between the brain and the large computational language models, we propose a generative language BCI that utilizes the capacity of a large language model (LLM) jointly with a semantic brain decoder to directly generate language from functional magnetic resonance imaging (fMRI) input. The proposed model can generate coherent language sequences aligned with the semantic content of visual or auditory language stimuli perceived, without prior knowledge of any pre-generated candidates. We compare the language generated from the presented model with a random control, pre-generated language selection approach, and a standard LLM, which generates common coherent text solely based on the next word likelihood according to statistical language training data. The proposed model is found to generate language that is more aligned with semantic stimulus in response to which brain input is sampled. Our findings demonstrate the potential and feasibility of employing BCIs in direct language generation.
翻訳日:2023-11-17 14:07:04 公開日:2023-11-16
# ソフトウェアゲノムプロジェクト:オープンソースソフトウェアのゲノムパスへの取り組みとその応用

The Software Genome Project: Venture to the Genomic Pathways of Open Source Software and Its Applications ( http://arxiv.org/abs/2311.09881v1 )

ライセンス: Link先を確認
Yueming Wu, Chengwei Liu, Yang Liu(参考訳) 現代のソフトウェア開発のブームに伴い、オープンソースソフトウェアは様々な産業の不可欠な部分となり、コンピュータ科学の進歩を促している。 しかしながら、オープンソースエコシステムの複雑さと多様性は、品質、セキュリティ、管理、メンテナンス、コンプライアンス、持続可能性といった一連の課題も抱えています。 既存のオープンソースガバナンスアプローチは、コミュニティの構築とコラボレーションに優れていますが、分散管理、セキュリティ、メンテナンスにはまだ欠点があります。 これらの課題に対処するため、human genome projectに触発されて、ソフトウェアソースコードをソフトウェアdnaとして扱い、オープンソースソフトウェアのセキュアな監視と活用を目的とした \textbf{software genome project} を提案する。 統合されたコードと分類されたコードの機能を細かなレベルで識別し、異なる粒度で機能実装と非機能要件のセーフガードを効果的に識別することで、ソフトウェアゲノムプロジェクトは、開発者とマネージャがソフトウェアの複雑さと多様性をより深く理解できるように、ソフトウェアゲノムマップの完全なセットを構築します。 機能的かつ望ましくない遺伝子を解剖し要約することで、ソフトウェアゲノムプロジェクトは、ターゲットとするソフトウェア修復と最適化を促進し、ソフトウェアエコシステム全体の貴重な洞察と理解を提供し、技術選択やオープンソースガバナンスといった重要な開発タスクをサポートする。 このプロジェクトは、より効率的で信頼性が高く、持続可能なソフトウェアソリューションへのソフトウェア開発の進化を促進することが期待されている。

With the boom in modern software development, open-source software has become an integral part of various industries, driving progress in computer science. However, the immense complexity and diversity of the open-source ecosystem also pose a series of challenges, including issues of quality, security, management, maintenance, compliance, and sustainability. Existing open-source governance approaches, while excelling in community building and collaboration, still face shortcomings in decentralized management, security, and maintenance. To address these challenges, inspired by the Human Genome Project, we treat the software source code as software DNA and propose the \textbf{Software Genome Project}, which is geared towards the secure monitoring and exploitation of open-source software. By identifying and labeling integrated and classified code features at a fine-grained level, and effectively identifying safeguards for functional implementations and non-functional requirements at different levels of granularity, Software Genome Project builds a complete set of software genome maps to help developers and managers gain a deeper understanding of software complexity and diversity. By dissecting and summarizing functional and undesirable genes, Software Genome Project helps facilitate targeted software remediation and optimization, provides valuable insight and understanding of the entire software ecosystem, and supports critical development tasks such as technology selection and open source governance. This project is expected to drive the evolution of software development towards more efficient, reliable, and sustainable software solutions.
翻訳日:2023-11-17 14:06:41 公開日:2023-11-16
# モデル予測強化学習による内陸水路の安全を考慮した自律経路計画

Safety Aware Autonomous Path Planning Using Model Predictive Reinforcement Learning for Inland Waterways ( http://arxiv.org/abs/2311.09878v1 )

ライセンス: Link先を確認
Astrid Vanneste, Simon Vanneste, Olivier Vasseur, Robin Janssens, Mattias Billast, Ali Anwar, Kevin Mets, Tom De Schepper, Siegfried Mercelis, Peter Hellinckx(参考訳) 近年、都市水路における自律輸送への関心は、自動車やトラックを市中心部から遠ざける傾向から大きく高まっている。 Frenetフレームベースの計画や潜在的なフィールドナビゲーションのような古典的なアプローチは、多くの設定パラメータのチューニングを必要とし、時には状況に応じて異なる設定を必要とすることもある。 本稿では,モデル予測強化学習(MPRL)と呼ばれる強化学習に基づく新しい経路計画手法を提案する。 MPRLは、船が従うための一連のウェイポイントを計算する。 環境は占有域のグリッドマップとして表現され、水路の形や障害物の数や形を扱うことができます。 提案手法を2つのシナリオで実証し,Frenetフレームを用いた経路計画とPPOエージェントに基づく経路計画との比較を行った。 その結果,mprlは両方のテストシナリオにおいて,両方のベースラインよりも優れていた。 PPOベースのアプローチはどちらのシナリオでも目標に到達できなかったが、Frenetのフレームアプローチは障害のあるコーナーで構成されるシナリオで失敗した。 MPRLは、両方のテストシナリオで安全に(コリションフリーで)ゴールにナビゲートすることができた。

In recent years, interest in autonomous shipping in urban waterways has increased significantly due to the trend of keeping cars and trucks out of city centers. Classical approaches such as Frenet frame based planning and potential field navigation often require tuning of many configuration parameters and sometimes even require a different configuration depending on the situation. In this paper, we propose a novel path planning approach based on reinforcement learning called Model Predictive Reinforcement Learning (MPRL). MPRL calculates a series of waypoints for the vessel to follow. The environment is represented as an occupancy grid map, allowing us to deal with any shape of waterway and any number and shape of obstacles. We demonstrate our approach on two scenarios and compare the resulting path with path planning using a Frenet frame and path planning based on a proximal policy optimization (PPO) agent. Our results show that MPRL outperforms both baselines in both test scenarios. The PPO based approach was not able to reach the goal in either scenario while the Frenet frame approach failed in the scenario consisting of a corner with obstacles. MPRL was able to safely (collision free) navigate to the goal in both of the test scenarios.
翻訳日:2023-11-17 14:06:13 公開日:2023-11-16
# エンタングルメントとコヒーレンスの実験的仮想蒸留

Experimental virtual distillation of entanglement and coherence ( http://arxiv.org/abs/2311.09874v1 )

ライセンス: Link先を確認
Ting Zhang, Yukun Zhang, Lu Liu, Xiao-Xu Fang, Qian-Xi Zhang, Xiao Yuan, He Lu(参考訳) ノイズは一般に避けられず、実用的で有用な量子通信と計算に有害である。 資源理論の枠組みの下では、資源蒸留はノイズの影響を克服するための一般的なツールとして機能する。 しかし, 従来の蒸留プロトコルでは資源状態のマルチコピー操作が必要であり, 実用性を制限する強い制限が存在する。 近年, 資源蒸留の設定を緩和して, 量子状態の代わりに測定統計のみを近似させることにより, 資源フルーガープロトコル, 仮想資源蒸留を提案し, より効率的なノイズ資源の蒸留を可能にした。 本稿では, 量子コヒーレンス(次元4まで)の蒸留と二分位エンタングルメントのための4量子フォトニック量子系に対する実験的実装について報告する。 従来のコヒーレンス蒸留では不可能であった2次元状態から4次元の最大重ね合わせ状態の仮想蒸留を示す。 さらに、ノイズの多いEPRペアの1つのコピーにのみ作用する操作を伴うエンタングルメントの仮想蒸留を実証し、テレポートされた状態の忠実度を著しく向上した仮想蒸留されたEPRペアを用いて量子テレポーテーションタスクを示す。 これらの結果は, 仮想資源蒸留法の実現可能性を示し, ノイズの多い量子ハードウェアによる量子資源の正確な操作方法を明らかにする。

Noise is in general inevitable and detrimental to practical and useful quantum communication and computation. Under the resource theory framework, resource distillation serves as a generic tool to overcome the effect of noise. Yet, conventional resource distillation protocols generally require operations on multi-copies of resource states, and strong limitations exist that restrict their practical utilities. Recently, by relaxing the setting of resource distillation to only approximating the measurement statistics instead of the quantum state, a resource-frugal protocol, virtual resource distillation, is proposed, which allows more effective distillation of noisy resources. Here, we report its experimental implementation on a four-qubit photonic quantum system for the distillation of quantum coherence (up to dimension 4) and bipartite entanglement. We show the virtual distillation of the maximal superposed state of dimension four from the state of dimension two, an impossible task in conventional coherence distillation. Furthermore, we demonstrate the virtual distillation of entanglement with operations acting only on a single copy of the noisy EPR pair and showcase the quantum teleportation task using the virtually distilled EPR pair with a significantly improved fidelity of the teleported state. These results illustrate the feasibility of the virtual resource distillation method and pave the way for accurate manipulation of quantum resources with noisy quantum hardware.
翻訳日:2023-11-17 14:05:59 公開日:2023-11-16
# 三成分量子ステアリングの実験蒸留

Experimental distillation of tripartite quantum steering ( http://arxiv.org/abs/2311.09873v1 )

ライセンス: Link先を確認
Qian-Xi Zhang, Xiao-Xu Fang, He Lu(参考訳) multipartite einstein-podolsky-rosen (epr) ステアリングは、非キャラクタリゼーションの検証子の存在下でマルチパートの絡み合いを認め、半デバイス非依存のプロトコルで実用的な応用を可能にする。 このような応用は一般により強いステアビリティを必要とするが、避けられないノイズはステアビリティを弱め、量子情報処理の性能を低下させる。 本稿では,2つの半デバイス非依存のケース(一方のデバイス非依存のシナリオと両側のデバイス非依存のシナリオ)を3ビット一般化したグリーンベルガー・ホルン・ザイリンガー状態(Greenberger-Horne-Zeilinger state)の文脈において,本態性トリパルタイトEPRステアリングを2つのコピーから抽出する最適局所フィルタを提案する。 本発明の最適局所フィルタの進歩は、完全完全三部体ステアラーグによる高集合体フィデリティと、真の三部体ステアラーグを目撃する不平等の増大の観点から、蒸留アセンブラージュにより確認される。 本研究は, 初期アセンブリのコピー数が一般に有限である多部式EPRステアリングの蒸留に有効であることを示す。

Multipartite Einstein-Podolsky-Rosen (EPR) steering admits multipartite entanglement in the presence of uncharacterized verifiers, enabling practical applications in semi-device-independent protocols. Such applications generally require stronger steerability, while the unavoidable noise weakens steerability and consequently degrades the performance of quantum information processing. Here, we propose and demonstrate the optimal local filter operation to distill genuine tripartite EPR steering from two copies of weakly steerable assemblages in the context of two semi-device-independent cases -- one-sided device-independent scenario and two-sided device-independent scenario -- on three-qubit generalized Greenberger-Horne-Zeilinger states. The advance of the optimal local filter is confirmed by the distilled assemblage in terms of higher assemblage fidelity with perfectly genuine tripartite steerable assemblages, as well as the greater violation of the inequality to witness genuine tripartite steerable assemblages. Our results benefit the distillation of multipartite EPR steering in practice, where the number of copies of initial assemblages is generally finite.
翻訳日:2023-11-17 14:05:35 公開日:2023-11-16
# InterVENOR: 修復の対話的連鎖による大規模言語モデルの符号化能力向上

INTERVENOR: Prompt the Coding Ability of Large Language Models with the Interactive Chain of Repairing ( http://arxiv.org/abs/2311.09868v1 )

ライセンス: Link先を確認
Hanbin Wang, Zhenghao Liu, Shuo Wang, Ganqu Cui, Ning Ding, Zhiyuan Liu and Ge Yu(参考訳) 本稿では,人間のコード修復行動(反復的判断,再検討,修復)を模倣し,大規模言語モデル(llm)のコーディング能力を促進する対話型修復チェーン(intervenor)を提案する。 具体的には、2つのLLMベースのエージェントであるCode LearnerとCode Teacherを使って、コード修復の異なる役割を演じ、生成されたコードを修正するために対話的に作業する。 コード学習者は、コード教師からの指示に従ってコードの生成と修復を依頼される。 Code Teacherは、コンパイラからのフィードバックに応じてコードエラーを再考し、コードラーナーのコード修復プロセスをガイドするために繰り返し再ペアリング(CoR)を生成する。 実験の結果、intervenorは最先端のメソッドよりも優れており、コード生成とコード変換タスクにおいて、gpt-3.5モデルよりも約13%と4.5%改善されていることがわかった。 さらに分析した結果,CoRは自然言語によるバグの理由や解決計画に照らし出すことができることがわかった。 コードコンパイラのフィードバックのおかげで、intervenorはコードの構文エラーとアサーションエラーを正確に識別でき、コードを修正する正確な指示を提供することができる。 すべてのデータとコードはhttps://github.com/NEUIR/INTERVENORで入手できる。

This paper proposes INTERactiVE chaiN Of Repairing (INTERVENOR), which mimics human code repairing behavior (iteratively judging, rethinking, and repairing) and prompts the coding ability of regard Large Language Models (LLMs). Specifically, INTERVENOR employs two LLM based agents, Code Learner and Code Teacher, to play different roles in code repairing and work interactively to repair the generated codes. The Code Learner is asked to generate and repair code according to the instructions from the Code Teacher. The Code Teacher rethinks the code errors according to the corresponding feedback from compilers and iteratively generates the chain-of-repairing (CoR) to guide the code repairing process for Code Learner. Our experiments show that INTERVENOR outperforms the state-of-the-art methods and achieves about 13% and 4.5% improvements over the GPT-3.5 model in code generation and code translation tasks, respectively. Our further analyses show that CoR can illuminate the bug reasons and solution plans via natural language. Thanks to the feedback of code compilers, INTERVENOR can accurately identify the syntax errors and assertion errors in the code and provide precise instructions to repair codes, making LLMs achieve the plateau performance with only three repairing turns. All data and codes are available at https://github.com/NEUIR/INTERVENOR
翻訳日:2023-11-17 14:05:06 公開日:2023-11-16
# テキスト、モチーフ、イメージなど、どのモードを使うべきか? 大規模言語モデルによるグラフ理解

Which Modality should I use -- Text, Motif, or Image? : Understanding Graphs with Large Language Models ( http://arxiv.org/abs/2311.09862v1 )

ライセンス: Link先を確認
Debarati Das, Ishaan Gupta, Jaideep Srivastava, Dongyeop Kang(参考訳) 大規模言語モデル(LLM)は、コンテキスト認識インテリジェンスに大規模なテキストコーパスを活用することで、様々な分野に革命をもたらしている。 しかし、文脈サイズのため、LLMでグラフ全体を符号化することは基本的に制限される。 本稿では,LLM とグラフデータをよりよく統合する方法を考察し,複雑なグラフ構造を扱う上で LLM の有効性を高めるために,様々な符号化法(テキスト,画像,モチーフ)を用いてグラフのグローバル接続を近似する手法を提案する。 また、グラフ構造解析においてLLMを評価するための新しいベンチマークであるGraphTMIも導入され、ホモフィリー、モチーフ存在、グラフの難しさなどの要因に焦点を当てている。 GPT-4Vのような高度な視覚言語モデルでサポートされている画像のモダリティは、重要な情報を保持しながらトークン制限を管理する上で、テキストよりも効果的である。 また,各符号化性能に及ぼす異なる因子の影響についても検討した。 本研究は、グラフ理解および推論タスクにおけるLLMの現在の限界と今後の方向性を示す。

Large language models (LLMs) are revolutionizing various fields by leveraging large text corpora for context-aware intelligence. Due to the context size, however, encoding an entire graph with LLMs is fundamentally limited. This paper explores how to better integrate graph data with LLMs and presents a novel approach using various encoding modalities (e.g., text, image, and motif) and approximation of global connectivity of a graph using different prompting methods to enhance LLMs' effectiveness in handling complex graph structures. The study also introduces GraphTMI, a new benchmark for evaluating LLMs in graph structure analysis, focusing on factors such as homophily, motif presence, and graph difficulty. Key findings reveal that image modality, supported by advanced vision-language models like GPT-4V, is more effective than text in managing token limits while retaining critical information. The research also examines the influence of different factors on each encoding modality's performance. This study highlights the current limitations and charts future directions for LLMs in graph understanding and reasoning tasks.
翻訳日:2023-11-17 14:04:39 公開日:2023-11-16
# psybench: 基礎モデルのバランスと深い心理学的中国評価ベンチマーク

PsyBench: a balanced and in-depth Psychological Chinese Evaluation Benchmark for Foundation Models ( http://arxiv.org/abs/2311.09861v1 )

ライセンス: Link先を確認
Junlei Zhang, Hongliang He, Nirui Song, Shuyuan He, \\Shuai Zhang, Huachuan Qiu, Anqi Li, Lizhi Ma, Zhenzhong Lan(参考訳) 大規模言語モデル(llm)は様々な分野で普及しているため、個々の分野に必要な知識をすべて包含するnlpベンチマークの改善が急務である。 基礎モデルのための多くの現代のベンチマークは幅広い主題を強調するが、すべての重要な主題を提示し、それらに必要な専門知識を包含するのに不足することが多い。 この欠点は、llmが異なる主題と知識領域で様々なパフォーマンスを示すことから、歪んだ結果に繋がった。 この問題に対処するため、中国初の総合的な評価スイートであるpsybenchを紹介し、卒業試験に必要な知識をすべて網羅する。 psybenchは、複数の選択の質問を通じて、モデルの強みと心理学の弱点を深く評価する。 本研究は,被験者の異なるセクションにおける性能の有意な差を示し,テストセットの知識のバランスが取れない場合の歪んだ結果のリスクを浮き彫りにした。 注目すべきなのは、chatgptモデルのみが平均で$70\%$を超える精度に達していることだ。 我々は, Psybench が基礎モデルの強みと弱みの徹底的な評価に役立ち, 心理学の分野での実践的応用を支援することを期待する。

As Large Language Models (LLMs) are becoming prevalent in various fields, there is an urgent need for improved NLP benchmarks that encompass all the necessary knowledge of individual discipline. Many contemporary benchmarks for foundational models emphasize a broad range of subjects but often fall short in presenting all the critical subjects and encompassing necessary professional knowledge of them. This shortfall has led to skewed results, given that LLMs exhibit varying performance across different subjects and knowledge areas. To address this issue, we present psybench, the first comprehensive Chinese evaluation suite that covers all the necessary knowledge required for graduate entrance exams. psybench offers a deep evaluation of a model's strengths and weaknesses in psychology through multiple-choice questions. Our findings show significant differences in performance across different sections of a subject, highlighting the risk of skewed results when the knowledge in test sets is not balanced. Notably, only the ChatGPT model reaches an average accuracy above $70\%$, indicating that there is still plenty of room for improvement. We expect that psybench will help to conduct thorough evaluations of base models' strengths and weaknesses and assist in practical application in the field of psychology.
翻訳日:2023-11-17 14:04:20 公開日:2023-11-16
# GSAP-NER: 機械学習モデルとデータセットに着目した学習エンティティ抽出のための新しいタスク、コーパス、ベースライン

GSAP-NER: A Novel Task, Corpus, and Baseline for Scholarly Entity Extraction Focused on Machine Learning Models and Datasets ( http://arxiv.org/abs/2311.09860v1 )

ライセンス: Link先を確認
Wolfgang Otto, Matth\"aus Zloch, Lu Gan, Saurav Karmakar, and Stefan Dietze(参考訳) 名前付きエンティティ認識(NER)モデルは、情報抽出(IE)やテキスト理解など、様々なNLPタスクにおいて重要な役割を果たす。 学術的な執筆において、機械学習モデルとデータセットへの参照は、様々なコンピュータサイエンス出版物の基本的な構成要素であり、識別のために正確なモデルを必要とする。 NERの進歩にもかかわらず、既存の基底真理データセットはMLモデルやモデルアーキテクチャのようなきめ細かい型を別々のエンティティタイプとして扱いません。 本稿では,100の注釈付き全文科学出版物のコーパスと,mlモデルとデータセットを中心とした10のエンティティタイプのための最初のベースラインモデルについて述べる。 MLモデルとデータセットの言及と利用方法に関する微妙な理解を提供するため、私たちのデータセットには、"our BERT-based model"や"a image CNN"といった非公式な言及のためのアノテーションも含まれています。 基礎となる真理データセットとコードはhttps://data.gesis.org/gsap/gsap-ner.orgで再現できる。

Named Entity Recognition (NER) models play a crucial role in various NLP tasks, including information extraction (IE) and text understanding. In academic writing, references to machine learning models and datasets are fundamental components of various computer science publications and necessitate accurate models for identification. Despite the advancements in NER, existing ground truth datasets do not treat fine-grained types like ML model and model architecture as separate entity types, and consequently, baseline models cannot recognize them as such. In this paper, we release a corpus of 100 manually annotated full-text scientific publications and a first baseline model for 10 entity types centered around ML models and datasets. In order to provide a nuanced understanding of how ML models and datasets are mentioned and utilized, our dataset also contains annotations for informal mentions like "our BERT-based model" or "an image CNN". You can find the ground truth dataset and code to replicate model training at https://data.gesis.org/gsap/gsap-ner.
翻訳日:2023-11-17 14:03:58 公開日:2023-11-16
# 円錐形状を持つ半導体量子環の電子的性質、磁化、持続電流に対する異方性有効質量の影響に関する研究

Study on the effects of anisotropic effective mass on electronic properties, magnetization and persistent current in semiconductor quantum ring with conical geometry ( http://arxiv.org/abs/2311.09859v1 )

ライセンス: Link先を確認
Francisco A. G. de Lira, Lu\'is Fernando C. Pereira, Edilberto O. Silva(参考訳) 表面量子閉じ込め効果を考慮した異方性有効質量を持つ2次元メソスコピックリングについて検討した。 この環は円錐面上で定義され、位相的に制御され、平坦空間の2次元環に写像できる。 数値解析により, 量子閉じ込めと非等方性質量により, 電子特性, 磁化, 永続電流が大きく変化することを示した。 直接バンドギャップ半導体SiC,ZnO,GaN,AlNにおけるこれらの変化について検討した。 エネルギーサブバンドには曲率パラメータと異方性の異なる値に対するプラス(またはマイナス)シフトが存在する。 この性質はフェルミエネルギープロファイルでも磁場の関数として、リング幅では曲率パラメータの関数として見ることができる。 Aharonov-Bohm (AB) と De Haas van-Alphen (dHvA) の振動も研究され、曲率や異方性の変化に敏感であることが判明した。

We study a 2D mesoscopic ring with an anisotropic effective mass considering surface quantum confinement effects. Consider that the ring is defined on the surface of a cone, which can be controlled topologically and mapped to the 2D ring in flat space. We demonstrate through numerical analysis that the electronic properties, the magnetization, and the persistent current undergo significant changes due to quantum confinement and non-isotropic mass. We investigate these changes in the direct band gap semiconductors SiC, ZnO, GaN, and AlN. There is a plus (or minus) shift in the energy sub-bands for different values of curvature parameter and anisotropy. Manifestations of this nature are also seen in the Fermi energy profile as a function of the magnetic field and in the ring width as a function of the curvature parameter. Aharonov-Bohm (AB) and de Haas van-Alphen (dHvA) oscillations are also studied, and we find that they are sensitive to variations in curvature and anisotropy.
翻訳日:2023-11-17 14:03:35 公開日:2023-11-16
# 強利得ティケット構造を有する多項性過パラメータ畳み込みニューラルネットワーク

Polynomially Over-Parameterized Convolutional Neural Networks Contain Structured Strong Winning Lottery Tickets ( http://arxiv.org/abs/2311.09858v1 )

ライセンス: Link先を確認
Arthur da Cunha, Francesco d'Amore, Emanuele Natale(参考訳) strong lottery ticket hypothesis (slth) では、ランダムに初期化されたニューラルネットワークには、トレーニングなしでうまく機能するサブネットワークが含まれている可能性がある。 非構造化プルーニングはこの文脈で広範囲に研究されてきたが、計算とメモリ効率の大幅な向上をもたらす構造的プルーニングは、ほとんど研究されていない。 このギャップの主な原因の1つは、SLTHの形式解析に使用される基礎となる数学的ツールの限界である。 本稿では, ランダム・サブセット・サム問題の多次元一般化における最近の進歩を活用し, SLTHにおける構造的プルーニングに対処する際に生じる確率的依存関係を認める変種を求める。 この結果は、幅広い種類のランダム畳み込みニューラルネットワークに対して、十分に小さなネットワークを近似できる構造化サブネットワークの存在を証明するために応用する。 この結果は、構造化プルーニングのためのSLTH周辺の最初の部分指数境界を提供し、仮説のさらなる研究のための新たな道を開き、深層学習における過度パラメータ化の役割の理解に寄与する。

The Strong Lottery Ticket Hypothesis (SLTH) states that randomly-initialised neural networks likely contain subnetworks that perform well without any training. Although unstructured pruning has been extensively studied in this context, its structured counterpart, which can deliver significant computational and memory efficiency gains, has been largely unexplored. One of the main reasons for this gap is the limitations of the underlying mathematical tools used in formal analyses of the SLTH. In this paper, we overcome these limitations: we leverage recent advances in the multidimensional generalisation of the Random Subset-Sum Problem and obtain a variant that admits the stochastic dependencies that arise when addressing structured pruning in the SLTH. We apply this result to prove, for a wide class of random Convolutional Neural Networks, the existence of structured subnetworks that can approximate any sufficiently smaller network. This result provides the first sub-exponential bound around the SLTH for structured pruning, opening up new avenues for further research on the hypothesis and contributing to the understanding of the role of over-parameterization in deep learning.
翻訳日:2023-11-17 14:03:15 公開日:2023-11-16
# 特異磁気schr\"{o}dinger演算子の不足指数

Deficiency indices for singular magnetic Schr\"{o}dinger operators ( http://arxiv.org/abs/2311.09987v1 )

ライセンス: Link先を確認
Michele Correggi, Davide Fermi(参考訳) 局所特異点を持つ磁気シュレーディンガー作用素の不足指数は、それぞれ1つの特異点を持つ作用素の不足指数を用いて計算できることを示した。 物理的に関係のある演算子に対するいくつかの応用について論じる。

We show that the deficiency indices of magnetic Schr\"odinger operators with several local singularities can be computed in terms of the deficiency indices of operators carrying just one singularity each. We discuss some applications to physically relevant operators.
翻訳日:2023-11-17 13:55:26 公開日:2023-11-16
# VertDetect: 完全エンドツーエンドの3次元インスタンス分割モデル

VertDetect: Fully End-to-End 3D Vertebral Instance Segmentation Model ( http://arxiv.org/abs/2311.09958v1 )

ライセンス: Link先を確認
Geoff Klein, Michael Hardisty, Cari Whyne, Anne L. Martel(参考訳) 脊椎手術および放射線治療における治療計画のための脳波検出とセグメンテーションが重要である。 正確な識別とセグメンテーションは、解剖学(T13および/またはL6椎骨)の変異がある場合や、骨折やハードウェアの存在下では、全脊椎を含まない画像において複雑である。 本稿では,完全自動化された3d vertebral instance segmentation convolutional neural network (cnn) モデルであるvertdetectを提案する。 共有CNNバックボーンの利用は、脊髄と脊椎の両方の情報を含む特徴マップを備えたネットワークの検出とセグメンテーションのブランチを提供する。 既知の脊椎の構造を用いて椎体ラベルリングを改善するために、グラフ畳み込みネットワーク(gcn)層を用いる。 このモデルは、VerSe 2019では0.883(95% CI、0.843-0.906)、0.882(95% CI、0.835-0.909)、VerSe 2020では0.868(95\% CI、0.834-0.890)、0.869(95\% CI、0.832-0.891)のDice similarity Coefficient(DSC)を達成した。 このモデルは、エンド・ツー・エンドのアーキテクチャで最先端のパフォーマンスを達成し、その設計は、その後下流のタスクに使用できる機能の抽出を容易にする。

Vertebral detection and segmentation are critical steps for treatment planning in spine surgery and radiation therapy. Accurate identification and segmentation are complicated in imaging that does not include the full spine, in cases with variations in anatomy (T13 and/or L6 vertebrae), and in the presence of fracture or hardware. This paper proposes VertDetect, a fully automated end-to-end 3D vertebral instance segmentation Convolutional Neural Network (CNN) model to predict vertebral level labels and segmentations for all vertebrae present in a CT scan. The utilization of a shared CNN backbone provides the detection and segmentation branches of the network with feature maps containing both spinal and vertebral level information. A Graph Convolutional Network (GCN) layer is used to improve vertebral labelling by using the known structure of the spine. This model achieved a Dice Similarity Coefficient (DSC) of 0.883 (95% CI, 0.843-0.906) and 0.882 (95% CI, 0.835-0.909) in the VerSe 2019 and 0.868 (95\% CI, 0.834-0.890) and 0.869 (95\% CI, 0.832-0.891) in the VerSe 2020 public and hidden test sets, respectively. This model achieved state-of-the-art performance for an end-to-end architecture, whose design facilitates the extraction of features that can be subsequently used for downstream tasks.
翻訳日:2023-11-17 13:55:22 公開日:2023-11-16
# スコアベース生成モデルは制約混合による多様体様構造を学習する

Score-based generative models learn manifold-like structures with constrained mixing ( http://arxiv.org/abs/2311.09952v1 )

ライセンス: Link先を確認
Li Kevin Wenliang, Ben Moran(参考訳) スコアベース生成モデル(SBM)は低次元多様体上でのデータ分布をどうやって学習するか? 局所的特徴ベクトルによる線形近似と部分空間による訓練SBMのスコアモデルについて検討する。 拡散の間、ノイズが減少するにつれて、局所的な次元は増大し、異なるサンプルシーケンス間でより変化する。 重要なことに、学習されたベクトル場は多様体内の非保存場によってサンプルを混合するが、通常の射影はオフ多様体の方向にエネルギー関数が存在するかのように記述する。 各ノイズレベルにおいて、局所的な特徴にまたがる部分空間は、有効密度関数と重なり合う。 これらの結果から,SBMはデータ分布の多様体的構造を注意深く維持しつつ,サンプルと学習スコア場を柔軟に混合できることが示唆された。

How do score-based generative models (SBMs) learn the data distribution supported on a low-dimensional manifold? We investigate the score model of a trained SBM through its linear approximations and subspaces spanned by local feature vectors. During diffusion as the noise decreases, the local dimensionality increases and becomes more varied between different sample sequences. Importantly, we find that the learned vector field mixes samples by a non-conservative field within the manifold, although it denoises with normal projections as if there is an energy function in off-manifold directions. At each noise level, the subspace spanned by the local features overlap with an effective density function. These observations suggest that SBMs can flexibly mix samples with the learned score field while carefully maintaining a manifold-like structure of the data distribution.
翻訳日:2023-11-17 13:54:48 公開日:2023-11-16
# 敵対的文脈学習による大規模言語モデルのハイジャック

Hijacking Large Language Models via Adversarial In-Context Learning ( http://arxiv.org/abs/2311.09948v1 )

ライセンス: Link先を確認
Yao Qiang and Xiangyu Zhou and Dongxiao Zhu(参考訳) In-context Learning(ICL)は、ラベル付き例をプレコンディションプロンプトのデモとして活用することで、特定のタスクにLLMを活用する強力なパラダイムとして登場した。 有望なパフォーマンスにもかかわらず、iclはサンプルの選択と配置の不安定さに苦しんでいる。 さらに、対人攻撃はICLの堅牢性に顕著な脅威をもたらす。 しかし、既存の攻撃は検出しやすいか、外部モデルに依存するか、iclに対する特異性を欠いている。 これらの問題に対処するため、本研究では、ターゲットとする応答を生成するためにllmをハイジャックすることを目的とした、新しいiclの転送可能攻撃を導入する。 提案したLSMハイジャック攻撃は、インコンテクストのデモに知覚不可能な逆接接尾辞を学習し、付加するために勾配に基づくプロンプトサーチ手法を利用する。 様々なタスクやデータセットに関する広範囲な実験結果から,llmハイジャック攻撃の有効性が示され,敵トークンに対する注意をそそる結果となり,対象とする望ましくないアウトプットが得られた。

In-context learning (ICL) has emerged as a powerful paradigm leveraging LLMs for specific tasks by utilizing labeled examples as demonstrations in the precondition prompts. Despite its promising performance, ICL suffers from instability with the choice and arrangement of examples. Additionally, crafted adversarial attacks pose a notable threat to the robustness of ICL. However, existing attacks are either easy to detect, rely on external models, or lack specificity towards ICL. To address these issues, this work introduces a novel transferable attack for ICL, aiming to hijack LLMs to generate the targeted response. The proposed LLM hijacking attack leverages a gradient-based prompt search method to learn and append imperceptible adversarial suffixes to the in-context demonstrations. Extensive experimental results on various tasks and datasets demonstrate the effectiveness of our LLM hijacking attack, resulting in a distracted attention towards adversarial tokens, consequently leading to the targeted unwanted outputs.
翻訳日:2023-11-17 13:54:37 公開日:2023-11-16
# 衛星画像とソーシャルメディアデータを用いた災害対応状況の自然災害解析

Natural Disaster Analysis using Satellite Imagery and Social-Media Data for Emergency Response Situations ( http://arxiv.org/abs/2311.09947v1 )

ライセンス: Link先を確認
Sukeerthi Mandyam, Shanmuga Priya MG, Shalini Suresh and Kavitha Srinivasan(参考訳) 災害管理は、経済的、環境的、社会的な影響が大きいため、最も有望な研究分野の1つである。 本研究は,災害管理に関連する各種データ(プレ・ポスト・サテライト画像およびtwitterデータ)を分析し,位置対応緊急要件の詳細な分析を行う。 本研究は,衛星画像解析とtwitterデータ解析の2段階に分け,位置情報を用いた統合を行った。 第1段階では、U-Netアーキテクチャに基づく多クラス土地被覆分割技術を用いて、災害前の衛星画像解析を行う。 第2段階は、災害状況と救援活動の即時要件に関する重要な情報で地域をマッピングすることに焦点を当てている。 深刻な影響を受けた地域を区切り、その場所のキーワードを用いてTwitterデータを抽出する。 大量の生ツイートから状況情報を抽出するために、Content Wordベースのつぶやき要約(COWTS)技術を採用している。 実時間位置対応マッピングと周波数解析を用いてこれらのモジュールを統合することで,ケララ洪水やミシシッピ洪水などの災害発生時の多次元情報を収集し,テストケースとして検証した。 本研究の目新しさは,強調された土地被覆変化を用いた災害救助のための分断衛星画像の適用と,これら地域固有のフィルタのマッピングによるtwitterデータの統合による災害の概要把握にある。

Disaster Management is one of the most promising research areas because of its significant economic, environmental and social repercussions. This research focuses on analyzing different types of data (pre and post satellite images and twitter data) related to disaster management for in-depth analysis of location-wise emergency requirements. This research has been divided into two stages, namely, satellite image analysis and twitter data analysis followed by integration using location. The first stage involves pre and post disaster satellite image analysis of the location using multi-class land cover segmentation technique based on U-Net architecture. The second stage focuses on mapping the region with essential information about the disaster situation and immediate requirements for relief operations. The severely affected regions are demarcated and twitter data is extracted using keywords respective to that location. The extraction of situational information from a large corpus of raw tweets adopts Content Word based Tweet Summarization (COWTS) technique. An integration of these modules using real-time location-based mapping and frequency analysis technique gathers multi-dimensional information in the advent of disaster occurrence such as the Kerala and Mississippi floods that were analyzed and validated as test cases. The novelty of this research lies in the application of segmented satellite images for disaster relief using highlighted land cover changes and integration of twitter data by mapping these region-specific filters for obtaining a complete overview of the disaster.
翻訳日:2023-11-17 13:54:19 公開日:2023-11-16
# ソーシャルメディアテキストにおけるパーソナリティ検出のための注意に基づく弁別フレームワーク

An Attention-Based Denoising Framework for Personality Detection in Social Media Texts ( http://arxiv.org/abs/2311.09945v1 )

ライセンス: Link先を確認
Qirui Tang, Wenkang Jiang, Yihua Du, Lei Lin(参考訳) ソーシャルメディアでは、ユーザーはいつでも大量のテキストコンテンツを生成し、研究者にパーソナリティ関連の情報を掘り出すための貴重なアプローチを提供する。 ユーザ生成テキストに基づくパーソナリティ検出は、ユーザのポートレート構築に使用できる普遍的な方法である。 ソーシャルメディアにおける雑音の存在はパーソナリティ検出を阻害する。 しかし、これまでの研究はこの課題に完全には対処していない。 そこで本研究では,本手法に着想を得た長文に対する注意に基づく情報抽出機構(aiem)を提案する。 そこで本研究では, パーソナリティ検出タスクのための新しい注意に基づく分別フレームワーク(adf)を提供し, 一般的な2つのデータセット上での最先端性能を実現する。 特に、金の標準Twitter-Myers-Briggs Type Indicator (Twitter-MBTI)データセットで平均精度が10.2%向上した。 私たちはコードをgithubで公開しました。 aiemがパーソナリティ関連のシグナルを拡大させる方法に光を当てた。

In social media networks, users produce a large amount of text content anytime, providing researchers with a valuable approach to digging for personality-related information. Personality detection based on user-generated texts is a universal method that can be used to build user portraits. The presence of noise in social media texts hinders personality detection. However, previous studies have not fully addressed this challenge. Inspired by the scanning reading technique, we propose an attention-based information extraction mechanism (AIEM) for long texts, which is applied to quickly locate valuable pieces of information, and focus more attention on the deep semantics of key pieces. Then, we provide a novel attention-based denoising framework (ADF) for personality detection tasks and achieve state-of-the-art performance on two commonly used datasets. Notably, we obtain an average accuracy improvement of 10.2% on the gold standard Twitter-Myers-Briggs Type Indicator (Twitter-MBTI) dataset. We made our code publicly available on GitHub. We shed light on how AIEM works to magnify personality-related signals.
翻訳日:2023-11-17 13:53:59 公開日:2023-11-16
# Harnessing Transformers: 肺癌画像診断の飛躍

Harnessing Transformers: A Leap Forward in Lung Cancer Image Detection ( http://arxiv.org/abs/2311.09942v1 )

ライセンス: Link先を確認
Amine Bechar, Youssef Elmir, Rafik Medjoudj, Yassine Himeur and Abbes Amira(参考訳) 本稿では,画像解析に基づくがん検出におけるトランスファーラーニング(TL)とトランスフォーマーの役割について論じる。 がん患者の大きな進化とともに、患者の体内におけるがん細胞の同定は、人工知能(AI)分野のトレンドとして現れている。 このプロセスでは、CTスキャンやMRIなどの医療画像を分析して、がん検出に役立つ異常な成長を特定する。 TLのようながん分類と検出の質と性能を改善するために多くの技術や手法が実現され、同じタスクやドメインであるタスクから別のタスクに知識を移すことができる。 tlは、imagenetデータセットでトレーニングされたトランスフォーマーや畳み込みニューラルネットワーク(cnn)モデルなど、画像解析で使用される多くの手法を包含する。 本稿では, 画像解析に基づいて各TL法を解析, 評価し, 比較した結果, 大腸癌検診では97.41%, 病理組織学的肺癌では94.71%の精度でトランスフォーマーが最善であることがわかった。 画像解析に基づくがん検出の今後の方向性についても論じる。

This paper discusses the role of Transfer Learning (TL) and transformers in cancer detection based on image analysis. With the enormous evolution of cancer patients, the identification of cancer cells in a patient's body has emerged as a trend in the field of Artificial Intelligence (AI). This process involves analyzing medical images, such as Computed Tomography (CT) scans and Magnetic Resonance Imaging (MRIs), to identify abnormal growths that may help in cancer detection. Many techniques and methods have been realized to improve the quality and performance of cancer classification and detection, such as TL, which allows the transfer of knowledge from one task to another with the same task or domain. TL englobes many methods, particularly those used in image analysis, such as transformers and Convolutional Neural Network (CNN) models trained on the ImageNet dataset. This paper analyzes and criticizes each method of TL based on image analysis and compares the results of each method, showing that transformers have achieved the best results with an accuracy of 97.41% for colon cancer detection and 94.71% for Histopathological Lung cancer. Future directions for cancer detection based on image analysis are also discussed.
翻訳日:2023-11-17 13:53:43 公開日:2023-11-16
# RED-DOT:関連証拠検出によるマルチモーダルファクトチェック

RED-DOT: Multimodal Fact-checking via Relevant Evidence Detection ( http://arxiv.org/abs/2311.09939v1 )

ライセンス: Link先を確認
Stefanos-Iordanis Papadopoulos, Christos Koutlis, Symeon Papadopoulos, Panagiotis C. Petrantonakis(参考訳) オンライン誤報は、本質的には多様であり、テキストと付随する画像の誤認によって引き起こされる。 ファクトチェックプロセスをサポートするために、研究者は、最近、検査中の画像テキストペアに関連する外部情報、証拠を収集、分析する自動マルチモーダル手法を開発した。 しかし、以前の研究はすべての収集された証拠が関連していると仮定していた。 本研究では,各証拠が関連しているかを判断し,その主張を支持するか,あるいは反論する「関連証拠検出(red)」モジュールを導入する。 具体的には、関連エビデンス検出指向変換器(RED-DOT)を開発し、複数のアーキテクチャのバリエーション(例:シングルまたはダブルステージ)とメカニズム(例:「誘導注意」)を探索する。 大規模なアブレーションと比較実験により、RED-DOTはVERITEベンチマークの最先端よりも28.5%向上した。 さらに,我々のエビデンスでは,多数のエビデンスや複数のバックボーンエンコーダを必要とせずに,RED-DOTの競争力向上,さらにNewsCLIPings+の性能向上を実現した。 最後に,質的分析により,提案する"ガイドド・アテンション"モジュールが,アーキテクチャの解釈可能性を高める可能性を証明した。 コードはhttps://github.com/stevejpapad/relevant-evidence-detectionでリリースします。

Online misinformation is often multimodal in nature, i.e., it is caused by misleading associations between texts and accompanying images. To support the fact-checking process, researchers have been recently developing automatic multimodal methods that gather and analyze external information, evidence, related to the image-text pairs under examination. However, prior works assumed all collected evidence to be relevant. In this study, we introduce a "Relevant Evidence Detection" (RED) module to discern whether each piece of evidence is relevant, to support or refute the claim. Specifically, we develop the "Relevant Evidence Detection Directed Transformer" (RED-DOT) and explore multiple architectural variants (e.g., single or dual-stage) and mechanisms (e.g., "guided attention"). Extensive ablation and comparative experiments demonstrate that RED-DOT achieves significant improvements over the state-of-the-art on the VERITE benchmark by up to 28.5%. Furthermore, our evidence re-ranking and element-wise modality fusion led to RED-DOT achieving competitive and even improved performance on NewsCLIPings+, without the need for numerous evidence or multiple backbone encoders. Finally, our qualitative analysis demonstrates that the proposed "guided attention" module has the potential to enhance the architecture's interpretability. We release our code at: https://github.com/stevejpapad/relevant-evidence-detection
翻訳日:2023-11-17 13:53:25 公開日:2023-11-16
# ロシア・ウクライナ戦争におけるエコーチェンバー : バイパルチザンの利用者の役割

Echo Chambers within the Russo-Ukrainian War: The Role of Bipartisan Users ( http://arxiv.org/abs/2311.09934v1 )

ライセンス: Link先を確認
Peixian Zhang, Ehsan-Ul Haq, Yiming Zhu, Pan Hui, and Gareth Tyson(参考訳) ロシアとウクライナの戦争はソーシャルメディアで広く議論されている。 このような議論でよく見られる問題は、echo chambersの出現である。 このトピックに関する以前の文献では、このようなユーザは単一の一貫したビューを持っていると仮定されている。 しかし、近年の研究では、複雑な話題(戦争など)が特定の人々の間で二党制を引き起こすことがしばしばあることが明らかになっている。 これを踏まえて、ロシア・ウクライナ戦争に関連するTwitter上のエコーチャンバーの存在を調査する。 我々は、その存在を測定し、侵略時に意見を変えるバイパルチザンユーザーの重要なサブセットを特定する。 コミュニケーショングラフにおいてそれらが果たす役割を探求し、残りのユーザと区別する特徴を識別する。 最後に、彼らの重要性と、戦争を取り巻く談話の質をいかに改善できるかについて論じる。

The ongoing Russia-Ukraine war has been extensively discussed on social media. One commonly observed problem in such discussions is the emergence of echo chambers, where users are rarely exposed to opinions outside their worldview. Prior literature on this topic has assumed that such users hold a single consistent view. However, recent work has revealed that complex topics (such as the war) often trigger bipartisanship among certain people. With this in mind, we study the presence of echo chambers on Twitter related to the Russo-Ukrainian war. We measure their presence and identify an important subset of bipartisan users who vary their opinions during the invasion. We explore the role they play in the communications graph and identify features that distinguish them from remaining users. We conclude by discussing their importance and how they can improve the quality of discourse surrounding the war.
翻訳日:2023-11-17 13:52:59 公開日:2023-11-16
# 日和見ルーティングによるエネルギー収穫ノードを用いた通信gscシステム

The Communication GSC System with Energy Harvesting Nodes aided by Opportunistic Routing ( http://arxiv.org/abs/2311.09932v1 )

ライセンス: Link先を確認
Hanyu Liu, Lei Teng, Wannian An, Xiaoqi Qin, Chen Dong and Xiaodong Xu(参考訳) 本稿では,エネルギーハーベスティング(EH)デコード・アンド・フォワード(DF)リレーに基づく協調通信ネットワークを提案する。 リレーノードの場合、このシステムにはHSU構造がある。 そして、エネルギーバッファリングによって周囲の環境からエネルギーを得ることができる。 通信システムの性能を向上させるため、この通信システムでは、日和見的ルーティングアルゴリズムと一般化選択結合(gsc)アルゴリズムが採用されている。 さらに、離散時間連続状態空間マルコフ連鎖モデル(DCSMC)から、無限バッファに格納されたエネルギー制限分布の理論式を導出する。 確率分布と状態遷移行列を用いて、パケット当たりのシステム停止確率、スループット、時間コストの理論式を求める。 シミュレーション検証により,理論結果はシミュレーション結果とよく一致している。

In this paper, a cooperative communication network based on energy-harvesting (EH) decode-and-forward (DF) relays is proposed. For relay nodes, there is harvest-storage-use (HSU) structure in this system. And energy can be obtained from the surrounding environment through energy buffering. In order to improve the performance of the communication system, the opportunistic routing algorithm and the generalized selection combining (GSC) algorithm are adopted in this communication system. In addition, from discrete-time continuous-state space Markov chain model (DCSMC), a theoretical expression of the energy limiting distribution stored in infinite buffers is derived. Through using the probability distribution and state transition matrix, the theoretical expressions of system outage probability, throughput and time cost of per packet are obtained. Through the simulation verification, the theoretical results are in good agreement with the simulation results.
翻訳日:2023-11-17 13:52:48 公開日:2023-11-16
# 実世界のアプリケーションにおける言語モデルの監視と再トレーニングのためのフレームワーク

A Framework for Monitoring and Retraining Language Models in Real-World Applications ( http://arxiv.org/abs/2311.09930v1 )

ライセンス: Link先を確認
Jaykumar Kasundra, Claudia Schulz, Melicaalsadat Mirsafian, Stavroula Skylaki(参考訳) 機械学習(ML)モデル開発ライフサイクルでは、オフラインのホールトアウトデータセットを使用して候補モデルをトレーニングし、与えられたタスクに最適なモデルを特定することが、第一歩に過ぎない。 選択されたモデルがデプロイされた後、多くの現実世界のアプリケーションで継続的モデル監視とモデル再トレーニングが必要とされる。 データやコンセプトドリフトなどの再トレーニングにはさまざまな理由があり、適切なメトリックによって監視されるモデルのパフォーマンスに反映される可能性がある。 もうひとつのリトレーニングの動機は、ドリフトがなくてもモデルパフォーマンスをトレーニングし改善するために使用される、時間とともに増加するデータの取得である。 マルチラベル分類モデルを用いて, モデル性能や資源利用などの重要な要因に対する各種リトレーニング決定点の影響について検討する。 重要な決定ポイントを説明し、効果的なモデル再訓練戦略を設計するための参照フレームワークを提案する。

In the Machine Learning (ML) model development lifecycle, training candidate models using an offline holdout dataset and identifying the best model for the given task is only the first step. After the deployment of the selected model, continuous model monitoring and model retraining is required in many real-world applications. There are multiple reasons for retraining, including data or concept drift, which may be reflected on the model performance as monitored by an appropriate metric. Another motivation for retraining is the acquisition of increasing amounts of data over time, which may be used to retrain and improve the model performance even in the absence of drifts. We examine the impact of various retraining decision points on crucial factors, such as model performance and resource utilization, in the context of Multilabel Classification models. We explain our key decision points and propose a reference framework for designing an effective model retraining strategy.
翻訳日:2023-11-17 13:52:35 公開日:2023-11-16
# 超並列計算のための整数リストとして格納された多項式半径2指数の集合として表される2の補数加算による高速乗算

Fast multiplication by two's complement addition of numbers represented as a set of polynomial radix 2 indexes, stored as an integer list for massively parallel computation ( http://arxiv.org/abs/2311.09922v1 )

ライセンス: Link先を確認
Mark Stocks(参考訳) 整数リストとして格納された多項式ラディクス2指標の集合として表される数に基づく乗法を示す。 Polynomial integer index multiplication' は、ピソン符号で実装されたアルゴリズムの集合である。 本手法は,数論的変換(ntt)とカラツバ(karatsuba)のどちらよりも高速に乗算できることを示す。 多項式 radix 2 整数法との比較目的で python コードにも実装されている。 任意の整数または実数を整数のインデックスのリストとして表現することができ、基数 2 の有限級数を表す。 数値の整数インデックス表現の有限列は、複数のCPU/GPU間で保存および分散することができる。 加算と乗算の演算はインデックス整数表現で動作する2の補足加算として適用でき、与えられたcpu/gpuアーキテクチャに完全に分散できることを示す。 本研究では,'多項整数インデックス乗算'法が並列乗算法の現在の限界を克服するような完全分散演算を実証する。 すなわち、結果の計算と中間結果の計算に共通コアメモリと共通ディスクを共有する必要がある。

We demonstrate a multiplication method based on numbers represented as set of polynomial radix 2 indices stored as an integer list. The 'polynomial integer index multiplication' method is a set of algorithms implemented in python code. We demonstrate the method to be faster than both the Number Theoretic Transform (NTT) and Karatsuba for multiplication within a certain bit range. Also implemented in python code for comparison purposes with the polynomial radix 2 integer method. We demonstrate that it is possible to express any integer or real number as a list of integer indices, representing a finite series in base two. The finite series of integer index representation of a number can then be stored and distributed across multiple CPUs / GPUs. We show that operations of addition and multiplication can be applied as two's complement additions operating on the index integer representations and can be fully distributed across a given CPU / GPU architecture. We demonstrate fully distributed arithmetic operations such that the 'polynomial integer index multiplication' method overcomes the current limitation of parallel multiplication methods. Ie, the need to share common core memory and common disk for the calculation of results and intermediate results.
翻訳日:2023-11-17 13:52:21 公開日:2023-11-16
# DSR-Diff:拡散モデルを用いた深度マップ超解法

DSR-Diff: Depth Map Super-Resolution with Diffusion Model ( http://arxiv.org/abs/2311.09919v1 )

ライセンス: Link先を確認
Yuan Shi, Bin Xia, Rui Zhu, Qingmin Liao, and Wenming Yang(参考訳) カラー誘導深度マップスーパーレゾリューション(CDSR)は、低品質深度マップの空間解像度を対応する高品質のカラーマップで改善し、3D再構成、バーチャルリアリティ、拡張現実などの様々な応用に寄与する。 従来のCDSR法は一般的に畳み込みニューラルネットワークやトランスフォーマーに依存しているが、拡散モデル(DM)は高レベルの視覚タスクにおいて顕著な効果を示した。 本研究では,潜時空間内の拡散モデルを用いて深度マップ超解像のためのガイダンスを生成する新しいcdsrパラダイムを提案する。 提案手法は、誘導生成ネットワーク(GGN)、深度マップ超解像ネットワーク(DSRN)、誘導回復ネットワーク(GRN)からなる。 ggnはコンパクト性を管理しながらガイダンスを生成するよう特別に設計されている。 さらに,単純かつ効果的な機能融合モジュールとトランスフォーマチックな特徴抽出モジュールをdsrnに統合し,マルチモデル画像の抽出,融合,再構成において先駆的手法を活用できるようにした。 提案手法は, 精度と効率を考慮し, 最先端手法と比較して広範な実験において優れた性能を示した。 私たちのコードはhttps://github.com/shiyuan7/DSR-Diff.comで公開されます。

Color-guided depth map super-resolution (CDSR) improve the spatial resolution of a low-quality depth map with the corresponding high-quality color map, benefiting various applications such as 3D reconstruction, virtual reality, and augmented reality. While conventional CDSR methods typically rely on convolutional neural networks or transformers, diffusion models (DMs) have demonstrated notable effectiveness in high-level vision tasks. In this work, we present a novel CDSR paradigm that utilizes a diffusion model within the latent space to generate guidance for depth map super-resolution. The proposed method comprises a guidance generation network (GGN), a depth map super-resolution network (DSRN), and a guidance recovery network (GRN). The GGN is specifically designed to generate the guidance while managing its compactness. Additionally, we integrate a simple but effective feature fusion module and a transformer-style feature extraction module into the DSRN, enabling it to leverage guided priors in the extraction, fusion, and reconstruction of multi-model images. Taking into account both accuracy and efficiency, our proposed method has shown superior performance in extensive experiments when compared to state-of-the-art methods. Our codes will be made available at https://github.com/shiyuan7/DSR-Diff.
翻訳日:2023-11-17 13:51:43 公開日:2023-11-16
# ギガピクセル病理像の分割・克服のための異なる形態の選定

Selection of Distinct Morphologies to Divide & Conquer Gigapixel Pathology Images ( http://arxiv.org/abs/2311.09902v1 )

ライセンス: Link先を確認
Abubakr Shafique, Saghir Alfasly, Areej Alsaafin, Peyman Nejat, Jibran A. Khan, and H.R.Tizhoosh(参考訳) 全スライド画像(WSI)は、複雑な組織構造を示す巨大なデジタル病理ファイルである。 各WSIから小さな、代表的なパッチのサブセットを選択することは不可欠だが、難しい。 したがって、計算病理学における分類やwsiマッチングを含むwsi分析を容易にするためには、"divide & conquer"アプローチが不可欠となる。 そこで本研究では,WSI パッチのサブセットを選択するために,SDM (Selection of Distinct Morphologies) と呼ばれる新しい手法を提案する。 目的は、与えられたWSI内のすべての固有の形態的変化を包含し、同時にこれらの変化を表すために選択されたパッチの数を最小限にし、コンパクトで包括的なパッチセットを保証することである。 この体系的にキュレートされたパッチセットは、私たちが「モンタージュ」と呼ぶものを形成する。 我々は,sdmモンタージュの公共および民間の病理組織学データセットにおける代表性を評価する。 本手法は,WSI検索とマッチング評価を用いて,最新技術であるYottixelのモザイクと比較する。 SDMは評価中に全データセットに対して顕著な有効性を示す。 さらに、SDMは、WSI内の異なる形態的特徴を捉えるために選択過程を本質的に最適化することで、ヨッティクセルのモザイクの重要な側面である経験的パラメータ化の必要性を排除している。

Whole slide images (WSIs) are massive digital pathology files illustrating intricate tissue structures. Selecting a small, representative subset of patches from each WSI is essential yet challenging. Therefore, following the "Divide & Conquer" approach becomes essential to facilitate WSI analysis including the classification and the WSI matching in computational pathology. To this end, we propose a novel method termed "Selection of Distinct Morphologies" (SDM) to choose a subset of WSI patches. The aim is to encompass all inherent morphological variations within a given WSI while simultaneously minimizing the number of selected patches to represent these variations, ensuring a compact yet comprehensive set of patches. This systematically curated patch set forms what we term a "montage". We assess the representativeness of the SDM montage across various public and private histopathology datasets. This is conducted by using the leave-one-out WSI search and matching evaluation method, comparing it with the state-of-the-art Yottixel's mosaic. SDM demonstrates remarkable efficacy across all datasets during its evaluation. Furthermore, SDM eliminates the necessity for empirical parameterization, a crucial aspect of Yottixel's mosaic, by inherently optimizing the selection process to capture the distinct morphological features within the WSI.
翻訳日:2023-11-17 13:51:06 公開日:2023-11-16
# ループ回路に接続された伝送線路の量子化に対する$\delta$-freeアプローチ

A $\delta$-free approach to quantization of transmission lines connected to lumped circuits ( http://arxiv.org/abs/2311.09897v1 )

ライセンス: Link先を確認
Carlo Forestiere and Giovanni Miano(参考訳) 集積回路に接続された伝送線路からなるシステムの量子化は、連続的自由度と離散的自由度の間の相互作用から生じる重要な課題である。 yurke と denker の先駆的業績に基づく広く採用されている戦略は、ディラック $\delta$-関数を含むラグランジアン密度を用いた集中回路寄与を表すものである。 しかし, この手法は, 最近の文献で強調されているように, 多様な運動量密度を含む複雑化を伴い, 正則化手法を必要としない。 本研究では,伝送線路の離散化やモード展開を必要とせずに,$\delta$-free lagrangian 式を導入する。 これは、ラインエンドにおける境界条件を明示的に強制することで達成される。 この枠組みでは、ネットワークのハイゼンベルク方程式の導出は単純である。 ハイゼンベルク表現において、有限長伝送線路は2つの抵抗器と2つの制御源からなる2ポート系と記述できることを示した。 この等価モデルは半無限伝送線路の文献で一般的に用いられるone-portモデルを拡張する。 最後に,本手法を解析解ネットワークに適用する。

The quantization of systems composed of transmission lines connected to lumped circuits poses significant challenges, arising from the interplay between continuous and discrete degrees of freedom. A widely adopted strategy, based on the pioneering work of Yurke and Denker, entails representing the lumped circuit contributions using Lagrangian densities that incorporate Dirac $\delta$-functions. However, this approach introduces complications, as highlighted in the recent literature, including divergent momentum densities, necessitating the use of regularization techniques. In this work, we introduce a $\delta$-free Lagrangian formulation without the need for a discretization of the transmission line or mode expansions. This is achieved by explicitly enforcing boundary conditions at the line ends. In this framework, the derivation of the Heisenberg equations of the network is straightforward. We demonstrate that, in the Heisenberg representation a finite-length transmission line can be described as a two-port system composed of two resistors and two controlled sources with delay. This equivalent model extends the one-port model which is commonly used in the literature for semi-infinite transmission lines. Finally, we apply our approach to analytically solvable networks.
翻訳日:2023-11-17 13:50:12 公開日:2023-11-16
# ネットワーク資源配分のオンライン最適化と強化学習手法との比較

Online Optimization for Network Resource Allocation and Comparison with Reinforcement Learning Techniques ( http://arxiv.org/abs/2311.10023v1 )

ライセンス: Link先を確認
Ahmed Sid-Ali, Ioannis Lambadaris, Yiqiang Q. Zhao, Gennady Shaikhet, and Amirhossein Asgharnia(参考訳) 本稿では,ジョブ転送を伴うオンラインネットワークリソース割り当て問題に取り組む。 ネットワークは通信リンクで接続された多くのサーバで構成されている。 システムは個別の時間内で動作し、各タイムスロットで管理者が将来のジョブ要求のためにサーバにリソースを予約し、予約のコストがかかる。 そして、受信後、要求に最も順応するために、ジョブをサーバ間で転送することができる。 これにより輸送コストが増大する。 最後に、もしジョブ要求が満たされない場合、ブロックされたジョブに対する費用を負担する違反がある。 本稿では指数重み付け手法に基づくランダム化オンラインアルゴリズムを提案する。 これは,アルゴリズムが経験から適応し,学習しており,より多くのデータを蓄積するにつれて,意思決定において効率が向上していることを示している。 さらに,本手法の性能を人工データ上でテストし,提案手法が後者よりも優れていることを示す強化学習法と比較した。

We tackle in this paper an online network resource allocation problem with job transfers. The network is composed of many servers connected by communication links. The system operates in discrete time; at each time slot, the administrator reserves resources at servers for future job requests, and a cost is incurred for the reservations made. Then, after receptions, the jobs may be transferred between the servers to best accommodate the demands. This incurs an additional transport cost. Finally, if a job request cannot be satisfied, there is a violation that engenders a cost to pay for the blocked job. We propose a randomized online algorithm based on the exponentially weighted method. We prove that our algorithm enjoys a sub-linear in time regret, which indicates that the algorithm is adapting and learning from its experiences and is becoming more efficient in its decision-making as it accumulates more data. Moreover, we test the performance of our algorithm on artificial data and compare it against a reinforcement learning method where we show that our proposed method outperforms the latter.
翻訳日:2023-11-17 13:41:58 公開日:2023-11-16
# TransFusion -- 異常検出のための透明性に基づく拡散モデル

TransFusion -- A Transparency-Based Diffusion Model for Anomaly Detection ( http://arxiv.org/abs/2311.09999v1 )

ライセンス: Link先を確認
Matic Fu\v{c}ka, Vitjan Zavrtanik, Danijel Sko\v{c}aj(参考訳) 表面異常検出は製造検査において重要な要素である。 再構成異常検出法は、異常領域のみを理想的に修正して、物体の正常な外観を復元する。 一般的に使用されている再建建築の制限のため、生産された再建は貧弱であり、異常がまだ残っているか、異常のない地域では詳細が欠落している。 近年の再構成手法では拡散モデルが採用されているが,標準拡散法では問題に十分対応していない。 そこで我々は, 異常領域の透明性が徐々に向上し, 正常な外観を正確に復元し, 詳細を損なわずに異常領域の出現を維持する, 新たな透明性に基づく拡散プロセスを提案する。 本研究では,提案手法を実装した識別的異常検出法である透明性拡散(transfusion)を提案する。 TransFusion は VisA と MVTec AD の両方のデータセットで、画像レベルの AUROC はそれぞれ98.5% と 99.2% である。

Surface anomaly detection is a vital component in manufacturing inspection. Reconstructive anomaly detection methods restore the normal appearance of an object, ideally modifying only the anomalous regions. Due to the limitations of commonly used reconstruction architectures, the produced reconstructions are often poor and either still contain anomalies or lack details in anomaly-free regions. Recent reconstructive methods adopt diffusion models, however with the standard diffusion process the problems are not adequately addressed. We propose a novel transparency-based diffusion process, where the transparency of anomalous regions is progressively increased, restoring their normal appearance accurately and maintaining the appearance of anomaly-free regions without loss of detail. We propose TRANSparency DifFUSION (TransFusion), a discriminative anomaly detection method that implements the proposed diffusion process, enabling accurate downstream anomaly detection. TransFusion achieves state-of-the-art performance on both the VisA and the MVTec AD datasets, with an image-level AUROC of 98.5% and 99.2%, respectively.
翻訳日:2023-11-17 13:41:44 公開日:2023-11-16
# deepemd:地球移動者の距離を高速に推定するトランスフォーマー

DeepEMD: A Transformer-based Fast Estimation of the Earth Mover's Distance ( http://arxiv.org/abs/2311.09998v1 )

ライセンス: Link先を確認
Atul Kumar Sinha, Francois Fleuret(参考訳) アース・マーバー距離(Earth Mover's Distance、EMD)は、点雲間の選択の尺度である。 しかし、計算に要する計算コストは、トレーニング損失として禁じられ、標準的なアプローチは、チャンファー距離のようなサロゲートを使用することである。 生成モデルのトレーニング損失として使用できるEMDの正確な近似を計算するために,注意に基づくモデルを提案する。 勾配を正確に推定するためには、EMD自身ではなく点雲間のマッチングを明示的に計算するようにモデルを訓練する。 我々は、この新たな目的を、基底真理マッチング行列を近似する注目行列の推定として用いた。 実験により、このモデルは、ハンガリーの正確なマッチングアルゴリズムに対して2桁以上の壁時計のスピードアップと、標準近似シンクホーンアルゴリズムに対して1桁のマグニチュードの精度でEMDとその勾配を正確に推定し、特に、EMD自身で点雲VAEを訓練できることが示されている。 広汎な評価は、距離サロゲートの重要な要件であるアウト・オブ・ディストリビューションの操作において、このモデルの顕著な挙動を示す。 最後に、モデルはトレーニングの何倍も大きい推論の間、点雲に非常によく一般化する。

The Earth Mover's Distance (EMD) is the measure of choice between point clouds. However the computational cost to compute it makes it prohibitive as a training loss, and the standard approach is to use a surrogate such as the Chamfer distance. We propose an attention-based model to compute an accurate approximation of the EMD that can be used as a training loss for generative models. To get the necessary accurate estimation of the gradients we train our model to explicitly compute the matching between point clouds instead of EMD itself. We cast this new objective as the estimation of an attention matrix that approximates the ground truth matching matrix. Experiments show that this model provides an accurate estimate of the EMD and its gradient with a wall clock speed-up of more than two orders of magnitude with respect to the exact Hungarian matching algorithm and one order of magnitude with respect to the standard approximate Sinkhorn algorithm, allowing in particular to train a point cloud VAE with the EMD itself. Extensive evaluation show the remarkable behaviour of this model when operating out-of-distribution, a key requirement for a distance surrogate. Finally, the model generalizes very well to point clouds during inference several times larger than during training.
翻訳日:2023-11-17 13:41:25 公開日:2023-11-16
# ベイズ加法回帰木に対するコデータ学習

Co-data Learning for Bayesian Additive Regression Trees ( http://arxiv.org/abs/2311.09997v1 )

ライセンス: Link先を確認
Jeroen M. Goedhart, Thomas Klausch, Jurriaan Janssen, Mark A. van de Wiel(参考訳) 医学的な予測アプリケーションは、共変量よりも小さなサンプルサイズを扱う必要があることが多い。 このようなデータは、特に共変量-応答関係が複雑である場合、予測と変数選択に問題を引き起こす。 これらの課題に対処するため,我々は,木パラメータのプリエントを利用して過剰フィッティングを防止する,bayesian additive regression tree (bart) モデルにコデータ,すなわち covariates の外部情報を統合することを提案する。 コデータを統合するために、BARTモデルにおける共変量重みを推定する経験的ベイズ(EB)フレームワークを開発した。 提案手法は複数のデータ型を同時に扱うことができる。 さらに,提案するEBフレームワークにより,BARTの他のハイパーパラメータの推定が可能となり,クロスバリデーションの代替として魅力的なものとなる。 本手法は関連する共変量を見つけ、シミュレーションにおけるデフォルトバートと比較して予測を改善することを示す。 共変量-応答関係が非線形であれば、BARTの柔軟性から回帰に基づくデータ学習者よりも優れている。 最後に、co-dataの使用は、臨床共変体、遺伝子変異、DNAトランスロケーション、DNAコピー数データに基づいて、大きなB細胞リンパ腫の予後を拡散するアプリケーションにおける予測を強化する。 キーワード:ベイズ加法回帰木、経験ベイズ、コデータ、高次元データ、オミス、予測

Medical prediction applications often need to deal with small sample sizes compared to the number of covariates. Such data pose problems for prediction and variable selection, especially when the covariate-response relationship is complicated. To address these challenges, we propose to incorporate co-data, i.e. external information on the covariates, into Bayesian additive regression trees (BART), a sum-of-trees prediction model that utilizes priors on the tree parameters to prevent overfitting. To incorporate co-data, an empirical Bayes (EB) framework is developed that estimates, assisted by a co-data model, prior covariate weights in the BART model. The proposed method can handle multiple types of co-data simultaneously. Furthermore, the proposed EB framework enables the estimation of the other hyperparameters of BART as well, rendering an appealing alternative to cross-validation. We show that the method finds relevant covariates and that it improves prediction compared to default BART in simulations. If the covariate-response relationship is nonlinear, the method benefits from the flexibility of BART to outperform regression-based co-data learners. Finally, the use of co-data enhances prediction in an application to diffuse large B-cell lymphoma prognosis based on clinical covariates, gene mutations, DNA translocations, and DNA copy number data. Keywords: Bayesian additive regression trees; Empirical Bayes; Co-data; High-dimensional data; Omics; Prediction
翻訳日:2023-11-17 13:41:02 公開日:2023-11-16
# 量子シンプル計算のための実時間解析

Realistic Runtime Analysis for Quantum Simplex Computation ( http://arxiv.org/abs/2311.09995v1 )

ライセンス: Link先を確認
Sabrina Ammann, Maximilian Hess, Debora Ramacciotti, S\'andor P. Fekete, Paulina L. A. Goedicke, David Gross, Andreea Lefterovici, Tobias J. Osborne, Michael Perk, Antonio Rotundo, S. E. Skelton, Sebastian Stiller, Timo de Wolff(参考訳) 近年、理論的に漸近的な最悪ケース境界に基づいて、難解な最適化問題を解く量子コンピューティングの可能性に対して強い期待が寄せられている。 数学的プログラミング、オペレーションリサーチ、アルゴリズム工学の基本的な目標である、実際に関連するサイズのインスタンスを解く際に、線形プログラミングと整数プログラミングが結果をもたらすと期待できますか? 十分に大きな量子プラットフォームがないことで、古典的な手法と比較する実際のテストの実行が妨げられます。 本稿では,重要な最適化問題の実例を解く際に,古典的ランタイム解析のための量子アナログを提案する。 この目的のために,量子アルゴリズムの期待ゲート複雑性を解析し,量子コンピュータの期待実用性能を測定する。 実験的な比較のための実用的な量子プラットフォームがないことは、古典的なシステム上でアルゴリズムが実行されるハイブリッドベンチマークによって解決され、量子バージョンで使用される様々なサブルーチンの期待コストが記録される。 特に、線形計画法における量子法の解析を行い、最近の研究はSimplex法に対する量子サブルーチンによる漸近的高速化を提供している。 現実的な問題サイズに対する実用的な量子アドバンテージは、現在の物理的限界を大幅に下回る量子ゲート操作時間を必要とする。

In recent years, strong expectations have been raised for the possible power of quantum computing for solving difficult optimization problems, based on theoretical, asymptotic worst-case bounds. Can we expect this to have consequences for Linear and Integer Programming when solving instances of practically relevant size, a fundamental goal of Mathematical Programming, Operations Research and Algorithm Engineering? Answering this question faces a crucial impediment: The lack of sufficiently large quantum platforms prevents performing real-world tests for comparison with classical methods. In this paper, we present a quantum analog for classical runtime analysis when solving real-world instances of important optimization problems. To this end, we measure the expected practical performance of quantum computers by analyzing the expected gate complexity of a quantum algorithm. The lack of practical quantum platforms for experimental comparison is addressed by hybrid benchmarking, in which the algorithm is performed on a classical system, logging the expected cost of the various subroutines that are employed by the quantum versions. In particular, we provide an analysis of quantum methods for Linear Programming, for which recent work has provided asymptotic speedup through quantum subroutines for the Simplex method. We show that a practical quantum advantage for realistic problem sizes would require quantum gate operation times that are considerably below current physical limitations.
翻訳日:2023-11-17 13:40:36 公開日:2023-11-16
# 人工知能セキュリティにおけるより実用的な脅威モデルに向けて

Towards more Practical Threat Models in Artificial Intelligence Security ( http://arxiv.org/abs/2311.09994v1 )

ライセンス: Link先を確認
Kathrin Grosse, Lukas Bieringer, Tarek Richard Besold, Alexandre Alahi(参考訳) 最近の研究で、人工知能のセキュリティにおける研究と実践のギャップが特定されている: アカデミックで研究されている脅威は、AIの実践的使用とセキュリティリスクを常に反映しているとは限らない。 例えば、モデルはしばしば分離して研究されるが、実際にはより大きなmlパイプラインの一部である。 近年の研究では、学術的な攻撃によって引き起こされる敵対的な操作は非実用的であることも指摘されている。 私たちはこの格差の全体像を説明するための第一歩を踏み出します。 この目的のために、AIセキュリティ研究で最も研究されている6つの攻撃の脅威モデルを再検討し、それを実際にAIの使用と照合するために、‘textbf{271}産業実践者による調査を行った。 一方で、既存の脅威モデルはすべて、実際に適用可能であることが分かりました。 一方で、大きなミスマッチがある: 研究は多くの場合、攻撃者とは寛大であり、実際の設定で頻繁に入手できない情報へのアクセスを想定している。 我々の論文は、人工知能のセキュリティにおけるより実用的な脅威モデルを研究するための行動である。

Recent works have identified a gap between research and practice in artificial intelligence security: threats studied in academia do not always reflect the practical use and security risks of AI. For example, while models are often studied in isolation, they form part of larger ML pipelines in practice. Recent works also brought forward that adversarial manipulations introduced by academic attacks are impractical. We take a first step towards describing the full extent of this disparity. To this end, we revisit the threat models of the six most studied attacks in AI security research and match them to AI usage in practice via a survey with \textbf{271} industrial practitioners. On the one hand, we find that all existing threat models are indeed applicable. On the other hand, there are significant mismatches: research is often too generous with the attacker, assuming access to information not frequently available in real-world settings. Our paper is thus a call for action to study more practical threat models in artificial intelligence security.
翻訳日:2023-11-17 13:40:16 公開日:2023-11-16
# ヘイトスピーチ検出のための生成AI:評価と発見

Generative AI for Hate Speech Detection: Evaluation and Findings ( http://arxiv.org/abs/2311.09993v1 )

ライセンス: Link先を確認
Sagi Pendzel, Tomer Wullach, Amir Adler and Einat Minkov(参考訳) ディープニューラルモデルを用いたヘイトスピーチの自動検出は、ラベル付きデータセットの不足によって妨げられ、一般化が損なわれる。 この問題を軽減するために、生成AIを使用して、利用可能なラベル付き例から大量の合成ヘイトスピーチシーケンスを生成し、生成されたデータを大規模事前学習言語モデル(LLM)の微調整に活用している。 本章では、関連する手法、実験的な設定、およびこのアプローチの評価について概観する。 BERT,RoBERTa,ALBERTなどの一般的なLLMに加えて,RoBERTa-Toxicity,HateBERT,HateXplain,ToxDect,ToxiGenなど,すでにヘイト検出に適応しているLLMを用いて,生成したデータを用いて列車セット拡張の影響を適用・評価する。 このアプローチがヘイトスピーチの一般化を改善し、データ分布全体のリコール性能を高めていることを示している。 さらに,GPT-3.5モデルを用いたゼロショットヘイト検出による微調整LDMの性能比較を行った。 この結果から, GPT-3.5モデルを用いてより優れた一般化が達成されているが, 殆どのデータセットに対して中程度のリコールと低精度を実現することができた。 GPT-3.5やそれ以降のモデルの感度は、テキスト生成の類似技術を用いて改善できるかどうかという問題である。

Automatic hate speech detection using deep neural models is hampered by the scarcity of labeled datasets, leading to poor generalization. To mitigate this problem, generative AI has been utilized to generate large amounts of synthetic hate speech sequences from available labeled examples, leveraging the generated data in finetuning large pre-trained language models (LLMs). In this chapter, we provide a review of relevant methods, experimental setups and evaluation of this approach. In addition to general LLMs, such as BERT, RoBERTa and ALBERT, we apply and evaluate the impact of train set augmentation with generated data using LLMs that have been already adapted for hate detection, including RoBERTa-Toxicity, HateBERT, HateXplain, ToxDect, and ToxiGen. An empirical study corroborates our previous findings, showing that this approach improves hate speech generalization, boosting recall performance across data distributions. In addition, we explore and compare the performance of the finetuned LLMs with zero-shot hate detection using a GPT-3.5 model. Our results demonstrate that while better generalization is achieved using the GPT-3.5 model, it achieves mediocre recall and low precision on most datasets. It is an open question whether the sensitivity of models such as GPT-3.5, and onward, can be improved using similar techniques of text generation.
翻訳日:2023-11-17 13:39:59 公開日:2023-11-16
# Xputer: NMF, XGBoost, 合理化されたGUIエクスペリエンスを備えたデータギャップ

Xputer: Bridging Data Gaps with NMF, XGBoost, and a Streamlined GUI Experience ( http://arxiv.org/abs/2311.09989v1 )

ライセンス: Link先を確認
Saleena Younus, Lars R\"onnstrand and Julhash U. Kazi(参考訳) 様々な分野にまたがるデータの急速な拡散は、不足値に対する正確な計算の重要性を暗示している。 このタスクはデータの完全性を確保し、有意義な洞察を引き出すのに不可欠です。 この課題に対して、XGBoostの予測強度と非負行列因子化(NMF)を有効に統合する新しい計算ツールであるXputerを提案する。 xputerの際立った特徴の1つは、その汎用性である: ゼロインプテーションをサポートし、optunaによるハイパーパラメータ最適化を可能にし、ユーザがイテレーションの数を定義することができる。 ユーザエクスペリエンスとアクセシビリティの向上のために,計算ツールに慣れていない人でも操作が容易な,直感的なグラフィカルユーザインターフェース(gui)を備えたxputerを開発しました。 パフォーマンスベンチマークでは、XputerはIterativeImputerのような確立したツールの計算速度に匹敵するだけでなく、インプットの精度でも性能を上回っている。 さらにXputerは、カテゴリ、連続、Booleanなど、さまざまなデータタイプを自律的に処理することで、事前処理の必要性を排除している。 パフォーマンス、柔軟性、ユーザーフレンドリーなデザインが組み合わさったxputerは、データインプテーションの分野で最先端のソリューションとして登場します。

The rapid proliferation of data across diverse fields has accentuated the importance of accurate imputation for missing values. This task is crucial for ensuring data integrity and deriving meaningful insights. In response to this challenge, we present Xputer, a novel imputation tool that adeptly integrates Non-negative Matrix Factorization (NMF) with the predictive strengths of XGBoost. One of Xputer's standout features is its versatility: it supports zero imputation, enables hyperparameter optimization through Optuna, and allows users to define the number of iterations. For enhanced user experience and accessibility, we have equipped Xputer with an intuitive Graphical User Interface (GUI) ensuring ease of handling, even for those less familiar with computational tools. In performance benchmarks, Xputer not only rivals the computational speed of established tools such as IterativeImputer but also often outperforms them in terms of imputation accuracy. Furthermore, Xputer autonomously handles a diverse spectrum of data types, including categorical, continuous, and Boolean, eliminating the need for prior preprocessing. Given its blend of performance, flexibility, and user-friendly design, Xputer emerges as a state-of-the-art solution in the realm of data imputation.
翻訳日:2023-11-17 13:39:32 公開日:2023-11-16
# 多項式サイズ非決定性有限オートマトンの非一様族に対する曖昧性と最小性

Unambiguity and Fewness for Nonuniform Families of Polynomial-Size Nondeterministic Finite Automata ( http://arxiv.org/abs/2311.09979v1 )

ライセンス: Link先を確認
Tomoyuki Yamakami(参考訳) 多項式サイズの有限オートマトン(英語版)の非一様族は、多項式的に多くの内部状態を持つ指数付き有限オートマトン(英語版)の級数である。 有限オートマトン(英語版)の非一様系のうち、特に、最も「一」(曖昧)、「多」(複数)、あるいは各固定構成につながる不明確な/数演算経路を持つ非決定的有限オートマトン(英語版)の変種に着目している。 そのような機械が一方方向の頭の動きだけに制限されている場合、これらの変種が互いに計算力が異なるという証明できない硬さの仮定で証明できる。 多項式有界長のインスタンスに制限された二方向機械について、二方向多項式サイズの非決定論的有限オートマトン族は、多項式サイズの不明確な有限オートマトン族と同値である。

Nonuniform families of polynomial-size finite automata, which are series of indexed finite automata having polynomially many inner states, are used in the past literature to solve nonuniform families of promise decision problems. Among such nonuniform families of finite automata, we focus our attention, in particular, on the variants of nondeterministic finite automata, which have at most "one" (unambiguous), "polynomially many" (few) accepting computation paths, or unambiguous/few computation paths leading to each fixed configuration. When such machines are limited to make only one-way head moves, we can prove with no unproven hardness assumptions that some of these variants are different in computational power from each other. As for two-way machines restricted to instances of polynomially-bounded length, families of two-way polynomial-size nondeterministic finite automata are equivalent in power to families of polynomial-size unambiguous finite automata.
翻訳日:2023-11-17 13:39:07 公開日:2023-11-16
# 前提から目的へ:バッチ適応型自己監督学習

From Pretext to Purpose: Batch-Adaptive Self-Supervised Learning ( http://arxiv.org/abs/2311.09974v1 )

ライセンス: Link先を確認
Jiansong Zhang, Peizhong Liu(参考訳) 近年,人工知能の分野では,自己指導型コントラスト学習が目立ったパラダイムとなっている。 インスタンスレベルでの対照的な記述を通じて、教師なしの機能学習を容易にする。 しかし、効果的な自己管理パラダイムを構築することはこの分野において重要な課題である。 本稿では,自己指導型コントラスト学習とプレテキストタスクに影響を及ぼす2つの重要な要因と,データ処理の観点からバッチ融合の適応的手法を提案する。 提案手法は, バッチデータの次元的縮小と再構成により, 従来分離されていた個別データの組込み層を介したバッチ内通信が可能となる。 さらに、訓練が進むにつれて、自己教師付き特徴符号化能力を適応的に増幅する。 本研究では,imagenet-1kを用いた古典的コントラスト学習フレームワークを用いた線形分類テストを行った。 実験により,本手法が等価比較条件下での最先端性能を実現することを示す。 この「プラグ・アンド・プレイ」の特徴から,他のコントラスト学習手法についても検討した。 ImageNet-100では、オリジナルのパフォーマンスと比較して、トップ1は最大1.25%増加した。 提案手法は,データ駆動型自己監督学習研究の進展に寄与する可能性があり,コミュニティに新たな視点をもたらすと考えられる。

In recent years, self-supervised contrastive learning has emerged as a distinguished paradigm in the artificial intelligence landscape. It facilitates unsupervised feature learning through contrastive delineations at the instance level. However, crafting an effective self-supervised paradigm remains a pivotal challenge within this field. This paper delves into two crucial factors impacting self-supervised contrastive learning-bach size and pretext tasks, and from a data processing standpoint, proposes an adaptive technique of batch fusion. The proposed method, via dimensionality reduction and reconstruction of batch data, enables formerly isolated individual data to partake in intra-batch communication through the Embedding Layer. Moreover, it adaptively amplifies the self-supervised feature encoding capability as the training progresses. We conducted a linear classification test of this method based on the classic contrastive learning framework on ImageNet-1k. The empirical findings illustrate that our approach achieves state-of-the-art performance under equitable comparisons. Benefiting from its "plug-and-play" characteristics, we further explored other contrastive learning methods. On the ImageNet-100, compared to the original performance, the top1 has seen a maximum increase of 1.25%. We suggest that the proposed method may contribute to the advancement of data-driven self-supervised learning research, bringing a fresh perspective to this community.
翻訳日:2023-11-17 13:38:44 公開日:2023-11-16
# 学術検索エンジンにおけるバイアス永続性の検討--GoogleとSemantic Scholarのアルゴリズム監査

Examining bias perpetuation in academic search engines: an algorithm audit of Google and Semantic Scholar ( http://arxiv.org/abs/2311.09969v1 )

ライセンス: Link先を確認
Celina Kacperski, Mona Bielig, Mykola Makorthyk, Maryna Sydorova, Roberto Ulloa(参考訳) 研究者は学術的なWeb検索エンジンを使って科学的な情報源を見つけるが、検索エンジンのメカニズムはクエリに埋め込まれたバイアスに沿ったコンテンツを選択的に提示する。 本研究では,Google Scholar と Semantic Scholar に誘導される確認バイアスクエリが,スキュー結果をもたらすかどうかを検討する。 6つの問合せ(「ワクチン」や「インターネット利用」など健康・技術分野のトピック)を検索結果の相違点として分析した。 バイアスドクエリ("便益"や"リスク"をターゲットとする)が検索結果にバイアスを伴い,テクノロジ関連のクエリは,より大きな差異を示す。 全体として、Semantic ScholarはGoogle Scholarよりも格差が少ない。 偏極性が増すほど、より歪んだ結果が得られなかった。 検証バイアスが持続する学術的な検索結果は、研究者と市民の両方が証拠を探していることに強い意味を持つ。 科学調査と学術検索エンジンの相互作用を探究するには、さらなる研究が必要である。

Researchers rely on academic web search engines to find scientific sources, but search engine mechanisms may selectively present content that aligns with biases embedded in the queries. This study examines whether confirmation-biased queries prompted into Google Scholar and Semantic Scholar will yield skewed results. Six queries (topics across health and technology domains such as "vaccines" or "internet use") were analyzed for disparities in search results. We confirm that biased queries (targeting "benefits" or "risks") affect search results in line with the bias, with technology-related queries displaying more significant disparities. Overall, Semantic Scholar exhibited fewer disparities than Google Scholar. Topics rated as more polarizing did not consistently show more skewed results. Academic search results that perpetuate confirmation bias have strong implications for both researchers and citizens searching for evidence. More research is needed to explore how scientific inquiry and academic search engines interact.
翻訳日:2023-11-17 13:38:28 公開日:2023-11-16
# SurgPLAN: 位相認識のための外科的位相局在ネットワーク

SurgPLAN: Surgical Phase Localization Network for Phase Recognition ( http://arxiv.org/abs/2311.09965v1 )

ライセンス: Link先を確認
Xingjian Luo, You Pang, Zhen Chen, Jinlin Wu, Zongmin Zhang, Zhen Lei, Hongbin Liu(参考訳) 手術の位相認識は、スマート手術室での手術理解に不可欠である。 自動的な手術相認識の進歩にもかかわらず、既存の手法のほとんどは2つの問題によって制限されている。 第1に、これらの方法は、単純な2dネットワークで各フレームと動き情報に対する識別的視覚特徴を捉えることができない。 第二に、フレーム単位の認識パラダイムは、位相揺らぎと呼ばれる各位相内で不安定な予測のために性能を劣化させる。 これら2つの課題に対処するため,時間的検出の原理を用いて,より正確かつ安定した外科的位相認識を促進するために,SurgPLANと呼ばれる手術段階ロカライズネットワークを提案する。 具体的には、まずPraamid SlowFast (PSF) アーキテクチャを設計し、異なるフレームサンプリングレートの2つのブランチで複数スケールの空間的特徴と時間的特徴をキャプチャする視覚的バックボーンとして機能する。 さらに,時間領域の提案に基づいて位相予測を生成する時間位相定位(tpl)モジュールを提案する。 広範囲な実験により、精度と安定性の両面で、フレーム・バイ・フレームアプローチに対するサグプランの重要な利点を確認した。

Surgical phase recognition is crucial to providing surgery understanding in smart operating rooms. Despite great progress in automatic surgical phase recognition, most existing methods are still restricted by two problems. First, these methods cannot capture discriminative visual features for each frame and motion information with simple 2D networks. Second, the frame-by-frame recognition paradigm degrades the performance due to unstable predictions within each phase, termed as phase shaking. To address these two challenges, we propose a Surgical Phase LocAlization Network, named SurgPLAN, to facilitate a more accurate and stable surgical phase recognition with the principle of temporal detection. Specifically, we first devise a Pyramid SlowFast (PSF) architecture to serve as the visual backbone to capture multi-scale spatial and temporal features by two branches with different frame sampling rates. Moreover, we propose a Temporal Phase Localization (TPL) module to generate the phase prediction based on temporal region proposals, which ensures accurate and consistent predictions within each surgical phase. Extensive experiments confirm the significant advantages of our SurgPLAN over frame-by-frame approaches in terms of both accuracy and stability.
翻訳日:2023-11-17 13:38:12 公開日:2023-11-16
# 低ラベル高データ状態におけるマルチオミクス埋め込みの自己教師付き学習

Self-supervised learning of multi-omics embeddings in the low-label, high-data regime ( http://arxiv.org/abs/2311.09962v1 )

ライセンス: Link先を確認
Christian John Hurry, Emma Slade(参考訳) 対照的に、自己教師型学習(SSL)は、miRNA、mRNA、RPPAの発現データからがんのタイプを予測するモデルを訓練するために用いられる。 FT-Transformerを事前訓練したこのモデルでは,ラベル付きサンプルが不足するが,非ラベル付きサンプルの数が高い場合,表型データの標準ベンチマークであるXGBoostとCatBoostより優れていた。 これは、私たちが使用するデータセットが$\mathcal{O}(10^{1})$クラスと$\mathcal{O}(10^{2})-\mathcal{O}(10^{4})$機能を持っているという事実に反している。 自己教師付き事前訓練法の有効性を実証した後,マルチモーダルモデルのSSLについて検討した。 遅延融合モデルでは、各オミクスがそれぞれのサブネットワークに渡され、その出力が平均化され、事前学習または下流の目的関数に渡される。 マルチモーダルプレトレーニングは単一オミクスからの予測を改善することが示されており、これは多数の非ラベル付きマルチモーダルサンプルを持つデータセットでは有用であるが、ラベル付きアンモダルサンプルはほとんどない。 さらに,各オミクス固有のモジュールを個別に事前学習することは極めて効果的であることを示す。 これにより,各オミクスから大量の未ラベルデータが得られるが,ラベル付きサンプルはほとんどない状況において,提案モデルの適用が可能となる。

Contrastive, self-supervised learning (SSL) is used to train a model that predicts cancer type from miRNA, mRNA or RPPA expression data. This model, a pretrained FT-Transformer, is shown to outperform XGBoost and CatBoost, standard benchmarks for tabular data, when labelled samples are scarce but the number of unlabelled samples is high. This is despite the fact that the datasets we use have $\mathcal{O}(10^{1})$ classes and $\mathcal{O}(10^{2})-\mathcal{O}(10^{4})$ features. After demonstrating the efficacy of our chosen method of self-supervised pretraining, we investigate SSL for multi-modal models. A late-fusion model is proposed, where each omics is passed through its own sub-network, the outputs of which are averaged and passed to the pretraining or downstream objective function. Multi-modal pretraining is shown to improve predictions from a single omics, and we argue that this is useful for datasets with many unlabelled multi-modal samples, but few labelled unimodal samples. Additionally, we show that pretraining each omics-specific module individually is highly effective. This enables the application of the proposed model in a variety of contexts where a large amount of unlabelled data is available from each omics, but only a few labelled samples.
翻訳日:2023-11-17 13:37:53 公開日:2023-11-16
# 工学的損失を持つフォトニックアレイの非エルミート位相と臨界

Non-Hermitian topology and criticality in photonic arrays with engineered losses ( http://arxiv.org/abs/2311.09959v1 )

ライセンス: Link先を確認
Elizabeth Louis Pereira, Hongwei Li, Andrea Blanco-Redondo, Jose L. Lado(参考訳) 統合フォトニックシステムは、人工格子を再構成可能な方法で設計できる柔軟なプラットフォームを提供する。 本稿では,工学的損失を持つ一次元フォトニックアレイにより,非エルミティ性やバルクモード臨界性に起因する位相的励起を実現する。 局所的なフォトニック損失を一般化した変調により、周期性と準周期的状態の両方において位相モードを作成できることを示す。 我々は,全バルクフォトニックモードの局在遷移を準周期的損失変調の有無で設計できることを実証し,共鳴周波数変調と損失変調の両方においてそのような遷移が生成可能であることをさらに証明した。 我々は, 臨界モードと位相モードの出現において, 高次隣接結合と無秩序の存在に対する, この現象論の強固性に最終的に対処する。 以上の結果から, トポロジーと臨界性は, フォトニック系における工学的損失のみから設計し, 位相的および臨界フォトニック物質における非線形性の影響を研究するための潜在的プラットフォームを構築した。

Integrated photonic systems provide a flexible platform where artificial lattices can be engineered in a reconfigurable fashion. Here, we show that one-dimensional photonic arrays with engineered losses allow realizing topological excitation stemming from non-Hermiticity and bulk mode criticality. We show that a generalized modulation of the local photonic losses allow creating topological modes both in the presence of periodicity and even in the quasiperiodic regime. We demonstrate that a localization transition of all the bulk photonic modes can be engineered in the presence of a quasiperiodic loss modulation, and we further demonstrate that such a transition can be created in the presence of both resonance frequency modulation and loss modulation. We finally address the robustness of this phenomenology to the presence of higher neighbor couplings and disorder in the emergence of criticality and topological modes. Our results put forward a strategy to engineer topology and criticality solely from engineered losses in a photonic system, establishing a potential platform to study the impact of non-linearities in topological and critical photonic matter.
翻訳日:2023-11-17 13:37:25 公開日:2023-11-16
# 不均一特徴空間におけるタブラルフショット一般化

Tabular Few-Shot Generalization Across Heterogeneous Feature Spaces ( http://arxiv.org/abs/2311.10051v1 )

ライセンス: Link先を確認
Max Zhu, Katarzyna Kobalczyk, Andrija Petrovic, Mladen Nikolic, Mihaela van der Schaar, Boris Delibasic, Petro Lio(参考訳) 表型データセットの普及にもかかわらず、このドメイン内では、わずかなショット学習が未検討のままである。 既存の少数ショット法は、列関係、意味、置換不変性によって表のデータセットに直接適用できない。 これらの課題に対処するために,不均一な特徴空間を持つデータセット間の知識共有を包含するFLATを提案する。 Dataset2Vecにインスパイアされたエンコーダを利用することで、FLATはデータセットと個々の列の低次元の埋め込みを学習する。 デコーダネットワークは、グラフ注目ネットワークとして実装された予測対象ネットワークをパラメータ化し、表型データセットの異種性に対応する。 118のuciデータセットの多様なコレクションに関する実験は、新しい表型データセットへのflatの一般化の成功と、ベースラインに対する大幅な改善を示している。

Despite the prevalence of tabular datasets, few-shot learning remains under-explored within this domain. Existing few-shot methods are not directly applicable to tabular datasets due to varying column relationships, meanings, and permutational invariance. To address these challenges, we propose FLAT-a novel approach to tabular few-shot learning, encompassing knowledge sharing between datasets with heterogeneous feature spaces. Utilizing an encoder inspired by Dataset2Vec, FLAT learns low-dimensional embeddings of datasets and their individual columns, which facilitate knowledge transfer and generalization to previously unseen datasets. A decoder network parametrizes the predictive target network, implemented as a Graph Attention Network, to accommodate the heterogeneous nature of tabular datasets. Experiments on a diverse collection of 118 UCI datasets demonstrate FLAT's successful generalization to new tabular datasets and a considerable improvement over the baselines.
翻訳日:2023-11-17 13:29:36 公開日:2023-11-16
# 複数インスタンス学習による逐次的時系列分類

Inherently Interpretable Time Series Classification via Multiple Instance Learning ( http://arxiv.org/abs/2311.10049v1 )

ライセンス: Link先を確認
Joseph Early, Gavin KC Cheung, Kurt Cutajar, Hanting Xie, Jas Kandola, Niall Twomey(参考訳) 従来の時系列分類 (tsc) 法は、意思決定過程を曖昧に解釈するブラックボックスであることが多い。 本研究では、この問題を解決するためにMIL(Multiple Instance Learning)を活用し、MILLET: Multiple Instance Learning for Locally Explainable Time Series Classificationという新しいフレームワークを提案する。 我々はMILLETを既存のディープラーニングTSCモデルに適用し、予測性能を損なうことなく(場合によっては改善しても)本質的に解釈可能であることを示す。 85 UCR TSCデータセット上でMILLETを評価し,解釈可能性評価を容易にするために特別に設計された新しい合成データセットを提案する。 これらのデータセットにおいて,ミレットは,他のよく知られた解釈方法よりも高い品質のスパースな説明を素早く生成することを示した。 私たちの知る限り、GitHubで入手可能なMILLET(https://github.com/JAEarly/MILTimeSeriesClassification)は、TSCのための一般的なMILメソッドを開発し、それらを広範囲のドメインに適用する最初の方法です。

Conventional Time Series Classification (TSC) methods are often black boxes that obscure inherent interpretation of their decision-making processes. In this work, we leverage Multiple Instance Learning (MIL) to overcome this issue, and propose a new framework called MILLET: Multiple Instance Learning for Locally Explainable Time series classification. We apply MILLET to existing deep learning TSC models and show how they become inherently interpretable without compromising (and in some cases, even improving) predictive performance. We evaluate MILLET on 85 UCR TSC datasets and also present a novel synthetic dataset that is specially designed to facilitate interpretability evaluation. On these datasets, we show MILLET produces sparse explanations quickly that are of higher quality than other well-known interpretability methods. To the best of our knowledge, our work with MILLET, which is available on GitHub (https://github.com/JAEarly/MILTimeSeriesClassification), is the first to develop general MIL methods for TSC and apply them to an extensive variety of domains
翻訳日:2023-11-17 13:29:21 公開日:2023-11-16
# 深度インサイト - 屋内単画像深度推定への異なる特徴の寄与

Depth Insight -- Contribution of Different Features to Indoor Single-image Depth Estimation ( http://arxiv.org/abs/2311.10042v1 )

ライセンス: Link先を確認
Yihong Wu, Yuwen Heng, Mahesan Niranjan, Hansung Kim(参考訳) 単一画像からの深度推定は、両眼差や動き情報がないため、コンピュータビジョンでは難しい問題である。 この領域では、最近、エンドツーエンドの訓練されたディープ・ニューラル・アーキテクチャを使用して、印象的なパフォーマンスが報告されているが、これらのブラックボックス・システムによって悪用されている画像の手がかりを知るのは難しい。 そこで本研究では,室内シーンデータセットを用いた単眼深度推定設定において,既知の深さの手がかりの相対的寄与を定量化する。 本研究は, 形状, テクスチャ, 色, 彩度などの1つの特徴を分離して, 深さを推定するために特徴抽出手法を用いる。 エッジ検出により抽出された物体の形状は, 室内環境において他の物体よりも大きく寄与するが, その他の特徴は程度によっても寄与することがわかった。 これらの洞察は深度推定モデルを最適化し、精度と堅牢性を高めるのに役立つ。 彼らは視覚に基づく深度推定の実践的応用を広げることを約束する。 プロジェクトコードは補足資料に添付され、githubで公開される予定だ。

Depth estimation from a single image is a challenging problem in computer vision because binocular disparity or motion information is absent. Whereas impressive performances have been reported in this area recently using end-to-end trained deep neural architectures, as to what cues in the images that are being exploited by these black box systems is hard to know. To this end, in this work, we quantify the relative contributions of the known cues of depth in a monocular depth estimation setting using an indoor scene data set. Our work uses feature extraction techniques to relate the single features of shape, texture, colour and saturation, taken in isolation, to predict depth. We find that the shape of objects extracted by edge detection substantially contributes more than others in the indoor setting considered, while the other features also have contributions in varying degrees. These insights will help optimise depth estimation models, boosting their accuracy and robustness. They promise to broaden the practical applications of vision-based depth estimation. The project code is attached to the supplementary material and will be published on GitHub.
翻訳日:2023-11-17 13:29:01 公開日:2023-11-16
# 36歳でのソフトウェア依存関係の測定

Software Dependability Measurement at the Age Of 36 ( http://arxiv.org/abs/2311.10039v1 )

ライセンス: Link先を確認
Robert V. Binder(参考訳) ieee standard 982.1の初版から36年後の第3版では、サービス内ソフトウェア依存度の測定に焦点を当てている。 この記事では、この新たな視点がどのように進化し、ソフトウェア依存度測定のための第3版のガイダンスを形成したかを説明します。

Thirty-six years after the first edition of IEEE standard 982.1, Measures of the Software Aspects of Dependability, the third edition focuses on the measurement of in-service software dependability. This article explains how this new point of view evolved and shaped the third edition's guidance for software dependability measurement.
翻訳日:2023-11-17 13:28:43 公開日:2023-11-16
# 貯水池工学による二部量子系の収束

Convergence of bipartite open quantum systems stabilized by reservoir engineering ( http://arxiv.org/abs/2311.10037v1 )

ライセンス: Link先を確認
R\'emi Robin, Pierre Rouchon, Lev-Arcady Sellem(参考訳) 本研究では,2成分のオープン量子系をモデル化するlindbladマスター方程式の一般族について検討し,量子貯留層工学(quantum reservoir engineering)として知られる他の量子系との相互作用を慎重に設計することにより,量子系を安定化しようとする。 我々は、考慮されたリンドブラッド方程式の収束に十分な条件を提供し、定常状態が一意ではなく、ヒルベルト空間の与えられた部分空間上で支持される場合に対応する。 この結果は、量子情報処理の潜在的な応用により近年注目されているいわゆる猫量子ビットの安定化のために提案されたリンドブラッドマスター方程式に適用する。

We study a generic family of Lindblad master equations modeling bipartite open quantum systems, where one tries to stabilize a quantum system by carefully designing its interaction with another, dissipative, quantum system - a strategy known as quantum reservoir engineering. We provide sufficient conditions for convergence of the considered Lindblad equations; our setting accommodates the case where steady states are not unique but rather supported on a given subspace of the underlying Hilbert space. We apply our result to a Lindblad master equation proposed for the stabilization of so-called cat qubits, a system that received considerable attention in recent years due to its potential applications in quantum information processing.
翻訳日:2023-11-17 13:28:35 公開日:2023-11-16
# match and location: 深部特徴マッチングに基づく低周波単眼オドメトリ

Match and Locate: low-frequency monocular odometry based on deep feature matching ( http://arxiv.org/abs/2311.10034v1 )

ライセンス: Link先を確認
Stepan Konev, Yuriy Biktairov(参考訳) 多くのロボットシステムにおいて、正確で堅牢なポーズ推定が重要な役割を果たす。 一般的なポーズ推定アルゴリズムは、様々なセンサからの高忠実度および高周波信号に依存する。 これらのセンサーを組み込むことで、システムは安価でより複雑になる。 本研究では,1台のカメラしか必要とせず,毎秒1フレーム程度の超低周波信号であっても,信頼性の高い推定値が得られるロボットオーソメトリの新しい手法を提案する。 アプローチは、深い特徴マッチングモデルを用いて、ビデオストリームの連続フレーム間の画像特徴のマッチングに基づいている。 結果として得られた粗い推定は畳み込みニューラルネットワークによって調整され、これは遷移の規模を推定する責任も負う。 本研究では,AISG-SLAビジュアルローカライゼーションチャレンジにおける手法の性能評価を行い,計算効率が高く,実装が容易である一方で,約$3^{\circ} の向き推定誤差と$2mの翻訳推定誤差が課題の3位であることを示す。

Accurate and robust pose estimation plays a crucial role in many robotic systems. Popular algorithms for pose estimation typically rely on high-fidelity and high-frequency signals from various sensors. Inclusion of these sensors makes the system less affordable and much more complicated. In this work we introduce a novel approach for the robotic odometry which only requires a single camera and, importantly, can produce reliable estimates given even extremely low-frequency signal of around one frame per second. The approach is based on matching image features between the consecutive frames of the video stream using deep feature matching models. The resulting coarse estimate is then adjusted by a convolutional neural network, which is also responsible for estimating the scale of the transition, otherwise irretrievable using only the feature matching information. We evaluate the performance of the approach in the AISG-SLA Visual Localisation Challenge and find that while being computationally efficient and easy to implement our method shows competitive results with only around $3^{\circ}$ of orientation estimation error and $2m$ of translation estimation error taking the third place in the challenge.
翻訳日:2023-11-17 13:28:22 公開日:2023-11-16
# 強化学習における報酬シェーピングによる制御要件の保証

Guaranteeing Control Requirements via Reward Shaping in Reinforcement Learning ( http://arxiv.org/abs/2311.10026v1 )

ライセンス: Link先を確認
Francesco De Lellis, Marco Coraggio, Giovanni Russo, Mirco Musolesi, Mario di Bernardo(参考訳) 規制や強化学習による追跡といった制御問題に対処するためには, 取得したポリシが, 所望の着地時間や定常状態のエラーなど, 重要な性能および安定性基準を満たすことを保証することが求められる。 この必要性に動機づけられ、一連の結果と体系的な報酬形成手順を提示する。 i) 最適方針が所定の規制要件に適合する軌道を生成すること。 (ii)ある政策がそれを満たすかどうかを判断することができる。 提案手法は,OpenAI Gymの2つの代表的な環境である逆振り子の振上げ問題とLunar Landerの総合的な数値実験により検証する。 本研究は, 表層学習と深層強化学習の両方を用いて, 提案手法の有効性を一貫して確認し, 所定の制御要件に対するポリシー遵守の有効性を強調する。

In addressing control problems such as regulation and tracking through reinforcement learning, it is often required to guarantee that the acquired policy meets essential performance and stability criteria such as a desired settling time and steady-state error prior to deployment. Motivated by this necessity, we present a set of results and a systematic reward shaping procedure that (i) ensures the optimal policy generates trajectories that align with specified control requirements and (ii) allows to assess whether any given policy satisfies them. We validate our approach through comprehensive numerical experiments conducted in two representative environments from OpenAI Gym: the Inverted Pendulum swing-up problem and the Lunar Lander. Utilizing both tabular and deep reinforcement learning methods, our experiments consistently affirm the efficacy of our proposed framework, highlighting its effectiveness in ensuring policy adherence to the prescribed control requirements.
翻訳日:2023-11-17 13:28:02 公開日:2023-11-16
# 不均衡データおよび非iidデータのための新しいニューラルネットワークベースフェデレート学習システム

A Novel Neural Network-Based Federated Learning System for Imbalanced and Non-IID Data ( http://arxiv.org/abs/2311.10025v1 )

ライセンス: Link先を確認
Mahfuzur Rahman Chowdhury and Muhammad Ibrahim(参考訳) 機械学習技術の成長に伴い、ユーザーのデータのプライバシーが大きな関心事となっている。 機械学習アルゴリズムの大部分は、さまざまなソースから収集可能な大量のデータに大きく依存している。 プライバシーポリシーを守らずにこれらのデータを収集することは、研究者にとって最も難しい課題の1つだ。 この問題に対処するため、研究者らはフェデレーション学習を導入し、クライアントデータのプライバシーを確保することによって予測モデルを学習した。 しかし、一般的なフェデレーション学習アルゴリズムは、特に非IIDデータに対して精度と効率のトレードオフを持っている。 本研究では,集中型ニューラルネットワークを用いた連合学習システムを提案する。 集中型アルゴリズムは、クライアントデバイスとサーバがそれぞれ前方および後方の伝播を処理する従来のミニバッチアルゴリズムに触発されたマイクロレベルの並列処理を取り入れている。 また,提案アルゴリズムの半集中型バージョンを考案した。 このアルゴリズムはエッジコンピューティングを利用して中央サーバからの負荷を最小化し、クライアントが前方と後方の両方を処理し、列車全体の時間をある程度犠牲にする。 提案手法を5つのベンチマークデータセット上で評価し,既存のベンチマークアルゴリズムと比較して,様々なデータ分散設定において妥当な時間内に満足できる性能を実現する。

With the growth of machine learning techniques, privacy of data of users has become a major concern. Most of the machine learning algorithms rely heavily on large amount of data which may be collected from various sources. Collecting these data yet maintaining privacy policies has become one of the most challenging tasks for the researchers. To combat this issue, researchers have introduced federated learning, where a prediction model is learnt by ensuring the privacy of data of clients data. However, the prevalent federated learning algorithms possess an accuracy and efficiency trade-off, especially for non-IID data. In this research, we propose a centralized, neural network-based federated learning system. The centralized algorithm incorporates micro-level parallel processing inspired by the traditional mini-batch algorithm where the client devices and the server handle the forward and backward propagation respectively. We also devise a semi-centralized version of our proposed algorithm. This algorithm takes advantage of edge computing for minimizing the load from the central server, where clients handle both the forward and backward propagation while sacrificing the overall train time to some extent. We evaluate our proposed systems on five well-known benchmark datasets and achieve satisfactory performance in a reasonable time across various data distribution settings as compared to some existing benchmark algorithms.
翻訳日:2023-11-17 13:27:45 公開日:2023-11-16
# セマンティック3次元マッピングにおける過信問題について

On the Overconfidence Problem in Semantic 3D Mapping ( http://arxiv.org/abs/2311.10018v1 )

ライセンス: Link先を確認
Joao Marcos Correia Marques, Albert Zhai, Shenlong Wang and Kris Hauser(参考訳) 複数のビュー間で深度と画像のセグメンテーション情報を融合してオブジェクトクラスをリアルタイムで注釈付けした3Dマップを構築するセマンティック3Dマッピングは、最近の話題である。 本稿では, 従来のマッピング手法が地図全体の信頼性を高い信頼度に割り当てる融合過信問題に注目し, 誤判定された出力を導出する。 核融合パイプラインの異なる段階における不確実性校正を改善するいくつかの方法を提示し、scannetデータセットと比較した。 我々は,最も広く利用されているベイズ核融合戦略が最悪のキャリブレーションであることを示すとともに,リアルタイム能力を維持しながら高い精度と3次元マップキャリブレーションを同時に達成する,融合とキャリブレーションを組み合わせた学習パイプラインであるGLFSを提案する。 さらに、モジュール化されたObjectNavエージェントに適切な意味融合を組み込むことで、下流タスクにおけるマップキャリブレーションの重要性が向上することを示す。 私たちのコードは、受け入れ時に再現性のためにgithubで提供されます。

Semantic 3D mapping, the process of fusing depth and image segmentation information between multiple views to build 3D maps annotated with object classes in real-time, is a recent topic of interest. This paper highlights the fusion overconfidence problem, in which conventional mapping methods assign high confidence to the entire map even when they are incorrect, leading to miscalibrated outputs. Several methods to improve uncertainty calibration at different stages in the fusion pipeline are presented and compared on the ScanNet dataset. We show that the most widely used Bayesian fusion strategy is among the worst calibrated, and propose a learned pipeline that combines fusion and calibration, GLFS, which achieves simultaneously higher accuracy and 3D map calibration while retaining real-time capability. We further illustrate the importance of map calibration on a downstream task by showing that incorporating proper semantic fusion on a modular ObjectNav agent improves its success rates. Our code will be provided on Github for reproducibility upon acceptance.
翻訳日:2023-11-17 13:27:26 公開日:2023-11-16
# データから実世界の軌道運動法則を見つける

Finding Real-World Orbital Motion Laws from Data ( http://arxiv.org/abs/2311.10012v1 )

ライセンス: Link先を確認
Jo\~ao Funenga, Marta Guimar\~aes, Henrique Costa, Cl\'audia Soares(参考訳) 宇宙における衛星の動きを管理するPDEを発見するための新しいアプローチが提示されている。 この方法は、時系列データから複雑な物理システムの基盤となるダイナミクスを識別できるデータ駆動技術であるsindyに基づいている。 SINDyは、宇宙における物理学の法則を記述したPDEを明らかにするために利用され、これは非決定論的であり、ドラッグや参照領域(衛星の姿勢に関連する)といった様々な要因の影響を受けている。 従来の作業とは対照的に、物理的に解釈可能な座標系は維持され、データに次元削減技術は適用されない。 様々な傾斜、偏心、高度を通り抜けるLEOの複数の代表的な軌道でモデルを訓練し、未知の軌道運動パターンでテストすることで、位置の140km、速度の0.12km/sの平均誤差が達成される。 この方法は、伝播や、大気抵抗や宇宙船や宇宙物体との衝突における衝突の確率など、他の興味のある変数の予測モデルへの入力として使用できる軌道運動の解釈可能で正確で複雑なモデルを提供することの利点を提供する。 結論として、この研究はSINDyを用いて宇宙における衛星の挙動を規定する方程式を発見する可能性を示している。 この手法は、LEO内の衛星の動きを高精度に記述したPDEの発見に成功している。 この方法は、物理的に解釈可能で、正確で、高エントロピーデータセットから導かれる軌道運動の複雑なモデルを提供する能力など、伝統的なモデルに対していくつかの利点がある。 これらのモデルは、伝播や他の変数の予測モデルへの入力に利用することができる。

A novel approach is presented for discovering PDEs that govern the motion of satellites in space. The method is based on SINDy, a data-driven technique capable of identifying the underlying dynamics of complex physical systems from time series data. SINDy is utilized to uncover PDEs that describe the laws of physics in space, which are non-deterministic and influenced by various factors such as drag or the reference area (related to the attitude of the satellite). In contrast to prior works, the physically interpretable coordinate system is maintained, and no dimensionality reduction technique is applied to the data. By training the model with multiple representative trajectories of LEO - encompassing various inclinations, eccentricities, and altitudes - and testing it with unseen orbital motion patterns, a mean error of around 140 km for the positions and 0.12 km/s for the velocities is achieved. The method offers the advantage of delivering interpretable, accurate, and complex models of orbital motion that can be employed for propagation or as inputs to predictive models for other variables of interest, such as atmospheric drag or the probability of collision in an encounter with a spacecraft or space objects. In conclusion, the work demonstrates the promising potential of using SINDy to discover the equations governing the behaviour of satellites in space. The technique has been successfully applied to uncover PDEs describing the motion of satellites in LEO with high accuracy. The method possesses several advantages over traditional models, including the ability to provide physically interpretable, accurate, and complex models of orbital motion derived from high-entropy datasets. These models can be utilised for propagation or as inputs to predictive models for other variables of interest.
翻訳日:2023-11-17 13:27:06 公開日:2023-11-16
# SQLNet: Few-Shot Class-Agnostic Countingのためのスケール変調クエリとローカライゼーションネットワーク

SQLNet: Scale-Modulated Query and Localization Network for Few-Shot Class-Agnostic Counting ( http://arxiv.org/abs/2311.10011v1 )

ライセンス: Link先を確認
Hefeng Wu, Yandong Chen, Lingbo Liu, Tianshui Chen, Keze Wang, Liang Lin(参考訳) CAC(class-agnostic counting)タスクは、最近、任意のクラスの全てのオブジェクトを、入力画像にいくつかの例を付与してカウントする問題を解くために提案されている。 この課題に対処するために、既存のリーディングメソッドはすべて密度マップ回帰に依存しており、オブジェクトの位置を必要とするダウンストリームタスクでは非現実的であり、監視のためにexemplarsのスケール情報を正確に探索する能力を制限する。 この制限に対処するため,我々は,SQLNet(Scale-modulated Query and Localization Network)と呼ばれる,新しいローカライゼーションベースのCACアプローチを提案する。 クエリとローカライズの両方のステージにおける例題のスケールを徹底的に検討し、各オブジェクトを正確に位置決めし、その近似サイズを予測することで、効果的なカウントを実現している。 具体的には,問合せ段階において,階層型exemplars collaborative enhancement (hece)モジュールによって,複数個のexemplarモジュールから,同等の大きさの簡易埋め込みによるマルチスケールのexemplar協調により,対象クラスのリッチな判別表現を取得する。 これらの表現はExemplars-Unified Query correlation (EUQC)モジュールに入力され、統一された方法でクエリ機能と対話し、関連するクエリテンソルを生成する。 ローカライゼーション段階では、SAML(Scale-aware Multi-head Localization)モジュールはクエリテンソルを使用して、各潜在的オブジェクトの信頼性、位置、サイズを予測する。 さらに、フレキシブルな位置関連と模範的なスケールを利用してモデル性能を最適化するスケールアウェアのローカライゼーション損失が導入された。 大規模な実験では、SQLNetは一般的なCACベンチマークで最先端のメソッドよりも優れており、精度だけでなく、ローカライゼーションやバウンディングボックス生成でも優れたパフォーマンスを実現している。 私たちのコードはhttps://github.com/HCPLab-SYSU/SQLNetで公開されます。

The class-agnostic counting (CAC) task has recently been proposed to solve the problem of counting all objects of an arbitrary class with several exemplars given in the input image. To address this challenging task, existing leading methods all resort to density map regression, which renders them impractical for downstream tasks that require object locations and restricts their ability to well explore the scale information of exemplars for supervision. To address the limitations, we propose a novel localization-based CAC approach, termed Scale-modulated Query and Localization Network (SQLNet). It fully explores the scales of exemplars in both the query and localization stages and achieves effective counting by accurately locating each object and predicting its approximate size. Specifically, during the query stage, rich discriminative representations of the target class are acquired by the Hierarchical Exemplars Collaborative Enhancement (HECE) module from the few exemplars through multi-scale exemplar cooperation with equifrequent size prompt embedding. These representations are then fed into the Exemplars-Unified Query Correlation (EUQC) module to interact with the query features in a unified manner and produce the correlated query tensor. In the localization stage, the Scale-aware Multi-head Localization (SAML) module utilizes the query tensor to predict the confidence, location, and size of each potential object. Moreover, a scale-aware localization loss is introduced, which exploits flexible location associations and exemplar scales for supervision to optimize the model performance. Extensive experiments demonstrate that SQLNet outperforms state-of-the-art methods on popular CAC benchmarks, achieving excellent performance not only in counting accuracy but also in localization and bounding box generation. Our codes will be available at https://github.com/HCPLab-SYSU/SQLNet
翻訳日:2023-11-17 13:26:38 公開日:2023-11-16
# 量子ノイズフォーマリズムによるオープンシステムをシミュレートする効率的な量子アルゴリズム

Efficient quantum algorithm to simulate open systems through the quantum noise formalism ( http://arxiv.org/abs/2311.10009v1 )

ライセンス: Link先を確認
Giovanni Di Bartolomeo, Michele Vischi, Tommaso Feri, Angelo Bassi, Sandro Donadi(参考訳) 本稿では,量子デバイス上でオープン量子システムをシミュレートする量子ノイズフレームワークに基づく効率的なアルゴリズムを提案する。 オープンシステム力学は、システムキュービットに作用するランダムなユニタリゲートと環境を表す単一のアシラリーバスキュービットを繰り返し適用することによりシミュレーション可能であることを証明した。 このアルゴリズムは、システムサイズに関わらずアンシラのオーバーヘッドが常に一定であることに加えて、環境結合定数の第一次に対するリンドブラッド方程式の摂動近似を提供し、時間ステップにおける第一次近似に対する目標精度の向上を可能にし、ステップの総数を減少させるため、現在のアプローチと比較して顕著な前進を示している。 摂動近似が成立しない場合、より小さな時間ステップをとることができ、このアプローチは時間ステップの第一次解に還元される。 将来の展望として、このフレームワークはバスキュービット処方のリセットを緩和することにより、マルコフ効果を容易に緩和する。

We introduce an efficient algorithm based on the quantum noise framework for simulating open quantum systems on quantum devices. We prove that the open system dynamics can be simulated by repeatedly applying random unitary gates acting on the system qubits plus a single ancillary bath qubit representing the environment. This algorithm represents a notable step forward compared to current approaches, not only beacause the ancilla overhead remains always constant regardless of the system size, but also because it provides a perturbative approximation of the full Lindblad equation to first order in the environment coupling constants, allowing to reach a better target accuracy with respect to first order approximation in the time step, thus reducing the total number of steps. When the perturbative approximation does not hold one can take smaller time steps and the approach reduces to the solution to first order in the time step. As a future perspective, this framework easily accomodates non-Markovian effects by relaxing the reset of the bath qubit prescription.
翻訳日:2023-11-17 13:26:03 公開日:2023-11-16
# スプリット演算熱電場コヒーレンスダイナミクスからの有限温度ビブロニックスペクトル

Finite-temperature vibronic spectra from the split-operator thermofield coherence dynamics ( http://arxiv.org/abs/2311.10004v1 )

ライセンス: Link先を確認
Zhan Tong Zhang, Ji\v{r}\'i Van\'i\v{c}ek(参考訳) 温度効果の包含は、実験的に観察された電子スペクトルを適切にシミュレートし解釈するために重要である。 本稿では,熱磁場コヒーレンスダイナミクスを用いた有限温度でのスペクトル評価法を提案する。 このコヒーレンスに対するフォン・ノイマン方程式を解くアルゴリズムの実装を回避し、熱振動アンサンブルを最初に拡張空間内の純状態波束にマッピングし、この波束をスプリット演算子フーリエ法で標準のゼロ温度schr\"{o}dinger方程式を解いて伝播する。 モースポテンシャルにおける熱場コヒーレンスダイナミクスを用いて得られる有限温度スペクトルは、ボルツマンによる個々の振動レベルのスペクトルの計算と正確に一致することを示す。 フルテンソル積格子上のスプリット演算子熱場ダイナミクスは低次元系に制限されるため、ゼロ温度分割演算フーリエ法のために開発された様々な技術により、アクセス可能な次元がどのように増大するかを簡単に議論する。

The inclusion of temperature effects is important to properly simulate and interpret experimentally observed vibrationally resolved electronic spectra. We present a numerically exact approach for evaluating these spectra at finite temperature using the thermofield coherence dynamics. In this method, which avoids implementing an algorithm for solving the von Neumann equation for the coherence, the thermal vibrational ensemble is first mapped to a pure-state wavepacket in an augmented space, and this wavepacket is then propagated by solving the standard, zero-temperature Schr\"{o}dinger equation with the split-operator Fourier method. We show that the finite-temperature spectra obtained with the thermofield coherence dynamics in a Morse potential agree exactly with those computed by Boltzmann-averaging the spectra of individual vibrational levels. Because the split-operator thermofield dynamics on a full tensor-product grid is restricted to low-dimensional systems, we briefly discuss how the accessible dimensionality can be increased by various techniques developed for the zero-temperature split-operator Fourier method.
翻訳日:2023-11-17 13:25:32 公開日:2023-11-16
# straggler-resilient federated learning:モバイルエッジネットワークにおける階層型部分モデルトレーニングによる計算の不均一性に取り組む

Straggler-resilient Federated Learning: Tackling Computation Heterogeneity with Layer-wise Partial Model Training in Mobile Edge Network ( http://arxiv.org/abs/2311.10002v1 )

ライセンス: Link先を確認
Hongda Wu, Ping Wang, C V Aswartha Narayana(参考訳) フェデレートラーニング(FL)は、多くのリソース制限されたデバイスがデータ共有なしで協調的にモデルをトレーニングできるようにする。 しかし、既存の多くの作品は、グローバルモデルとローカルモデルが同じサイズであるモデル均質な fl にフォーカスしており、異なるデバイスの本質的に不均一な計算能力を無視し、リソース制約されたデバイスが fl に寄与することを制限している。 本稿では,モデルヘテロジェンスflを考察し,より小さな計算能力を持つデバイスが部分モデル(グローバルモデルのサブセット)に取り組み,大域モデルに寄与するフェデレート部分モデルトレーニング(federated partial model training, fedpmt)を提案する。 ランダムに隠れた層のニューロンを除去するドロップアウトベースの部分モデル生成とは異なり、feedpmtのモデルトレーニングはバックプロパゲーションの観点から達成される。 したがって、FedPMTのすべてのデバイスは、グローバルモデルの最も重要な部分を優先している。 理論解析により,提案手法は,federated averaging (fedavg) アルゴリズムである$\mathcal{o}(1/t)$ に類似する収束率を示し,federated averagingアルゴリズムのモデル分割設計に関連する定数係数によってサブオプティリティギャップを増大させた。 実証的な結果は、FedPMTが既存のベンチマークFedDropを大きく上回っていることを示している。 一方、一般的なモデル均質ベンチマークであるfedavgと比較して、feedpmtは学習目標に短い完了時間で到達し、学習精度と完了時間の間のトレードオフがより良好になる。

Federated Learning (FL) enables many resource-limited devices to train a model collaboratively without data sharing. However, many existing works focus on model-homogeneous FL, where the global and local models are the same size, ignoring the inherently heterogeneous computational capabilities of different devices and restricting resource-constrained devices from contributing to FL. In this paper, we consider model-heterogeneous FL and propose Federated Partial Model Training (FedPMT), where devices with smaller computational capabilities work on partial models (subsets of the global model) and contribute to the global model. Different from Dropout-based partial model generation, which removes neurons in hidden layers at random, model training in FedPMT is achieved from the back-propagation perspective. As such, all devices in FedPMT prioritize the most crucial parts of the global model. Theoretical analysis shows that the proposed partial model training design has a similar convergence rate to the widely adopted Federated Averaging (FedAvg) algorithm, $\mathcal{O}(1/T)$, with the sub-optimality gap enlarged by a constant factor related to the model splitting design in FedPMT. Empirical results show that FedPMT significantly outperforms the existing benchmark FedDrop. Meanwhile, compared to the popular model-homogeneous benchmark, FedAvg, FedPMT reaches the learning target in a shorter completion time, thus achieving a better trade-off between learning accuracy and completion time.
翻訳日:2023-11-17 13:24:53 公開日:2023-11-16
# テキスト・画像拡散モデルにおける一貫性文字

The Chosen One: Consistent Characters in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2311.10093v1 )

ライセンス: Link先を確認
Omri Avrahami, Amir Hertz, Yael Vinker, Moab Arar, Shlomi Fruchter, Ohad Fried, Daniel Cohen-Or, Dani Lischinski(参考訳) テキスト対画像生成モデルの最近の進歩は、ビジュアルクリエイティビティにとって大きな可能性を秘めている。 しかし、これらのモデルは、ストーリービジュアライゼーション、ゲーム開発アセットデザイン、広告など、多くの現実世界のアプリケーションにとって重要な側面である一貫性のあるキャラクターの生成に苦慮している。 現在の方法は、通常、ターゲットキャラクタの複数の既存のイメージに依存するか、または労働集約的な手動プロセスを伴う。 本研究では,テキストプロンプトを唯一の入力とする,一貫した文字生成のための完全自動解を提案する。 各段階において、類似の同一性を共有するコヒーレントな画像集合を識別し、この集合からより一貫性のある同一性を抽出する反復手順を導入する。 定量的解析の結果,本手法はベースライン法と比較して,迅速なアライメントとアイデンティティの一貫性のバランスが良好であることを示し,ユーザ調査により補強された。 結論として,本手法の実用化例をいくつか紹介する。 プロジェクトページはhttps://omriavrahami.com/the-chosen-oneで閲覧できます。

Recent advances in text-to-image generation models have unlocked vast potential for visual creativity. However, these models struggle with generation of consistent characters, a crucial aspect for numerous real-world applications such as story visualization, game development asset design, advertising, and more. Current methods typically rely on multiple pre-existing images of the target character or involve labor-intensive manual processes. In this work, we propose a fully automated solution for consistent character generation, with the sole input being a text prompt. We introduce an iterative procedure that, at each stage, identifies a coherent set of images sharing a similar identity and extracts a more consistent identity from this set. Our quantitative analysis demonstrates that our method strikes a better balance between prompt alignment and identity consistency compared to the baseline methods, and these findings are reinforced by a user study. To conclude, we showcase several practical applications of our approach. Project page is available at https://omriavrahami.com/the-chosen-one
翻訳日:2023-11-17 13:16:33 公開日:2023-11-16
# motion priorを用いたトラヒックビデオ物体検出

Traffic Video Object Detection using Motion Prior ( http://arxiv.org/abs/2311.10092v1 )

ライセンス: Link先を確認
Lihao Liu, Yanqi Cheng, Dongdong Chen, Jing He, Pietro Li\`o, Carola-Bibiane Sch\"onlieb, Angelica I Aviles-Rivero(参考訳) トラフィックビデオは、静止カメラの設定における一般的なビデオと本質的に異なるため、オブジェクトが短い間隔で特定の方向に移動する前に強い動きを与える。 既存の作業は主に、トラフィックビデオオブジェクト検出のための一般的なビデオオブジェクト検出フレームワークを使用しており、多様なシナリオに対する広範な適用性やロバスト性など、ある種の利点をもたらす。 しかし、検出精度を高める前に動きの強さを利用することができない。 本研究では,全教師付きおよび半教師付トラヒック映像検出の性能を向上させるための2つの手法を提案する。 まず,完全教師付き設定において時間情報の統合を導く前に,動きを利用する自己認識モジュールを導入する。 次に,疑似ラベル機構の開発に先立って,半教師付き設定におけるノイズの少ない擬似ラベルを除去した。 どちらの動き優先法も常に優れた性能を示しており、既存の最先端手法よりもmAPのマージンが2%向上している。

Traffic videos inherently differ from generic videos in their stationary camera setup, thus providing a strong motion prior where objects often move in a specific direction over a short time interval. Existing works predominantly employ generic video object detection framework for traffic video object detection, which yield certain advantages such as broad applicability and robustness to diverse scenarios. However, they fail to harness the strength of motion prior to enhance detection accuracy. In this work, we propose two innovative methods to exploit the motion prior and boost the performance of both fully-supervised and semi-supervised traffic video object detection. Firstly, we introduce a new self-attention module that leverages the motion prior to guide temporal information integration in the fully-supervised setting. Secondly, we utilise the motion prior to develop a pseudo-labelling mechanism to eliminate noisy pseudo labels for the semi-supervised setting. Both of our motion-prior-centred methods consistently demonstrates superior performance, outperforming existing state-of-the-art approaches by a margin of 2% in terms of mAP.
翻訳日:2023-11-17 13:16:15 公開日:2023-11-16
# 能率性ニューラルラジアンス場レンダリングのための適応シェル

Adaptive Shells for Efficient Neural Radiance Field Rendering ( http://arxiv.org/abs/2311.10091v1 )

ライセンス: Link先を確認
Zian Wang, Tianchang Shen, Merlin Nimier-David, Nicholas Sharp, Jun Gao, Alexander Keller, Sanja Fidler, Thomas M\"uller, Zan Gojcic(参考訳) ニューラルラディアンス場は、新しいビュー合成において前例のない品質を達成するが、その体積定式化は高価であり、高解像度画像のレンダリングには膨大なサンプルを必要とする。 ボリュームエンコーディングは葉や毛髪などのファジィな幾何学を表現するのに必須であり、確率的最適化に適している。 しかし、多くのシーンは最終的に1ピクセルにつき1つのサンプルで正確にレンダリングできる固体表面で構成されている。 この知見に基づいて, 容積と表面のレンダリングを円滑に遷移させ, レンダリング速度を大幅に高速化し, 視覚的忠実度を向上するニューラル放射率定式化を提案する。 本手法は,神経容積表現を空間的に結合した明示的なメッシュ包絡を構成する。 固体領域では、封筒は表面へほぼ収束し、しばしば単一のサンプルでレンダリングされる。 そこで我々は,NeuSの定式化を,密度の広がりを符号化した空間変化カーネルサイズで一般化し,広いカーネルを体積状の領域に,狭いカーネルを表面のような領域に適合させる。 次に、カーネルサイズによって幅が決定される表面の狭い帯域の明示的なメッシュを抽出し、この帯域内の放射場を微調整する。 推定時, メッシュに対して光線を照射し, 囲み領域内での放射界の評価を行い, 必要な試料数を大幅に削減した。 実験によれば、この手法は高い忠実度で効率的なレンダリングを可能にする。 また,抽出されたエンベロープがアニメーションやシミュレーションなどの下流アプリケーションを可能にすることを示す。

Neural radiance fields achieve unprecedented quality for novel view synthesis, but their volumetric formulation remains expensive, requiring a huge number of samples to render high-resolution images. Volumetric encodings are essential to represent fuzzy geometry such as foliage and hair, and they are well-suited for stochastic optimization. Yet, many scenes ultimately consist largely of solid surfaces which can be accurately rendered by a single sample per pixel. Based on this insight, we propose a neural radiance formulation that smoothly transitions between volumetric- and surface-based rendering, greatly accelerating rendering speed and even improving visual fidelity. Our method constructs an explicit mesh envelope which spatially bounds a neural volumetric representation. In solid regions, the envelope nearly converges to a surface and can often be rendered with a single sample. To this end, we generalize the NeuS formulation with a learned spatially-varying kernel size which encodes the spread of the density, fitting a wide kernel to volume-like regions and a tight kernel to surface-like regions. We then extract an explicit mesh of a narrow band around the surface, with width determined by the kernel size, and fine-tune the radiance field within this band. At inference time, we cast rays against the mesh and evaluate the radiance field only within the enclosed region, greatly reducing the number of samples required. Experiments show that our approach enables efficient rendering at very high fidelity. We also demonstrate that the extracted envelope enables downstream applications such as animation and simulation.
翻訳日:2023-11-17 13:15:56 公開日:2023-11-16
# JaxMARL:JAXにおけるマルチエージェントRL環境

JaxMARL: Multi-Agent RL Environments in JAX ( http://arxiv.org/abs/2311.10090v1 )

ライセンス: Link先を確認
Alexander Rutherford, Benjamin Ellis, Matteo Gallici, Jonathan Cook, Andrei Lupu, Gardar Ingvarsson, Timon Willi, Akbir Khan, Christian Schroeder de Witt, Alexandra Souly, Saptarashmi Bandyopadhyay, Mikayel Samvelyan, Minqi Jiang, Robert Tjarko Lange, Shimon Whiteson, Bruno Lacerda, Nick Hawes, Tim Rocktaschel, Chris Lu, Jakob Nicolaus Foerster(参考訳) ベンチマークは、機械学習アルゴリズムの開発において重要な役割を果たす。 例えば、強化学習(RL)の研究は利用可能な環境やベンチマークに大きく影響されている。 しかし、RL環境は伝統的にCPU上で動作しており、典型的な学術計算ではスケーラビリティを制限している。 JAXの最近の進歩は、これらの計算ハードルを克服するためにハードウェアアクセラレーションを広く利用し、非常に並列なRLトレーニングパイプラインと環境を可能にしました。 これは特にマルチエージェント強化学習(MARL)研究に有用である。 第一に、複数のエージェントを各環境ステップで考慮し、計算負荷を加算し、第二に、非定常性、分散部分観測性、その他のMARL課題によりサンプルの複雑さが増大する。 本稿では,使いやすさとGPU有効性を組み合わせた最初のオープンソースコードベースであるJaxMARLについて紹介し,多くの一般的なMARL環境と一般的なベースラインアルゴリズムをサポートする。 ウォールクロック時間を考慮すると、JAXベースのトレーニングパイプラインの実行は既存のアプローチよりも最大で12500倍高速です。 これにより、効率よく徹底的な評価が可能となり、分野の評価危機を緩和する可能性がある。 また、スタークラフト・マルチエージェントチャレンジのベクトル化された簡易バージョンであるSMAXを導入し、ベンチマークを行い、スタークラフトIIのゲームエンジンを走らせる必要をなくした。 これはGPUアクセラレーションを可能にするだけでなく、より柔軟なMARL環境を提供する。 コードはhttps://github.com/flairox/jaxmarlで提供します。

Benchmarks play an important role in the development of machine learning algorithms. For example, research in reinforcement learning (RL) has been heavily influenced by available environments and benchmarks. However, RL environments are traditionally run on the CPU, limiting their scalability with typical academic compute. Recent advancements in JAX have enabled the wider use of hardware acceleration to overcome these computational hurdles, enabling massively parallel RL training pipelines and environments. This is particularly useful for multi-agent reinforcement learning (MARL) research. First of all, multiple agents must be considered at each environment step, adding computational burden, and secondly, the sample complexity is increased due to non-stationarity, decentralised partial observability, or other MARL challenges. In this paper, we present JaxMARL, the first open-source code base that combines ease-of-use with GPU enabled efficiency, and supports a large number of commonly used MARL environments as well as popular baseline algorithms. When considering wall clock time, our experiments show that per-run our JAX-based training pipeline is up to 12500x faster than existing approaches. This enables efficient and thorough evaluations, with the potential to alleviate the evaluation crisis of the field. We also introduce and benchmark SMAX, a vectorised, simplified version of the popular StarCraft Multi-Agent Challenge, which removes the need to run the StarCraft II game engine. This not only enables GPU acceleration, but also provides a more flexible MARL environment, unlocking the potential for self-play, meta-learning, and other future applications in MARL. We provide code at https://github.com/flairox/jaxmarl.
翻訳日:2023-11-17 13:15:27 公開日:2023-11-16
# Emu Edit: 認識および生成タスクによる精密な画像編集

Emu Edit: Precise Image Editing via Recognition and Generation Tasks ( http://arxiv.org/abs/2311.10089v1 )

ライセンス: Link先を確認
Shelly Sheynin, Adam Polyak, Uriel Singer, Yuval Kirstain, Amit Zohar, Oron Ashual, Devi Parikh, Yaniv Taigman(参考訳) インストラクションベースの画像編集は、ユーザーが自然言語命令を使ってあらゆる編集操作を実行できるため、様々なアプリケーションにとって大きな可能性を秘めている。 しかし、この領域の現在のモデルは、しばしば正確にユーザー命令を実行するのに苦労する。 そこで本稿では,命令に基づく画像編集において最先端結果を設定するマルチタスク画像編集モデルであるemu editを提案する。 emu編集を開発するために、リージョンベースの編集、フリーフォーム編集、コンピュータビジョンタスクなど、前例のないタスクにまたがるマルチタスクにトレーニングします。 さらに,Emu Editのマルチタスク学習能力を高めるために,生成プロセスを正しい編集タイプへと導く学習タスクの埋め込みを提供する。 これらの要素はエミュー・エディットの優れたパフォーマンスに欠かせないものである。 さらに,emu編集が画像インペインティング,超解像度,編集タスクの構成などの新しいタスクに一般化できることを,いくつかのラベル付き例で示す。 この機能は、高品質のサンプルが不足しているシナリオにおいて、大きな利点を提供する。 最後に、より厳密でインフォームドな画像編集モデルの評価を容易にするために、7つの異なる画像編集タスクを含む新しい挑戦的で汎用性のあるベンチマークをリリースする。

Instruction-based image editing holds immense potential for a variety of applications, as it enables users to perform any editing operation using a natural language instruction. However, current models in this domain often struggle with accurately executing user instructions. We present Emu Edit, a multi-task image editing model which sets state-of-the-art results in instruction-based image editing. To develop Emu Edit we train it to multi-task across an unprecedented range of tasks, such as region-based editing, free-form editing, and Computer Vision tasks, all of which are formulated as generative tasks. Additionally, to enhance Emu Edit's multi-task learning abilities, we provide it with learned task embeddings which guide the generation process towards the correct edit type. Both these elements are essential for Emu Edit's outstanding performance. Furthermore, we show that Emu Edit can generalize to new tasks, such as image inpainting, super-resolution, and compositions of editing tasks, with just a few labeled examples. This capability offers a significant advantage in scenarios where high-quality samples are scarce. Lastly, to facilitate a more rigorous and informed assessment of instructable image editing models, we release a new challenging and versatile benchmark that includes seven different image editing tasks.
翻訳日:2023-11-17 13:14:57 公開日:2023-11-16
# 計算効率のよいオンラインニュートン法

A Computationally Efficient Sparsified Online Newton Method ( http://arxiv.org/abs/2311.10085v1 )

ライセンス: Link先を確認
Fnu Devvrit, Sai Surya Duvvuri, Rohan Anil, Vineet Gupta, Cho-Jui Hsieh, Inderjit Dhillon(参考訳) 2階法は、ディープニューラルネットワークトレーニングの収束性を高めるための大きな約束を持っているが、その大きなメモリと計算要求は実用性に制限されている。 したがって、大規模モデルを効率的にトレーニングできるスケーラブルな二階法が必要となる。 本稿では,sparsified online newton (sonew) 法を提案する。 このアルゴリズムはlogdet matrix divergence measureの新たな使用から生まれ、オンライン凸最適化フレームワークの後悔を最小限に抑えるために、スパーシティ制約と組み合わせる。 実験では,提案手法を最大1bパラメータの大規模ベンチマークでテストした。 我々は,1次手法を含むメモリ効率のよい最適化器と比較して,最大30%の高速化,3.4%の検証性能の相対的改善,80%のトレーニング損失の相対的改善を達成している。 三角形や帯状構造のような構造的空間パターンを具現化するにはオーバーヘッドがほとんどないしは不要であり、一階法と同じくらい効率的かつ並列化可能である。 壁時計時間では、三対角のsonewは1次法よりも1ステップあたり約3%遅いが、収束が非常に速いため全体の上昇をもたらす。 対照的に、最先端(SOTA)メモリ集約型2階法の一つであるシャンプーは、大規模なベンチマークにスケールできない。 さらに、shampooは大規模なベンチマークにスケールアップするための重要なエンジニアリング努力を必要としているが、sonewはより簡単な実装を提供し、実用性を高めている。 新しいコードは、https://github.com/devvrit/sonewで入手できる。

Second-order methods hold significant promise for enhancing the convergence of deep neural network training; however, their large memory and computational demands have limited their practicality. Thus there is a need for scalable second-order methods that can efficiently train large models. In this paper, we introduce the Sparsified Online Newton (SONew) method, a memory-efficient second-order algorithm that yields a sparsified yet effective preconditioner. The algorithm emerges from a novel use of the LogDet matrix divergence measure; we combine it with sparsity constraints to minimize regret in the online convex optimization framework. Empirically, we test our method on large scale benchmarks of up to 1B parameters. We achieve up to 30% faster convergence, 3.4% relative improvement in validation performance, and 80% relative improvement in training loss, in comparison to memory efficient optimizers including first order methods. Powering the method is a surprising fact -- imposing structured sparsity patterns, like tridiagonal and banded structure, requires little to no overhead, making it as efficient and parallelizable as first-order methods. In wall-clock time, tridiagonal SONew is only about 3% slower per step than first-order methods but gives overall gains due to much faster convergence. In contrast, one of the state-of-the-art (SOTA) memory-intensive second-order methods, Shampoo, is unable to scale to large benchmarks. Additionally, while Shampoo necessitates significant engineering efforts to scale to large benchmarks, SONew offers a more straightforward implementation, increasing its practical appeal. SONew code is available at: https://github.com/devvrit/SONew
翻訳日:2023-11-17 13:14:36 公開日:2023-11-16
# 情報解釈を用いた言語モデル復号におけるトレードオフの特徴付け

Characterizing Tradeoffs in Language Model Decoding with Informational Interpretations ( http://arxiv.org/abs/2311.10083v1 )

ライセンス: Link先を確認
Chung-Ching Chang, William W. Cohen, Yun-Hsuan Sung(参考訳) 本稿では動的プログラミングと情報理論を用いた言語モデルデコーダアルゴリズムの定式化のための理論的枠組みを提案する。 動的プログラミングでは、ロジット空間からアクション状態値関数空間へのデコーダアルゴリズムの設計を解き、デコーダアルゴリズムが動作状態値関数の最適化の結果であることを示す。 作用状態値関数空間内の各成分は情報理論的解釈を持つ。 リフトと解釈により、デコーダアルゴリズムが何を最適化しているかが明らかになり、それによって、意味、多様性、帰属におけるトレードオフの仲裁が容易になる。

We propose a theoretical framework for formulating language model decoder algorithms with dynamic programming and information theory. With dynamic programming, we lift the design of decoder algorithms from the logit space to the action-state value function space, and show that the decoding algorithms are consequences of optimizing the action-state value functions. Each component in the action-state value function space has an information theoretical interpretation. With the lifting and interpretation, it becomes evident what the decoder algorithm is optimized for, and hence facilitating the arbitration of the tradeoffs in sensibleness, diversity, and attribution.
翻訳日:2023-11-17 13:14:07 公開日:2023-11-16
# dress: 大きな視覚言語モデルに自然言語フィードバックによる人間との連携と対話を指示する

DRESS: Instructing Large Vision-Language Models to Align and Interact with Humans via Natural Language Feedback ( http://arxiv.org/abs/2311.10081v1 )

ライセンス: Link先を確認
Yangyi Chen, Karan Sikka, Michael Cogswell, Heng Ji, Ajay Divakaran(参考訳) 本稿では,LVLM(Large Vision Language Model)として,Large Language Modelsの自然言語フィードバック(NLF)を革新的に活用し,現状のLVLMにおける2つの重要な制限に対処することによって,そのアライメントとインタラクションを強化する。 第一に、以前のLVLMは一般に、人間の好みに合わせて調整するために、命令の微調整段階にのみ依存する。 追加のフィードバックを含まないと、いまだに無害、幻覚、有害な反応を起こす傾向にある。 第二に、視覚的インストラクションチューニングデータは一般的にマルチターン対話形式で構成されるが、連続する会話のターン間の接続や依存関係は弱い。 これにより、効果的なマルチターン相互作用の能力が低下する。 そこで本研究では,NLFを批判と洗練の2つの重要なタイプに分類する手法を提案する。 批判的NLFは反応の強さと弱さを特定し、LVLMを人間の好みに合わせるために使用される。 改良NLFは、改善のための具体的な提案を提供し、マルチターンインタラクションにフィードバックを組み込むことで、LVLMの応答を洗練できる能力に焦点を当てたLVLMの相互作用能力を改善するために採用されている。 NLFの非微分性に対処するため,条件付き強化学習を一般化した。 実験の結果,DRESS は SOTA LVML よりも有用 (9.76%), 正直 (11.52%), 無害 (21.03%) な応答を生成でき, マルチターン相互作用におけるフィードバックからより効果的に学習できることがわかった。

We present DRESS, a large vision language model (LVLM) that innovatively exploits Natural Language feedback (NLF) from Large Language Models to enhance its alignment and interactions by addressing two key limitations in the state-of-the-art LVLMs. First, prior LVLMs generally rely only on the instruction finetuning stage to enhance alignment with human preferences. Without incorporating extra feedback, they are still prone to generate unhelpful, hallucinated, or harmful responses. Second, while the visual instruction tuning data is generally structured in a multi-turn dialogue format, the connections and dependencies among consecutive conversational turns are weak. This reduces the capacity for effective multi-turn interactions. To tackle these, we propose a novel categorization of the NLF into two key types: critique and refinement. The critique NLF identifies the strengths and weaknesses of the responses and is used to align the LVLMs with human preferences. The refinement NLF offers concrete suggestions for improvement and is adopted to improve the interaction ability of the LVLMs-- which focuses on LVLMs' ability to refine responses by incorporating feedback in multi-turn interactions. To address the non-differentiable nature of NLF, we generalize conditional reinforcement learning for training. Our experimental results demonstrate that DRESS can generate more helpful (9.76%), honest (11.52%), and harmless (21.03%) responses, and more effectively learn from feedback during multi-turn interactions compared to SOTA LVMLs.
翻訳日:2023-11-17 13:13:54 公開日:2023-11-16
# ChatGPT-3.5、ChatGPT-4、Google Bard、Microsoft Bingは小児における健康リテラシーとコミュニケーションを改善する

ChatGPT-3.5, ChatGPT-4, Google Bard, and Microsoft Bing to Improve Health Literacy and Communication in Pediatric Populations and Beyond ( http://arxiv.org/abs/2311.10075v1 )

ライセンス: Link先を確認
Kanhai S. Amin, Linda Mayes, Pavan Khosla, Rushabh Doshi(参考訳) 目的: 健康リテラシーの強化は, 良好な健康成果と結びついているが, ほとんど研究されていない。 本研究では,大言語モデル(llm)が,子どもの健康リテラシー向上の媒体となるかを検討する。 メソッド: ChatGPT-3.5、Microsoft Bing、Google Bardを通じて26のプロンプトを使用して288の条件を実行しました。 レート制限による制約を考慮し,ChatGPT-4を用いて150条件のサブセットを検証した。 主な結果として,読解成績レベル(RGL)と単語数(アウトプット)があげられた。 結果: すべてのモデルにおいて, "explain" や "what is (are)" といった基本プロンプトの出力は,第10グレードの rgl であった。 第1回から第12回までの状況を説明するプロンプトが特定されたとき,llmはrglに基づいて応答を調整できる能力を持っていた。 ChatGPT-3.5は7年生から大学生のRGLに、ChatGPT-4は6年生から大学生のRGLに応答した。 Microsoft Bingは第9~第11RGLから回答を提供し、Google Bardは第7~第10RGLから回答を提供した。 議論: ChatGPT-3.5 と ChatGPT-4 は下位レベルの出力を達成できた。 一方、bardとbingは、プロンプトに関係なく、常に高校レベルのrglを作成する傾向があった。 さらに、あるアウトプットを提供するというバルドの迷信は、健康情報に対する慎重なアプローチを示している。 LLMは、健康コミュニケーションの強化を約束するが、今後の研究は、こうしたツールの精度と有効性を検証するべきである。 意味: LLMは、6グレードの読み込みレベル以下でアウトプットを作成する上で、課題に直面します。 しかし、この閾値を超える出力を変化させる能力は、小児の人口や他の地域の健康リテラシーとコミュニケーションを改善する潜在的メカニズムを提供する。

Purpose: Enhanced health literacy has been linked to better health outcomes; however, few interventions have been studied. We investigate whether large language models (LLMs) can serve as a medium to improve health literacy in children and other populations. Methods: We ran 288 conditions using 26 different prompts through ChatGPT-3.5, Microsoft Bing, and Google Bard. Given constraints imposed by rate limits, we tested a subset of 150 conditions through ChatGPT-4. The primary outcome measurements were the reading grade level (RGL) and word counts of output. Results: Across all models, output for basic prompts such as "Explain" and "What is (are)" were at, or exceeded, a 10th-grade RGL. When prompts were specified to explain conditions from the 1st to 12th RGL, we found that LLMs had varying abilities to tailor responses based on RGL. ChatGPT-3.5 provided responses that ranged from the 7th-grade to college freshmen RGL while ChatGPT-4 outputted responses from the 6th-grade to the college-senior RGL. Microsoft Bing provided responses from the 9th to 11th RGL while Google Bard provided responses from the 7th to 10th RGL. Discussion: ChatGPT-3.5 and ChatGPT-4 did better in achieving lower-grade level outputs. Meanwhile Bard and Bing tended to consistently produce an RGL that is at the high school level regardless of prompt. Additionally, Bard's hesitancy in providing certain outputs indicates a cautious approach towards health information. LLMs demonstrate promise in enhancing health communication, but future research should verify the accuracy and effectiveness of such tools in this context. Implications: LLMs face challenges in crafting outputs below a sixth-grade reading level. However, their capability to modify outputs above this threshold provides a potential mechanism to improve health literacy and communication in a pediatric population and beyond.
翻訳日:2023-11-17 13:13:24 公開日:2023-11-16
# 安全な自律型クアドロター着陸のための視覚環境評価

Visual Environment Assessment for Safe Autonomous Quadrotor Landing ( http://arxiv.org/abs/2311.10065v1 )

ライセンス: Link先を確認
Mattia Secchiero, Nishanth Bobbili, Yang Zhou, and Giuseppe Loianno(参考訳) 安全着陸ゾーンの自律的識別と評価は、システム障害や低バッテリ、特定のタスクが完了した場合の航空機ロボットの安全性と有効性を保証する上で最重要事項である。 本稿では,安全な四段着陸のための着陸地点の検出と評価のための新しいアプローチを提案する。 2次元および3次元の環境情報を効率的に統合し,gpsや計算集約的高度マップなどの外部支援の必要性を解消する。 提案するパイプラインは,ニューラルネットワーク(NN)から派生した意味的データを用いて環境特徴を抽出し,不均一マップから得られる幾何学的データと組み合わせ,斜面,平坦性,粗さなどの重要な幾何学的属性を抽出する。 これらの属性に基づいて複数のコストメトリクスを定義し,環境内の領域の安全性,安定性,適合性を評価し,最も適切な着陸地点を特定する。 提案手法は,計算能力に制限のあるクオータ上でリアルタイムに実行される。 種々の環境下で実施した実験結果から,提案手法は適切な着陸地点を効果的に評価し,同定し,安全にかつ自律的に着陸できることを示した。

Autonomous identification and evaluation of safe landing zones are of paramount importance for ensuring the safety and effectiveness of aerial robots in the event of system failures, low battery, or the successful completion of specific tasks. In this paper, we present a novel approach for detection and assessment of potential landing sites for safe quadrotor landing. Our solution efficiently integrates 2D and 3D environmental information, eliminating the need for external aids such as GPS and computationally intensive elevation maps. The proposed pipeline combines semantic data derived from a Neural Network (NN), to extract environmental features, with geometric data obtained from a disparity map, to extract critical geometric attributes such as slope, flatness, and roughness. We define several cost metrics based on these attributes to evaluate safety, stability, and suitability of regions in the environments and identify the most suitable landing area. Our approach runs in real-time on quadrotors equipped with limited computational capabilities. Experimental results conducted in diverse environments demonstrate that the proposed method can effectively assess and identify suitable landing areas, enabling the safe and autonomous landing of a quadrotor.
翻訳日:2023-11-17 13:12:51 公開日:2023-11-16
# 高速ハフ変換におけるダッチ線の偏差解析

Analyzing Deviations of Dyadic Lines in Fast Hough Transform ( http://arxiv.org/abs/2311.10064v1 )

ライセンス: Link先を確認
Gleb Smirnov, Simon Karpenko(参考訳) ファストハフ変換はパターン認識において広く使われているアルゴリズムである。 このアルゴリズムは、dyadic lineと呼ばれる特定の離散線モデルを用いて近似線に依存する。 dyadic 線が構成する理想直線から最も低い場合のずれは $o(log(n))$ となり、ここで $n$ は画像の線形サイズである。 しかし、最悪のケースに到達できる線は少ない。 本稿では, Dyadic 線が理想的な線から逸脱することの統計的解析について述べる。 具体的には、平均偏差がゼロであることを示し、分散は$O(log(n))$となる。 n$ が増加すると、これらの(適切に正規化された)偏差の分布は、平均がゼロで分散が小さい正規分布へと収束する。 この極限結果はエルゴード理論を本質的に利用する。

Fast Hough transform is a widely used algorithm in pattern recognition. The algorithm relies on approximating lines using a specific discrete line model called dyadic lines. The worst-case deviation of a dyadic line from the ideal line it used to construct grows as $O(log(n))$, where $n$ is the linear size of the image. But few lines actually reach the worst-case bound. The present paper addresses a statistical analysis of the deviation of a dyadic line from its ideal counterpart. Specifically, our findings show that the mean deviation is zero, and the variance grows as $O(log(n))$. As $n$ increases, the distribution of these (suitably normalized) deviations converges towards a normal distribution with zero mean and a small variance. This limiting result makes an essential use of ergodic theory.
翻訳日:2023-11-17 13:12:31 公開日:2023-11-16
# song descriptionrデータセット:音楽・言語評価のための音声キャプションのコーパス

The Song Describer Dataset: a Corpus of Audio Captions for Music-and-Language Evaluation ( http://arxiv.org/abs/2311.10057v1 )

ライセンス: Link先を確認
Ilaria Manco, Benno Weck, SeungHeon Doh, Minz Won, Yixiao Zhang, Dmitry Bodganov, Yusong Wu, Ke Chen, Philip Tovstogan, Emmanouil Benetos, Elio Quinton, Gy\"orgy Fazekas, Juhan Nam(参考訳) 楽曲と言語モデルの評価のために設計された,高品質なオーディオキャプチャペアのクラウドソースコーパスであるsong descriptionr dataset(sdd)を紹介する。 データセットは1.1kの人間による706曲の自然言語記述で構成され、全てクリエイティブ・コモン・ライセンスの下で公開されている。 データセットの使用例を示すために,3つの主要な音楽・言語タスク(音楽キャプション,テキスト・ツー・ミュージック生成,音楽言語検索)について,人気のあるモデルをベンチマークする。 実験では, クロスデータセット評価の重要性を強調し, SDDを用いたモデル性能の理解を深める方法について考察した。

We introduce the Song Describer dataset (SDD), a new crowdsourced corpus of high-quality audio-caption pairs, designed for the evaluation of music-and-language models. The dataset consists of 1.1k human-written natural language descriptions of 706 music recordings, all publicly accessible and released under Creative Common licenses. To showcase the use of our dataset, we benchmark popular models on three key music-and-language tasks (music captioning, text-to-music generation and music-language retrieval). Our experiments highlight the importance of cross-dataset evaluation and offer insights into how researchers can use SDD to gain a broader understanding of model performance.
翻訳日:2023-11-17 13:12:16 公開日:2023-11-16
# A Helpful Assistant"は大規模言語モデルにとって最高の役割か? システムプロンプトにおける社会的役割の体系的評価

Is "A Helpful Assistant" the Best Role for Large Language Models? A Systematic Evaluation of Social Roles in System Prompts ( http://arxiv.org/abs/2311.10054v1 )

ライセンス: Link先を確認
Mingqian Zheng, Jiaxin Pei and David Jurgens(参考訳) プロンプティングは、人間がLarge Language Models (LLM)と対話する主要な方法である。 商用AIシステムは、システムプロンプトにおけるLLMの役割を一般的に定義する。 例えば、chatgptはデフォルトのシステムプロンプトの一部として"you are a useful assistant"を使用している。 しかし、LLMにとって「補助アシスタント」は最高の役割なのだろうか? 本研究では,システムにおける社会的役割がモデル性能に与える影響を体系的に評価する。 6種類の対人関係と8種類の職業をカバーする162個の役割のリストを作成した。 3つのLLMと2457の質問を広範囲に分析することにより、プロンプトに対人的な役割を加えることで、様々な質問に対してモデルの性能が一貫して向上することを示す。 さらに,ジェンダーニュートラルな役割の使用や,オーディエンスとしての役割の特定はパフォーマンスの向上につながるが,どの役割が最高のパフォーマンスにつながるかを予測することは依然として困難な課題であり,頻度,類似性,難易度がモデルパフォーマンスに与える影響を十分に説明できない。 我々の結果は、AIシステムのためのシステムプロンプトの設計に役立てることができる。 コードとデータはhttps://github.com/jiaxin-pei/prompting-with-social-rolesで入手できる。

Prompting serves as the major way humans interact with Large Language Models (LLM). Commercial AI systems commonly define the role of the LLM in system prompts. For example, ChatGPT uses "You are a helpful assistant" as part of the default system prompt. But is "a helpful assistant" the best role for LLMs? In this study, we present a systematic evaluation of how social roles in system prompts affect model performance. We curate a list of 162 roles covering 6 types of interpersonal relationships and 8 types of occupations. Through extensive analysis of 3 popular LLMs and 2457 questions, we show that adding interpersonal roles in prompts consistently improves the models' performance over a range of questions. Moreover, while we find that using gender-neutral roles and specifying the role as the audience leads to better performances, predicting which role leads to the best performance remains a challenging task, and that frequency, similarity, and perplexity do not fully explain the effect of social roles on model performances. Our results can help inform the design of system prompts for AI systems. Code and data are available at https://github.com/Jiaxin-Pei/Prompting-with-Social-Roles.
翻訳日:2023-11-17 13:12:01 公開日:2023-11-16
# 凸最適化のためのリアプノフダンピングによる近接最適閉ループ法

Near-optimal Closed-loop Method via Lyapunov Damping for Convex Optimization ( http://arxiv.org/abs/2311.10053v1 )

ライセンス: Link先を確認
Severin Maier, Camille Castera, Peter Ochs(参考訳) 一階凸最適化のための閉ループ減衰を用いた自律システムを提案する。 現在, 最適収束率は開ループ減衰(例えばネステロフのアルゴリズム)による非自律的手法によってのみ達成されているが, 最適減衰速度を任意に示しながら閉ループ減衰を特徴とする最初のシステムであることが示されている。 我々は,システムの減衰速度と収束速度を, well-chosen lyapunov 関数で結合することで,その実現を実現した。 そこで我々は,このシステムを離散化することで,LYDIAと呼ばれる実用的な一階法アルゴリズムを導出し,理論的な知見を裏付ける数値実験を行った。

We introduce an autonomous system with closed-loop damping for first-order convex optimization. While, to this day, optimal rates of convergence are only achieved by non-autonomous methods via open-loop damping (e.g., Nesterov's algorithm), we show that our system is the first one featuring a closed-loop damping while exhibiting a rate arbitrarily close to the optimal one. We do so by coupling the damping and the speed of convergence of the system via a well-chosen Lyapunov function. We then derive a practical first-order algorithm called LYDIA by discretizing our system, and present numerical experiments supporting our theoretical findings.
翻訳日:2023-11-17 13:11:41 公開日:2023-11-16
# 2つの量子メモリによる絡み合いバッファリング

Entanglement buffering with two quantum memories ( http://arxiv.org/abs/2311.10052v1 )

ライセンス: Link先を確認
Bethany Davies, \'Alvaro G. I\~nesta, Stephanie Wehner(参考訳) 量子ネットワークは、遠方のノードに分散したエンタングルリンクとして知られる、高品質なエンタングルされた量子ビットペアの可用性に大きく依存している。 これらのリンクの品質を維持することは、時間依存ノイズ(decoherenceとも呼ばれる)が存在するため、難しい課題である。 絡み合い浄化プロトコルは、複数の低品質な絡み合い状態からより少数の高品質な状態に変換することで解を提供する。 本稿では,エンタングルメント消費,デコヒーレンス,エンタングルメント浄化を組み合わせたエンタングルメントバッファリング設定の性能解析を行うフレームワークを提案する。 提案する2つの主要な指標は,絡み合ったリンクが存在する定常確率であるアベイラビリティと,使用済みリンクの定常状態品質を定量化する平均消費忠実度である。 次に、各ノードが2つの量子メモリを持つ2ノードシステムについて検討する。 この設定を連続的確率過程としてモデル化し、パフォーマンス指標の分析式を導出する。 われわれの調査結果は、可用性と平均的消費忠実性の間のトレードオフを明らかにしている。 また,これらの性能指標を,よく知られた二局所クリフォード浄化プロトコルを用いたバッファリングシステムに適用した。 本分析は, ノイズの存在下では, バッファ状絡み合いが, パーミネーション故障により, バッファ状絡み合いが破棄された場合でも, バッファ状絡み合いが平均消費忠実度を増加させることを示した。

Quantum networks crucially rely on the availability of high-quality entangled pairs of qubits, known as entangled links, distributed across distant nodes. Maintaining the quality of these links is a challenging task due to the presence of time-dependent noise, also known as decoherence. Entanglement purification protocols offer a solution by converting multiple low-quality entangled states into a smaller number of higher-quality ones. In this work, we introduce a framework to analyse the performance of entanglement buffering setups that combine entanglement consumption, decoherence, and entanglement purification. We propose two key metrics: the availability, which is the steady-state probability that an entangled link is present, and the average consumed fidelity, which quantifies the steady-state quality of consumed links. We then investigate a two-node system, where each node possesses two quantum memories: one for long-term entanglement storage, and another for entanglement generation. We model this setup as a continuous-time stochastic process and derive analytical expressions for the performance metrics. Our findings unveil a trade-off between the availability and the average consumed fidelity. We also bound these performance metrics for a buffering system that employs the well-known bilocal Clifford purification protocols. Importantly, our analysis demonstrates that, in the presence of noise, consistently purifying the buffered entanglement increases the average consumed fidelity, even when some buffered entanglement is discarded due to purification failures.
翻訳日:2023-11-17 13:11:28 公開日:2023-11-16
# グラフ畳み込みアグリゲーションによる発達障害と脳障害の分類

Classification of developmental and brain disorders via graph convolutional aggregation ( http://arxiv.org/abs/2311.07370v2 )

ライセンス: Link先を確認
Ibrahim Salim and A. Ben Hamza(参考訳) グラフ畳み込みに基づく手法は、グラフ表現学習のデファクトスタンダードとなっているが、その疾患予測タスクへの応用は、特に神経発達および神経変性脳障害の分類において、かなり制限されている。 本稿では,グラフサンプリングにおける集約を利用したアグリゲータ正規化グラフ畳み込みネットワークを提案する。 提案モデルでは, 画像特徴と非画像特徴をそれぞれグラフノードとエッジに組み込むことにより, 識別グラフノード表現を学習し, 予測能力を増強し, 脳障害のメカニズムの全体像を提供する。 スキップ接続は入力された特徴からネットワークの後層への情報の直接フローを可能にし、アイデンティティマッピングは特徴学習中にグラフの構造情報を維持するのに役立つ。 我々は、自閉症スペクトラム障害とアルツハイマー病の予測のために、自閉症脳画像データ交換(ABIDE)とアルツハイマー病ニューロイメージングイニシアチブ(ADNI)という2つの大きなデータセット上の最近のベースライン手法を比較検討した。 実験の結果,最近の評価基準と比較し,abideとadniのグラフ畳み込みネットワークに対する分類精度の50%と13.56%の相対的改善を達成した。

While graph convolution based methods have become the de-facto standard for graph representation learning, their applications to disease prediction tasks remain quite limited, particularly in the classification of neurodevelopmental and neurodegenerative brain disorders. In this paper, we introduce an aggregator normalization graph convolutional network by leveraging aggregation in graph sampling, as well as skip connections and identity mapping. The proposed model learns discriminative graph node representations by incorporating both imaging and non-imaging features into the graph nodes and edges, respectively, with the aim of augmenting predictive capabilities and providing a holistic perspective on the underlying mechanisms of brain disorders. Skip connections enable the direct flow of information from the input features to later layers of the network, while identity mapping helps maintain the structural information of the graph during feature learning. We benchmark our model against several recent baseline methods on two large datasets, Autism Brain Imaging Data Exchange (ABIDE) and Alzheimer's Disease Neuroimaging Initiative (ADNI), for the prediction of autism spectrum disorder and Alzheimer's disease, respectively. Experimental results demonstrate the competitive performance of our approach in comparison with recent baselines in terms of several evaluation metrics, achieving relative improvements of 50% and 13.56% in classification accuracy over graph convolutional networks on ABIDE and ADNI, respectively.
翻訳日:2023-11-17 11:32:13 公開日:2023-11-16
# 大規模言語モデルの対話理解能力の探索

Exploring the Dialogue Comprehension Ability of Large Language Models ( http://arxiv.org/abs/2311.07194v2 )

ライセンス: Link先を確認
Shuaijie She, Shujian Huang, Xingyun Wang, Yanke Zhou, Jiajun Chen(参考訳) LLMは対話の形式でユーザと対話し、指示に従って応答を生成する。 しかし、対話理解は、直接的に評価することが難しい一般的な言語能力である。 本研究では,対話要約タスクの助けを借りて評価を行うことを提案する。 異なるLLMの対話要約性能(DIAC-Sum)の評価と解析に加えて、生成された要約から事実質問を導き出し、より柔軟な対話理解尺度(DIAC-FactQA)として利用する。 評価の結果,LLMが生成する要約の27%が事実整合性を含んでいることがわかった。 最強の評価モデルであるChatGPTでさえ、その要約の16%にそのようなエラーがある。 より難しい事実的疑問に答えるには、評価された全てのllmの平均エラー率は37.2%である。 どちらの結果も深刻な欠陥を示している。 詳細な分析は、会話の主題や対象を理解することが、まだLLMにとって最も難しい問題であることを示している。 さらに,LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。 実験の結果,DIAC-FactQAでは10.9%の誤差率向上が得られた。

LLMs may interact with users in the form of dialogue and generate responses following their instructions, which naturally require dialogue comprehension abilities. However, dialogue comprehension is a general language ability which is hard to be evaluated directly. In this work, we propose to perform the evaluation with the help of the dialogue summarization task. Beside evaluating and analyzing the dialogue summarization performance (DIAC-Sum) of different LLMs, we also derive factual questions from the generated summaries and use them as a more flexible measurement of dialogue comprehension (DIAC-FactQA). Our evaluation shows that, on average, 27% of the summaries generated by LLMs contain factual inconsistency. Even ChatGPT, the strongest model evaluated, has such errors in 16% of its summaries. For answering the factual questions, which is more challenging, the average error rate of all evaluated LLMs is 37.2%. Both results indicate serious deficiencies. Detailed analysis shows that the understanding of subject/object of the conversation is still the most challenging problem for LLMs. Furthermore, to stimulate and enhance the dialogue comprehension ability of LLMs, we propose a fine-tuning paradigm with auto-constructed multi-task data. The experimental results demonstrate that our method achieved an error rate improvement of 10.9% on DIAC-FactQA.
翻訳日:2023-11-17 11:31:47 公開日:2023-11-16
# SABAF: 逆フィルタリングによるニューラルネットワークからの強い属性バイアスの除去

SABAF: Removing Strong Attribute Bias from Neural Networks with Adversarial Filtering ( http://arxiv.org/abs/2311.07141v2 )

ライセンス: Link先を確認
Jiazhi Li, Mahyar Khayatkhoei, Jiageng Zhu, Hanchen Xie, Mohamed E. Hussein, Wael AbdAlmageed(参考訳) ニューラルネットワークの保証は、公正で信頼できるAIを進める上で、予測のために保護された属性(例えば、人種、性別、年齢)に依存していない。 ニューラルネットワークにおける属性バイアスを取り除くためのいくつかの有望な方法が提案されているが、その制限は未検討のままである。 そこで本研究では,既存の属性バイアス除去法の強いバイアスの存在下での制限を数学的に実証的に明らかにし,この制限を緩和できる新しい手法を提案する。 具体的には,データセット内の固有バイアスが比較的弱い場合にのみ有効であることを示す,任意の属性バイアス除去法の性能に関する一般的な非空白な情報理論上の上限を,まず導出する。 次に、バイアス強度にかかわらず属性バイアスを除去できる任意の方法が存在するための必要条件を導出する。 この条件に触発されて、特定の目標ラベルを必要とせず、他の属性を最大限に保存しつつ、入力空間の保護された属性を直接フィルタリングする対向目的を用いた新しい手法を提案する。 提案手法は,強いバイアス設定と適度なバイアス設定の両方において,最先端の性能を実現する。 本研究では, 合成, 画像, および国勢調査データセットに関する広範な実験を行い, 導出理論境界とその実測結果の検証を行い, 強い属性バイアスを除去する手法の有効性を評価する。

Ensuring a neural network is not relying on protected attributes (e.g., race, sex, age) for prediction is crucial in advancing fair and trustworthy AI. While several promising methods for removing attribute bias in neural networks have been proposed, their limitations remain under-explored. To that end, in this work, we mathematically and empirically reveal the limitation of existing attribute bias removal methods in presence of strong bias and propose a new method that can mitigate this limitation. Specifically, we first derive a general non-vacuous information-theoretical upper bound on the performance of any attribute bias removal method in terms of the bias strength, revealing that they are effective only when the inherent bias in the dataset is relatively weak. Next, we derive a necessary condition for the existence of any method that can remove attribute bias regardless of the bias strength. Inspired by this condition, we then propose a new method using an adversarial objective that directly filters out protected attributes in the input space while maximally preserving all other attributes, without requiring any specific target label. The proposed method achieves state-of-the-art performance in both strong and moderate bias settings. We provide extensive experiments on synthetic, image, and census datasets, to verify the derived theoretical bound and its consequences in practice, and evaluate the effectiveness of the proposed method in removing strong attribute bias.
翻訳日:2023-11-17 11:31:26 公開日:2023-11-16
# XAIの公正性に関する批判的調査

A Critical Survey on Fairness Benefits of XAI ( http://arxiv.org/abs/2310.13007v3 )

ライセンス: Link先を確認
Luca Deck, Jakob Schoeffer, Maria De-Arteaga, Niklas K\"uhl(参考訳) 本稿では,説明可能なai(xai)と公平性の関係に関する典型的な主張を分析し,これら2つの概念間の多次元関係を解消する。 体系的な文献レビューとその後の質的内容分析に基づいて,XAIの公正性に関する175論文から7つの古文書を抽出した。 我々はこれらの主張に関して重要な注意事項を提示し、特定の公正なデシダラタに対するXAIの可能性と限界に関する今後の議論のエントリポイントを提供する。 文献では、XAIがいくつかのフェアネス・デシダラタの有効性を示すことが多いが、これらのデシダラタとXAIの能力の相違に気付く。 我々は,XAIを,アルゴリズムフェアネスの多次元社会技術的課題にアプローチするための多くのツールの1つとして捉え,どのようなXAI手法がどのフェアネス・デシディラトゥムに対処できるかを正確に示すことを推奨する。

In this critical survey, we analyze typical claims on the relationship between explainable AI (XAI) and fairness to disentangle the multidimensional relationship between these two concepts. Based on a systematic literature review and a subsequent qualitative content analysis, we identify seven archetypal claims from 175 papers on the alleged fairness benefits of XAI. We present crucial caveats with respect to these claims and provide an entry point for future discussions around the potentials and limitations of XAI for specific fairness desiderata. While the literature often suggests XAI to be an enabler for several fairness desiderata, we notice a divide between these desiderata and the capabilities of XAI. We encourage to conceive XAI as one of many tools to approach the multidimensional, sociotechnical challenge of algorithmic fairness and to be more specific about how exactly what kind of XAI method enables whom to address which fairness desideratum.
翻訳日:2023-11-17 11:30:50 公開日:2023-11-16
# 量子力学と重力のインターフェイスとしての巨大量子システム

Massive quantum systems as interfaces of quantum mechanics and gravity ( http://arxiv.org/abs/2311.09218v2 )

ライセンス: Link先を確認
Sougato Bose, Ivette Fuentes, Andrew A. Geraci, Saba Mehsar Khan, Sofia Qvarfort, Markus Rademacher, Muddassar Rashid, Marko Toro\v{s}, Hendrik Ulbricht, Clara C. Wanjura(参考訳) 粒子物理学からの伝統的な見解では、量子重力効果は極端に高いエネルギーと小さな長さのスケールでしか検出できない。 技術的に重大な課題が伴うため、近い将来にアクセス可能な実験的に検出可能な効果を識別する能力は限られている。 しかし、近年では、実験室で制御できる量子システムのサイズと質量は前例のない規模に達しており、地上冷却と量子制御技術の進歩によって実現されている。 量子状態における大規模システムの準備は、重力を量子系によって引き起こし、探査できる低エネルギー状態の探索の道を開く。 このようなアプローチは、加速器ベースの、レーザー干渉計、ねじれバランス、重力の宇宙論的なテストの代替となる。 本稿では,大規模量子システムが量子力学と重力の界面として機能する提案の概要を紹介する。 本稿では,重力存在下での量子系の理論的記述における概念的困難について論じるとともに,実験室における大規模量子系モデリングツールについて概観する。 このレビューで取り上げられた提案には、重力の精密テスト、重力によって引き起こされる波動関数の崩壊とデコヒーレンスのテスト、重力による絡み合いなどが含まれる。 我々は、今後の質問の見通しと議論でレビューを締めくくります。

The traditional view from particle physics is that quantum gravity effects should only become detectable at extremely high energies and small length scales. Due to the significant technological challenges involved, there has been limited progress in identifying experimentally detectable effects that can be accessed in the foreseeable future. However, in recent decades, the size and mass of quantum systems that can be controlled in the laboratory have reached unprecedented scales, enabled by advances in ground-state cooling and quantum-control techniques. Preparations of massive systems in quantum states paves the way for the explorations of a low-energy regime in which gravity can be both sourced and probed by quantum systems. Such approaches constitute an increasingly viable alternative to accelerator-based, laser-interferometric, torsion-balance, and cosmological tests of gravity. In this review, we provide an overview of proposals where massive quantum systems act as interfaces between quantum mechanics and gravity. We discuss conceptual difficulties in the theoretical description of quantum systems in the presence of gravity, review tools for modeling massive quantum systems in the laboratory, and provide an overview of the current state-of-the-art experimental landscape. Proposals covered in this review include, among others, precision tests of gravity, tests of gravitationally-induced wavefunction collapse and decoherence, as well as gravity-mediated entanglement. We conclude the review with an outlook and discussion of future questions.
翻訳日:2023-11-17 11:25:36 公開日:2023-11-16
# abspyramid:unified entailment graphによる言語モデルの抽象化能力をベンチマークする

AbsPyramid: Benchmarking the Abstraction Ability of Language Models with a Unified Entailment Graph ( http://arxiv.org/abs/2311.09174v2 )

ライセンス: Link先を確認
Zhaowei Wang, Haochen Shi, Weiqi Wang, Tianqing Fang, Hongming Zhang, Sehyun Choi, Xin Liu, Yangqiu Song(参考訳) 認知研究は、抽象能力が人間の知性に不可欠であることを示している。 本稿では,抽象知識の221Kテキスト記述を統一化したものであるAbsPyramidについて述べる。 既存のリソースは単純なイベントや特定のドメイン内の名詞や動詞にのみ触れるが、abspyramidは多様なイベントの3つのコンポーネントの抽象知識を収集し、オープンドメインにおける言語モデルの抽象化能力を包括的に評価する。 実験の結果,現在のllmでは,ゼロショットと少数ショット設定の抽象化知識の理解が困難であることがわかった。 豊かな抽象知識を訓練することで、LLMは基本的な抽象能力を獲得し、目に見えない事象に一般化することができる。 その間、我々のベンチマークは2つの従来の抽象タスクにまたがるLLMを強化するために包括的であることを実証的に示す。

Cognitive research indicates that abstraction ability is essential in human intelligence, which remains under-explored in language models. In this paper, we present AbsPyramid, a unified entailment graph of 221K textual descriptions of abstraction knowledge. While existing resources only touch nouns or verbs within simplified events or specific domains, AbsPyramid collects abstract knowledge for three components of diverse events to comprehensively evaluate the abstraction ability of language models in the open domain. Experimental results demonstrate that current LLMs face challenges comprehending abstraction knowledge in zero-shot and few-shot settings. By training on our rich abstraction knowledge, we find LLMs can acquire basic abstraction abilities and generalize to unseen events. In the meantime, we empirically show that our benchmark is comprehensive to enhance LLMs across two previous abstraction tasks.
翻訳日:2023-11-17 11:25:11 公開日:2023-11-16
# 自律走行車におけるコンピュータビジョンの応用:手法,課題,今後の展開

Applications of Computer Vision in Autonomous Vehicles: Methods, Challenges and Future Directions ( http://arxiv.org/abs/2311.09093v2 )

ライセンス: Link先を確認
Xingshuai Dong and Massimiliano L. Cappuccio(参考訳) 自律走行車(autonomous vehicle)とは、周囲の環境を感知し、人間の運転者の入力をほとんどあるいは全く必要としない車両を指す。 知覚システムは、自律車両がデータを収集し、環境から関連する情報を抽出して安全に運転できるようにする基本的な構成要素である。 コンピュータビジョンの最近の進歩に特化して、カメラ、LiDAR、レーダー、超音波センサーなどのセンサーを使用することで、知覚タスクを実現することができる。 本稿では,過去10年間に出版されたコンピュータビジョンと自動運転に関する論文をレビューする。 特に、まず自律運転システムの開発について検討し、各国の主要自動車メーカーによって開発されたこれらのシステムを要約する。 次に,自律運転によく利用されるセンサとベンチマークデータセットについて検討する。 次に, 深度推定, 物体検出, 車線検出, 交通信号認識などの自律運転におけるコンピュータビジョン応用の概要について述べる。 さらに、自動運転車に関する世論や懸念についても検討する。 この議論に基づいて、自動運転車が直面する現在の技術的課題を分析する。 最後に、我々の洞察を示し、今後の研究に有望な方向性を指摘する。 本論文は,学術・産業の観点から,自動運転車の理解を支援するものである。

Autonomous vehicle refers to a vehicle capable of perceiving its surrounding environment and driving with little or no human driver input. The perception system is a fundamental component which enables the autonomous vehicle to collect data and extract relevant information from the environment to drive safely. Benefit from the recent advances in computer vision, the perception task can be achieved by using sensors, such as camera, LiDAR, radar, and ultrasonic sensor. This paper reviews publications on computer vision and autonomous driving that are published during the last ten years. In particular, we first investigate the development of autonomous driving systems and summarize these systems that are developed by the major automotive manufacturers from different countries. Second, we investigate the sensors and benchmark data sets that are commonly utilized for autonomous driving. Then, a comprehensive overview of computer vision applications for autonomous driving such as depth estimation, object detection, lane detection, and traffic sign recognition are discussed. Additionally, we review public opinions and concerns on autonomous vehicles. Based on the discussion, we analyze the current technological challenges that autonomous vehicles meet with. Finally, we present our insights and point out some promising directions for future research. This paper will help the reader to understand autonomous vehicles from the perspectives of academia and industry.
翻訳日:2023-11-17 11:24:53 公開日:2023-11-16
# Factcheck-GPT:LLM出力のFact-Checkingと補正

Factcheck-GPT: End-to-End Fine-Grained Document-Level Fact-Checking and Correction of LLM Output ( http://arxiv.org/abs/2311.09000v2 )

ライセンス: Link先を確認
Yuxia Wang, Revanth Gangi Reddy, Zain Muhammad Mujahid, Arnav Arora, Aleksandr Rubashevskii, Jiahui Geng, Osama Mohammed Afzal, Liangming Pan, Nadav Borenstein, Aditya Pillai, Isabelle Augenstein, Iryna Gurevych, Preslav Nakov(参考訳) 様々な実世界のアプリケーションで大規模言語モデル(llm)の使用が増加すると、出力の事実的正確性を検証するメカニズムが要求される。 本研究では, LLM 出力における妥当性と事実整合性に関する詳細なラベルを得るための多段階アノテーションスキームを含む, LLM 生成応答の事実性を注釈する総合的なエンドツーエンドソリューションを提案する。 ラベル付け手順を高速化し、ラッカーの作業を簡単にするためのアノテーションツールを設計し、構築する。 任意の段階で自動結果を柔軟に組み込むことができる。 我々はさらに,クレーム,文,文書という3段階の粒度で,オープンドメインの文書レベルの事実度ベンチマークを構築する。 予備実験の結果、factool、factscore、perplexity.aiは最良のf1=0.53で偽のクレームを特定するのに苦労している。 アノテーションツール、ベンチマーク、コードはhttps://github.com/yuxiaw/Factcheck-GPTで公開されている。

The increased use of large language models (LLMs) across a variety of real-world applications calls for mechanisms to verify the factual accuracy of their outputs. In this work, we present a holistic end-to-end solution for annotating the factuality of LLM-generated responses, which encompasses a multi-stage annotation scheme designed to yield detailed labels concerning the verifiability and factual inconsistencies found in LLM outputs. We design and build an annotation tool to speed up the labelling procedure and ease the workload of raters. It allows flexible incorporation of automatic results in any stage, e.g. automatically-retrieved evidence. We further construct an open-domain document-level factuality benchmark in three-level granularity: claim, sentence and document. Preliminary experiments show that FacTool, FactScore and Perplexity.ai are struggling to identify false claims with the best F1=0.53. Annotation tool, benchmark and code are available at https://github.com/yuxiaw/Factcheck-GPT.
翻訳日:2023-11-17 11:24:36 公開日:2023-11-16
# 分類器誘導拡散モデルを用いたワンショットフェデレート学習

One-Shot Federated Learning with Classifier-Guided Diffusion Models ( http://arxiv.org/abs/2311.08870v2 )

ライセンス: Link先を確認
Mingzhao Yang, Shangchao Su, Bin Li, Xiangyang Xue(参考訳) ワンショット・フェデレーション・ラーニング(OSFL)は通信コストの低さから近年注目されている。 しかし、既存の手法のほとんどは補助的なデータセットやトレーニングジェネレータを必要としており、現実のシナリオにおける現実性を妨げている。 本稿では,拡散モデルがOSFLにもたらす新たな機会を探求し,クライアント分類器からのガイダンスを利用してクライアントの分布に対応するデータを生成し,その後サーバ上で集約モデルを訓練するFedCADOを提案する。 具体的には,ターゲット最適化を2つの側面から行う。 一方、ランダムにサンプリングされた初期ノイズを条件付きで編集し、特定のセマンティクスと分布を組み込むことにより、生成の品質と安定性が大幅に向上した。 一方,分類器からのbn統計を用いて,世代間における詳細な指導を行う。 これらの最適化により、元のクライアントデータセットの分散と品質によく似たデータセットを無制限に生成できます。 本手法は異種クライアントモデルと非iid特徴やラベルの問題を効果的に処理する。 プライバシ保護の観点からは,クライアントへの補助情報転送やジェネレータのトレーニングを回避し,追加のプライバシ漏洩リスクを排除している。 事前訓練された拡散モデルに格納された広範な知識を活用することで、合成データセットは、クライアントサンプルの知識制限を克服するのに役立つ。その結果、いくつかのケースにおいて集中トレーニングのパフォーマンス天井を上回り、大規模な3つの画像データセットで実施された十分な定量化および可視化実験で確実に実証される集約モデルが得られる。

One-shot federated learning (OSFL) has gained attention in recent years due to its low communication cost. However, most of the existing methods require auxiliary datasets or training generators, which hinders their practicality in real-world scenarios. In this paper, we explore the novel opportunities that diffusion models bring to OSFL and propose FedCADO, utilizing guidance from client classifiers to generate data that complies with clients' distributions and subsequently training the aggregated model on the server. Specifically, our method involves targeted optimizations in two aspects. On one hand, we conditionally edit the randomly sampled initial noises, embedding them with specified semantics and distributions, resulting in a significant improvement in both the quality and stability of generation. On the other hand, we employ the BN statistics from the classifiers to provide detailed guidance during generation. These tailored optimizations enable us to limitlessly generate datasets, which closely resemble the distribution and quality of the original client dataset. Our method effectively handles the heterogeneous client models and the problems of non-IID features or labels. In terms of privacy protection, our method avoids training any generator or transferring any auxiliary information on clients, eliminating any additional privacy leakage risks. Leveraging the extensive knowledge stored in the pre-trained diffusion model, the synthetic datasets can assist us in surpassing the knowledge limitations of the client samples, resulting in aggregation models that even outperform the performance ceiling of centralized training in some cases, which is convincingly demonstrated in the sufficient quantification and visualization experiments conducted on three large-scale multi-domain image datasets.
翻訳日:2023-11-17 11:24:18 公開日:2023-11-16
# 粒子群最適化を用いた配電系統におけるコンデンサの最適配置

Optimal Placement of Capacitor in Distribution System using Particle Swarm Optimization ( http://arxiv.org/abs/2311.08728v2 )

ライセンス: Link先を確認
Izhar Ul Haq (School of Automation, Central South University, China)(参考訳) 電力システムでは、コンデンサの組み込みは広範囲の確立された利点を提供する。 これらの利点には、システムパワーファクタの強化、電圧プロファイルの最適化、ケーブルや変圧器を通した電流流の容量の増大、反応電力部品の補償に起因する損失の軽減が含まれる。 系統損失を低減し, 配電系統の性能向上に様々な手法が適用されている。 本稿では,キャパシタの最適配置とサイズによる線路損失の低減に着目する。 ニュートン・ラフソン法による負荷流解析により最適キャパシタ配置を解析した。 コンデンサ最適化の配置は、損失感度因子に依存するバスの感度に関係している。 最適キャパシタサイズは粒子群最適化(pso)により決定される。 解析はMATLABのIEEE 14バスシステムを用いて行われる。 その結果, コンデンサを最も敏感なバスに配置すると, ライン損失が著しく減少することがわかった。 さらに、最適コンデンササイズは電圧プロファイルの改善に大きく影響し、提案手法により電力損失を21.02パーセント削減する。

In power systems, the incorporation of capacitors offers a wide range of established advantages. These benefits encompass the enhancement of the systems power factor, optimization of voltage profiles, increased capacity for current flow through cables and transformers, and the mitigation of losses attributed to the compensation of reactive power components. Different techniques have been applied to enhance the performance of the distribution system by reducing line losses. This paper focuses on reducing line losses through the optimal placement and sizing of capacitors. Optimal capacitor placement is analysed using load flow analysis with the Newton Raphson method. The placement of capacitor optimization is related to the sensitivity of the buses, which depends on the loss sensitivity factor. The optimal capacitor size is determined using Particle Swarm Optimization (PSO). The analysis is conducted using the IEEE 14 bus system in MATLAB. The results reveal that placing capacitors at the most sensitive bus locations leads to a significant reduction in line losses. Additionally, the optimal capacitor size has a substantial impact on improving the voltage profile and the power loss is reduced by 21.02 percent through the proposed method.
翻訳日:2023-11-17 11:23:50 公開日:2023-11-16
# MAgIC:認知・適応性・合理性・協調性を考慮した大規模言語モデルの検討

MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration ( http://arxiv.org/abs/2311.08562v2 )

ライセンス: Link先を確認
Lin Xu, Zhiyuan Hu, Daquan Zhou, Hongyu Ren, Zhen Dong, Kurt Keutzer, See Kiong Ng, Jiashi Feng(参考訳) 大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げており、推論、ツールの使用、メモリにおける例外的な能力を示している。 アプリケーションがマルチエージェント環境に広がるにつれて、推論、計画、コラボレーションなどにおける彼らの能力を捉える包括的な評価フレームワークの必要性が生まれている。 本研究は,マルチエージェント環境でllmを評価するために特別に調整された新しいベンチマークフレームワークを導入し,その判断,推論,騙し,自己認識,協調,合理性を評価するための定量的指標を提供する。 chameleonやundercoverといったゲームと、コスト共有、マルチプレイヤー囚人のジレンマ、パブリックグッドといったゲーム理論のシナリオを使って、さまざまなテスト環境を作ります。 我々のフレームワークは確率的グラフィカルモデリング(PGM)法で強化されており、複雑な社会的・認知的な次元をナビゲートするLLMの能力を高めている。 ベンチマークでは、異なるLLMを動力とする7つのマルチエージェントシステムを評価し、最強のGPT-4と最弱のLlama-2-70Bの3倍の能力ギャップを定量的に強調した。 また、我々のPGMの強化により、選択された全てのモデル固有の能力が平均50%向上することを確認した。 私たちのコードは、https://github.com/cathyxl/MAgIC.comでリリースされています。

Large Language Models (LLMs) have marked a significant advancement in the field of natural language processing, demonstrating exceptional capabilities in reasoning, tool usage, and memory. As their applications extend into multi-agent environments, a need has arisen for a comprehensive evaluation framework that captures their abilities in reasoning, planning, collaboration, and more. This work introduces a novel benchmarking framework specifically tailored to assess LLMs within multi-agent settings, providing quantitative metrics to evaluate their judgment, reasoning, deception, self-awareness, cooperation, coordination, and rationality. We utilize games such as Chameleon and Undercover, alongside game theory scenarios like Cost Sharing, Multi-player Prisoner's Dilemma, and Public Good, to create diverse testing environments. Our framework is fortified with the Probabilistic Graphical Modeling (PGM) method, enhancing the LLMs' capabilities in navigating complex social and cognitive dimensions. The benchmark evaluates seven multi-agent systems powered by different LLMs, quantitatively highlighting a significant capability gap over threefold between the strongest, GPT-4, and the weakest, Llama-2-70B. It also confirms that our PGM enhancement boosts the inherent abilities of all selected models by 50% on average. Our codes are released here https://github.com/cathyxl/MAgIC.
翻訳日:2023-11-17 11:23:31 公開日:2023-11-16
# icu投与敗血症患者における細菌血症の臨床的特徴と検査バイオマーカー

Clinical Characteristics and Laboratory Biomarkers in ICU-admitted Septic Patients with and without Bacteremia ( http://arxiv.org/abs/2311.08433v2 )

ライセンス: Link先を確認
Sangwon Baek, Seung Jun Lee(参考訳) 集中治療室(icu)に入院した敗血症患者の細菌血症予測のためのバイオマーカーの診断的有用性についての研究はほとんどない。 そこで本研究では,これらのマーカーを高性能に利用し,細菌の予測モデルを最適化する実験室バイオマーカーの予測力を評価した。 この回顧的横断研究は、2019年に慶尚国立大学チャンウォン病院のicu部門で実施された。 血液培養の少なくとも2セットの基準であるsepsis-3(シーケンシャルな臓器不全スコアの上昇)を満たした成人患者を選定した。 収集されたデータは最初、重要な予測要因を特定するために独立に分析され、その後多変量ロジスティック回帰(mlr)モデルの構築に使用された。 真菌血症48例の計218例について検討した。 敗血症患者(それぞれ0.757例, 0.845例)は, crp, pctともにauc値以下で菌血症を鑑別できた。 予測精度を高めるため,PCT,ビリルビン,好中球リンパ球比 (NLR), 血小板, 乳酸, 赤血球沈着速度 (ESR), グラスゴー・コマ・スケール (GCS) を併用し, AUC 0.907 (95% CI,0.843~0.956) の予測モデルを構築した。 また, 生存分析(0.004)により, 細菌性貧血と死亡率の相関が認められた。 MLRモデルでは,PCT,ビリルビン,NLR,血小板,乳酸,ESR,GCSの併用により,バクテラン血症予測の精度が著しく向上することが示唆された。

Few studies have investigated the diagnostic utilities of biomarkers for predicting bacteremia among septic patients admitted to intensive care units (ICU). Therefore, this study evaluated the prediction power of laboratory biomarkers to utilize those markers with high performance to optimize the predictive model for bacteremia. This retrospective cross-sectional study was conducted at the ICU department of Gyeongsang National University Changwon Hospital in 2019. Adult patients qualifying SEPSIS-3 (increase in sequential organ failure score greater than or equal to 2) criteria with at least two sets of blood culture were selected. Collected data was initially analyzed independently to identify the significant predictors, which was then used to build the multivariable logistic regression (MLR) model. A total of 218 patients with 48 cases of true bacteremia were analyzed in this research. Both CRP and PCT showed a substantial area under the curve (AUC) value for discriminating bacteremia among septic patients (0.757 and 0.845, respectively). To further enhance the predictive accuracy, we combined PCT, bilirubin, neutrophil lymphocyte ratio (NLR), platelets, lactic acid, erythrocyte sedimentation rate (ESR), and Glasgow Coma Scale (GCS) score to build the predictive model with an AUC of 0.907 (95% CI, 0.843 to 0.956). In addition, a high association between bacteremia and mortality rate was discovered through the survival analysis (0.004). While PCT is certainly a useful index for distinguishing patients with and without bacteremia by itself, our MLR model indicates that the accuracy of bacteremia prediction substantially improves by the combined use of PCT, bilirubin, NLR, platelets, lactic acid, ESR, and GCS score.
翻訳日:2023-11-17 11:23:05 公開日:2023-11-16
# 大規模言語モデルは時折基盤化されているか?

Are Large Language Models Temporally Grounded? ( http://arxiv.org/abs/2311.08398v2 )

ライセンス: Link先を確認
Yifu Qiu, Zheng Zhao, Yftah Ziser, Anna Korhonen, Edoardo M. Ponti, Shay B. Cohen(参考訳) 大規模言語モデル(LLM)は一時的基盤化されているか? LLMは環境を知覚し、相互作用することができないため、この質問に答えることは不可能である。 代わりに、LLMに文章による物語を提供し、イベントの構造と期間に関する常識的な知識、タイムラインに沿ったイベントを順序付けする能力、時間モデル内での自己整合性(例えば、後と前のような時間的関係は、イベントのペアに対して相互に排他的である)について調査する。 LLaMA 2 や GPT-4 のような最先端の LLM を3つの課題で評価した。 一般に,LLMは人為的性能と小型の特殊なLMよりもかなり遅れていることがわかった。 文脈内での学習、命令のチューニング、思考の連鎖は、このギャップを限られた程度に減らす。 重要な点として、llmは、少なくとも27.23%の予測で一貫性のない行動を示す自己一貫性に最も苦しむ。 期待とは対照的に、モデルのサイズを拡大しても、パフォーマンスのプラスの利益は保証されない。 これらの結果を説明するために,LLMが時間的情報を集めることができる資料について検討した。 さらに、公開命令チューニング混合物は、時間的タスクをほとんど含まない。 したがって,現在のLLMにはテキスト物語の時間的モデルがない。 コード、データセット、LLM出力はhttps://github.com/yfqiu-nlp/temporal-llmsで入手できる。

Are Large language models (LLMs) temporally grounded? Since LLMs cannot perceive and interact with the environment, it is impossible to answer this question directly. Instead, we provide LLMs with textual narratives and probe them with respect to their common-sense knowledge of the structure and duration of events, their ability to order events along a timeline, and self-consistency within their temporal model (e.g., temporal relations such as after and before are mutually exclusive for any pair of events). We evaluate state-of-the-art LLMs (such as LLaMA 2 and GPT-4) on three tasks reflecting these abilities. Generally, we find that LLMs lag significantly behind both human performance as well as small-scale, specialised LMs. In-context learning, instruction tuning, and chain-of-thought prompting reduce this gap only to a limited degree. Crucially, LLMs struggle the most with self-consistency, displaying incoherent behaviour in at least 27.23% of their predictions. Contrary to expectations, we also find that scaling the model size does not guarantee positive gains in performance. To explain these results, we study the sources from which LLMs may gather temporal information: we find that sentence ordering in unlabelled texts, available during pre-training, is only weakly correlated with event ordering. Moreover, public instruction tuning mixtures contain few temporal tasks. Hence, we conclude that current LLMs lack a consistent temporal model of textual narratives. Code, datasets, and LLM outputs are available at https://github.com/yfqiu-nlp/temporal-llms.
翻訳日:2023-11-17 11:22:33 公開日:2023-11-16
# KTRL+F:知識強化インドキュメント検索

KTRL+F: Knowledge-Augmented In-Document Search ( http://arxiv.org/abs/2311.08329v3 )

ライセンス: Link先を確認
Hanseok Oh, Haebin Shin, Miyoung Ko, Hyunji Lee, Minjoon Seo(参考訳) KTRL+Fは、ドキュメント内のすべてのセマンティックターゲットのリアルタイムな識別と、単一の自然言語クエリによる外部ソースの認識を必要とする知識強化された文書内検索タスクである。 このタスクはドキュメント内検索のユニークな課題に対処します。 1)クエリとターゲット間の意味的ギャップを橋渡しするためのターゲットに関する追加情報の拡張利用のために,ドキュメント外の知識を活用すること,及び 2)リアルタイム適用性とパフォーマンスのバランス。 我々はktrl+fの様々なベースラインを分析し、幻覚、低レイテンシ、外部知識の活用の困難といった既存のモデルの制限があることを見出した。 そこで本研究では,単語の埋め込みに外部知識を埋め込むだけで,速度と性能の相違が期待できることを示す知識強調句検索モデルを提案する。 さらに,KTRL+Fの解決がユーザの検索体験を向上できるかどうかを検証するために,ユーザスタディを実施している。 単純なモデルであっても、クエリを少なくして検索する時間を短縮し、エビデンスを集めるために他のソースへの余分な訪問を減らすことができる。 我々は,ktrl+fの研究コミュニティに対して,ドキュメント内情報アクセスの効率化を図る。

We introduce a new problem KTRL+F, a knowledge-augmented in-document search task that necessitates real-time identification of all semantic targets within a document with the awareness of external sources through a single natural query. This task addresses following unique challenges for in-document search: 1) utilizing knowledge outside the document for extended use of additional information about targets to bridge the semantic gap between the query and the targets, and 2) balancing between real-time applicability with the performance. We analyze various baselines in KTRL+F and find there are limitations of existing models, such as hallucinations, low latency, or difficulties in leveraging external knowledge. Therefore we propose a Knowledge-Augmented Phrase Retrieval model that shows a promising balance between speed and performance by simply augmenting external knowledge embedding in phrase embedding. Additionally, we conduct a user study to verify whether solving KTRL+F can enhance search experience of users. It demonstrates that even with our simple model users can reduce the time for searching with less queries and reduced extra visits to other sources for collecting evidence. We encourage the research community to work on KTRL+F to enhance more efficient in-document information access.
翻訳日:2023-11-17 11:21:45 公開日:2023-11-16
# メタランキングシステムの大規模キャパシティモデリングのためのオートML

AutoML for Large Capacity Modeling of Meta's Ranking Systems ( http://arxiv.org/abs/2311.07870v2 )

ライセンス: Link先を確認
Hang Yin, Kuang-Hung Liu, Mengying Sun, Yuxin Chen, Buyun Zhang, Jiang Liu, Vivek Sehgal, Rudresh Rajnikant Panchal, Eugen Hotaj, Xi Liu, Daifeng Guo, Jamey Zhang, Zhou Wang, Shali Jiang, Huayu Li, Zhengxing Chen, Wen-Yen Chen, Jiyan Yang, Wei Wen(参考訳) Metaのウェブスケールランキングシステムは、何十億ものユーザーにサービスを提供している。 ランキングモデルの改善は不可欠だが、エンジニアリングは重い。 Automated Machine Learning (AutoML)は、ランキングモデルをチューニングする労働集約的な作業からエンジニアを解放することができるが、AutoMLが実世界で厳密な生産スケジュールを満たすのに十分な効率であるかどうかは不明であり、同時に強力なベースラインにさらなる改善をもたらす。 さらに、より高いランキング性能を達成するために、さらに大きなキャパシティにランキングモデルをスケールアップする需要がますます高まり、効率により多くの課題が課されている。 大規模なモデルと厳密な生産スケジュールでは、AutoMLは少数のモデル評価試験(約100)を使用することで、人間のベースラインを上回ります。 本稿では,ニューラルアーキテクチャ探索とハイパーパラメータ最適化に着目したサンプリングベースのAutoML手法を提案する。 当社のアプローチは大規模データ要求を効率的に処理する。 軽量な予測器ベースの検索と強化学習を利用して、広大な検索空間を探索し、モデル評価の数を大幅に削減する。 CTRおよびCVRアプリケーションのための大規模キャパシティモデリング実験により, 最大0.09%の正規化エントロピー(NE)損失削減あるいは25 %$ Query per second (QPS) の増加を, キュレートされた検索空間から平均100モデルのみをサンプリングすることで, 優れた投資収益率(ROI)と人間の調整ベースライン(ROI)を達成することを示す。 提案したAutoMLメソッドは、大規模なオンラインA/Bテストで-0.36% NEゲインを持つInstagram CTRモデル(既存のプロダクションベースライン以上)が選択され、統計的に有意なゲインを示すという、すでに現実的な影響を与えている。 これらの生産結果はautomlの有効性を証明し、metaにおけるランキングシステムの採用を加速させた。

Web-scale ranking systems at Meta serving billions of users is complex. Improving ranking models is essential but engineering heavy. Automated Machine Learning (AutoML) can release engineers from labor intensive work of tuning ranking models; however, it is unknown if AutoML is efficient enough to meet tight production timeline in real-world and, at the same time, bring additional improvements to the strong baselines. Moreover, to achieve higher ranking performance, there is an ever-increasing demand to scale up ranking models to even larger capacity, which imposes more challenges on the efficiency. The large scale of models and tight production schedule requires AutoML to outperform human baselines by only using a small number of model evaluation trials (around 100). We presents a sampling-based AutoML method, focusing on neural architecture search and hyperparameter optimization, addressing these challenges in Meta-scale production when building large capacity models. Our approach efficiently handles large-scale data demands. It leverages a lightweight predictor-based searcher and reinforcement learning to explore vast search spaces, significantly reducing the number of model evaluations. Through experiments in large capacity modeling for CTR and CVR applications, we show that our method achieves outstanding Return on Investment (ROI) versus human tuned baselines, with up to 0.09% Normalized Entropy (NE) loss reduction or $25\%$ Query per Second (QPS) increase by only sampling one hundred models on average from a curated search space. The proposed AutoML method has already made real-world impact where a discovered Instagram CTR model with up to -0.36% NE gain (over existing production baseline) was selected for large-scale online A/B test and show statistically significant gain. These production results proved AutoML efficacy and accelerated its adoption in ranking systems at Meta.
翻訳日:2023-11-17 11:21:26 公開日:2023-11-16
# ミドルインテリジェンストラップに落ちていくのか? 逆呪いの分析と緩和

Are We Falling in a Middle-Intelligence Trap? An Analysis and Mitigation of the Reversal Curse ( http://arxiv.org/abs/2311.07468v2 )

ライセンス: Link先を確認
Ang Lv and Kaiyi Zhang and Shufang Xie and Quan Tu and Yuhan Chen and Ji-Rong Wen and Rui Yan(参考訳) 近年の研究では、トレーニングデータにおける知識エンティティの順序がモデルの理解をバイアスする「反転の呪い」として知られる大規模言語モデル(llm)の現象が強調されている。 例えば、エンティティAがエンティティBの前に一貫して現れる文でモデルが訓練されている場合、Bを答えとしてAに関するクエリに応答することができる。 しかし、bに関する疑問が提示されると混乱する可能性がある。我々は、逆転の呪いは、特定のモデルトレーニングの目的、特にほとんどの因果言語モデルにおける次の予測の一般的な使用において、部分的には明らかな結果であると主張する。 次世代の予測では、モデルはトークンの前のコンテキストのみに焦点を当て、入力の限定的な理解をもたらす。 対照的に、予測されるトークンがコンテキスト全体にアクセス可能な自己回帰的空白埋め込み目標を用いて訓練されたGLMは、逆の呪いに対してより良いレジリエンスを示す。 本稿では,新しいデータに基づく因果言語モデルに微調整を施した際の逆の呪いを軽減するために,BICO(BIdirectional Casual Language Modeling Optimization)を提案する。 bicoは因果注意機構を双方向に機能するように修正し、マスク同期最適化を採用している。 逆の呪いを評価するために設計されたタスクでは、Llamaの精度を元の0%から約70%に向上させる。 我々は、より高いレベルの知性を達成するために、現在のllmの持つ本質的な弱点を探求し、対処することに集中できることを望んでいる。

Recent studies have highlighted a phenomenon in large language models (LLMs) known as "the reversal curse," in which the order of knowledge entities in the training data biases the models' comprehension. For example, if a model is trained on sentences where entity A consistently appears before entity B, it can respond to queries about A by providing B as the answer. However, it may encounter confusion when presented with questions concerning B. We contend that the reversal curse is partially a result of specific model training objectives, particularly evident in the prevalent use of the next-token prediction within most causal language models. For the next-token prediction, models solely focus on a token's preceding context, resulting in a restricted comprehension of the input. In contrast, we illustrate that the GLM, trained using the autoregressive blank infilling objective where tokens to be predicted have access to the entire context, exhibits better resilience against the reversal curse. We propose a novel training method, BIdirectional Casual language modeling Optimization (BICO), designed to mitigate the reversal curse when fine-tuning pretrained causal language models on new data. BICO modifies the causal attention mechanism to function bidirectionally and employs a mask denoising optimization. In the task designed to assess the reversal curse, our approach improves Llama's accuracy from the original 0% to around 70%. We hope that more attention can be focused on exploring and addressing these inherent weaknesses of the current LLMs, in order to achieve a higher level of intelligence.
翻訳日:2023-11-17 11:19:41 公開日:2023-11-16