このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231226となっている論文です。

PDF登録状況(公開日: 20231226)

TitleAuthorsAbstract論文公表日・翻訳日
# キーチホフ氏、ジョンソン氏と会談-無条件でセキュアなコミュニケーションを求めて

Kirchhoff Meets Johnson: In Pursuit of Unconditionally Secure Communication ( http://arxiv.org/abs/2312.02042v2 )

ライセンス: Link先を確認
Ertugrul Basar, (参考訳) ノイズ:対処すべき敵であり、通信システムの性能を制限する主要な要因である。 しかし、そのゴミの中に金が入っていたらどうしますか。 従来の工学では、ノイズとその有害な影響を排除、抑制、戦闘、無視することに集中しています。 逆に、ノイズのようなキャリア信号を使って情報を伝達する生物学に類似して活用できるだろうか? この文脈では、将来、無条件でセキュアな通信システムを実現する手段として、ノイズやノイズのような信号の利用が推奨されている。 本稿では、熱雑音に基づく通信の起源を追究し、キー交換方式KLJN(Kirchhoff-law-Johnson-noise)という、無条件でセキュアなネットワークを実現するための重要な応用の1つを取り上げる。 次に、セキュアな通信に関連する固有の課題を掘り下げ、無条件のセキュリティを追求する物理ベースの鍵分配スキームの必要性について論じる。 同時に、量子鍵分布(QKD)スキームの簡潔な概要を提供し、KLJNベースのスキームと比較する。 最後に,有線通信ループを超越して,ノイズ信号の無線伝送を検討,ステルスやセキュアな無線通信システムの可能性を評価する。

Noise: an enemy to be dealt with and a major factor limiting communication system performance. However, what if there is gold in that garbage? In conventional engineering, our focus is primarily on eliminating, suppressing, combating, or even ignoring noise and its detrimental impacts. Conversely, could we exploit it similarly to biology, which utilizes noise-alike carrier signals to convey information? In this context, the utilization of noise, or noise-alike signals in general, has been put forward as a means to realize unconditionally secure communication systems in the future. In this tutorial article, we begin by tracing the origins of thermal noise-based communication and highlighting one of its significant applications for ensuring unconditionally secure networks: the Kirchhoff-law-Johnson-noise (KLJN) secure key exchange scheme. We then delve into the inherent challenges tied to secure communication and discuss the imperative need for physics-based key distribution schemes in pursuit of unconditional security. Concurrently, we provide a concise overview of quantum key distribution (QKD) schemes and draw comparisons with their KLJN-based counterparts. Finally, extending beyond wired communication loops, we explore the transmission of noise signals over-the-air and evaluate their potential for stealth and secure wireless communication systems.
翻訳日:2024-03-18 13:15:34 公開日:2023-12-26
# 誤り訂正と消去に基づくMcEliece型暗号システム

Cryptoanalysis McEliece-type cryptosystem based on correction of errors and erasures ( http://arxiv.org/abs/2312.15912v1 )

ライセンス: Link先を確認
Kirill Yackushenoks, Fedor Ivanov, (参考訳) Krouk、Tavernier、KabatianskyはMcEliece暗号システムの新しい変種を提案した。 このレターでは、エラー消去の訂正に基づく暗号系が、より悪いパラメータ公開鍵を持つMc-Eliece暗号系と等しいことが示されている。 また、著者のアイデアを有機的に拡張することもできます。

Krouk, Tavernier and Kabatiansky proposed new variants of the McEliece cryptosystem. In this letter, it is shown that cryptosystem based on correction of errors erasures is equal to the Mc-Eliece cryptosystem with worse parametrs public key. It will also add an organic extension of the authors' idea, although one that has its flaws...
翻訳日:2024-03-18 11:18:35 公開日:2023-12-26
# エッジコンピューティングのための完全分散監査手法:ゲーム理論の視点から

A fully decentralized auditing approach for edge computing: A Game-Theoretic Perspective ( http://arxiv.org/abs/2312.16007v1 )

ライセンス: Link先を確認
Zahra Seyedi, Farhad Rahmati, Mohammad Ali, Ximeng Liu, (参考訳) エッジストレージはアプリケーションベンダ(AV)の代替として実行可能なデータストレージを提供する。 しかし、エッジコンピューティングシステムにキャッシュされたデータは、意図的または偶発的な障害の影響を受けやすい。 本稿では,データ完全性を保護し,分散システムに不適な集中型第三者監査(TPA)への従来の依存に対処するための分散型整合監査手法を提案する。 我々の新しいアプローチでは、エッジサーバ(ES)を相互監査機として採用し、集中型エンティティの必要性を排除しています。 この分散化は、監査結果における悪意のある監査者との衝突やバイアスを最小化する。 戦略ゲームモデルを用いて、ESはTPAよりも相互に監査する動機があることを示した。 監査プロセスはナッシュ平衡問題として対処され、ESのインセンティブを通じて正確な正当性証明が保証される。 提案手法の安全性と性能は厳密に評価され, ランダムなオラクルモデル内では安全であり, 速度が向上し, 既存の手法に比べて費用対効果が高いことを示す。

Edge storage presents a viable data storage alternative for application vendors (AV), offering benefits such as reduced bandwidth overhead and latency compared to cloud storage. However, data cached in edge computing systems is susceptible to intentional or accidental disturbances. This paper proposes a decentralized integrity auditing scheme to safeguard data integrity and counter the traditional reliance on centralized third-party auditors (TPA), which are unfit for distributed systems. Our novel approach employs edge servers (ES) as mutual auditors, eliminating the need for a centralized entity. This decentralization minimizes potential collusion with malicious auditors and biases in audit outcomes. Using a strategic game model, we demonstrate that ESs are more motivated to audit each other than TPAs. The auditing process is addressed as a Nash Equilibrium problem, assuring accurate integrity proof through incentives for ESs. Our scheme's security and performance are rigorously assessed, showing it is secure within the random oracle model, offers improved speed, and is cost-effective compared to existing methods.
翻訳日:2024-03-18 11:18:35 公開日:2023-12-26
# ブロックチェーンによる監査ログ管理のためのセキュアなセキュア署名

Blockchain-Envisioned Post-Quantum Secure Sanitizable Signature for Audit Logs Management ( http://arxiv.org/abs/2312.16322v1 )

ライセンス: Link先を確認
Vikas Srivastava, Paresh Baidya, Sumit Kumar Debnath, Sihem Mesnager, (参考訳) 監査ログは、システムのイベントを透過的に追跡し、企業組織やエンタープライズビジネスシステムにおける継続的な監視を維持する上で、最も重要なツールの1つです。 監査ログが機密データを含んでいる場合や、監査ログが巨大である場合が多い。 このような状況下では、データセット全体よりもデータのサブセットを扱う方が実用的です。 これらの問題に対処するためのセキュアなソリューションを提供するため、SSS(S sanitizable signature scheme)は実行可能な暗号プリミティブである。 ここでは、まず、セキュアなマルチ変数ベースのSSS、すなわち${\sf Mul-SAN}$を示す。 提案した設計は、$MQ$の問題がNPハードであると仮定して、偽造性、プライバシ、不変性、署名者説明責任、サニタイザ説明責任を提供する。 ${\sf Mul-SAN}$は非常に効率的で、その実装には計算場の乗算と有限体上の加算しか必要としない。 ${\sf Mul-SAN}$は、医療産業や政府機関のような、認証されたデータのコントロールを部分的に委譲する実用的な方法として、自らを提示する。 さらに、Blockchainを使用して、タンパー保護と堅牢な監査ログメカニズムの提供も検討しています。

Audit logs are one of the most important tools for transparently tracking system events and maintaining continuous oversight in corporate organizations and enterprise business systems. There are many cases where the audit logs contain sensitive data, or the audit logs are enormous. In these situations, dealing with a subset of the data is more practical than the entire data set. To provide a secure solution to handle these issues, a sanitizable signature scheme (SSS) is a viable cryptographic primitive. Herein, we first present the \textit{first} post-quantum secure multivariate-based SSS, namely ${\sf Mul-SAN}$. Our proposed design provides unforgeability, privacy, immutability, signer accountability, and sanitizer accountability under the assumption that the $MQ$ problem is NP-hard. ${\sf Mul-SAN}$ is very efficient and only requires computing field multiplications and additions over a finite field for its implementation. ${\sf Mul-SAN}$ presents itself as a practical method to partially delegate control of the authenticated data in avenues like the healthcare industry and government organizations. We also explore using Blockchain to provide a tamper-proof and robust audit log mechanism.
翻訳日:2024-03-18 11:18:35 公開日:2023-12-26
# Adobeの隠れた機能とセンサー属性への影響

The Adobe Hidden Feature and its Impact on Sensor Attribution ( http://arxiv.org/abs/2401.01366v1 )

ライセンス: Link先を確認
Jan Butora, Patrick Bas, (参考訳) センサ指紋の抽出が今日では、センサ属性の重要な法医学的ツールとなっている場合、いくつかのセンサーから得られる画像は、共通の「リーク」を提示することで、偽陽性(FP)を生成する傾向にあることが最近示されている。 本稿では,この漏洩の原因について検討し,FPの原因となるソースのEXIFメタデータを検査した結果,Adobe LightroomやPhotoshopソフトウェアと関係があることが判明した。 FPを示す画像上の残差の相互相関は、周期的なパターンの存在を示す周期的なピークを示す。 Adobe Lightroomを使って独自の画像を開発することで、生画像(またはチャネルコード毎の16ビット)から8ビットの符号化画像まで、ウォーターマークと非常によく似た周期的な128x128パターンを埋め込むことができる。 しかし、この透かしは、画像の開発に使用される内容とアーキテクチャの両方に依存していることも示している。 この透かしを画像ノイズ成分から取り除く方法と、画素領域で取り除く方法との2つの方法を示す。 FPを提示するカメラでは、偽陽性者を防ぐことができた。 Adobeの代表者による議論によると、同社はディザリングを誘発するためにこのパターンを追加することにした。

If the extraction of sensor fingerprints represents nowadays an important forensic tool for sensor attribution, it has been shown recently that images coming from several sensors were more prone to generate False Positives (FP) by presenting a common "leak". In this paper, we investigate the possible cause of this leak and after inspecting the EXIF metadata of the sources causing FP, we found out that they were related to the Adobe Lightroom or Photoshop softwares. The cross-correlation between residuals on images presenting FP reveals periodic peaks showing the presence of a periodic pattern. By developing our own images with Adobe Lightroom we are able to show that all developments from raw images (or 16 bits per channel coded) to 8 bits-coded images also embed a periodic 128x128 pattern very similar to a watermark. However, we also show that the watermark depends on both the content and the architecture used to develop the image. The rest of the paper presents two different ways of removing this watermark, one by removing it from the image noise component, and the other by removing it in the pixel domain. We show that for a camera presenting FP, we were able to prevent the False Positives. A discussion with Adobe representatives informed us that the company decided to add this pattern in order to induce dithering.
翻訳日:2024-03-18 10:39:12 公開日:2023-12-26
# ニューラルネットワークをスパイクして時系列を分類するカリキュラムデザイン

Curriculum Design Helps Spiking Neural Networks to Classify Time Series ( http://arxiv.org/abs/2401.10257v1 )

ライセンス: Link先を確認
Chenxi Sun, Hongyan Li, Moxian Song, Derun Can, Shenda Hong(参考訳) スパイキングニューラルネットワーク(SNN)は、その固有のニューロンダイナミクスと低エネルギー消費のため、ANN(Artificial Neural Networks)よりも時系列データをモデル化する可能性が大きい。 しかし,ネットワーク構造の改善に重点を置いているため,分類精度の面で優位性を示すことは困難である。 この研究は、脳に触発された科学に啓発され、構造だけでなく学習プロセスも人間らしくなければならないことを見出します。 そこで本研究では,sns上でのカリキュラム学習(cl)のパワーについて,アクティブ・ツー・ドーマント学習順序がヒト学習と類似し,スパイキングニューロンに適した機構を持つcsnnと呼ばれる新しい手法を考案した。 シミュレーション、センサー、モーション、ヘルスケアを含む複数の時系列ソースの実験では、CLはANNよりもSNNに対して約2倍の精度で良い効果を示し、CSNNはネットワークの間隔、ニューロンの発射状態、アンチノイズ能力、収束速度を改善してSNNの精度を約3%向上できる。

Spiking Neural Networks (SNNs) have a greater potential for modeling time series data than Artificial Neural Networks (ANNs), due to their inherent neuron dynamics and low energy consumption. However, it is difficult to demonstrate their superiority in classification accuracy, because current efforts mainly focus on designing better network structures. In this work, enlighten by brain-inspired science, we find that, not only the structure but also the learning process should be human-like. To achieve this, we investigate the power of Curriculum Learning (CL) on SNNs by designing a novel method named CSNN with two theoretically guaranteed mechanisms: The active-to-dormant training order makes the curriculum similar to that of human learning and suitable for spiking neurons; The value-based regional encoding makes the neuron activity to mimic the brain memory when learning sequential data. Experiments on multiple time series sources including simulated, sensor, motion, and healthcare demonstrate that CL has a more positive effect on SNNs than ANNs with about twice the accuracy change, and CSNN can increase about 3% SNNs' accuracy by improving network sparsity, neuron firing status, anti-noise ability, and convergence speed.
翻訳日:2024-01-28 16:29:40 公開日:2023-12-26
# 生成AIとその教育的意味

Generative AI and Its Educational Implications ( http://arxiv.org/abs/2401.08659v1 )

ライセンス: Link先を確認
Kacper {\L}odzikowski (Adam Mickiewicz University, Pozna\'n, Poland), Peter W. Foltz (University of Colorado), John T. Behrens (University of Notre Dame)(参考訳) 本稿では, 教育におけるAIの歴史的発展, 学習における現代的応用, 社会的反感, 研究者への戦略的推薦の4つの重要な部分において, 生成AIが教育に与える影響について論じる。 生成型AIは、複雑な認知能力の評価を行い、パーソナライズされたコンテンツを作成する能力を通じて、教育現場を変革できる方法を提案する。 また,効果的な教育ツールの展開,データバイアス,設計の透明性,正確なアウトプット検証といった課題にも対処した。 我々は社会的な影響を認め、カリキュラムの更新、コミュニケーションの信頼の再定義、社会規範の転換への調整の必要性を強調している。 最後に、教育利害関係者が創造的aiに積極的に関与し、その能力と制限によってフルーエンシーを開発する方法を概説し、これらの洞察を急速に進歩するデジタルランドスケープにおける教育実践に応用する。

We discuss the implications of generative AI on education across four critical sections: the historical development of AI in education, its contemporary applications in learning, societal repercussions, and strategic recommendations for researchers. We propose ways in which generative AI can transform the educational landscape, primarily via its ability to conduct assessment of complex cognitive performances and create personalized content. We also address the challenges of effective educational tool deployment, data bias, design transparency, and accurate output verification. Acknowledging the societal impact, we emphasize the need for updating curricula, redefining communicative trust, and adjusting to transformed social norms. We end by outlining the ways in which educational stakeholders can actively engage with generative AI, develop fluency with its capacities and limitations, and apply these insights to steer educational practices in a rapidly advancing digital landscape.
翻訳日:2024-01-22 09:37:24 公開日:2023-12-26
# 産業・学界における自動運転の終末計画:2022-2023

End-To-End Planning of Autonomous Driving in Industry and Academia: 2022-2023 ( http://arxiv.org/abs/2401.08658v1 )

ライセンス: Link先を確認
Gongjin Lan an Qi Hao(参考訳) 本稿は,現在産業・学界で報告されている技術を含む手法について,手軽に概説することを目的とする。 具体的には、Tesla FSD V12、Momenta 2023、Horizon Robotics 2023、Motional RoboTaxi 2022、Woven Planet (Toyota)、Urban Driver、Nvidiaなど、エンドツーエンドの計画についてレビューする。 さらに,自動運転のエンドツーエンド計画に関する最先端の学術研究について概観する。 本稿では,2022-2023年における最先端のエンド・ツー・エンド計画の簡潔な構造と高速学習について述べる。 本稿では,先進的な研究者のための補助材料として,産業・学界における自動運転の最先端のエンド・ツー・エンド計画に従うための初心者向け教材として,有意義な概要を提供する。

This paper aims to provide a quick review of the methods including the technologies in detail that are currently reported in industry and academia. Specifically, this paper reviews the end-to-end planning, including Tesla FSD V12, Momenta 2023, Horizon Robotics 2023, Motional RoboTaxi 2022, Woven Planet (Toyota): Urban Driver, and Nvidia. In addition, we review the state-of-the-art academic studies that investigate end-to-end planning of autonomous driving. This paper provides readers with a concise structure and fast learning of state-of-the-art end-to-end planning for 2022-2023. This article provides a meaningful overview as introductory material for beginners to follow the state-of-the-art end-to-end planning of autonomous driving in industry and academia, as well as supplementary material for advanced researchers.
翻訳日:2024-01-22 09:37:07 公開日:2023-12-26
# マルチビューデカップリング学習による低リソースプロンプト型関係表現の改善

Improving Low-resource Prompt-based Relation Representation with Multi-view Decoupling Learning ( http://arxiv.org/abs/2312.17267v1 )

ライセンス: Link先を確認
Chenghao Fan, Wei Wei, Xiaoye Qu, Zhenyi Lu, Wenfeng Xie, Yu Cheng, Dangyang Chen(参考訳) 近年,プレトレーニング言語モデル (PLM) を用いたプロンプトチューニングにより,関係抽出(RE)タスクの大幅な向上が示されている。 しかし、利用可能なトレーニングデータが不足している低リソースのシナリオでは、従来のプロンプトベースの手法は、その関係を表面的に理解しているため、プロンプトベースの表現学習では依然として不十分である。 そこで我々は,REの低リソースシナリオにおける高品質な関係表現の学習の重要性を強調し,低リソースのプロンプトチューニングパラダイムにおけるREの性能向上のために,PLMのキャパシティを向上するために,MVRE(\underline{M}ulti-\underline{V}iew \underline{R}elation \underline{E}xtraction)と呼ばれる新しいプロンプトベースの関係表現手法を提案する。 具体的には、MVREは各関係を異なる視点に分離し、関係推論における可能性の最大化のための多視点関係表現を包含する。 さらに,最適化学習過程と初期化過程における関係ラベルのセマンティクスを含む,多視点関係表現仮想単語のアライメントを改善するためのグローバルローカロスと動的初期化手法も設計する。 3つのベンチマークデータセットの大規模な実験により、我々の手法は低リソース環境で最先端を達成できることが示されている。

Recently, prompt-tuning with pre-trained language models (PLMs) has demonstrated the significantly enhancing ability of relation extraction (RE) tasks. However, in low-resource scenarios, where the available training data is scarce, previous prompt-based methods may still perform poorly for prompt-based representation learning due to a superficial understanding of the relation. To this end, we highlight the importance of learning high-quality relation representation in low-resource scenarios for RE, and propose a novel prompt-based relation representation method, named MVRE (\underline{M}ulti-\underline{V}iew \underline{R}elation \underline{E}xtraction), to better leverage the capacity of PLMs to improve the performance of RE within the low-resource prompt-tuning paradigm. Specifically, MVRE decouples each relation into different perspectives to encompass multi-view relation representations for maximizing the likelihood during relation inference. Furthermore, we also design a Global-Local loss and a Dynamic-Initialization method for better alignment of the multi-view relation-representing virtual words, containing the semantics of relation labels during the optimization learning process and initialization. Extensive experiments on three benchmark datasets show that our method can achieve state-of-the-art in low-resource settings.
翻訳日:2024-01-15 12:36:32 公開日:2023-12-26
# ロボットによる椎弓切除手術における人工知能を用いた自動椎弓切開計画

Automatic laminectomy cutting plane planning based on artificial intelligence in robot assisted laminectomy surgery ( http://arxiv.org/abs/2312.17266v1 )

ライセンス: Link先を確認
Zhuofu Li, Yonghong Zhang, Chengxia Wang, Shanshan Liu, Xiongkang Song, Xuquan Ji, Shuai Jiang, Woquan Zhong, Lei Hu, Weishi Li(参考訳) 目的: 本研究は, 人工知能を用いて腹腔鏡下手術の自動計画を実現することを目的としている。 方法: 自動切削平面計画のための2段階のアプローチを提案する。 第1段階はキーポイントの識別であった。 それぞれのCT画像に7つのキーポイントを手動でマークした。 筆者らが開発した空間ピラミッドアップサンプリングネットワーク (SPU-Net) アルゴリズムを用いて, 7つのキーポイントを正確に同定した。 第2段階では、キーポイントの同定に基づいて、各椎骨に対してパーソナライズされた座標系が生成される。 最後に,横切開面と縦切開面を座標系で生成した。 計画の全体的な効果が評価された。 結果:SPU-Netアルゴリズムの7つの鍵点の平均局所化誤差は0.65mmであった。 第2段階では320の横断切削面と640の縦切削面がアルゴリズムによって計画された。 そのうち,a級,b級,c級の平面計画効果は,それぞれ318(99.38%),1(0.31%),1(0.31%)であった。 a, b, cの縦断計画効果はそれぞれ622(97.18%), 1(0.16%), 17(2.66%)であった。 結論】本研究は,ct画像におけるキーポイントの局在に基づいて,椎弓切除の手術経路計画を自動的に行う方法を提案する。 その結果,本手法は良好な結果を得た。 将来このアプローチの信頼性を確認するためには、さらなる研究が必要である。

Objective: This study aims to use artificial intelligence to realize the automatic planning of laminectomy, and verify the method. Methods: We propose a two-stage approach for automatic laminectomy cutting plane planning. The first stage was the identification of key points. 7 key points were manually marked on each CT image. The Spatial Pyramid Upsampling Network (SPU-Net) algorithm developed by us was used to accurately locate the 7 key points. In the second stage, based on the identification of key points, a personalized coordinate system was generated for each vertebra. Finally, the transverse and longitudinal cutting planes of laminectomy were generated under the coordinate system. The overall effect of planning was evaluated. Results: In the first stage, the average localization error of the SPU-Net algorithm for the seven key points was 0.65mm. In the second stage, a total of 320 transverse cutting planes and 640 longitudinal cutting planes were planned by the algorithm. Among them, the number of horizontal plane planning effects of grade A, B, and C were 318(99.38%), 1(0.31%), and 1(0.31%), respectively. The longitudinal planning effects of grade A, B, and C were 622(97.18%), 1(0.16%), and 17(2.66%), respectively. Conclusions: In this study, we propose a method for automatic surgical path planning of laminectomy based on the localization of key points in CT images. The results showed that the method achieved satisfactory results. More studies are needed to confirm the reliability of this approach in the future.
翻訳日:2024-01-15 12:36:03 公開日:2023-12-26
# RawECGNet:Raw ECGからの心房細動検出のためのディープラーニング一般化

RawECGNet: Deep Learning Generalization for Atrial Fibrillation Detection from the Raw ECG ( http://arxiv.org/abs/2401.05411v1 )

ライセンス: Link先を確認
Noam Ben-Moshe, Kenta Tsutsui, Shany Biton, Leif S\"ornmo, Joachim A. Behar(参考訳) 紹介:長期心電図記録におけるリズム情報を用いた心房細動(AF)のエピソード検出のための深層学習モデルは高い性能を示した。 しかし、リズムに基づくアプローチでは、異なるecg波形、特にf波によって伝達される形態情報を活用できない。 その結果、そのようなモデルの性能は本質的に制限される。 方法: この制限に対処するために,rawecgnetというディープラーニングモデルを開発し,生の単一リード心電図を用いてafと心房粗動(afl)のエピソードを検出する。 地理的・民族的・リード位置の分布変化を考慮した2つの外部データセット上でのRawECGNetの一般化性能を比較した。 RawECGNetはさらに、リズム情報を入力として利用するArNet2という最先端のディープラーニングモデルに対してベンチマークされている。 結果:RawECGNetを用いて, RBDBでは0.91-0.94, SHDBでは0.89-0.91, ArNet2では0.91-0.94であった。 その結果、RawECGNetは、AFとAFlのエピソードを検出するための高性能で一般化可能なアルゴリズムであり、リズムと形態の両方の情報を利用することがわかった。

Introduction: Deep learning models for detecting episodes of atrial fibrillation (AF) using rhythm information in long-term, ambulatory ECG recordings have shown high performance. However, the rhythm-based approach does not take advantage of the morphological information conveyed by the different ECG waveforms, particularly the f-waves. As a result, the performance of such models may be inherently limited. Methods: To address this limitation, we have developed a deep learning model, named RawECGNet, to detect episodes of AF and atrial flutter (AFl) using the raw, single-lead ECG. We compare the generalization performance of RawECGNet on two external data sets that account for distribution shifts in geography, ethnicity, and lead position. RawECGNet is further benchmarked against a state-of-the-art deep learning model, named ArNet2, which utilizes rhythm information as input. Results: Using RawECGNet, the results for the different leads in the external test sets in terms of the F1 score were 0.91--0.94 in RBDB and 0.93 in SHDB, compared to 0.89--0.91 in RBDB and 0.91 in SHDB for ArNet2. The results highlight RawECGNet as a high-performance, generalizable algorithm for detection of AF and AFl episodes, exploiting information on both rhythm and morphology.
翻訳日:2024-01-15 08:35:19 公開日:2023-12-26
# UWBマルチスタティックラジオを用いたデバイスフリー人間状態推定

Device-Free Human State Estimation using UWB Multi-Static Radios ( http://arxiv.org/abs/2401.05410v1 )

ライセンス: Link先を確認
Saria Al Laham, Bobak H. Baghi, Pierre-Yves Lajoie, Amal Feriani, Sachini Herath, Steve Liu, Gregory Dudek(参考訳) 本研究では,特定のデバイスを携帯する必要なしに,屋内環境の人々の位置,活動,さらには活動までを推定できる人間状態推定フレームワークを提案する。 この「デバイスフリー」なローカライゼーションを実現するため、関心のある環境に分散した安価なUWBセンサを少数使用した。 環境中の人間にのみ反映されたUWB信号から高品質な推定を実現するために,推論の学習が可能なディープネットワークを利用する。 ハードウェア構成は商用オフザシェルフ(COTS)単一アンテナUWBモジュールからなり、Raspberry PIユニットと組み合わせて計算処理とデータ転送を行う。 本研究では,UWBセンサからのチャネルインパルス応答(CIR)測定を用いて,所定の領域における人間の状態(位置と活動)を推定する。 さらに、この領域を占める人間の数を推定することもできる。 提案手法では,まず,重要統計量の厳密な集計と抽出を含むCIRデータを前処理する。 その後、畳み込みニューラルネットワークを用いて、CIRを30cm以下の精度で正確な位置推定にマッピングする。 同様に、正確な人間の活動認識と占有数を達成できる。 私たちは、新しいアウト・オブ・ディストリビューションユーザーのためのモデルを素早く微調整できることを示します。 以上の結果から,uwbは適応型ホームローカライズとアクティビティ認識の課題に対して有望なソリューションであることが示された。

We present a human state estimation framework that allows us to estimate the location, and even the activities, of people in an indoor environment without the requirement that they carry a specific devices with them. To achieve this "device free" localization we use a small number of low-cost Ultra-Wide Band (UWB) sensors distributed across the environment of interest. To achieve high quality estimation from the UWB signals merely reflected of people in the environment, we exploit a deep network that can learn to make inferences. The hardware setup consists of commercial off-the-shelf (COTS) single antenna UWB modules for sensing, paired with Raspberry PI units for computational processing and data transfer. We make use of the channel impulse response (CIR) measurements from the UWB sensors to estimate the human state - comprised of location and activity - in a given area. Additionally, we can also estimate the number of humans that occupy this region of interest. In our approach, first, we pre-process the CIR data which involves meticulous aggregation of measurements and extraction of key statistics. Afterwards, we leverage a convolutional deep neural network to map the CIRs into precise location estimates with sub-30 cm accuracy. Similarly, we achieve accurate human activity recognition and occupancy counting results. We show that we can quickly fine-tune our model for new out-of-distribution users, a process that requires only a few minutes of data and a few epochs of training. Our results show that UWB is a promising solution for adaptable smart-home localization and activity recognition problems.
翻訳日:2024-01-15 08:34:51 公開日:2023-12-26
# 2段階深層学習ネットワークを用いた自動プレイヤー識別とインデックス化

Automated player identification and indexing using two-stage deep learning network ( http://arxiv.org/abs/2204.13809v2 )

ライセンス: Link先を確認
Hongshan Liu, Colin Aderon, Noah Wagon, Abdul Latif Bamba, Xueshen Li, Huapu Liu, Steven MacCall, Yu Gan(参考訳) アメリカンフットボールの試合は毎年世界的な注目を集めている。 プレイヤー参加の索引付けには各プレーのビデオからプレイヤーを識別することが不可欠である。 フットボールゲームビデオの処理は、混雑した設定、歪んだオブジェクト、プレイヤー、特にジャージ番号を特定するための不均衡なデータなどの大きな課題を示す。 本研究では,アメリカンフットボールにおいて,選手を自動的に追跡し,プレー毎のインデクシングを行う深層学習型選手追跡システムを提案する。 関心領域を強調し、ジャージ番号情報を高精度に識別するための2段階ネットワーク設計である。 まず,物体検出ネットワーク,検出変換器を用いて,混雑した状況下でのプレイヤー検出問題に対処する。 次に、ジャージ数認識と二次畳み込みニューラルネットワークを用いてプレイヤーを識別し、ゲームクロックサブシステムと同期する。 最後に、システムは、プレイインデクシングのためにデータベースに完全なログを出力する。 フットボールビデオの質的,定量的な結果を分析し,選手追跡システムの有効性と信頼性を示す。 提案システムでは,フットボール放送映像の実装と分析に大きな可能性を示す。

American football games attract significant worldwide attention every year. Identifying players from videos in each play is also essential for the indexing of player participation. Processing football game video presents great challenges such as crowded settings, distorted objects, and imbalanced data for identifying players, especially jersey numbers. In this work, we propose a deep learning-based player tracking system to automatically track players and index their participation per play in American football games. It is a two-stage network design to highlight areas of interest and identify jersey number information with high accuracy. First, we utilize an object detection network, a detection transformer, to tackle the player detection problem in a crowded context. Second, we identify players using jersey number recognition with a secondary convolutional neural network, then synchronize it with a game clock subsystem. Finally, the system outputs a complete log in a database for play indexing. We demonstrate the effectiveness and reliability of player tracking system by analyzing the qualitative and quantitative results on football videos. The proposed system shows great potential for implementation in and analysis of football broadcast video.
翻訳日:2023-12-29 23:53:33 公開日:2023-12-26
# ハミルトニアン対称性試験のための量子アルゴリズム

Quantum Algorithms for Testing Hamiltonian Symmetry ( http://arxiv.org/abs/2203.10017v6 )

ライセンス: Link先を確認
Margarite L. LaBorde and Mark M. Wilde(参考訳) ハミルトンの対称性は、関連する系の保存量と直接対応するため、量子物理学において重要な役割を果たす。 本稿では,ハミルトニアンが群に対して対称性を示すかどうかを検証できる量子アルゴリズムを提案する。 量子力学におけるハミルトン対称性の慣れ親しんだ表現は、我々のアルゴリズムの受容確率と直接一致することを示す。 既存の量子コンピュータ上で対称性テストアルゴリズムの1つを実行し、対称ケースと非対称ケースの両方を簡単に例示します。

Symmetries in a Hamiltonian play an important role in quantum physics because they correspond directly with conserved quantities of the related system. In this paper, we propose quantum algorithms capable of testing whether a Hamiltonian exhibits symmetry with respect to a group. We demonstrate that familiar expressions of Hamiltonian symmetry in quantum mechanics correspond directly with the acceptance probabilities of our algorithms. We execute one of our symmetry-testing algorithms on existing quantum computers for simple examples of both symmetric and asymmetric cases.
翻訳日:2023-12-29 23:52:00 公開日:2023-12-26
# 事前条件付きスコアベース生成モデル

Preconditioned Score-based Generative Models ( http://arxiv.org/abs/2302.06504v2 )

ライセンス: Link先を確認
Hengyuan Ma, Li Zhang, Xiatian Zhu, Jianfeng Feng(参考訳) スコアベース生成モデル(sgms)は最近、有望な生成モデルのクラスとして登場している。 しかし、基本的な制限は、一連の逐次計算の多くの($2000$の)反復が必要であるため、サンプリングプロセスが遅いことである。 直感的な加速度法はサンプリングの繰り返しを減らし,性能を著しく低下させる。 我々はこの問題をランゲヴィン力学の不条件問題とサンプリング過程における逆拡散に攻撃する。 そこで本研究では,行列プレコンディショニングを利用したモデル非依存型プレコンディショニング拡散サンプリング(PDS)手法を提案する。 PDSは、バニラSGMのサンプリングプロセスを限界余剰計算コストで変更し、モデルの再訓練を行わない。 理論的には、pdsはsgmの出力分布を保持しており、元のサンプリングプロセスに系統的バイアスを誘導するリスクはない。 さらに, pdsのパラメータとサンプリングイテレーションの関係を理論的に明らかにし, 様々なサンプリングイテレーションにおけるパラメータ推定を緩和する。 様々な解像度と多様性を持つ画像データセットに対する大規模な実験により、PSDは合成品質を維持しながら、常に市販のSGMを加速することを確認した。 特にPDSは、より難しい高解像度(1024$\times$1024)の画像生成で最大29ドルまで加速することができる。 最新の生成モデル (\eg, CLD-SGM, DDIM, Analytic-DDIM) と比較して, PDS は CIFAR-10 において FID スコア 1.99 で最高のサンプリング品質が得られる。 我々のコードは公開されており、さらなる研究を促進することができます。

Score-based generative models (SGMs) have recently emerged as a promising class of generative models. However, a fundamental limitation is that their sampling process is slow due to a need for many (\eg, $2000$) iterations of sequential computations. An intuitive acceleration method is to reduce the sampling iterations which however causes severe performance degradation. We assault this problem to the ill-conditioned issues of the Langevin dynamics and reverse diffusion in the sampling process. Under this insight, we propose a model-agnostic {\bf\em preconditioned diffusion sampling} (PDS) method that leverages matrix preconditioning to alleviate the aforementioned problem. PDS alters the sampling process of a vanilla SGM at marginal extra computation cost, and without model retraining. Theoretically, we prove that PDS preserves the output distribution of the SGM, no risk of inducing systematical bias to the original sampling process. We further theoretically reveal a relation between the parameter of PDS and the sampling iterations,easing the parameter estimation under varying sampling iterations. Extensive experiments on various image datasets with a variety of resolutions and diversity validate that our PDS consistently accelerates off-the-shelf SGMs whilst maintaining the synthesis quality. In particular, PDS can accelerate by up to $29\times$ on more challenging high resolution (1024$\times$1024) image generation. Compared with the latest generative models (\eg, CLD-SGM, DDIM, and Analytic-DDIM), PDS can achieve the best sampling quality on CIFAR-10 at a FID score of 1.99. Our code is made publicly available to foster any further research https://github.com/fudan-zvg/PDS.
翻訳日:2023-12-29 23:29:18 公開日:2023-12-26
# 3ドルのケメニー問題に対する空間削減技術

Space reduction techniques for the $3$-wise Kemeny problem ( http://arxiv.org/abs/2305.00140v2 )

ライセンス: Link先を確認
Xuan Kien Phung and Sylvie Hamel(参考訳) ケメニーの法則は、計算社会選択と生物学に様々な重要な応用がある最も研究されよく知られた投票方式の1つである。 近年、ケメニーの法則はギルバートらによる集合的アプローチによって一般化された。 アル このパラダイムは、ペアワイズ比較だけでなく、3つの選択肢のサブセットの勝者間の不一致も、2つのランキングの間の3ドルのケンドール・トー距離の定義において考慮されるため、ケメニーの法則と比較して興味深い利点がある。 In spite of the NP-hardness of the 3-wise Kemeny problem which consists of computing the set of $3$-wise consensus rankings, namely rankings whose total $3$-wise Kendall-tau distance to a given voting profile is minimized, we establish in this paper several generalizations of the Major Order Theorems, as obtained by Milosz and Hamel for Kemeny's rule, for the $3$-wise Kemeny voting schemes to achieve a substantial search space reduction by efficiently determining in polynomial time the relative orders of pairs of alternatives. 基本的に、我々の定理は、選挙における別の選択肢に対する選好が十分に強く、また1つまたは2つの選択肢を考慮に入れたとしても十分であるなら、これら2つの選択肢の相対的な順序は、全ての3$のコンセンサスランキングにおいて期待通りである。 応用として,kememyの法則に対する主要な次数定理の改良も行う。 さらに、betzlerらによるkemenyの法則の3/4ドルの多数派ルールは、3ドルのkemenyスキームに関して5ドル未満の選挙においてのみ有効であることを示した。 実世界のデータと均一なデータに対するアルゴリズムのシミュレーションとテストを行う。

Kemeny's rule is one of the most studied and well-known voting schemes with various important applications in computational social choice and biology. Recently, Kemeny's rule was generalized via a set-wise approach by Gilbert et. al. This paradigm presents interesting advantages in comparison with Kemeny's rule since not only pairwise comparisons but also the discordance between the winners of subsets of three alternatives are also taken into account in the definition of the $3$-wise Kendall-tau distance between two rankings. In spite of the NP-hardness of the 3-wise Kemeny problem which consists of computing the set of $3$-wise consensus rankings, namely rankings whose total $3$-wise Kendall-tau distance to a given voting profile is minimized, we establish in this paper several generalizations of the Major Order Theorems, as obtained by Milosz and Hamel for Kemeny's rule, for the $3$-wise Kemeny voting schemes to achieve a substantial search space reduction by efficiently determining in polynomial time the relative orders of pairs of alternatives. Essentially, our theorems quantify precisely the nontrivial property that if the preference for an alternative over another one in an election is strong enough, not only in the head-to-head competition but even when taking into account one or two more alternatives, then the relative order of these two alternatives in all $3$-wise consensus rankings must be as expected. As an application, we also obtain an improvement of the Major Order Theorems for Kememy's rule. Moreover, we show that the well-known $3/4$-majority rule of Betzler et al. for Kemeny's rule is only valid in general for elections with no more than $5$ alternatives with respect to the $3$-wise Kemeny scheme. Several simulations and tests of our algorithms on real-world and uniform data are provided.
翻訳日:2023-12-29 23:15:32 公開日:2023-12-26
# 効率の良いテンソルプログラム生成のための異種特徴間の転送学習

Transfer Learning Across Heterogeneous Features For Efficient Tensor Program Generation ( http://arxiv.org/abs/2304.05430v2 )

ライセンス: Link先を確認
Gaurav Verma, Siddhisanket Raskar, Zhen Xie, Abid M Malik, Murali Emani, Barbara Chapman(参考訳) チューニングテンソルプログラム生成は、テンソルプログラムの実行を最適化するために、ターゲットハードウェア上の所定のプログラムに対する様々なプログラム変換の組み合わせを探索する。 大規模な探索空間と指数的な変換の組み合わせにより、特に不均一なターゲットを持つ場合、自動チューニングテンソルプログラム生成がより困難になるため、すでに複雑なプロセスである。 本研究では,ニューラルネットワークとハードウェアの特徴を学習し,それらを新たなターゲットハードウェアに転送することで,これらの問題に対処する。 既存の最先端データセットであるtensetを広範囲に調査し,テスト分割戦略の比較分析を行い,データセットをpruneする手法を提案する。 ニューラルネットワークとハードウェア特有の機能を組み込むために,テンソルプログラムのチューニングに注意を引いたアプローチを採用する。 我々のアプローチは、Pairwise Comparison Accuracy (PCA) を妥協することなく、ベースラインの最大45倍のデータセットを作成できる。 さらに,提案手法は,ベースラインチューニング時間の25%~40%を異なるネットワークとターゲットハードウェアに分散して,平均推定時間をほぼあるいは改善することができる。

Tuning tensor program generation involves searching for various possible program transformation combinations for a given program on target hardware to optimize the tensor program execution. It is already a complex process because of the massive search space and exponential combinations of transformations make auto-tuning tensor program generation more challenging, especially when we have a heterogeneous target. In this research, we attempt to address these problems by learning the joint neural network and hardware features and transferring them to the new target hardware. We extensively study the existing state-of-the-art dataset, TenSet, perform comparative analysis on the test split strategies and propose methodologies to prune the dataset. We adopt an attention-inspired approach for tuning the tensor programs enabling them to embed neural network and hardware-specific features. Our approach could prune the dataset up to 45\% of the baseline without compromising the Pairwise Comparison Accuracy (PCA). Further, the proposed methodology can achieve on-par or improved mean inference time with 25%-40% of the baseline tuning time across different networks and target hardware.
翻訳日:2023-12-29 23:13:03 公開日:2023-12-26
# 異常検出のための設定特徴

Set Features for Anomaly Detection ( http://arxiv.org/abs/2311.14773v2 )

ライセンス: Link先を確認
Niv Cohen, Issar Tzachor, Yedid Hoshen(参考訳) 本稿では,通常成分の異常な組み合わせからなる試料中の異常を検出するためのセット特徴を提案する。 多くの先導的手法がサンプルの異常な部分を検出して異常を発見する。 例えば、最先端のセグメンテーションベースのアプローチでは、まずサンプルの各要素(例えばイメージパッチ)を正常または異常に分類し、その後、異常要素を含む場合、サンプル全体を異常に分類する。 しかし、そのようなアプローチは、異常が通常の要素の異常な組み合わせによって表現されるシナリオにうまく及ばない。 本稿では,各サンプルをその要素の分布でモデル化する集合的特徴を提案することで,この制限を克服する。 固定特徴量を用いた簡易密度推定法を用いて各試料の異常スコアを算出する。 このアプローチは,画像レベルの論理異常検出とシーケンスレベルの時系列異常検出において,これまでの最先端を上回っている。

This paper proposes set features for detecting anomalies in samples that consist of unusual combinations of normal elements. Many leading methods discover anomalies by detecting an unusual part of a sample. For example, state-of-the-art segmentation-based approaches, first classify each element of the sample (e.g., image patch) as normal or anomalous and then classify the entire sample as anomalous if it contains anomalous elements. However, such approaches do not extend well to scenarios where the anomalies are expressed by an unusual combination of normal elements. In this paper, we overcome this limitation by proposing set features that model each sample by the distribution of its elements. We compute the anomaly score of each sample using a simple density estimation method, using fixed features. Our approach outperforms the previous state-of-the-art in image-level logical anomaly detection and sequence-level time series anomaly detection.
翻訳日:2023-12-29 21:47:25 公開日:2023-12-26
# 統一乱数生成ハードウェア設計を生成、シミュレート、デプロイするために高レベル合成と大規模言語モデルを活用する

Leveraging High-Level Synthesis and Large Language Models to Generate, Simulate, and Deploy a Uniform Random Number Generator Hardware Design ( http://arxiv.org/abs/2311.03489v3 )

ライセンス: Link先を確認
James T. Meech(参考訳) 本稿では,大規模言語モデルツールを用いたハードウェア設計のための高レベル合成手法を提案する。 この方法論は、大きな言語モデルを除くオープンソースツールのみを使用する。 ケーススタディとして,我々の手法を用いて,whidboneインタフェースを用いた変分連続乱数生成器の設計を行った。 大規模言語モデル生成シミュレーションとdieharder randomness test suiteを用いて,乱数生成器設計の機能と品質を検証する。 ケーススタディでは,大規模言語モデルチャットログ,Pythonスクリプト,Verilogスクリプト,シミュレーション結果をすべて文書化しています。 オープンソースシリコン130nm設計ツールと組み合わされたハードウェア設計手法は、アプリケーション固有の集積回路設計に革命をもたらすと信じています。 われわれの手法は、モノのインターネットのためのドメイン固有のコンピューティングアクセラレータを構築する際の参入障壁を著しく低くし、より近代的なプロセスノードにおける後の製造のためのコンセプトプロトタイプの証明を行う。

We present a new high-level synthesis methodology for using large language model tools to generate hardware designs. The methodology uses exclusively open-source tools excluding the large language model. As a case study, we use our methodology to generate a permuted congruential random number generator design with a wishbone interface. We verify the functionality and quality of the random number generator design using large language model-generated simulations and the Dieharder randomness test suite. We document all the large language model chat logs, Python scripts, Verilog scripts, and simulation results used in the case study. We believe that our method of hardware design generation coupled with the open source silicon 130 nm design tools will revolutionize application-specific integrated circuit design. Our methodology significantly lowers the bar to entry when building domain-specific computing accelerators for the Internet of Things and proof of concept prototypes for later fabrication in more modern process nodes.
翻訳日:2023-12-29 21:44:27 公開日:2023-12-26
# ニューラルネットワークトレーニングを加速する - 簡単なレビュー

Accelerating Neural Network Training: A Brief Review ( http://arxiv.org/abs/2312.10024v2 )

ライセンス: Link先を確認
Sahil Nokhwal, Priyanka Chilakalapudi, Preeti Donekal, Suman Nokhwal, Saurabh Pahune and Ankit Chaudhary(参考訳) ディープニューラルネットワークのトレーニングプロセスは、かなりの時間要件と関連するコストによって特徴づけられる。 研究者はこの分野でかなりの進歩を遂げているが、資源の制約のためにさらなる研究が必要である。 本研究では, resnet50, vision transformer (vit), efficientnet などの3つの最先端モデルに着目し,深層ニューラルネットワーク(dnn)の学習プロセスを高速化するための革新的なアプローチを検討する。 この研究は、性能の最適化と訓練手順の高速化のために、グラディエント累積(GA)、自動混合精度(AMP)、ピンメモリ(PM)などの高度な手法を利用している。 本研究は,これらの手法が先述したdnnモデルに及ぼす影響について検討し,トレーニング率と計算の有効性について検討した。 この研究は、GAを戦略的アプローチとして含む効果を示し、トレーニングに要する時間を大幅に減少させる結果となった。 これにより、モデルはより速いペースで収束できる。 AMPの利用は、モデルの正確性を保ちながら、より精度の低い算術によって得られる利点を生かして計算速度を向上させる。 さらに、中央処理ユニットとグラフィックス処理ユニットとの間のデータ伝送効率を向上させる戦略としてのピンメモリの適用について検討し、全体的な性能向上に有望な機会を提供する。 実験の結果,これらの手法を組み合わせることでDNNの訓練が大幅に促進され,深層学習プロセスの有効性向上を目指す専門家にとって重要な知見が得られた。

The process of training a deep neural network is characterized by significant time requirements and associated costs. Although researchers have made considerable progress in this area, further work is still required due to resource constraints. This study examines innovative approaches to expedite the training process of deep neural networks (DNN), with specific emphasis on three state-of-the-art models such as ResNet50, Vision Transformer (ViT), and EfficientNet. The research utilizes sophisticated methodologies, including Gradient Accumulation (GA), Automatic Mixed Precision (AMP), and Pin Memory (PM), in order to optimize performance and accelerate the training procedure. The study examines the effects of these methodologies on the DNN models discussed earlier, assessing their efficacy with regard to training rate and computational efficacy. The study showcases the efficacy of including GA as a strategic approach, resulting in a noteworthy decrease in the duration required for training. This enables the models to converge at a faster pace. The utilization of AMP enhances the speed of computations by taking advantage of the advantages offered by lower precision arithmetic while maintaining the correctness of the model. Furthermore, this study investigates the application of Pin Memory as a strategy to enhance the efficiency of data transmission between the central processing unit and the graphics processing unit, thereby offering a promising opportunity for enhancing overall performance. The experimental findings demonstrate that the combination of these sophisticated methodologies significantly accelerates the training of DNNs, offering vital insights for experts seeking to improve the effectiveness of deep learning processes.
翻訳日:2023-12-29 21:26:32 公開日:2023-12-26
# 量子生成逆ネットワーク:古典的および量子的領域の橋渡し

Quantum Generative Adversarial Networks: Bridging Classical and Quantum Realms ( http://arxiv.org/abs/2312.09939v2 )

ライセンス: Link先を確認
Sahil Nokhwal, Suman Nokhwal, Saurabh Pahune and Ankit Chaudhary(参考訳) 本稿では,GAN(Generative Adversarial Networks)領域における古典的および量子コンピューティングパラダイムの相乗的融合に関する基礎研究を紹介する。 我々の目的は、量子計算要素を従来のGANアーキテクチャにシームレスに統合し、トレーニングプロセスを強化するための新しい経路を開放することである。 量子ビット(量子ビット)の本質的な能力からインスピレーションを得て、GANフレームワーク内の量子データ表現方法論の組み入れについて検討する。 ユニークな量子的特徴を活かすことで、GANの学習プロセスを加速し、生成モデルの最適化に関する新たな視点を提供することを目指している。 本研究は, 理論的な考察を扱い, 学習効率と生成的品質の観点から, 潜在的量子的優位性を評価する。 本稿では,量子ハードウェア制約,エラー訂正機構,拡張性を考慮した量子古典的アマルガメーション(quantum-classical amalgamation)の課題に対処する。 この研究は、量子エンハンスド機械学習の最前線に位置し、量子システムの計算能力を利用して生成的敵ネットワークのトレーニングを促進するための重要な一歩を示している。 古典的および量子的領域のインターフェースを網羅的に検討することで、この分野を前進させ、イノベーションを育み、量子機械学習のフロンティアを前進させる変革的洞察を明らかにすることを目指している。

In this pioneering research paper, we present a groundbreaking exploration into the synergistic fusion of classical and quantum computing paradigms within the realm of Generative Adversarial Networks (GANs). Our objective is to seamlessly integrate quantum computational elements into the conventional GAN architecture, thereby unlocking novel pathways for enhanced training processes. Drawing inspiration from the inherent capabilities of quantum bits (qubits), we delve into the incorporation of quantum data representation methodologies within the GAN framework. By capitalizing on the unique quantum features, we aim to accelerate the training process of GANs, offering a fresh perspective on the optimization of generative models. Our investigation deals with theoretical considerations and evaluates the potential quantum advantages that may manifest in terms of training efficiency and generative quality. We confront the challenges inherent in the quantum-classical amalgamation, addressing issues related to quantum hardware constraints, error correction mechanisms, and scalability considerations. This research is positioned at the forefront of quantum-enhanced machine learning, presenting a critical stride towards harnessing the computational power of quantum systems to expedite the training of Generative Adversarial Networks. Through our comprehensive examination of the interface between classical and quantum realms, we aim to uncover transformative insights that will propel the field forward, fostering innovation and advancing the frontier of quantum machine learning.
翻訳日:2023-12-29 21:25:33 公開日:2023-12-26
# マルチビュー対応強化拡散モデルによるテキスト駆動3次元編集の効率化

Efficient-NeRF2NeRF: Streamlining Text-Driven 3D Editing with Multiview Correspondence-Enhanced Diffusion Models ( http://arxiv.org/abs/2312.08563v2 )

ライセンス: Link先を確認
Liangchen Song, Liangliang Cao, Jiatao Gu, Yifan Jiang, Junsong Yuan, Hao Tang(参考訳) テキスト駆動3dコンテンツ編集の進歩は、2次元生成拡散モデルからの進歩によって祝福されている。 しかし、3Dコンテンツ編集の普及を妨げる大きな障害は、その時間集約的な処理である。 この課題は、2次元画像ベース生成モデルから一貫した3D出力を達成するのに必要な反復的および精製的なステップから生じる。 最近の最先端の手法は通常、単一のgpuを使って3dシーンを編集するのに、数十分から数時間の最適化時間を必要とする。 本研究では,拡散モデルに対応正規化を組み込むことにより,3次元編集のプロセスを大幅に高速化できることを示す。 このアプローチは、拡散中の推定サンプルは拡散生成過程においてマルチビュー一貫性を持つべきであるという考え方に触発されている。 このマルチビューの一貫性を利用することで、3dコンテンツをより高速に編集できるのです。 ほとんどのシナリオにおいて、提案手法はベースライン法と比較して10$\times$のスピードアップをもたらし、同等の品質で2分間で3dシーンの編集を完了する。

The advancement of text-driven 3D content editing has been blessed by the progress from 2D generative diffusion models. However, a major obstacle hindering the widespread adoption of 3D content editing is its time-intensive processing. This challenge arises from the iterative and refining steps required to achieve consistent 3D outputs from 2D image-based generative models. Recent state-of-the-art methods typically require optimization time ranging from tens of minutes to several hours to edit a 3D scene using a single GPU. In this work, we propose that by incorporating correspondence regularization into diffusion models, the process of 3D editing can be significantly accelerated. This approach is inspired by the notion that the estimated samples during diffusion should be multiview-consistent during the diffusion generation process. By leveraging this multiview consistency, we can edit 3D content at a much faster speed. In most scenarios, our proposed technique brings a 10$\times$ speed-up compared to the baseline method and completes the editing of a 3D scene in 2 minutes with comparable quality.
翻訳日:2023-12-29 21:23:22 公開日:2023-12-26
# コスト適応推論のための協調学習

Cooperative Learning for Cost-Adaptive Inference ( http://arxiv.org/abs/2312.08532v2 )

ライセンス: Link先を確認
Xingli Fang, Richard Bradford, Jung-Eun Kim(参考訳) 本稿では,動的コンピューティングリソースの要求を満たすために,ランタイムネットワークの深度を変更可能なディープニューラルネットワークアーキテクチャのための協調トレーニングフレームワークを提案する。 我々のフレームワークでは、推論実行時にパフォーマンスコストのトレードオフを満たすために、計算に参加するレイヤの数を動的に選択できる。 提案手法は,2つのチームメイトネットと1つのリーダーネット,および2組のチームメイトサブネットワークを知識蒸留により様々な深度で訓練する。 チームメイトネットはサブネットワークを導き、知識を互いに伝達し、リーダーネットはチームメイトネットをガイドし、正確性を確保する。 このアプローチは、モデルのさまざまなサイズを個別にトレーニングする代わりに、フレームワークを一度に原子的にトレーニングする。 提案されたフレームワークは、特定のアーキテクチャに縛られないが、既存のモデル/アーキテクチャを組み込めるため、安定した結果を維持することができ、データセットの機能マップのサイズに敏感である。 他の関連するアプローチと比較して、モデルのさまざまなサイズが利用可能である間、フルネットワークに匹敵する精度を提供する。

We propose a cooperative training framework for deep neural network architectures that enables the runtime network depths to change to satisfy dynamic computing resource requirements. In our framework, the number of layers participating in computation can be chosen dynamically to meet performance-cost trade-offs at inference runtime. Our method trains two Teammate nets and a Leader net, and two sets of Teammate sub-networks with various depths through knowledge distillation. The Teammate nets derive sub-networks and transfer knowledge to them, and to each other, while the Leader net guides Teammate nets to ensure accuracy. The approach trains the framework atomically at once instead of individually training various sizes of models; in a sense, the various-sized networks are all trained at once, in a "package deal." The proposed framework is not tied to any specific architecture but can incorporate any existing models/architectures, therefore it can maintain stable results and is insensitive to the size of a dataset's feature map. Compared with other related approaches, it provides comparable accuracy to its full network while various sizes of models are available.
翻訳日:2023-12-29 21:23:05 公開日:2023-12-26
# 物理力学理解のための実世界モデリング

Counterfactual World Modeling for Physical Dynamics Understanding ( http://arxiv.org/abs/2312.06721v2 )

ライセンス: Link先を確認
Rahul Venkatesh, Honglin Chen, Kevin Feigelis, Daniel M. Bear, Khaled Jedoui, Klemen Kotar, Felix Binder, Wanhee Lee, Sherry Liu, Kevin A. Smith, Judith E. Fan, Daniel L. K. Yamins(参考訳) 物理力学を理解する能力は、世界で行動する学習エージェントにとって不可欠である。 本稿では,物理力学理解のための純粋視覚基盤モデルとして,CWM(Counterfactual World Modeling)を提案する。 cwmは3つの基本的な概念からなる。 まず,映像データのマスキング予測のための簡易かつ強力な時間分解型マスキングポリシーを提案する。 第二に、CWMは、数個のパッチ埋め込みを操作してシーンダイナミクスを有意義に制御することで、偽の次フレーム予測を生成することができる。 第3に、逆ファクトモデリング機能により、動的理解に有用なキーポイント、光学フロー、セグメンテーションに似た視覚構造を抽出できる反ファクトクエリの設計が可能となる。 実世界のデータセットにおける先行手法に対して,反事実クエリによって抽出された構造をゼロショットで読み出すことにより,性能が向上することを示す。 最後に、CWMが物理力学の理解を評価するための挑戦的なPhyssionベンチマークにおいて、最先端の性能を達成することを実証する。

The ability to understand physical dynamics is essential to learning agents acting in the world. This paper presents Counterfactual World Modeling (CWM), a candidate pure vision foundational model for physical dynamics understanding. CWM consists of three basic concepts. First, we propose a simple and powerful temporally-factored masking policy for masked prediction of video data, which encourages the model to learn disentangled representations of scene appearance and dynamics. Second, as a result of the factoring, CWM is capable of generating counterfactual next-frame predictions by manipulating a few patch embeddings to exert meaningful control over scene dynamics. Third, the counterfactual modeling capability enables the design of counterfactual queries to extract vision structures similar to keypoints, optical flows, and segmentations, which are useful for dynamics understanding. We show that zero-shot readouts of these structures extracted by the counterfactual queries attain competitive performance to prior methods on real-world datasets. Finally, we demonstrate that CWM achieves state-of-the-art performance on the challenging Physion benchmark for evaluating physical dynamics understanding.
翻訳日:2023-12-29 21:21:24 公開日:2023-12-26
# 非Linear関数を文脈で学習するトランスフォーマーによる機能的グラディエントDescentの実現

Transformers Implement Functional Gradient Descent to Learn Non-Linear Functions In Context ( http://arxiv.org/abs/2312.06528v3 )

ライセンス: Link先を確認
Xiang Cheng, Yuxin Chen, Suvrit Sra(参考訳) 多くのニューラルネットワークアーキテクチャがチューリング完全であることが示されており、任意のアルゴリズムを実装することができる。 しかし、トランスフォーマーは勾配に基づく学習アルゴリズム \emph{under simple parameter configurations} を実装できるという点でユニークである。 最近の一連の研究は、線形回帰学習タスクで訓練された場合、線形変圧器は自然に勾配降下(gd)を実装することを学ぶことを示している。 しかし、線形性仮定(トランスフォーマーアーキテクチャや学習タスクの場合)は、非線形アクティベーションがトランスフォーマーが複雑な非線形関数を学べるような現実的な設定とは程遠い。 本稿では,非線形トランスフォーマーが,文脈で非線形関数を学習するための学習アルゴリズムの実装を学習できることを理論的,実証的に証明する。 この結果は非線形アーキテクチャと非線形インコンテキスト学習タスクの幅広い組み合わせに適用できる。 興味深いことに、非線形活性化の最適選択は、学習課題の非線形性に依存している。

Many neural network architectures have been shown to be Turing Complete, and can thus implement arbitrary algorithms. However, Transformers are unique in that they can implement gradient-based learning algorithms \emph{under simple parameter configurations}. A line of recent work shows that linear Transformers naturally learn to implement gradient descent (GD) when trained on a linear regression in-context learning task. But the linearity assumption (either in the Transformer architecture or in the learning task) is far from realistic settings where non-linear activations crucially enable Transformers to learn complicated non-linear functions. In this paper, we provide theoretical and empirical evidence that non-linear Transformers can, and \emph{in fact do}, learn to implement learning algorithms to learn non-linear functions in context. Our results apply to a broad class of combinations of non-linear architectures, and non-linear in-context learning tasks. Interestingly, we show that the optimal choice of non-linear activation depends in a natural way on the non-linearity of the learning task.
翻訳日:2023-12-29 21:20:30 公開日:2023-12-26
# TagAlign: マルチタグ分類による視覚言語アライメントの改善

TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification ( http://arxiv.org/abs/2312.14149v2 )

ライセンス: Link先を確認
Qinying Liu, Kecheng Zheng, Wei Wu, Zhan Tong, Yu Liu, Wei Chen, Zilei Wang, Yujun Shen(参考訳) 視覚言語モデルの欠如は、視覚的および言語学的データから意味的に整合した情報を抽出することである。 既存の試みは通常、粗いアライメントの問題に直面する。例えば、視覚エンコーダは属性指定オブジェクトのローカライズに苦労する。 本研究では,画像とテキストの対以外のデータ形式を必要とせずに,画像とテキストの機能を調整するための,恥ずかしいほどシンプルなアプローチを提案する。 具体的には、画像とそのペアテキストが与えられた場合、画像中に非常に存在する可能性が高い記述から、オブジェクト(例えば、猫)と属性(例えば、黒)を解析する。 パースパイプラインは完全に自動化されており、優れたスケーラビリティを享受しています。 これらの解析的セマンティクスを監視信号として使用することにより、画像テキストのコントラスト損失とマルチタグ分類損失を補完することができる。 セマンティクスセグメンテーションデータセットの幅広いスイートに関する広範な実験の結果は、既存の代替案よりも平均 3.65 %向上しています。 さらに,属性管理により,属性指定対象を視覚言語モデルで正確にローカライズすることを示す。 プロジェクトページとコードはhttps://qinying-liu.github.io/Tag-Align.orgにある。

The crux of learning vision-language models is to extract semantically aligned information from visual and linguistic data. Existing attempts usually face the problem of coarse alignment, e.g., the vision encoder struggles in localizing an attribute-specified object. In this work, we propose an embarrassingly simple approach to better align image and text features with no need of additional data formats other than image-text pairs. Concretely, given an image and its paired text, we manage to parse objects (e.g., cat) and attributes (e.g., black) from the description, which are highly likely to exist in the image. It is noteworthy that the parsing pipeline is fully automatic and thus enjoys good scalability. With these parsed semantics as supervision signals, we can complement the commonly used image-text contrastive loss with the multi-tag classification loss. Extensive experimental results on a broad suite of semantic segmentation datasets substantiate the average 3.65\% improvement of our framework over existing alternatives. Furthermore, the visualization results indicate that attribute supervision makes vision-language models accurately localize attribute-specified objects. Project page and code can be found at https://qinying-liu.github.io/Tag-Align.
翻訳日:2023-12-29 21:12:28 公開日:2023-12-26
# 動的および時間に敏感なテスト構築による言語モデル評価におけるデータ汚染対策

LatestEval: Addressing Data Contamination in Language Model Evaluation through Dynamic and Time-Sensitive Test Construction ( http://arxiv.org/abs/2312.12343v2 )

ライセンス: Link先を確認
Yucheng Li, Frank Guerin, Chenghua Lin(参考訳) 超大型で自動クロールコーパスで事前訓練された言語モデルの出現に伴い、評価におけるデータの汚染がますます高まっている。 この問題は、モデル能力と一般化の正確な評価において重大な課題をもたらす。 本稿では,最新のテキストを利用して非汚染読影理解評価を作成する自動手法であるLatestEvalを提案する。 最新Evalは、最近のタイムウインドウで公開されたテキストのみを使用することでデータ汚染を回避し、事前訓練された言語モデルのトレーニングコーパスと重複しないようにする。 最新の自動化パイプラインを開発し 1) 最新のテキストを収集する。 2) キー情報を特定し, 3)既存の回答を文脈から取り除きながら情報を対象とした質問を構築する。 これにより、モデルは単にコピーペーストではなく、残りのコンテキストに基づいて回答を推論する。 実験の結果,従来のベンチマークと対照的に,言語モデルでは無視可能な記憶行動を示し,データ汚染のリスクを著しく低減し,より堅牢な評価につながることが示唆された。 データとコードは、https://github.com/liyucheng09/LatestEval.comで公開されている。

Data contamination in evaluation is getting increasingly prevalent with the emergence of language models pre-trained on super large, automatically crawled corpora. This problem leads to significant challenges in the accurate assessment of model capabilities and generalisations. In this paper, we propose LatestEval, an automatic method that leverages the most recent texts to create uncontaminated reading comprehension evaluations. LatestEval avoids data contamination by only using texts published within a recent time window, ensuring no overlap with the training corpora of pre-trained language models. We develop the LatestEval automated pipeline to 1) gather the latest texts; 2) identify key information, and 3) construct questions targeting the information while removing the existing answers from the context. This encourages models to infer the answers themselves based on the remaining context, rather than just copy-paste. Our experiments demonstrate that language models exhibit negligible memorisation behaviours on LatestEval as opposed to previous benchmarks, suggesting a significantly reduced risk of data contamination and leading to a more robust evaluation. Data and code are publicly available at: https://github.com/liyucheng09/LatestEval.
翻訳日:2023-12-29 21:11:12 公開日:2023-12-26
# 自動符号化保存則によるニューラル演算子の力の調和

Harnessing the Power of Neural Operators with Automatically Encoded Conservation Laws ( http://arxiv.org/abs/2312.11176v2 )

ライセンス: Link先を確認
Ning Liu, Yiming Fan, Xianyi Zeng, Milan Kl\"ower, Yue Yu(参考訳) ニューラルネットワーク(NO)は、科学機械学習において複雑な物理システムをモデリングするための効果的なツールとして登場した。 nos の中心的な特徴は、データから直接物理法則を学習することである。 他の機械学習の応用とは対照的に、部分的な知識は、質量、エネルギー、運動量などの量が正確に保存される物理系に関する先入観としてよく知られている。 現在、nosはデータからこれらの保存則を学習しなければならず、有限のトレーニングデータとランダムノイズのため、それをほぼ満たすことができる。 本研究では,保護法則の自動満足度を推論するNOsスイートである保護法符号化ニューラル演算子(clawNOs)を紹介する。 ClawNOsは、連続性方程式が自動的に保証される解場の分岐のない予測で構築される。 その結果、ClawNOsは物理的整合性に不可欠な最も基本的でユビキタスな保存法に準拠している。 実演として,物質変形の構成的モデリング,非圧縮性流体力学,大気シミュレーションなど,さまざまな科学的応用を考察する。 ClawNOsは、特に小規模データ体制において、学習効率において最先端のNOsを著しく上回る。

Neural operators (NOs) have emerged as effective tools for modeling complex physical systems in scientific machine learning. In NOs, a central characteristic is to learn the governing physical laws directly from data. In contrast to other machine learning applications, partial knowledge is often known a priori about the physical system at hand whereby quantities such as mass, energy and momentum are exactly conserved. Currently, NOs have to learn these conservation laws from data and can only approximately satisfy them due to finite training data and random noise. In this work, we introduce conservation law-encoded neural operators (clawNOs), a suite of NOs that endow inference with automatic satisfaction of such conservation laws. ClawNOs are built with a divergence-free prediction of the solution field, with which the continuity equation is automatically guaranteed. As a consequence, clawNOs are compliant with the most fundamental and ubiquitous conservation laws essential for correct physical consistency. As demonstrations, we consider a wide variety of scientific applications ranging from constitutive modeling of material deformation, incompressible fluid dynamics, to atmospheric simulation. ClawNOs significantly outperform the state-of-the-art NOs in learning efficacy, especially in small-data regimes.
翻訳日:2023-12-29 21:09:57 公開日:2023-12-26
# 匿名マルチエージェントパス探索アルゴリズムの改良

Improved Anonymous Multi-Agent Path Finding Algorithm ( http://arxiv.org/abs/2312.10572v3 )

ライセンス: Link先を確認
Zain Alabedeen Ali and Konstantin Yakovlev(参考訳) 我々は、エージェントの集合がグラフに制限され、ゴール頂点の集合が与えられ、これらの頂点のそれぞれがあるエージェントによって到達されなければならない匿名のマルチエージェントパス探索(amapf)問題を考える。 問題となるのは、エージェントへの目標の割り当てと衝突のない経路を見つけることであり、我々は最適メイスパンによる解を見つけることに興味を持っている。 この問題を解決するための確立されたアプローチは、グラフ探索問題の特別なタイプ、すなわち入力されたグラフによって誘導される補助グラフ上の最大フローを見つける問題に還元することである。 前のグラフのサイズは非常に大きくなり、検索がボトルネックになる可能性がある。 そこで本研究では,検索空間を探索するアイデアを,個別の検索状態ではなく,同時にバルク化する,特定の検索アルゴリズムを提案する。 つまり、検索状態の大部分を単一の状態として暗黙的に圧縮し、保存し、拡張することで、ランタイムとメモリの大幅な削減を実現します。 実証的に、結果のAMAPFソルバは最先端の競合と比較して優れたパフォーマンスを示し、よく知られた movingAIベンチマークから利用可能なMAPFインスタンスを30秒未満で解決することができる。

We consider an Anonymous Multi-Agent Path-Finding (AMAPF) problem where the set of agents is confined to a graph, a set of goal vertices is given and each of these vertices has to be reached by some agent. The problem is to find an assignment of the goals to the agents as well as the collision-free paths, and we are interested in finding the solution with the optimal makespan. A well-established approach to solve this problem is to reduce it to a special type of a graph search problem, i.e. to the problem of finding a maximum flow on an auxiliary graph induced by the input one. The size of the former graph may be very large and the search on it may become a bottleneck. To this end, we suggest a specific search algorithm that leverages the idea of exploring the search space not through considering separate search states but rather bulks of them simultaneously. That is, we implicitly compress, store and expand bulks of the search states as single states, which results in high reduction in runtime and memory. Empirically, the resultant AMAPF solver demonstrates superior performance compared to the state-of-the-art competitor and is able to solve all publicly available MAPF instances from the well-known MovingAI benchmark in less than 30 seconds.
翻訳日:2023-12-29 21:08:52 公開日:2023-12-26
# InternVL:視覚基礎モデルのスケールアップとジェネリック視覚言語課題への適応

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks ( http://arxiv.org/abs/2312.14238v2 )

ライセンス: Link先を確認
Zhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Muyan Zhong, Qinglong Zhang, Xizhou Zhu, Lewei Lu, Bin Li, Ping Luo, Tong Lu, Yu Qiao, Jifeng Dai(参考訳) 大規模言語モデル(LLM)の指数的成長は、多モードAGIシステムに多くの可能性をもたらした。 しかし、マルチモーダルAGIの重要な要素でもあるビジョンと視覚言語基盤モデルの進歩は、LLMと歩調を合わせていない。 本研究では,視覚基礎モデルを60億のパラメータに拡張し,様々な情報源のWebスケール画像テキストデータを用いてLLMと段階的に整列する大規模視覚基礎モデル(InternVL)を設計する。 このモデルは、画像レベルやピクセルレベル認識などの視覚知覚タスク、ゼロショット画像/ビデオ分類、ゼロショット画像/ビデオテキスト検索などの視覚言語タスク、llmとリンクしてマルチモーダル対話システムを作成するなど、32の一般的な視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用および達成することができる。 強力な視覚能力を備え、ViT-22Bの代替となる。 マルチモーダル大規模モデルの開発に,我々の研究が貢献できることを願っています。 コードとモデルはhttps://github.com/OpenGVLab/InternVLで公開されている。

The exponential growth of large language models (LLMs) has opened up numerous possibilities for multimodal AGI systems. However, the progress in vision and vision-language foundation models, which are also critical elements of multi-modal AGI, has not kept pace with LLMs. In this work, we design a large-scale vision-language foundation model (InternVL), which scales up the vision foundation model to 6 billion parameters and progressively aligns it with the LLM, using web-scale image-text data from various sources. This model can be broadly applied to and achieve state-of-the-art performance on 32 generic visual-linguistic benchmarks including visual perception tasks such as image-level or pixel-level recognition, vision-language tasks such as zero-shot image/video classification, zero-shot image/video-text retrieval, and link with LLMs to create multi-modal dialogue systems. It has powerful visual capabilities and can be a good alternative to the ViT-22B. We hope that our research could contribute to the development of multi-modal large models. Code and models are available at https://github.com/OpenGVLab/InternVL.
翻訳日:2023-12-29 20:56:30 公開日:2023-12-26
# Leggett-Garg不等式に対するシュリンガー方程式の確率ベクトル表現と非侵襲測定性

Probability vector representation of the Schr\"odinger equation and noninvasive measurability for Leggett-Garg inequalities ( http://arxiv.org/abs/2312.16281v1 )

ライセンス: Link先を確認
Masahiro Hotta, Sebastian Murk(参考訳) Leggett-Gargの不等式は、マクロ的リアリズム(MR)と非侵襲的可測性(NM)の原理に基づくシステムの時間的相関に縛られる。 従来の定式化は、異なる瞬間に測定された可観測物のアンサンブル平均積に依存している。 しかし、この期待値に基づくアプローチはnmを明確に定義していない。 物理的に関係のある全ての特徴を正確に理解し、捉えるための完全な記述は、非可換可観測物に関連する確率分布の研究を必要とする。 本稿では、Schr\\odinger方程式の確率ベクトル表現を通して一般的な$N$レベルの量子系の力学を記述するためのスキームを提案し、非可換可観測物の確率分布に対するNMの正確な概念を定義する。 これにより、MR自体をより明確に解明し、潜在的な混乱を排除できます。 さらに、任意の量子状態に対するNMの違反を定量化する尺度を導入する。 単一量子ビットシステムでは、測定中に発生した観測器の乱れと結果として生じるnm違反との接続を確立する重要な関係を特定できる。

Leggett-Garg inequalities place bounds on the temporal correlations of a system based on the principles of macroscopic realism (MR) and noninvasive measurability (NM). Their conventional formulation relies on the ensemble-averaged products of observables measured at different instants of time. However, this expectation value based approach does not provide a clear definition of NM. A complete description that enables a precise understanding and captures all physically relevant features requires the study of probability distributions associated with noncommuting observables. In this article, we propose a scheme to describe the dynamics of generic $N$-level quantum systems via a probability vector representation of the Schr\"odinger equation and define a precise notion of NM for the probability distributions of noncommuting observables. This allows us to elucidate MR itself more clearly, eliminating any potential confusion. In addition, we introduce a measure to quantify violations of NM for arbitrary quantum states. For single-qubit systems, we pinpoint the pivotal relation that establishes a connection between the disturbance of observables incurred during a measurement and the resulting NM violation.
翻訳日:2023-12-29 20:20:19 公開日:2023-12-26
# マルチモーダル大規模言語モデルのためのクラウド・デバイス協調学習

Cloud-Device Collaborative Learning for Multimodal Large Language Models ( http://arxiv.org/abs/2312.16279v1 )

ライセンス: Link先を確認
Guanqun Wang, Jiaming Liu, Chenxuan Li, Junpeng Ma, Yuan Zhang, Xinyu Wei, Kevin Zhang, Maurice Chong, Ray Zhang, Yijiang Liu, Shanghang Zhang(参考訳) MLLM(Multimodal Large Language Models)の急成長する分野は、キャプション、常識推論、視覚的シーン理解といった様々なタスクにおいて顕著なパフォーマンスを示している。 しかし、これらの大規模MLLMのクライアントデバイスへの展開は、その広範囲なモデルパラメータによって妨げられ、これらのモデルがデバイス展開のために圧縮されると、一般化能力が著しく低下する。 この課題に対処するために、クラウドベースの大規模MLLMの堅牢性を活用して、圧縮されたデバイスデプロイMLLMの性能を高めるために設計されたクラウドデバイス協調型継続的適応フレームワークを導入する。 私たちのフレームワークは3つの重要なコンポーネントで構成されています。効率的なデータ転送のためのデバイス間アップリンク、クラウドベースの知識適応、モデル展開のための最適化されたクラウド間ダウンリンクです。 アップリンクフェーズでは、不確実性誘導トークンサンプリング(uts)戦略を採用し、分散トークンを効果的にフィルタリングし、伝送コストを低減し、トレーニング効率を向上させる。 クラウド側では、大規模から圧縮されたポケットサイズのMLLMから洗練された知識を伝達するAdapter-based Knowledge Distillation (AKD)法を提案する。 さらに,このダウンリンクの動的重み更新圧縮(dwc)戦略を提案する。これは,更新重みパラメータを適応的に選択し,定量化し,伝送効率を向上し,クラウドとデバイスモデル間の表現格差を低減させる。 複数のマルチモーダルベンチマークに関する広範囲な実験により,先行知識蒸留法やデバイス・クラウド協調法よりも,提案フレームワークが優れていることが示された。 また,実世界実験へのアプローチの実現可能性についても検証した。

The burgeoning field of Multimodal Large Language Models (MLLMs) has exhibited remarkable performance in diverse tasks such as captioning, commonsense reasoning, and visual scene understanding. However, the deployment of these large-scale MLLMs on client devices is hindered by their extensive model parameters, leading to a notable decline in generalization capabilities when these models are compressed for device deployment. Addressing this challenge, we introduce a Cloud-Device Collaborative Continual Adaptation framework, designed to enhance the performance of compressed, device-deployed MLLMs by leveraging the robust capabilities of cloud-based, larger-scale MLLMs. Our framework is structured into three key components: a device-to-cloud uplink for efficient data transmission, cloud-based knowledge adaptation, and an optimized cloud-to-device downlink for model deployment. In the uplink phase, we employ an Uncertainty-guided Token Sampling (UTS) strategy to effectively filter out-of-distribution tokens, thereby reducing transmission costs and improving training efficiency. On the cloud side, we propose Adapter-based Knowledge Distillation (AKD) method to transfer refined knowledge from large-scale to compressed, pocket-size MLLMs. Furthermore, we propose a Dynamic Weight update Compression (DWC) strategy for the downlink, which adaptively selects and quantizes updated weight parameters, enhancing transmission efficiency and reducing the representational disparity between cloud and device models. Extensive experiments on several multimodal benchmarks demonstrate the superiority of our proposed framework over prior Knowledge Distillation and device-cloud collaboration methods. Notably, we also validate the feasibility of our approach to real-world experiments.
翻訳日:2023-12-29 20:19:58 公開日:2023-12-26
# フレキシブル・スケーラブル・適応型多モード顔合成に向けて

Towards Flexible, Scalable, and Adaptive Multi-Modal Conditioned Face Synthesis ( http://arxiv.org/abs/2312.16274v1 )

ライセンス: Link先を確認
Jingjing Ren, Cheng Xu, Haoyu Chen, Xinran Qin, Chongyi Li, Lei Zhu(参考訳) マルチモーダル顔合成の最近の進歩により、視覚的に印象的かつ正確に整列された顔画像の作成が可能となった。 しかし、現在の手法は、拡張性、柔軟性の制限、そして、条件エントロピーの異なるレベルを考慮せず、特定の条件が与えられたデータにおける予測不可能さの指標である、制御強度に対する一大のアプローチに直面する。 これらの課題に対処するため,一様サロゲートを用いた新しい一様トレーニング手法とエントロピー対応型モーダル適応変調を導入し,柔軟でスケーラブルでスケーラブルなマルチモーダル条件付き顔合成ネットワークを実現する。 一様データのみを利用した一様サロゲートを用いた一様トレーニングでは,モーダル・サロゲートを用いて条件をデコレートし,モーダル間協調のリンカーとして機能し,顔合成プロセスにおける各モダリティ制御とモーダル間協調の完全学習を行う。 エントロピーアウェアモーダル適応変調は、モーダル特有の特性と与えられた条件に応じて拡散ノイズを微調整し、消音軌道に沿ってよく変形し、最終的に高い忠実性と品質の合成結果に繋がる。 提案手法は,様々な条件下でのマルチモーダル顔合成を改良し,画像品質と忠実度における現在の手法を上回っている。

Recent progress in multi-modal conditioned face synthesis has enabled the creation of visually striking and accurately aligned facial images. Yet, current methods still face issues with scalability, limited flexibility, and a one-size-fits-all approach to control strength, not accounting for the differing levels of conditional entropy, a measure of unpredictability in data given some condition, across modalities. To address these challenges, we introduce a novel uni-modal training approach with modal surrogates, coupled with an entropy-aware modal-adaptive modulation, to support flexible, scalable, and scalable multi-modal conditioned face synthesis network. Our uni-modal training with modal surrogate that only leverage uni-modal data, use modal surrogate to decorate condition with modal-specific characteristic and serve as linker for inter-modal collaboration , fully learns each modality control in face synthesis process as well as inter-modal collaboration. The entropy-aware modal-adaptive modulation finely adjust diffusion noise according to modal-specific characteristics and given conditions, enabling well-informed step along denoising trajectory and ultimately leading to synthesis results of high fidelity and quality. Our framework improves multi-modal face synthesis under various conditions, surpassing current methods in image quality and fidelity, as demonstrated by our thorough experimental results.
翻訳日:2023-12-29 20:19:31 公開日:2023-12-26
# SSRエンコーダ:主観駆動生成のための選択主観表現の符号化

SSR-Encoder: Encoding Selective Subject Representation for Subject-Driven Generation ( http://arxiv.org/abs/2312.16272v1 )

ライセンス: Link先を確認
Yuxuan Zhang, Jiaming Liu, Yiren Song, Rui Wang, Hao Tang, Jinpeng Yu, Huaxia Li, Xu Tang, Yao Hu, Han Pan, Zhongliang Jing(参考訳) 被写体駆動画像生成の最近の進歩はゼロショット生成につながっているが、正確な選択と重要な被写体表現への焦点は依然として難しい。 そこで本稿では,ssr-encoderについて紹介する。ssr-encoderは単一または複数の参照画像から任意の被写体を選択的にキャプチャする,新しいアーキテクチャである。 テスト時の微調整を必要とせずに、テキストやマスクなどさまざまなクエリモードに応答する。 SSR-Encoderは、クエリ入力をイメージパッチと整列するToken-to-Patch Alignerと、被写体の細かい特徴を抽出して保存するDetail-Preserving Subject Encoderとを組み合わせて、被写体埋め込みを生成する。 これらの埋め込みは、元のテキスト埋め込みと組み合わせて使われ、生成プロセスを条件付ける。 SSRエンコーダはモデルの一般化性と効率によって特徴付けられ、様々なカスタムモデルや制御モジュールに対応している。 トレーニング改善のための埋め込み一貫性規則化損失により強化され,多目的かつ高品質な画像生成におけるその有効性を示す広範な実験を行った。 プロジェクトページ: https://ssr-encoder.github.io

Recent advancements in subject-driven image generation have led to zero-shot generation, yet precise selection and focus on crucial subject representations remain challenging. Addressing this, we introduce the SSR-Encoder, a novel architecture designed for selectively capturing any subject from single or multiple reference images. It responds to various query modalities including text and masks, without necessitating test-time fine-tuning. The SSR-Encoder combines a Token-to-Patch Aligner that aligns query inputs with image patches and a Detail-Preserving Subject Encoder for extracting and preserving fine features of the subjects, thereby generating subject embeddings. These embeddings, used in conjunction with original text embeddings, condition the generation process. Characterized by its model generalizability and efficiency, the SSR-Encoder adapts to a range of custom models and control modules. Enhanced by the Embedding Consistency Regularization Loss for improved training, our extensive experiments demonstrate its effectiveness in versatile and high-quality image generation, indicating its broad applicability. Project page: https://ssr-encoder.github.io
翻訳日:2023-12-29 20:19:04 公開日:2023-12-26
# 直交平面交絡と多視点幾何整合知覚による360レイアウト推定

360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception ( http://arxiv.org/abs/2312.16268v1 )

ライセンス: Link先を確認
Zhijie Shen, Chunyu Lin, Junsong Zhang, Lang Nie, Kang Liao, Yao Zhao(参考訳) 既存のパノラマ配置推定ソリューションは、垂直に圧縮されたシーケンスから部屋の境界を復元する傾向があり、圧縮過程が様々な平面間のセマンティクスを混乱させるため、不正確な結果をもたらす。 さらに、これらのデータ駆動アプローチは、労力と時間を要する膨大なデータアノテーションを緊急に要求します。 まず,不明瞭な意味論を識別するための直交平面不等角化ネットワーク(dopnet)を提案する。 DOPNetは、歪みのないセマンティックスクリーンな表現を提供するために統合された3つのモジュールで構成される。 第2の問題として,地平線深度と比表現に適した教師なし適応手法を提案する。 具体的には,複数視点にまたがる幾何的整合性を完全に活用するために,決定レベルレイアウト解析のための最適化戦略と特徴レベル多視点集約のための1次元コストボリューム構築手法を導入する。 オプティマイザはネットワークトレーニングのための信頼性の高い疑似ラベルを提供し、一方1dコストボリュームは、他の視点から得られた包括的なシーン情報で各ビューを豊かにする。 広範な実験により,単眼的レイアウト推定タスクと多視点レイアウト推定タスクの両方において,我々の解が他のsotaモデルよりも優れていることが証明された。

Existing panoramic layout estimation solutions tend to recover room boundaries from a vertically compressed sequence, yielding imprecise results as the compression process often muddles the semantics between various planes. Besides, these data-driven approaches impose an urgent demand for massive data annotations, which are laborious and time-consuming. For the first problem, we propose an orthogonal plane disentanglement network (termed DOPNet) to distinguish ambiguous semantics. DOPNet consists of three modules that are integrated to deliver distortion-free, semantics-clean, and detail-sharp disentangled representations, which benefit the subsequent layout recovery. For the second problem, we present an unsupervised adaptation technique tailored for horizon-depth and ratio representations. Concretely, we introduce an optimization strategy for decision-level layout analysis and a 1D cost volume construction method for feature-level multi-view aggregation, both of which are designed to fully exploit the geometric consistency across multiple perspectives. The optimizer provides a reliable set of pseudo-labels for network training, while the 1D cost volume enriches each view with comprehensive scene information derived from other perspectives. Extensive experiments demonstrate that our solution outperforms other SoTA models on both monocular layout estimation and multi-view layout estimation tasks.
翻訳日:2023-12-29 20:18:40 公開日:2023-12-26
# オンラインシステムにおける政策割り当ての成功確率の最大化

Maximizing the Success Probability of Policy Allocations in Online Systems ( http://arxiv.org/abs/2312.16267v1 )

ライセンス: Link先を確認
Artem Betlei, Mariia Vladimirova, Mehdi Sebbar, Nicolas Urien, Thibaud Rahier, Benjamin Heymann(参考訳) eコマースにおける広告の効果は、主に販売業者がターゲットユーザーのインプレッションを入札し、勝ち取る能力に依存している。 入札手続きは、市場競争、ユーザー行動、広告主の多様な目的など様々な要因により、非常に複雑である。 本稿では,個々の入札要求ではなく,ユーザのタイムラインのレベルでの問題を検討し,入札価格ではなく,完全なポリシー(事前定義された入札戦略)を操作する。 ユーザのポリシーを最適にアロケートするために、典型的な多重処理のアロケート手法は、制約下で期待値の最大化を目的としたナップサックのような問題を解決する。 オンライン広告のような産業的な文脈では、成功の可能性に対する最適化は、期待値の最大化よりも適した目標であり、我々は、固定参照ポリシーを上回る可能性のあるポリシー割り当てを見つけることを目的としたsuccessprobamaxアルゴリズムを導入する。 最後に,合成データと実世界のデータを用いて総合的な実験を行い,その性能を評価する。 その結果,提案アルゴリズムは従来の期待値最大化アルゴリズムよりも成功率が高いことがわかった。

The effectiveness of advertising in e-commerce largely depends on the ability of merchants to bid on and win impressions for their targeted users. The bidding procedure is highly complex due to various factors such as market competition, user behavior, and the diverse objectives of advertisers. In this paper we consider the problem at the level of user timelines instead of individual bid requests, manipulating full policies (i.e. pre-defined bidding strategies) and not bid values. In order to optimally allocate policies to users, typical multiple treatments allocation methods solve knapsack-like problems which aim at maximizing an expected value under constraints. In the industrial contexts such as online advertising, we argue that optimizing for the probability of success is a more suited objective than expected value maximization, and we introduce the SuccessProbaMax algorithm that aims at finding the policy allocation which is the most likely to outperform a fixed reference policy. Finally, we conduct comprehensive experiments both on synthetic and real-world data to evaluate its performance. The results demonstrate that our proposed algorithm outperforms conventional expected-value maximization algorithms in terms of success rate.
翻訳日:2023-12-29 20:18:16 公開日:2023-12-26
# SPnet: 単一画像からガーメントシードパターンを推定する

SPnet: Estimating Garment Sewing Patterns from a Single Image ( http://arxiv.org/abs/2312.16264v1 )

ライセンス: Link先を確認
Seungchan Lim, Sumin Kim, Sung-Hee Lee(参考訳) 本稿では,提案したユーザの単一画像から3次元衣料モデルを再構築する手法を提案する。 従来は、入力された衣服のイメージに合うように、衣服のジオメトリーを正確に再構築することに集中していた。 この制限を克服するため,本手法では,3D衣服を直接再構築するのではなく,1枚の画像から縫製パターンを通して衣服の基本形状を推定する。 我々の方法は2つの段階からなる。 第一に、ポーズされたユーザの単一の画像が与えられた場合、服の基幹形態を表すT目的の衣服画像を予測する。 そして、T目的の衣服画像に基づいて、縫製パターンパラメータを推定する。 物理シミュレーションを用いて縫製パターンの縫製・引抜きをシミュレーションすることにより,任意のポーズに適応的に変形可能な3D衣服を作成できる。 本手法の有効性は,主な成分に関するアブレーション研究と他の手法との比較により検証した。

This paper presents a novel method for reconstructing 3D garment models from a single image of a posed user. Previous studies that have primarily focused on accurately reconstructing garment geometries to match the input garment image may often result in unnatural-looking garments when deformed for new poses. To overcome this limitation, our approach takes a different approach by inferring the fundamental shape of the garment through sewing patterns from a single image, rather than directly reconstructing 3D garments. Our method consists of two stages. Firstly, given a single image of a posed user, it predicts the garment image worn on a T-pose, representing the baseline form of the garment. Then, it estimates the sewing pattern parameters based on the T-pose garment image. By simulating the stitching and draping of the sewing pattern using physics simulation, we can generate 3D garments that can adaptively deform to arbitrary poses. The effectiveness of our method is validated through ablation studies on the major components and a comparison with other approaches.
翻訳日:2023-12-29 20:17:58 公開日:2023-12-26
# バンドル生成のための近傍からの動的インコンテキスト学習

Dynamic In-Context Learning from Nearest Neighbors for Bundle Generation ( http://arxiv.org/abs/2312.16262v1 )

ライセンス: Link先を確認
Zhu Sun, Kaidong Feng, Jie Yang, Xinghua Qu, Hui Fang, Yew-Soon Ong, Wenyuan Liu(参考訳) 商品のバンドルは、eコマースにおける重要なマーケティング戦略へと進化した。 しかし、現状の研究は(1)固定サイズまたは単一バンドルの生成に限られており、特に、(2)一貫したユーザ意図を反映しないバンドルは、ユーザにとって理解しにくい、あるいは有用ではない。 本稿では,2つの相互関連タスク,すなわちパーソナライズされたバンドル生成と,大規模言語モデルの論理的推論機能を活用したセッションにおけるユーザのインタラクションに基づく意図推論について検討する。 そこで本研究では,ChatGPTが目標セッションでタスクを実行しながら,より密接なセッションから適切な動的レッスンを提示する動的インコンテキスト学習パラダイムを提案する。 具体的には、まず検索拡張生成を利用して、ターゲットセッション毎に最も近い隣のセッションを特定する。 次に、適切なプロンプトはChatGPTをガイドして隣のセッションで2つのタスクを実行するように設計されている。 幻覚の問題を緩和し信頼性を高めるため,(1) 監督信号なしでタスク間の相互改善を促進する自己補正戦略,(2) 近隣の様々なセッションにおいてChatGPTが犯した異なる誤りに基づいて動的監視を繰り返す自動フィードバック機構を開発する。 これにより、ターゲットセッションは、隣のセッションのデモを観察してパフォーマンスを改善するためのカスタマイズされた動的レッスンを受けることができる。 最後に,実世界の3つのデータセットによる実験結果から,本手法の有効性を検証した。 さらに、推論された意図は、魅力的なバンドル名を作成するなど、他の下流タスクにとって有益である。

Product bundling has evolved into a crucial marketing strategy in e-commerce. However, current studies are limited to generating (1) fixed-size or single bundles, and most importantly, (2) bundles that do not reflect consistent user intents, thus being less intelligible or useful to users. This paper explores two interrelated tasks, i.e., personalized bundle generation and the underlying intent inference based on users' interactions in a session, leveraging the logical reasoning capability of large language models. We introduce a dynamic in-context learning paradigm, which enables ChatGPT to seek tailored and dynamic lessons from closely related sessions as demonstrations while performing tasks in the target session. Specifically, it first harnesses retrieval augmented generation to identify nearest neighbor sessions for each target session. Then, proper prompts are designed to guide ChatGPT to perform the two tasks on neighbor sessions. To enhance reliability and mitigate the hallucination issue, we develop (1) a self-correction strategy to foster mutual improvement in both tasks without supervision signals; and (2) an auto-feedback mechanism to recurrently offer dynamic supervision based on the distinct mistakes made by ChatGPT on various neighbor sessions. Thus, the target session can receive customized and dynamic lessons for improved performance by observing the demonstrations of its neighbor sessions. Finally, experimental results on three real-world datasets verify the effectiveness of our methods on both tasks. Additionally, the inferred intents can prove beneficial for other intriguing downstream tasks, such as crafting appealing bundle names.
翻訳日:2023-12-29 20:17:39 公開日:2023-12-26
# Adapter Distillation:知識蒸留による非破壊的タスク構成

AdapterDistillation: Non-Destructive Task Composition with Knowledge Distillation ( http://arxiv.org/abs/2312.16261v1 )

ライセンス: Link先を確認
Junjie Wang, Yicheng Chen, Wangshu Zhang, Sen Hu, Teng Xu, Jing Zheng(参考訳) アダプタとしても知られる各トランスフォーマー層に少数のタスク固有のパラメータを導入することで、複数のタスクから知識を活用できるようになった。 しかし、知識合成を実装するために追加の融合層を追加することは、推論時間を増加させるだけでなく、一部のアプリケーションではスケールできない。 これらの問題を回避するため,AdapterDistillationと呼ばれる2段階の知識蒸留アルゴリズムを提案する。 第1段階では,ローカルデータを用いて学生アダプタのトレーニングを行い,タスク固有の知識を抽出する。 第2段階では,既存の教員アダプタからの知識を学生アダプタに絞り込み,その推論を支援します。 タスク指向ダイアログシステムにおける頻繁な質問検索に関する広範囲な実験は、AdapterDistillationの有効性を検証する。 本稿では,AdapterDistillationが既存のアルゴリズムよりも精度,資源消費,推論時間で優れていることを示す。

Leveraging knowledge from multiple tasks through introducing a small number of task specific parameters into each transformer layer, also known as adapters, receives much attention recently. However, adding an extra fusion layer to implement knowledge composition not only increases the inference time but also is non-scalable for some applications. To avoid these issues, we propose a two-stage knowledge distillation algorithm called AdapterDistillation. In the first stage, we extract task specific knowledge by using local data to train a student adapter. In the second stage, we distill the knowledge from the existing teacher adapters into the student adapter to help its inference. Extensive experiments on frequently asked question retrieval in task-oriented dialog systems validate the efficiency of AdapterDistillation. We show that AdapterDistillation outperforms existing algorithms in terms of accuracy, resource consumption and inference time.
翻訳日:2023-12-29 20:17:15 公開日:2023-12-26
# 相関以上のもの: 大きな言語モデルは空間の因果表現を学ぶか?

More than Correlation: Do Large Language Models Learn Causal Representations of Space? ( http://arxiv.org/abs/2312.16257v1 )

ライセンス: Link先を確認
Yida Chen, Yixian Gan, Sijia Li, Li Yao, Xiaohan Zhao(参考訳) 近年の研究では、大規模言語モデル(llm)の学習表現と入力の空間的性質との間に高い相互情報があり、空間の創発的な内部モデルが示唆されている。 しかし、この内部空間モデルがLSMの挙動に因果的影響を及ぼすかどうかはその研究で答えられず、これらの発見を単なる統計的相関として批判した。 本研究では,LLMにおける空間表現の因果関係を明らかにすることに焦点を当てた。 特に,DeBERTa,GPT-Neoの空間表現について,表現類似性解析と線形および非線形探索を用いて検討した。 カジュアルな介入実験により、空間表現が次の単語予測におけるモデルの性能に影響を及ぼし、地理空間情報に依存する下流タスクが得られた。 実験の結果,LLMは空間の内的モデルを用いて空間空間に関連した課題を解くことが示唆された。

Recent work found high mutual information between the learned representations of large language models (LLMs) and the geospatial property of its input, hinting an emergent internal model of space. However, whether this internal space model has any causal effects on the LLMs' behaviors was not answered by that work, led to criticism of these findings as mere statistical correlation. Our study focused on uncovering the causality of the spatial representations in LLMs. In particular, we discovered the potential spatial representations in DeBERTa, GPT-Neo using representational similarity analysis and linear and non-linear probing. Our casual intervention experiments showed that the spatial representations influenced the model's performance on next word prediction and a downstream task that relies on geospatial information. Our experiments suggested that the LLMs learn and use an internal model of space in solving geospatial related tasks.
翻訳日:2023-12-29 20:17:04 公開日:2023-12-26
# DL3DV-10K:ディープラーニングに基づく3Dビジョンのための大規模シーンデータセット

DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision ( http://arxiv.org/abs/2312.16256v1 )

ライセンス: Link先を確認
Lu Ling, Yichen Sheng, Zhi Tu, Wentian Zhao, Cheng Xin, Kun Wan, Lantao Yu, Qianyu Guo, Zixun Yu, Yawen Lu, Xuanmao Li, Xingpeng Sun, Rohan Ashok, Aniruddha Mukherjee, Hao Kang, Xiangrui Kong, Gang Hua, Tianti Zhang, Bedrich Benes, Aniket Bera(参考訳) 我々は、ニューラルレイディアンス場(NeRF)に基づく3次元表現学習から、新しいビュー合成(NVS)への応用まで、ディープラーニングに基づく3次元視覚の進歩を目の当たりにしてきた。 しかし、ディープラーニングに基づく3Dビジョンのための既存のシーンレベルのデータセットは、合成環境か現実世界のシーンの限られた選択に限られており、非常に不十分である。 この不十分さは、既存の方法の包括的なベンチマークを妨げるだけでなく、深層学習に基づく3d分析で探せることの欠如を損なう。 この重要なギャップに対処するため、DL3DV-10Kは大規模なシーンデータセットで、65種類のPOI(point-of-interest)位置から撮影された10,510の動画から51.2万フレームを特徴としている。 我々は, DL3DV-10Kにおける最近のNVS手法の総合的なベンチマークを行い, 今後のNVS研究に有用な知見を明らかにした。 さらに, DL3DV-10Kから一般化可能なNeRFを学習するためのパイロット実験の結果を得た。 私たちのDL3DV-10Kデータセット、ベンチマーク結果、モデルはhttps://dl3dv-10k.github.io/DL3DV-10K/で公開されます。

We have witnessed significant progress in deep learning-based 3D vision, ranging from neural radiance field (NeRF) based 3D representation learning to applications in novel view synthesis (NVS). However, existing scene-level datasets for deep learning-based 3D vision, limited to either synthetic environments or a narrow selection of real-world scenes, are quite insufficient. This insufficiency not only hinders a comprehensive benchmark of existing methods but also caps what could be explored in deep learning-based 3D analysis. To address this critical gap, we present DL3DV-10K, a large-scale scene dataset, featuring 51.2 million frames from 10,510 videos captured from 65 types of point-of-interest (POI) locations, covering both bounded and unbounded scenes, with different levels of reflection, transparency, and lighting. We conducted a comprehensive benchmark of recent NVS methods on DL3DV-10K, which revealed valuable insights for future research in NVS. In addition, we have obtained encouraging results in a pilot study to learn generalizable NeRF from DL3DV-10K, which manifests the necessity of a large-scale scene-level dataset to forge a path toward a foundation model for learning 3D representation. Our DL3DV-10K dataset, benchmark results, and models will be publicly accessible at https://dl3dv-10k.github.io/DL3DV-10K/.
翻訳日:2023-12-29 20:16:48 公開日:2023-12-26
# 例から時間式を学ぶことは難しい

Learning temporal formulas from examples is hard ( http://arxiv.org/abs/2312.16336v1 )

ライセンス: Link先を確認
Corto Mascle, Nathana\"el Fijalkow, Guillaume Lagarde(参考訳) 線形時間論理式(LTL)の学習問題を,人間にとって理解しやすい方法で,正と負のインスタンスを分離する性質を表現するための第一歩として,例から考察する。 本稿では,問題の計算複雑性の研究を開始する。 ltl学習問題は、全論理とほぼすべてのフラグメントの両方において、np完全であることを示している。 これは効率的なヒューリスティックの探索を動機付け、簡潔な自然言語でプロパティを分離する複雑さを強調している。

We study the problem of learning linear temporal logic (LTL) formulas from examples, as a first step towards expressing a property separating positive and negative instances in a way that is comprehensible for humans. In this paper we initiate the study of the computational complexity of the problem. Our main results are hardness results: we show that the LTL learning problem is NP-complete, both for the full logic and for almost all of its fragments. This motivates the search for efficient heuristics, and highlights the complexity of expressing separating properties in concise natural language.
翻訳日:2023-12-29 20:06:04 公開日:2023-12-26
# LeanVec: ベクタを適合させることで,ベクタの検索を高速化する

LeanVec: Search your vectors faster by making them fit ( http://arxiv.org/abs/2312.16335v1 )

ライセンス: Link先を確認
Mariano Tepper, Ishwar Singh Bhati, Cecilia Aguerrebere, Mark Hildebrand, Ted Willke(参考訳) 現代のディープラーニングモデルは、セマンティックな類似性を反映した高次元ベクトルを生成する能力を持つ。 したがって、類似性探索、すなわち与えられたクエリに類似した大規模なコレクションでそれらのベクトルを検索する操作は、高度に正確でタイムリーな答えを必要とする幅広いアプリケーションにとって重要な要素となっている。 この設定では、高ベクトル次元は類似性探索システムを計算とメモリ圧力下に置き、性能を低下させる。 さらに、クロスモーダル検索タスクは、例えばユーザーがテキストクエリを入力してそのクエリの最も関連性の高い画像を見つけるなど、ますます一般的になっている。 しかし、これらのクエリはデータベース埋め込みとは異なる分布を持つことが多いため、高い精度を達成するのは難しい。 本稿では,高次元ベクトルの類似性探索を高速化し,精度を維持しつつ,線形次元減少とベクトル量子化を組み合わせたフレームワークLeanVecを提案する。 本稿では,in-distribution (ID) およびout-of-distribution (OOD) クエリに対する LeanVec 変種について述べる。 leanvec-idは、計算オーバーヘッドが実際の使用を妨げている、最近導入されたディープラーニングの代替品と同等の精度を持つ。 LeanVec-OODは、クエリとデータベースの分布を考慮し、同時にフレームワークの精度とパフォーマンスを向上する(クエリとデータベースの分布が一致するときに競合する結果を示す)、次元削減のための新しいテクニックを使用している。 全体として、当社の広範囲にわたるさまざまな実験結果から、leanvecは最先端の成果を上げており、検索スループットが最大3.7倍向上し、最先端のインデクシングビルド時間が最大4.9倍向上していることが分かりました。

Modern deep learning models have the ability to generate high-dimensional vectors whose similarity reflects semantic resemblance. Thus, similarity search, i.e., the operation of retrieving those vectors in a large collection that are similar to a given query, has become a critical component of a wide range of applications that demand highly accurate and timely answers. In this setting, the high vector dimensionality puts similarity search systems under compute and memory pressure, leading to subpar performance. Additionally, cross-modal retrieval tasks have become increasingly common, e.g., where a user inputs a text query to find the most relevant images for that query. However, these queries often have different distributions than the database embeddings, making it challenging to achieve high accuracy. In this work, we present LeanVec, a framework that combines linear dimensionality reduction with vector quantization to accelerate similarity search on high-dimensional vectors while maintaining accuracy. We present LeanVec variants for in-distribution (ID) and out-of-distribution (OOD) queries. LeanVec-ID yields accuracies on par with those from recently introduced deep learning alternatives whose computational overhead precludes their usage in practice. LeanVec-OOD uses a novel technique for dimensionality reduction that considers the query and database distributions to simultaneously boost the accuracy and the performance of the framework even further (even presenting competitive results when the query and database distributions match). All in all, our extensive and varied experimental results show that LeanVec produces state-of-the-art results, with up to 3.7x improvement in search throughput and up to 4.9x faster index build time over the state of the art.
翻訳日:2023-12-29 20:05:48 公開日:2023-12-26
# TomFormer を用いたトマト葉疾患の早期・正確な検出

Early and Accurate Detection of Tomato Leaf Diseases Using TomFormer ( http://arxiv.org/abs/2312.16331v1 )

ライセンス: Link先を確認
Asim Khan, Umair Nawaz, Lochan Kshetrimayum, Lakmal Seneviratne, and Irfan Hussain(参考訳) トマトの葉病はトマト農家にとって大きな課題であり、結果として作物生産性が大幅に低下する。 トマト葉病の適時かつ正確な同定は,疾患管理戦略を成功させる上で重要である。 本稿では,トマト葉病検出のためのトランスフォーマーモデルであるtomformerについて紹介する。 まず,視覚トランスフォーマーと畳み込みニューラルネットワークを組み合わせた融合モデルを用いて,トマト葉病を検出する新しい手法を提案する。 第2に,提案手法をハローストレッチロボットに適用し,トマト葉病のリアルタイム診断を実現することを目的とする。 第3に、この手法をyolos、detr、vit、swainなどのモデルと比較し、最先端の結果を得る能力を示すことによって評価した。 実験では,UAEのアブダビの温室からKUTomaDATA, PlantDoc, PlanVillageの3種類のトマト葉病データセットを採取した。 最後に,本モデルの性能を包括的に分析し,本手法に固有の限界を徹底的に議論する。 TomFormerは,KUTomaDATA, PlantDoc, PlantVillageの各データセットで,平均精度(mAP)スコアが87%, 81%, 83%であった。 mAPによる比較結果から,本手法はロバスト性,精度,効率,スケーラビリティを示す。 さらに、新しいデータセットに容易に適応できる。 我々は, 収穫の損失を効果的に軽減し, 収穫量を増加させることで, トマト産業に大きな影響を与える可能性を秘めていると確信している。

Tomato leaf diseases pose a significant challenge for tomato farmers, resulting in substantial reductions in crop productivity. The timely and precise identification of tomato leaf diseases is crucial for successfully implementing disease management strategies. This paper introduces a transformer-based model called TomFormer for the purpose of tomato leaf disease detection. The paper's primary contributions include the following: Firstly, we present a novel approach for detecting tomato leaf diseases by employing a fusion model that combines a visual transformer and a convolutional neural network. Secondly, we aim to apply our proposed methodology to the Hello Stretch robot to achieve real-time diagnosis of tomato leaf diseases. Thirdly, we assessed our method by comparing it to models like YOLOS, DETR, ViT, and Swin, demonstrating its ability to achieve state-of-the-art outcomes. For the purpose of the experiment, we used three datasets of tomato leaf diseases, namely KUTomaDATA, PlantDoc, and PlanVillage, where KUTomaDATA is being collected from a greenhouse in Abu Dhabi, UAE. Finally, we present a comprehensive analysis of the performance of our model and thoroughly discuss the limitations inherent in our approach. TomFormer performed well on the KUTomaDATA, PlantDoc, and PlantVillage datasets, with mean average accuracy (mAP) scores of 87%, 81%, and 83%, respectively. The comparative results in terms of mAP demonstrate that our method exhibits robustness, accuracy, efficiency, and scalability. Furthermore, it can be readily adapted to new datasets. We are confident that our work holds the potential to significantly influence the tomato industry by effectively mitigating crop losses and enhancing crop yields.
翻訳日:2023-12-29 20:04:43 公開日:2023-12-26
# マルチパーティ計算のための量子セキュアプロトコル

Quantum Secure Protocols for Multiparty Computations ( http://arxiv.org/abs/2312.16318v1 )

ライセンス: Link先を確認
Tapaswini Mohanty, Vikas Srivastava, Sumit Kumar Debnath, Pantelimon Stanica(参考訳) セキュアなマルチパーティ計算(MPC)方式により、2つ以上のパーティがプライベートな入力セット上の関数を結合的に計算し、出力のみを露呈する。 既存の最先端の数値理論に基づく設計は、量子アルゴリズムによる攻撃の脅威に直面している。 この文脈では,量子攻撃に耐えうるセキュアなmpcプロトコルを提案する。 まず、量子領域における情報理論によるセキュアなオブリビング線形評価(OLE)、すなわち${\sf qOLE}$の設計と解析を行い、我々の${\sf qOLE}$が外部攻撃から安全であることを示す。 加えて、当社のスキームはセキュアなoleのセキュリティ要件をすべて満たしています。 さらに、${\sf qole}$をビルディングブロックとして利用し、量子セーフなマルチパーティ・プライベート・セット・コンクロス(mpsi)プロトコルを構築する。

Secure multiparty computation (MPC) schemes allow two or more parties to conjointly compute a function on their private input sets while revealing nothing but the output. Existing state-of-the-art number-theoretic-based designs face the threat of attacks through quantum algorithms. In this context, we present secure MPC protocols that can withstand quantum attacks. We first present the design and analysis of an information-theoretic secure oblivious linear evaluation (OLE), namely ${\sf qOLE}$ in the quantum domain, and show that our ${\sf qOLE}$ is safe from external attacks. In addition, our scheme satisfies all the security requirements of a secure OLE. We further utilize ${\sf qOLE}$ as a building block to construct a quantum-safe multiparty private set intersection (MPSI) protocol.
翻訳日:2023-12-29 20:03:38 公開日:2023-12-26
# 多様化によるOOD一般化の鍵となる要素の解明

Unraveling the Key Components of OOD Generalization via Diversification ( http://arxiv.org/abs/2312.16313v1 )

ライセンス: Link先を確認
Harold Benoit, Liangze Jiang, Andrei Atanov, O\u{g}uzhan Fatih Kar, Mattia Rigotti, Amir Zamir(参考訳) 実世界のデータセットには、トレーニングデータを同じように説明する複数の機能が含まれている可能性がある。 しかし、これらの多くは、分布シフトの下で予測力を失い、アウト・オブ・ディストリビューション(OOD)データへの一般化に失敗する。 最近開発された `diversification'' 法は、異なる特徴に依存する複数の多様な仮説を見つけることによってこの問題にアプローチする。 本研究の目的は,OODの一般化能力に寄与する重要な要素を同定することである。 1) 多様化手法は, 多様化に使用されるラベルなしデータの分布に非常に敏感であり, 方法特有の甘味点から離れた場合, 著しく低下する可能性がある。 2)OODの一般化には多様化だけでは不十分である。 使用済み学習アルゴリズム(例えば、モデルのアーキテクチャと事前学習)の選択は極めて重要であり、第2のベストの選択を使用することで、最大20%の精度の低下につながる。 3) 学習アルゴリズムの最適選択はラベルのないデータに依存するが, その逆もまた, 上記の落とし穴は, 多様化法の主要な特徴である多様な仮説の数を増やすことによって緩和できないことを示す。 これらの結果は,OODの多様化に影響を及ぼす設計要因の解明に寄与する。 既存の手法を最善に使う方法を実践者に指導し、研究者に新しいより良い方法の開発を指導することができる。

Real-world datasets may contain multiple features that explain the training data equally well, i.e., learning any of them would lead to correct predictions on the training data. However, many of them can be spurious, i.e., lose their predictive power under a distribution shift and fail to generalize to out-of-distribution (OOD) data. Recently developed ``diversification'' methods approach this problem by finding multiple diverse hypotheses that rely on different features. This paper aims to study this class of methods and identify the key components contributing to their OOD generalization abilities. We show that (1) diversification methods are highly sensitive to the distribution of the unlabeled data used for diversification and can underperform significantly when away from a method-specific sweet spot. (2) Diversification alone is insufficient for OOD generalization. The choice of the used learning algorithm, e.g., the model's architecture and pretraining, is crucial, and using the second-best choice leads to an up to 20% absolute drop in accuracy.(3) The optimal choice of learning algorithm depends on the unlabeled data, and vice versa.Finally, we show that the above pitfalls cannot be alleviated by increasing the number of diverse hypotheses, allegedly the major feature of diversification methods. These findings provide a clearer understanding of the critical design factors influencing the OOD generalization of diversification methods. They can guide practitioners in how to use the existing methods best and guide researchers in developing new, better ones.
翻訳日:2023-12-29 20:03:24 公開日:2023-12-26
# n-queens問題の量子解法

A Quantum Approach to solve N-Queens Problem ( http://arxiv.org/abs/2312.16312v1 )

ライセンス: Link先を確認
Santhosh G S, Piyush Joshi, Ayan Barui and Prasanta K. Panigrahi(参考訳) 本研究では,N-Queens問題を解決するために,N-Queens問題に対して,N-Queens問題に対して,N-QueensをN-times N$チェスボードに配置するダイレクトカラムアルゴリズムとQuantum Backtracking Algorithmという2つの革新的な量子アルゴリズムを導入した。 これらのアルゴリズムはこのNP-Complete計算問題に効率的に対処するために制御W状態と動的回路を利用する。 ダイレクトカラムアルゴリズムは探索空間を戦略的に減らし、問題のサイズが大きくなるにつれて指数回路の複雑さが増大しても解法プロセスを単純化する一方、量子バックトラックアルゴリズムは古典的なバックトラッキング技術を量子フレームワーク内でエミュレートし、衛星通信やルーティング、VLSIテストといった複雑な問題を解くことができる。

In this work, we have introduced two innovative quantum algorithms: the Direct Column Algorithm and the Quantum Backtracking Algorithm to solve N-Queens problem, which involves the arrangement of $N$ queens on an $N \times N$ chessboard such that they are not under attack from each other on the same row, column and diagonal. These algorithms utilizes Controlled W-states and dynamic circuits, to efficiently address this NP-Complete computational problem. The Direct Column Algorithm strategically reduces the search space, simplifying the solution process, even with exponential circuit complexity as the problem size grows, while Quantum Backtracking Algorithm emulates classical backtracking techniques within a quantum framework which allows the possibility of solving complex problems like satellite communication, routing and VLSI testing.
翻訳日:2023-12-29 20:03:01 公開日:2023-12-26
# 多言語オートマトン・スプラヒゲネリェール語に就て : Vom Korpus \"uber word embeddeds bis hin zum Automaticischen W\"orterbuch

Zur Darstellung eines mehrstufigen Prototypbegriffs in der multilingualen automatischen Sprachgenerierung: vom Korpus \"uber word embeddings bis hin zum automatischen W\"orterbuch ( http://arxiv.org/abs/2312.16311v1 )

ライセンス: Link先を確認
Mar\'ia Jos\'e Dom\'inguez V\'azquez(参考訳) 名詞のヴァレンシー・ポートレックスの多言語辞書は、自動言語生成器xeraとコンビネータの作成のきっかけであると考えられており、その開発と使用は本論文で提示されている。 両プロトタイプは、辞書の例や将来の自律型E-Learning-Toolsの統合コンポーネントとして使用可能な、単項と二項の価数スロットを持つ名詞句の自動生成に使用されている。 ユーザインタラクションを含む新しい種類の自動価辞書のサンプルとして、現在知られている言語生成器について考察する。 言語生成器の開発のための特定の方法論的手順において、名詞スロットの構文論的記述は、シンタガマ的およびパラダイム的観点からの主要な焦点であることが判明した。 表現性、文法的正しさ、意味的コヒーレンス、頻度、語彙的候補の多様性などの要因に加えて、両方のリソースの固定されたコンポーネントであるセマンティッククラスや引数構造とともに、多面的プロトタイプの概念が際立っている。 このプロトタイプの概念と単語埋め込みの併用により、自動自然言語処理と生成(NLPとNLG)の分野からの技法が組み合わさって、自動生成された多言語価辞書の新たな開発方法が開かれる。 あらゆることを考えると、この論文は、開発の観点から、またユーザの視点から、言語ジェネレータを描写している。 リソース開発におけるプロトタイプの概念の役割に焦点が当てられている。

The multilingual dictionary of noun valency Portlex is considered to be the trigger for the creation of the automatic language generators Xera and Combinatoria, whose development and use is presented in this paper. Both prototypes are used for the automatic generation of nominal phrases with their mono- and bi-argumental valence slots, which could be used, among others, as dictionary examples or as integrated components of future autonomous E-Learning-Tools. As samples for new types of automatic valency dictionaries including user interaction, we consider the language generators as we know them today. In the specific methodological procedure for the development of the language generators, the syntactic-semantic description of the noun slots turns out to be the main focus from a syntagmatic and paradigmatic point of view. Along with factors such as representativeness, grammatical correctness, semantic coherence, frequency and the variety of lexical candidates, as well as semantic classes and argument structures, which are fixed components of both resources, a concept of a multi-sided prototype stands out. The combined application of this prototype concept as well as of word embeddings together with techniques from the field of automatic natural language processing and generation (NLP and NLG) opens up a new way for the future development of automatically generated plurilingual valency dictionaries. All things considered, the paper depicts the language generators both from the point of view of their development as well as from that of the users. The focus lies on the role of the prototype concept within the development of the resources.
翻訳日:2023-12-29 20:02:45 公開日:2023-12-26
# ヘラミエンタス・デジタルの多言語化に関する考察

Contribuci\'on de la sem\'antica combinatoria al desarrollo de herramientas digitales multiling\"ues ( http://arxiv.org/abs/2312.16309v1 )

ライセンス: Link先を確認
Mar\'ia Jos\'e Dom\'inguez V\'azquez(参考訳) 本稿では,スペイン語,フランス語,ドイツ語(Xera, Combinatoria,CombiContext)の名詞句における引数パターンの自動生成のための3つのプロトタイプの設計に,コンビニアル・セマンティックスの分野が貢献したかを説明する。 これはまた、外国語の文脈における生産状況における弁論構文論的インターフェースを知ることの重要性も示している。 資源の設計、類型、情報レベルに関する記述的なセクションの後、組合せ的意味(ルールと存在論的特徴)の中心的な役割の説明に従う。 この研究は、レキシコンの選択、組織化、拡張に適用される異なる意味 f ilter を扱い、これらは文法的に正しい、意味的に許容される単項および二項名句を生成するための重要な要素である。

This paper describes how the field of Combinatorial Semantics has contributed to the design of three prototypes for the automatic generation of argument patterns in nominal phrases in Spanish, French and German (Xera, Combinatoria and CombiContext). It also shows the importance of knowing about the argument syntactic-semantic interface in a production situation in the context of foreign languages. After a descriptive section on the design, typologie and information levels of the resources, there follows an explanation of the central role of the combinatorial meaning (roles and ontological features). The study deals with different semantic f ilters applied in the selection, organization and expansion of the lexicon, being these key pieces for the generation of grammatically correct and semantically acceptable mono- and biargumental nominal phrases.
翻訳日:2023-12-29 20:02:16 公開日:2023-12-26
# インセンティブアウェア合成制御:インセンティブ探索による正確な偽物推定

Incentive-Aware Synthetic Control: Accurate Counterfactual Estimation via Incentivized Exploration ( http://arxiv.org/abs/2312.16307v1 )

ライセンス: Link先を確認
Daniel Ngo, Keegan Harris, Anish Agarwal, Vasilis Syrgkanis, Zhiwei Steven Wu(参考訳) 我々は、異なる介入の下で、時間とともに単位の測定を観察するパネルデータ設定について検討する。 我々は,すべてのユニットが制御されている介入前の期間を経た後に,介入後全期間にわたって管理下にあったドナーユニットのデータを用いて,介入後期間におけるテストユニットの非事実的成果を推定する合成制御方法(scms)の正準ファミリーに着目した。 テストユニットの合成制御によって生成された反事実推定が正確になるためには、ドナーユニットの結果とテストユニットの結果との間に十分な重なりがある必要がある。 その結果、SCMの文献における標準的な仮定は、試験単位の結果がドナー単位の結果の凸殻または線形スパン内にあるということである。 しかし、そのような重複した仮定は、例えば、単位が自身の介入を選択し、単位の異なるサブ集団が異なる介入を優先する場合のように、常に成り立つとは限らない。 我々は、通常見過ごされている仮定に光を当て、通常考慮しない介入を取るために異なる好みのユニットにインセンティブを与えることでこの問題に対処した。 具体的には、情報設計やオンライン学習のツールを活用して、インセンティブに相応しい介入勧告をユニットに提供するパネルデータ設定における探索のインセンティブ化のためのSCMを提供する。 提案手法を用いて,単位結果の重なりを明示することなく,scmを用いて妥当な反事実推定を得る方法を示す。

We consider a panel data setting in which one observes measurements of units over time, under different interventions. Our focus is on the canonical family of synthetic control methods (SCMs) which, after a pre-intervention time period when all units are under control, estimate counterfactual outcomes for test units in the post-intervention time period under control by using data from donor units who have remained under control for the entire post-intervention period. In order for the counterfactual estimate produced by synthetic control for a test unit to be accurate, there must be sufficient overlap between the outcomes of the donor units and the outcomes of the test unit. As a result, a canonical assumption in the literature on SCMs is that the outcomes for the test units lie within either the convex hull or the linear span of the outcomes for the donor units. However despite their ubiquity, such overlap assumptions may not always hold, as is the case when, e.g., units select their own interventions and different subpopulations of units prefer different interventions a priori. We shed light on this typically overlooked assumption, and we address this issue by incentivizing units with different preferences to take interventions they would not normally consider. Specifically, we provide a SCM for incentivizing exploration in panel data settings which provides incentive-compatible intervention recommendations to units by leveraging tools from information design and online learning. Using our algorithm, we show how to obtain valid counterfactual estimates using SCMs without the need for an explicit overlap assumption on the unit outcomes.
翻訳日:2023-12-29 20:02:01 公開日:2023-12-26
# 量子誤差補正 i:非可換クライン空間からの量子ビット

Celestial Quantum Error Correction I: Qubits from Noncommutative Klein Space ( http://arxiv.org/abs/2312.16298v1 )

ライセンス: Link先を確認
Alfredo Guevara and Yangrui Hu(参考訳) 4次元漸近的に平坦な時空における量子重力は、赤外線の発散と密接に結びついている柔らかい放射線毛による自発的対称性の破れを特徴とする。 2次元CFTによるホログラム記述は、そのような冗長性は期待できない。 この2つの論文では、天体cft(ccft)における量子誤差補正の研究を開始することでこの問題に対処している。 パート I では、Kleinian hyperk\"ahler spacetimes において非可換幾何学を再考することにより、有限自由度を持つおもちゃモデルを構築する。 このモデルは、ラジアル方向で再正規化し、等尺埋め込み \`a la Gottesman-Kitaev-Preskill を持つウィック代数に従う。 符号部分空間はソフト時空変動下で頑健な2量子安定化状態からなる。 ハイパーケーラー空間の対称性は離散化され、量子計算に精通したクリフォード群へと変換される。 その後、この構造はツイスター空間の入射関係に埋め込まれ、今後の研究でCCFT体制に対処する道を開く。

Quantum gravity in 4D asymptotically flat spacetimes features spontaneous symmetry breaking due to soft radiation hair, intimately tied to the proliferation of IR divergences. A holographic description via a putative 2D CFT is expected free of such redundancies. In this series of two papers, we address this issue by initiating the study of Quantum Error Correction in Celestial CFT (CCFT). In Part I we construct a toy model with finite degrees of freedom by revisiting noncommutative geometry in Kleinian hyperk\"ahler spacetimes. The model obeys a Wick algebra that renormalizes in the radial direction and admits an isometric embedding \`a la Gottesman-Kitaev-Preskill. The code subspace is composed of 2-qubit stabilizer states which are robust under soft spacetime fluctuations. Symmetries of the hyperk\"ahler space become discrete and translate into the Clifford group familiar from quantum computation. The construction is then embedded into the incidence relation of twistor space, paving the way for the CCFT regime addressed in upcoming work.
翻訳日:2023-12-29 20:01:30 公開日:2023-12-26
# 場理論における量子揺らぎの有効動力学:宇宙論への応用

Effective dynamics of quantum fluctuations in field theory: with applications to cosmology ( http://arxiv.org/abs/2312.16295v1 )

ライセンス: Link先を確認
Ding Ding, Zhao Yu, Yidun Wan(参考訳) 我々は、宇宙論的な応用に焦点をあてて、場の理論における量子ゆらぎを記述する新しい枠組みを開発する。 この手法は演算子/ヒルベルト空間形式の使用を一意に回避し、代わりに古典変数、量子ゆらぎ、実効ハミルトニアンを体系的に扱う。 我々のフレームワークは平坦な時空とデ・ジッター時空の標準形式と一致し、これはバックリアクションを前提とせず、$\varphi^3$-モデルを通して証明される。 不確実性原理と空間対称性は初期条件の選択と有効ポテンシャルの理解に重要な道具として現れる。 ハッブル地平線 \emph{do not} 内のモードは、一般的に仮定されるように、必ず最初のミンコフスキー真空を感じる。 我々の発見は、初期の宇宙の量子ゆらぎと、大規模CMB異常に対する潜在的な説明に新たな洞察を与える。

We develop a novel framework for describing quantum fluctuations in field theory, with a focus on cosmological applications. Our method uniquely circumvents the use of operator/Hilbert-space formalism, instead relying on a systematic treatment of classical variables, quantum fluctuations, and an effective Hamiltonian. Our framework not only aligns with standard formalisms in flat and de Sitter spacetimes, which assumes no backreaction, demonstrated through the $\varphi^3$-model, but also adeptly handles time-dependent backreaction in more general cases. The uncertainty principle and spatial symmetry emerge as critical tools for selecting initial conditions and understanding effective potentials. We discover that modes inside the Hubble horizon \emph{do not} necessarily feel an initial Minkowski vacuum, as is commonly assumed. Our findings offer fresh insights into the early universe's quantum fluctuations and potential explanations to large-scale CMB anomalies.
翻訳日:2023-12-29 20:01:12 公開日:2023-12-26
# 重クォーク熱化のための加速量子回路モンテカルロシミュレーション

Accelerated quantum circuit Monte-Carlo simulation for heavy quark thermalization ( http://arxiv.org/abs/2312.16294v1 )

ライセンス: Link先を確認
Xiaojian Du, Wenyang Qian(参考訳) クォークグルーオンプラズマ(QGP)における重クォークの熱化は、強い相互作用を理解する上で最も有望な現象の1つである。 低運動量でのエネルギー損失と運動量拡大は、ドラッグと拡散項を持つ確率過程によってよく説明できる。 量子コンピューティングの最近の進歩、特に量子振幅推定(QAE)は、確率過程をシミュレートする2次的なスピードアップを提供することを約束している。 我々は、重いクォークの熱化をシミュレートする加速量子回路モンテカルロ(aqcmc)フレームワークを導入し、定式化する。 アインシュタインの関係で結合された簡易なドラッグと拡散係数を用いて、等方性および異方性媒質中の重いクォークの熱化を理想的な量子シミュレータを用いてシミュレーションし、熱的期待値と比較する。

Thermalization of heavy quarks in the quark-gluon plasma (QGP) is one of the most promising phenomena for understanding the strong interaction. The energy loss and momentum broadening at low momentum can be well described by a stochastic process with drag and diffusion terms. Recent advances in quantum computing, in particular quantum amplitude estimation (QAE), promise to provide a quadratic speed-up in simulating stochastic processes. We introduce and formalize an accelerated quantum circuit Monte-Carlo (aQCMC) framework to simulate heavy quark thermalization. With simplified drag and diffusion coefficients connected by Einstein's relation, we simulate the thermalization of a heavy quark in isotropic and anisotropic mediums using an ideal quantum simulator and compare that to thermal expectations.
翻訳日:2023-12-29 20:00:55 公開日:2023-12-26
# 観測可能な伝播: 変換器の特徴ベクトルを明らかにするためのデータ効率の良いアプローチ

Observable Propagation: A Data-Efficient Approach to Uncover Feature Vectors in Transformers ( http://arxiv.org/abs/2312.16291v1 )

ライセンス: Link先を確認
Jacob Dunefsky and Arman Cohan(参考訳) NLPにおける現在の機械論的解釈可能性の研究の鍵となるゴールは、変圧器の線形特徴(「機能ベクトル」とも呼ばれる)を見つけることである。 現在、線形特徴量を求めるには、大量のラベル付きデータが必要であり、取得に手間がかかり、計算コストがかかる。本研究では、与えられたタスクを演算する際にトランスフォーマー言語モデルが使用する線形特徴量を見つけるための新しい手法であるobservable propagation(obsprop)を提案する。 我々のパラダイムは、与えられたタスクに対応する可観測関数、線形汎関数の概念に焦点を当てている。 次に、特徴ベクトルの解析のための数学的理論を紹介し、なぜLayerNormの非線形性が特徴ベクトルの方向に影響しないのかを理論的動機付け、また、ある特徴ベクトルの出力が他の特徴ベクトルと相関する程度を推定する結合係数と呼ばれる特徴ベクトル間の類似度計量を導入する。 我々はObsPropを使って、ジェンダー付き職業バイアス、政党予測、プログラミング言語検出など、様々なタスクの質的な調査を行う。 以上の結果から,obspropは低データ領域で特徴ベクトルを求める従来のアプローチを上回っており,大規模言語モデルにおいてバイアスの原因となるメカニズムをより理解するために,obspropが利用できることが示唆された。 実験のコードはgithub.com/jacobdunefsky/ObservablePropagationで見ることができる。

A key goal of current mechanistic interpretability research in NLP is to find linear features (also called "feature vectors") for transformers: directions in activation space corresponding to concepts that are used by a given model in its computation. Present state-of-the-art methods for finding linear features require large amounts of labelled data -- both laborious to acquire and computationally expensive to utilize. In this work, we introduce a novel method, called "observable propagation" (in short: ObsProp), for finding linear features used by transformer language models in computing a given task -- using almost no data. Our paradigm centers on the concept of observables, linear functionals corresponding to given tasks. We then introduce a mathematical theory for the analysis of feature vectors: we provide theoretical motivation for why LayerNorm nonlinearities do not affect the direction of feature vectors; we also introduce a similarity metric between feature vectors called the coupling coefficient which estimates the degree to which one feature's output correlates with another's. We use ObsProp to perform extensive qualitative investigations into several tasks, including gendered occupational bias, political party prediction, and programming language detection. Our results suggest that ObsProp surpasses traditional approaches for finding feature vectors in the low-data regime, and that ObsProp can be used to better understand the mechanisms responsible for bias in large language models. Code for experiments can be found at github.com/jacobdunefsky/ObservablePropagation.
翻訳日:2023-12-29 20:00:43 公開日:2023-12-26
# Floquet DynamicsによるPXP多体スカーの展開

Unraveling PXP Many-Body Scars through Floquet Dynamics ( http://arxiv.org/abs/2312.16288v1 )

ライセンス: Link先を確認
Giuliano Giudici, Federica Maria Surace, Hannes Pichler(参考訳) 量子傷は、熱化を避ける多体系の特別な固有状態である。 これらは、Rydberg原子配列のよく知られた効果的な記述であるPXPモデルで最初に発見された。 重要な理論的努力にもかかわらず、PXP傷の根源はいまだ解明されていない。 トロッターステップ $\tau$ の関数として pxp モデルの離散化ダイナミクスを調べることにより、積分可能な floquet-pxp セル・オートマトン(英語版)の 0 と 2 粒子の固有状態の $\tau=\pi/2$ と pxp の時間連続限界の多体傷との顕著な対応を明らかにする。 具体的には、PXPの傷跡が$\tau=\pi/2$ Floquet演算子の固有状態と漸近的に関連していることを示す。 この結果に基づいて,Rydberg原子実験においてPXP傷の高忠実度化を実現するためのプロトコルを提案する。

Quantum scars are special eigenstates of many-body systems that evade thermalization. They were first discovered in the PXP model, a well-known effective description of Rydberg atom arrays. Despite significant theoretical efforts, the fundamental origin of PXP scars remains elusive. By investigating the discretized dynamics of the PXP model as a function of the Trotter step $\tau$, we uncover a remarkable correspondence between the zero- and two-particle eigenstates of the integrable Floquet-PXP cellular automaton at $\tau=\pi/2$ and the PXP many-body scars of the time-continuous limit. Specifically, we demonstrate that PXP scars are adiabatically connected to the eigenstates of the $\tau=\pi/2$ Floquet operator. Building on this result, we propose a protocol for achieving high-fidelity preparation of PXP scars in Rydberg atom experiments.
翻訳日:2023-12-29 20:00:17 公開日:2023-12-26
# 超強結合系の真空中における光・物質相互作用

Light-matter interactions in the vacuum of ultra-strongly coupled systems ( http://arxiv.org/abs/2312.16287v1 )

ライセンス: Link先を確認
Daniele De Bernardis, Gian Marcello Andolina, and Iacopo Carusotto(参考訳) 超強結合系の真空状態の特異性が基本的な光-物質相互作用過程にどのように影響するかを理論的に検討する。 この非伝統的な電磁環境において、余剰エミッタは、もはや裸のキャビティ光子に結合するのではなく、超強結合から生じる偏光子モードに結合し、有効光-物質相互作用強度は歪んだ真空状態の性質に敏感である。 真空状態における量子揺らぎと古典電磁気学における放射反応の観点からの予測の異なる解釈を批判的に論じる。 半導体デバイスにおけるサブバンド間偏光子の実験的なケースに焦点が当てられているが、我々のフレームワークは完全に汎用的であり、汎用材料システムに適用できる。

We theoretically study how the peculiar properties of the vacuum state of an ultra-strongly coupled system can affect basic light-matter interaction processes. In this unconventional electromagnetic environment, an additional emitter no longer couples to the bare cavity photons, but rather to the polariton modes emerging from the ultra-strong coupling, and the effective light-matter interaction strength is sensitive to the properties of the distorted vacuum state. Different interpretations of our predictions in terms of modified quantum fluctuations in the vacuum state and of radiative reaction in classical electromagnetism are critically discussed. Whereas our discussion is focused on the experimentally most relevant case of intersubband polaritons in semiconductor devices, our framework is fully general and applies to generic material systems.
翻訳日:2023-12-29 19:59:55 公開日:2023-12-26
# 平均場下界ランゲヴィンダイナミクスとその時空間離散化

Mean-field Underdamped Langevin Dynamics and its Space-Time Discretization ( http://arxiv.org/abs/2312.16360v1 )

ライセンス: Link先を確認
Qiang Fu, Ashia Wilson(参考訳) 確率測度空間上で定義された非線形汎函数の特殊クラスを最適化するN-粒子アンダーダム化ランゲヴィンアルゴリズムを提案する。 この定式化に関する問題の例としては、平均場状態におけるニューラルネットワークのトレーニング、密度推定、カーネルスタインの差分最小化などがある。 我々のアルゴリズムは、平均場下にあるランゲヴィン力学の空間的離散化に基づいており、新しい高速混合保証を提供する。 さらに,本アルゴリズムは全変動距離においてグローバルに収束し,ダイナミクスと実用的実装との理論的ギャップを橋渡しすることを示した。

We propose a new method called the N-particle underdamped Langevin algorithm for optimizing a special class of non-linear functionals defined over the space of probability measures. Examples of problems with this formulation include training neural networks in the mean-field regime, density estimation, and kernel Stein discrepancy minimization. Our algorithm is based on a novel space-time discretization of the mean-field underdamped Langevin dynamics, for which we provide a new, fast mixing guarantee. In addition, we demonstrate that our algorithm converges globally in total variation distance, bridging the theoretical gap between the dynamics and its practical implementation.
翻訳日:2023-12-29 19:51:12 公開日:2023-12-26
# 可変カプラを用いた高速量子ゲートの設計:強化学習アプローチ

Designing Fast Quantum Gates with Tunable Couplers: A Reinforcement Learning Approach ( http://arxiv.org/abs/2312.16358v1 )

ライセンス: Link先を確認
Bijita Sarma, Michael J. Hartmann(参考訳) 高速量子ゲートは、ノイズの多い中間スケール量子デバイスの時代だけでなく、実用的なフォールトトレラント量子コンピューティングシステムの開発にも不可欠である。 リークエラーは、計算部分空間の区切りを超えたデータキュービットから生じるもので、非断熱的に駆動される高速ゲートを実現する上で大きな課題である。 本稿では, 実用マルチレベル超伝導量子ビットにおける高速2量子ゲート生成における強化学習(RL)の有用性について述べる。 特に、rlコントローラは11nsのゲート時間と$\sim 4\times 10^{-3}$の制御z(cz)ゲートを生成するために、可変カプラによって結合された2つのトランスモンデータキュービットに自律的に作用する分断定ゲートパルスシーケンスを見つけるのに非常に有効であり、最先端の実装よりも約5倍高速であることを示す。 このようなゲートパルスシーケンスは、ゲート適用時に適切なタイミングで計算サブスペース内外へのリークダイナミクスを制御し、極めて高速にリーク空間を利用する。

Fast quantum gates are crucial not only for the contemporary era of noisy intermediate-scale quantum devices but also for the prospective development of practical fault-tolerant quantum computing systems. Leakage errors, which arise from data qubits jumping beyond the confines of the computational subspace, are the main challenges in realizing non-adiabatically driven, fast gates. In this letter, we propose and illustrate the usefulness of reinforcement learning (RL) to generate fast two-qubit gates in practical multi-level superconducting qubits. In particular, we show that the RL controller offers great effectiveness in finding piecewise constant gate pulse sequences autonomously that act on two transmon data qubits coupled by a tunable coupler to generate a controlled-Z (CZ) gate with 11 ns gate time and an error rate of $\sim 4\times 10^{-3}$, making it about five times faster than state-of-the-art implementations. Such gate pulse sequences exploit the leakage space judiciously by controlling the leakage dynamics into and out of the computational subspace at appropriate times during the gate application, making it extremely fast.
翻訳日:2023-12-29 19:51:01 公開日:2023-12-26
# Smuche: 均質暗号化におけるScalar-Multiplicative Caching

Smuche: Scalar-Multiplicative Caching in Homomorphic Encryption ( http://arxiv.org/abs/2312.16352v1 )

ライセンス: Link先を確認
Dongfang Zhao(参考訳) フェデレーション学習のような信頼できない環境に機械学習システムをデプロイする場合、セキュリティと効率のバランスをとるという課題に対処することは、依然として重要な課題である。 この問題を解決するための有望な戦略は、完全同型暗号(HE)の性能を最適化することである。 最近の研究では、セキュリティを損なうことなくheスキームの性能を大幅に向上させるracheなどの高度なキャッシング技術の有効性が強調されている。 しかし、racheは固有の制限によって制約されている:そのパフォーマンス上のオーバーヘッドは、プレーンテキストモデルの特徴、特に特定の基数に基づいてキャッシュされたピボットの数を表す$n$が$\mathcal{o}(n)$のキャッシング時間の複雑さに強く影響されている。 このキャッシュオーバーヘッドは、大規模なデータを扱う上では実用的でない。 本研究では,任意のパラメータに依存しない新しい \textit{constant-time} キャッシング手法を提案する。 中心となる概念は、単一のキャッシュされた暗号文にスカラー乗算を適用すること、そして完全に新しく、一定の時間的ランダム性の導入である。 定数時間構造の特徴を生かして、同型暗号化のScalar-multiplicative Cachingを表すこの革新的なキャッシュ技術に「Smuche」という用語を造る。 Smuche をスクラッチから実装し,Rache と CKKS の2つのベースラインスキームに対して比較評価を行った。 実験結果は,smucheが特定限界に対処し,実用シナリオにおける準同型暗号の性能を最適化することの有効性を強調する。

Addressing the challenge of balancing security and efficiency when deploying machine learning systems in untrusted environments, such as federated learning, remains a critical concern. A promising strategy to tackle this issue involves optimizing the performance of fully homomorphic encryption (HE). Recent research highlights the efficacy of advanced caching techniques, such as Rache, in significantly enhancing the performance of HE schemes without compromising security. However, Rache is constrained by an inherent limitation: its performance overhead is heavily influenced by the characteristics of plaintext models, specifically exhibiting a caching time complexity of $\mathcal{O}(N)$, where $N$ represents the number of cached pivots based on specific radixes. This caching overhead becomes impractical for handling large-scale data. In this study, we introduce a novel \textit{constant-time} caching technique that is independent of any parameters. The core concept involves applying scalar multiplication to a single cached ciphertext, followed by the introduction of a completely new and constant-time randomness. Leveraging the inherent characteristics of constant-time construction, we coin the term ``Smuche'' for this innovative caching technique, which stands for Scalar-multiplicative Caching of Homomorphic Encryption. We implemented Smuche from scratch and conducted comparative evaluations against two baseline schemes, Rache and CKKS. Our experimental results underscore the effectiveness of Smuche in addressing the identified limitations and optimizing the performance of homomorphic encryption in practical scenarios.
翻訳日:2023-12-29 19:50:36 公開日:2023-12-26
# 信頼性データ処理のためのジェネリックデータ演算子としてのユーザ定義プロンプト付きLLM

LLMs with User-defined Prompts as Generic Data Operators for Reliable Data Processing ( http://arxiv.org/abs/2312.16351v1 )

ライセンス: Link先を確認
Luyi Ma, Nikhil Thakurdesai, Jiao Chen, Jianpeng Xu, Evren Korpeoglu, Sushant Kumar, Kannan Achan(参考訳) データ処理は、データ品質を保証するための機械学習パイプラインの基本ステップの1つである。 アプリケーションの大部分は、データベースのデータ処理のためのユーザ定義関数(UDF)設計パターンを考慮する。 UDFデザインパターンは柔軟性、再利用性、スケーラビリティを導入しているが、機械学習パイプラインへの需要の増加は、このデザインパターンに3つの新しい課題をもたらしている。 これらの課題に対処するために,大規模言語モデル(LLM)が信頼性の高いデータ浄化,変換,モデリングを行う汎用データ演算子(LLM-GDO)として機能する新しい設計パターンを提案する。 LLM-GDO設計パターンでは、ユーザ定義プロンプト(UDP)は特定のプログラミング言語の実装ではなく、データ処理ロジックを表現するために使われる。 LLMは集中的にメンテナンスできるので、ユーザは実行時に依存関係を管理する必要がない。 ドメイン固有のデータによる微調整 LLM は、データ処理の知識を意識するドメイン固有のタスクの性能を高めることができる。 我々は、これらの利点を様々なデータ処理タスクで例示する。 さらに,LLMが導入した課題と機会を要約して,このデザインパターンの全体像を提供し,さらなる議論を行う。

Data processing is one of the fundamental steps in machine learning pipelines to ensure data quality. Majority of the applications consider the user-defined function (UDF) design pattern for data processing in databases. Although the UDF design pattern introduces flexibility, reusability and scalability, the increasing demand on machine learning pipelines brings three new challenges to this design pattern -- not low-code, not dependency-free and not knowledge-aware. To address these challenges, we propose a new design pattern that large language models (LLMs) could work as a generic data operator (LLM-GDO) for reliable data cleansing, transformation and modeling with their human-compatible performance. In the LLM-GDO design pattern, user-defined prompts (UDPs) are used to represent the data processing logic rather than implementations with a specific programming language. LLMs can be centrally maintained so users don't have to manage the dependencies at the run-time. Fine-tuning LLMs with domain-specific data could enhance the performance on the domain-specific tasks which makes data processing knowledge-aware. We illustrate these advantages with examples in different data processing tasks. Furthermore, we summarize the challenges and opportunities introduced by LLMs to provide a complete view of this design pattern for more discussions.
翻訳日:2023-12-29 19:50:10 公開日:2023-12-26
# 電磁界と相互作用する加速原子の絡み合いダイナミクス

Entanglement dynamics of accelerated atoms interacting with the Electromagnetic Field ( http://arxiv.org/abs/2312.16342v1 )

ライセンス: Link先を確認
M. S. Soares, N. F. Svaiter and G. Menezes(参考訳) 開量子系の理論を用いたエンタングルメント力学における加速度の影響について検討する。 このシナリオでは、異なる適切な時間で異なる双曲軌道に沿って移動する2つの原子を考える。 一般化マスター方程式は、電磁場と相互作用する双極子対に使用される。 本研究は, エンタングルメント収穫や急激な死現象において, 適切な加速が重要な役割を担っていることを観察し, 原子の偏光がこの結果に与える影響について検討する。

We study the effects of acceleration in entanglement dynamics using the theory of open quantum systems. In this scenario we consider two atoms moving along different hyperbolic trajectories with different proper times. The generalized master equation is used for a pair of dipoles interacting with the electromagnetic field. We observe that the proper acceleration plays an essential role in the entanglement harvesting and sudden death phenomenom and we study how the polarization of the atoms affects this results.
翻訳日:2023-12-29 19:49:47 公開日:2023-12-26
# フェデレーション・コンテキスト・バンドにおけるフェデレーション・ラーニングの力の調和

Harnessing the Power of Federated Learning in Federated Contextual Bandits ( http://arxiv.org/abs/2312.16341v1 )

ライセンス: Link先を確認
Chengshuai Shi, Ruida Zhou, Kun Yang, Cong Shen(参考訳) 連合学習(federated learning, fl)は、分散機械学習に革命をもたらす大きな可能性を証明し、それを拡張するために、当初の教師付き学習に重点を置いてきた。 多くの方向において、FLとシーケンシャルな意思決定の重要な統合であるFCB(Federated contextual bandits)が近年注目されている。 かなりの進歩にもかかわらず、既存のFCBアプローチは、しばしば標準FLフレームワークから逸脱する、カスタマイズされたFLコンポーネントを主に採用している。 したがって、FedAvgのような有名なアルゴリズムでさえ、他のFL進歩と同様に、FCBでは未利用のままである。 この切断に動機づけられたこの研究は、標準FL研究とFCB研究との密接な関係を構築するための一歩を踏み出した。 特にFedIGWと呼ばれる新しいFCB設計は回帰に基づくCBアルゴリズム、すなわち逆ギャップ重み付けを利用するために提案されている。 既存のFCBアプローチと比較して、提案されたFedIGW設計は、(1)既存のFLプロトコルの柔軟な組み込み、(2)パフォーマンス保証におけるFL分析のモジュール化されたプラグイン、(3)パーソナライズ、堅牢性、プライバシなど)FLアペンダのシームレスな統合など、FLイノベーションのスペクトル全体を活用することができる。 我々は厳密な理論的分析と経験的評価を通じてこれらの主張を裏付ける。

Federated learning (FL) has demonstrated great potential in revolutionizing distributed machine learning, and tremendous efforts have been made to extend it beyond the original focus on supervised learning. Among many directions, federated contextual bandits (FCB), a pivotal integration of FL and sequential decision-making, has garnered significant attention in recent years. Despite substantial progress, existing FCB approaches have largely employed their tailored FL components, often deviating from the canonical FL framework. Consequently, even renowned algorithms like FedAvg remain under-utilized in FCB, let alone other FL advancements. Motivated by this disconnection, this work takes one step towards building a tighter relationship between the canonical FL study and the investigations on FCB. In particular, a novel FCB design, termed FedIGW, is proposed to leverage a regression-based CB algorithm, i.e., inverse gap weighting. Compared with existing FCB approaches, the proposed FedIGW design can better harness the entire spectrum of FL innovations, which is concretely reflected as (1) flexible incorporation of (both existing and forthcoming) FL protocols; (2) modularized plug-in of FL analyses in performance guarantees; (3) seamless integration of FL appendages (such as personalization, robustness, and privacy). We substantiate these claims through rigorous theoretical analyses and empirical evaluations.
翻訳日:2023-12-29 19:49:36 公開日:2023-12-26
# マルチタスクニューラルネットワークにおける共有パラメータとタスクパラメータの交互学習

Alternate Training of Shared and Task-Specific Parameters for Multi-Task Neural Networks ( http://arxiv.org/abs/2312.16340v1 )

ライセンス: Link先を確認
Stefania Bellavia, Francesco Della Santa, Alessandra Papini(参考訳) 本稿では,マルチタスクニューラルネットワーク(MTNN)のための新しい訓練手法を提案する。 従来のMTNNトレーニングは、競合する損失勾配を管理する際の課題に直面し、しばしば準最適パフォーマンスをもたらす。 提案手法では,共有とタスク固有の重みを交互に更新し,モデルのマルチヘッドアーキテクチャを活用する。 このアプローチは計算コストを削減し、トレーニング正規化を強化し、一般化を改善する。 古典的確率勾配法と同様の収束特性が確立される。 実証実験では、遅延オーバーフィッティング、予測の改善、計算要求の削減が示されている。 まとめると、我々の代替トレーニング手順は、ハードパラメータ共有MTNNのトレーニングに有望な進歩をもたらす。

This paper introduces novel alternate training procedures for hard-parameter sharing Multi-Task Neural Networks (MTNNs). Traditional MTNN training faces challenges in managing conflicting loss gradients, often yielding sub-optimal performance. The proposed alternate training method updates shared and task-specific weights alternately, exploiting the multi-head architecture of the model. This approach reduces computational costs, enhances training regularization, and improves generalization. Convergence properties similar to those of the classical stochastic gradient method are established. Empirical experiments demonstrate delayed overfitting, improved prediction, and reduced computational demands. In summary, our alternate training procedures offer a promising advancement for the training of hard-parameter sharing MTNNs.
翻訳日:2023-12-29 19:49:04 公開日:2023-12-26
# ViT性能向上のためのユニバーサルピラミッド対向訓練

Universal Pyramid Adversarial Training for Improved ViT Performance ( http://arxiv.org/abs/2312.16339v1 )

ライセンス: Link先を確認
Ping-yeh Chiang, Yipin Zhou, Omid Poursaeed, Satya Narayan Shukla, Ashish Shah, Tom Goldstein, Ser-Nam Lim(参考訳) 近年,視覚トランスフォーマーのクリーンな精度向上と分散シフトロバスト性向上に,ピラミッド・コンバーサルトトレーニング(herrmann et al., 2022)が有効であることが示されている。 しかし、敵対的訓練の反復的な性質から、この技法は標準的な訓練の最大7倍の費用がかかる。 提案手法をより効率的にするために、サンプルワイドパターンの代わりにデータセット全体間で共有される単一のピラミッド対逆パターンを学習するユニバーサルピラミッド対逆トレーニングを提案する。 提案手法により,ピラミッド適応学習の計算コストを最大70%削減し,その大部分はクリーンな性能と分散シフトの堅牢性に寄与する。 さらに、私たちの知る限りでは、ユニバーサルな敵対的トレーニングをクリーンなモデルのパフォーマンス向上に活用できることを最初に知ったのです。

Recently, Pyramid Adversarial training (Herrmann et al., 2022) has been shown to be very effective for improving clean accuracy and distribution-shift robustness of vision transformers. However, due to the iterative nature of adversarial training, the technique is up to 7 times more expensive than standard training. To make the method more efficient, we propose Universal Pyramid Adversarial training, where we learn a single pyramid adversarial pattern shared across the whole dataset instead of the sample-wise patterns. With our proposed technique, we decrease the computational cost of Pyramid Adversarial training by up to 70% while retaining the majority of its benefit on clean performance and distribution-shift robustness. In addition, to the best of our knowledge, we are also the first to find that universal adversarial training can be leveraged to improve clean model performance.
翻訳日:2023-12-29 19:48:56 公開日:2023-12-26
# ヌーディティー分類における最新技術--比較分析

State-of-the-Art in Nudity Classification: A Comparative Analysis ( http://arxiv.org/abs/2312.16338v1 )

ライセンス: Link先を確認
Fatih Cagatay Akyon, Alptekin Temizel(参考訳) 本稿では,ヌードの有無に基づいて画像の分類を行う既存のヌード分類手法の比較分析を行い,コンテンツモデレーションへの応用に焦点を当てた。 この評価は、cnnベースのモデル、ビジョントランスフォーマー、およびstable diffusion and large-scale artificial intelligence open network (laion)による人気のあるオープンソース安全チェッカーに焦点を当てている。 この研究は、現在の評価データセットの限界を特定し、より多様で挑戦的なデータセットの必要性を強調している。 本稿では,オンラインプラットフォーム上でより正確かつ効果的な画像分類システムを開発する上で,これらの発見がもたらす意味について論じる。 本研究は,プラットフォーム利用者の安全と幸福を確保するため,画像分類モデルを継続的に改善することの重要性を強調した。 デモと結果を含むプロジェクトページはhttps://github.com/fcakyon/content-moderation-deep-learningで公開されている。

This paper presents a comparative analysis of existing nudity classification techniques for classifying images based on the presence of nudity, with a focus on their application in content moderation. The evaluation focuses on CNN-based models, vision transformer, and popular open-source safety checkers from Stable Diffusion and Large-scale Artificial Intelligence Open Network (LAION). The study identifies the limitations of current evaluation datasets and highlights the need for more diverse and challenging datasets. The paper discusses the potential implications of these findings for developing more accurate and effective image classification systems on online platforms. Overall, the study emphasizes the importance of continually improving image classification models to ensure the safety and well-being of platform users. The project page, including the demonstrations and results is publicly available at https://github.com/fcakyon/content-moderation-deep-learning.
翻訳日:2023-12-29 19:48:41 公開日:2023-12-26
# タスク汚染: 言語モデルはもはや少数ではないかもしれない

Task Contamination: Language Models May Not Be Few-Shot Anymore ( http://arxiv.org/abs/2312.16337v1 )

ライセンス: Link先を確認
Changmao Li and Jeffrey Flanigan(参考訳) 大きな言語モデル(LLM)は、様々なゼロショットおよび少数ショットタスクで素晴らしいパフォーマンスを提供する。 しかしながら、ゼロショット設定と少ないショット設定での成功は、タスクの汚染に影響される可能性がある。 本稿では,LLMのゼロショット性能と少数ショット性能が経年変化したかを検討する。 GPT-3 シリーズモデルや他の最近のオープンソース LLM モデルを利用し、データセットの難易度を制御することにより、LLM トレーニングデータ作成日以前にリリースされたデータセットでは、LLM は、リリース後のデータセットよりも驚くほど優れたパフォーマンスを示す。 これは、多くのLLMに対して、LLMsのトレーニングデータ作成日以前にリリースされたデータセットに対してゼロショットと少数ショットの評価に関するタスク汚染が存在することを強く示している。 さらに,訓練データ検査,タスクサンプル抽出,メンバシップ推論攻撃を用いて,さらなるタスク汚染の証拠を明らかにする。 重要なことは、タスク汚染のない分類タスクでは、ゼロおよび少数ショット設定の両方において、単純な多数決ベースラインよりも統計的に有意な改善を示すことは稀である。

Large language models (LLMs) offer impressive performance in various zero-shot and few-shot tasks. However, their success in zero-shot and few-shot settings may be affected by task contamination, a potential limitation that has not been thoroughly examined. This paper investigates how zero-shot and few-shot performance of LLMs has changed chronologically over time. Utilizing GPT-3 series models and several other recent open-sourced LLMs, and controlling for dataset difficulty, we find that on datasets released before the LLM training data creation date, LLMs perform surprisingly better than on datasets released after. This strongly indicates that, for many LLMs, there exists task contamination on zero-shot and few-shot evaluation for datasets released prior to the LLMs' training data creation date. Additionally, we utilize training data inspection, task example extraction, and a membership inference attack, which reveal further evidence of task contamination. Importantly, we find that for classification tasks with no possibility of task contamination, LLMs rarely demonstrate statistically significant improvements over simple majority baselines, in both zero and few-shot settings.
翻訳日:2023-12-29 19:48:27 公開日:2023-12-26
# プライバシー制約下における推定・テストの統計的複雑性について

On the Statistical Complexity of Estimation and Testing under Privacy Constraints ( http://arxiv.org/abs/2210.02215v2 )

ライセンス: Link先を確認
Cl\'ement Lalanne (DANTE, OCKHAM), Aur\'elien Garivier (UMPA-ENSL), R\'emi Gribonval (DANTE, OCKHAM)(参考訳) サンプル内の個人のプライバシーを尊重しながら正確な統計を生成するという課題は、重要な研究分野である。 微分プライベート推定器のクラスに対するミニマックス下界について検討する。 特に、適切な輸送問題を解くことにより、差分プライバシー下での統計的テストのパワーをプラグアンドプレイ方式で特徴付ける方法を示す。 特定の結合構造により、この観測により、通常の微分プライバシーの定義だけでなく、ル・カム型とファノ型の不等式も導出できる。 次に、簡単な3つの実例について、その結果を説明します。 特に,問題クラスは,プライバシによって有用性が損なわれることに対して,非常に重要であることを示す。 特定のシナリオでは、プライバシ保護のレベルが非常に高い場合にのみ、プライバシの維持が顕著なパフォーマンス低下をもたらすことを示す。 逆に、他の問題では、プライバシー保護の控えめなレベルでさえ、パフォーマンスが著しく低下する可能性がある。 最後に,プライベート凸ソルバであるdp-sgldアルゴリズムは,サンプルサイズとプライバシ保護のレベルの両方について最適に近い結果が得られるため,信頼性の高い最大確率推定に利用できることを示す。 このアルゴリズムは指数関数族を含む幅広いパラメトリック推定手順に適用できる。

The challenge of producing accurate statistics while respecting the privacy of the individuals in a sample is an important area of research. We study minimax lower bounds for classes of differentially private estimators. In particular, we show how to characterize the power of a statistical test under differential privacy in a plug-and-play fashion by solving an appropriate transport problem. With specific coupling constructions, this observation allows us to derive Le Cam-type and Fano-type inequalities not only for regular definitions of differential privacy but also for those based on Renyi divergence. We then proceed to illustrate our results on three simple, fully worked out examples. In particular, we show that the problem class has a huge importance on the provable degradation of utility due to privacy. In certain scenarios, we show that maintaining privacy results in a noticeable reduction in performance only when the level of privacy protection is very high. Conversely, for other problems, even a modest level of privacy protection can lead to a significant decrease in performance. Finally, we demonstrate that the DP-SGLD algorithm, a private convex solver, can be employed for maximum likelihood estimation with a high degree of confidence, as it provides near-optimal results with respect to both the size of the sample and the level of privacy protection. This algorithm is applicable to a broad range of parametric estimation procedures, including exponential families.
翻訳日:2023-12-28 02:21:31 公開日:2023-12-26
# 核ヒルベルト空間の再生におけるアンサンブル予測

Ensemble forecasts in reproducing kernel Hilbert space family ( http://arxiv.org/abs/2207.14653v3 )

ライセンス: Link先を確認
Benjamin Duf\'ee, B\'erenger Hug, Etienne M\'emin and Gilles Tissot(参考訳) 海洋流や大気流などの高次元力学系のアンサンブルに基づく推定とシミュレーションのための方法論的枠組みを提案する。 そのために、力学系は、力学によって駆動されるカーネル関数を持つ再生カーネルヒルベルト空間(RKHS)の族に埋め込まれる。 RKHS族では、クープマン作用素とペロン・フロベニウス作用素はユニタリかつ一様連続である。 この性質は、無限小生成子から定義される対角化可能な有界進化作用素の指数級数で表現できる。 Lyapunov指数へのアクセスや、接線力学の正確なアンサンブルに基づく表現も直接利用可能である。 rkhsファミリーは、軌道サンプルの一定時間線形結合の観点から軌道再構成のための驚くほど単純なアンサンブルデータ同化手法を考案する。 このような恥ずかしい単純な戦略は、いくつかの基本的な定理から生じる完全に正当化された重ね合わせ原理によって実現される。

A methodological framework for ensemble-based estimation and simulation of high dimensional dynamical systems such as the oceanic or atmospheric flows is proposed. To that end, the dynamical system is embedded in a family of reproducing kernel Hilbert spaces (RKHS) with kernel functions driven by the dynamics. In the RKHS family, the Koopman and Perron-Frobenius operators are unitary and uniformly continuous. This property warrants they can be expressed in exponential series of diagonalizable bounded evolution operators defined from their infinitesimal generators. Access to Lyapunov exponents and to exact ensemble based expressions of the tangent linear dynamics are directly available as well. The RKHS family enables us the devise of strikingly simple ensemble data assimilation methods for trajectory reconstructions in terms of constant-in-time linear combinations of trajectory samples. Such an embarrassingly simple strategy is made possible through a fully justified superposition principle ensuing from several fundamental theorems.
翻訳日:2023-12-28 02:21:09 公開日:2023-12-26
# 適応メッシュ洗練のためのロバストマーキングポリシの学習

Learning robust marking policies for adaptive mesh refinement ( http://arxiv.org/abs/2207.06339v2 )

ライセンス: Link先を確認
Andrew Gillette, Brendan Keith, and Socratis Petrides(参考訳) 本研究では,標準適応有限要素法(AFEM)におけるマーキング決定について再検討する。 経験から、na\"{i}veマーキングポリシーは、適応メッシュ精錬(AMR)に計算資源を非効率に利用することにつながる。 そのため、実際にAFEMを使用する場合、マーキングサブルーチンの適切なパラメータを設定するのに、アドホックまたは時間を要するオフラインパラメータチューニングが必要となることが多い。 これらの実用的な問題に対処するため,我々は,専門家ユーザによる事前調整を必要とせず,実行時にリファインメントパラメータをオンザフライで選択できるマルコフ決定プロセスとしてamrを再キャストする。 この新しいパラダイムでは、強化学習の手法を使って最適化可能なマーキングポリシを通じて、リファインメントパラメータも適応的に選択される。 我々はpoisson方程式を用いて,h$- および $hp$-refinement ベンチマーク問題を実演し,従来の afem アプリケーションでは優れたマーキングポリシーが未発見のままであることを示す。 さらに、この研究の予期せぬ観察は、あるPDEファミリーで訓練されたマーキングポリシーが、トレーニングファミリー以外の問題にうまく対応できるほど頑健である場合があるということである。 例えば、単一の再帰角を持つ2Dドメインでトレーニングされた単純な$hp$-refinementポリシーは、はるかに複雑な2Dドメインや、3Dドメインでも、大幅なパフォーマンス損失を伴わずにデプロイ可能であることを示す。 再現とより広範な採用のために、私たちはこの作業に私たちのメソッドのオープンソース実装を伴います。

In this work, we revisit the marking decisions made in the standard adaptive finite element method (AFEM). Experience shows that a na\"{i}ve marking policy leads to inefficient use of computational resources for adaptive mesh refinement (AMR). Consequently, using AFEM in practice often involves ad-hoc or time-consuming offline parameter tuning to set appropriate parameters for the marking subroutine. To address these practical concerns, we recast AMR as a Markov decision process in which refinement parameters can be selected on-the-fly at run time, without the need for pre-tuning by expert users. In this new paradigm, the refinement parameters are also chosen adaptively via a marking policy that can be optimized using methods from reinforcement learning. We use the Poisson equation to demonstrate our techniques on $h$- and $hp$-refinement benchmark problems, and our experiments suggest that superior marking policies remain undiscovered for many classical AFEM applications. Furthermore, an unexpected observation from this work is that marking policies trained on one family of PDEs are sometimes robust enough to perform well on problems far outside the training family. For illustration, we show that a simple $hp$-refinement policy trained on 2D domains with only a single re-entrant corner can be deployed on far more complicated 2D domains, and even 3D domains, without significant performance loss. For reproduction and broader adoption, we accompany this work with an open-source implementation of our methods.
翻訳日:2023-12-28 02:20:57 公開日:2023-12-26
# 分子ct:異なるスケールの分子の幾何学と表現学習の統合

Molecular CT: Unifying Geometry and Representation Learning for Molecules at Different Scales ( http://arxiv.org/abs/2012.11816v3 )

ライセンス: Link先を確認
Jun Zhang, Yao-Kun Lei, Yaqiang Zhou, Yi Isaac Yang and Yi Qin Gao(参考訳) 深層学習は分子物理学の多くの領域を変えており、分子モデリング問題に挑戦する新しい解決策を提供する大きな可能性を示している。 この傾向とともに、分子システムと互換性のある表現的かつ汎用的なニューラルネットワークアーキテクチャの需要が高まっている。 この目的のために、新しいディープニューラルネットワークアーキテクチャである分子構成変換器(Molecular CT)が導入された。 分子ctは、関係認識エンコーダモジュールと計算的普遍幾何学習ユニットから成り、異なる粒子数にスケーラブルな粒子間の関係制約を考慮でき、トランス回転変換に関して不変である。 計算効率と普遍性は、分子CTを様々な分子学習シナリオに多用し、特に異なる分子系をまたいだ伝達可能な表現学習に有益である。 例えば、分子ctは異なるスケールで分子システムの表現学習を可能にし、基準モデルと比較してより軽量な構造を用いて、共通のベンチマークで同等または改善された結果が得られることを示す。

Deep learning is changing many areas in molecular physics, and it has shown great potential to deliver new solutions to challenging molecular modeling problems. Along with this trend arises the increasing demand of expressive and versatile neural network architectures which are compatible with molecular systems. A new deep neural network architecture, Molecular Configuration Transformer (Molecular CT), is introduced for this purpose. Molecular CT is composed of a relation-aware encoder module and a computationally universal geometry learning unit, thus able to account for the relational constraints between particles meanwhile scalable to different particle numbers and invariant with respect to the trans-rotational transforms. The computational efficiency and universality make Molecular CT versatile for a variety of molecular learning scenarios and especially appealing for transferable representation learning across different molecular systems. As examples, we show that Molecular CT enables representational learning for molecular systems at different scales, and achieves comparable or improved results on common benchmarks using a more light-weighted structure compared to baseline models.
翻訳日:2023-12-28 02:18:35 公開日:2023-12-26
# ロバストなリスクアウェアオプションヘッジ

Robust Risk-Aware Option Hedging ( http://arxiv.org/abs/2303.15216v3 )

ライセンス: Link先を確認
David Wu, Sebastian Jaimungal(参考訳) オプションヘッジ/トレーディングの目標は、単に下方リスクに対する保護以上のものであって、利得を求める欲求もまたエージェントの戦略を推進している。 本研究では,経路依存的金融デリバティブに関連するリスクを軽減するための,堅牢なリスクアウェア強化学習(rl)の可能性を示す。 我々は、ロバストなリスク対応性能基準を最適化するポリシー勾配アプローチを活用することで、これを実現する。 本稿では, この手法をバリアオプションのヘッジに適用し, エージェントがリスク回避からリスク探究へと移行するにつれて, 最適なヘッジ戦略が歪曲することを示す。 エージェントが戦略を強固にする方法です さらに、データ生成プロセス(DGP)がトレーニングDGPと異なる場合のヘッジの性能について検討し、ロバストでないものよりもロバストな戦略が優れていることを示す。

The objectives of option hedging/trading extend beyond mere protection against downside risks, with a desire to seek gains also driving agent's strategies. In this study, we showcase the potential of robust risk-aware reinforcement learning (RL) in mitigating the risks associated with path-dependent financial derivatives. We accomplish this by leveraging a policy gradient approach that optimises robust risk-aware performance criteria. We specifically apply this methodology to the hedging of barrier options, and highlight how the optimal hedging strategy undergoes distortions as the agent moves from being risk-averse to risk-seeking. As well as how the agent robustifies their strategy. We further investigate the performance of the hedge when the data generating process (DGP) varies from the training DGP, and demonstrate that the robust strategies outperform the non-robust ones.
翻訳日:2023-12-28 02:11:47 公開日:2023-12-26
# 密度推定における中央プライバシーのコストについて

About the Cost of Central Privacy in Density Estimation ( http://arxiv.org/abs/2306.14535v3 )

ライセンス: Link先を確認
Cl\'ement Lalanne (ENS de Lyon, OCKHAM), Aur\'elien Garivier (UMPA-ENSL, MC2), R\'emi Gribonval (OCKHAM)(参考訳) リプシッツ空間とソボレフ空間における密度の非パラメトリック密度推定を中心的プライバシー下で検討した。 特に,プライバシ予算が一定でないことを想定した体制について検討する。 我々は、中央微分プライバシの古典的な定義だけでなく、中央微分プライバシのより最近の概念も考慮している。 我々は barber \& duchi (2014) の結果を復元し、ヒストグラム推定器は l2 のリスクに対してリプシッツ分布に対して最適であり、通常の微分プライバシー下では、それを他の規範やプライバシー概念に拡張する。 まず, 一定のプライバシー予算(wasserman \& zhou, 2010) に対して, プライバシを強制することで, ソボレフ密度に対する推定の極小化リスクを低下させるような制度が存在する。 第2に、いわゆるプロジェクション推定器は、純粋な差分プライバシーを備えたこの新しい設定において、同じ密度のクラスに対してほぼ最適だが、一定のプライバシー予算のケースとは対照的に、緩和のコストがかかる。 偏微分プライバシーはゼロであり、緩和する必要はなく、推定が最適であることが証明される。

We study non-parametric density estimation for densities in Lipschitz and Sobolev spaces, and under central privacy. In particular, we investigate regimes where the privacy budget is not supposed to be constant. We consider the classical definition of central differential privacy, but also the more recent notion of central concentrated differential privacy. We recover the result of Barber \& Duchi (2014) stating that histogram estimators are optimal against Lipschitz distributions for the L2 risk, and under regular differential privacy, and we extend it to other norms and notions of privacy. Then, we investigate higher degrees of smoothness, drawing two conclusions: First, and contrary to what happens with constant privacy budget (Wasserman \& Zhou, 2010), there are regimes where imposing privacy degrades the regular minimax risk of estimation on Sobolev densities. Second, so-called projection estimators are near-optimal against the same classes of densities in this new setup with pure differential privacy, but contrary to the constant privacy budget case, it comes at the cost of relaxation. With zero concentrated differential privacy, there is no need for relaxation, and we prove that the estimation is optimal.
翻訳日:2023-12-28 02:01:43 公開日:2023-12-26
# 復号更新によるデータストリームの効率的かつ簡便なオンライン量子化法

An efficient and straightforward online quantization method for a data stream through remove-birth updating ( http://arxiv.org/abs/2306.12574v2 )

ライセンス: Link先を確認
Kazuhisa Fujita(参考訳) ネットワークに接続されたデバイスの成長は、データ生成を指数関数的に増加させ、効率的なデータ分析に重大な課題を生み出した。 このデータは連続的に生成され、データストリームと呼ばれる動的フローを生成する。 データストリームの特性は動的に変化し、この変化は概念ドリフトと呼ばれる。 したがって、データストリームを処理する方法は、これらの変化特性に動的に適応しながら、効率的にボリュームを削減しなければならない。 本稿では,概念ドリフトのための簡単なオンラインベクトル量子化手法を提案する。 提案手法は, 概念ドリフトへの迅速な適応を実現するため, 発生頻度の低いユニットを識別し, 置換する。 さらに,本研究の結果から,コンセプトドリフトの存在下においても最小限のデッドユニットを生成できることが示唆された。 本研究は,提案手法から算出した測定値がドリフト検出に有用であることを示す。

The growth of network-connected devices has led to an exponential increase in data generation, creating significant challenges for efficient data analysis. This data is generated continuously, creating a dynamic flow known as a data stream. The characteristics of a data stream may change dynamically, and this change is known as concept drift. Consequently, a method for handling data streams must efficiently reduce their volume while dynamically adapting to these changing characteristics. This paper proposes a simple online vector quantization method for concept drift. The proposed method identifies and replaces units with low win probability through remove-birth updating, thus achieving a rapid adaptation to concept drift. Furthermore, the results of this study show that the proposed method can generate minimal dead units even in the presence of concept drift. This study also suggests that some metrics calculated from the proposed method will be helpful for drift detection.
翻訳日:2023-12-28 02:01:11 公開日:2023-12-26
# マトロイドサブモジュラー最大化のための動的アルゴリズム

Dynamic Algorithms for Matroid Submodular Maximization ( http://arxiv.org/abs/2306.00959v2 )

ライセンス: Link先を確認
Kiarash Banihashem, Leyla Biabani, Samira Goudarzi, MohammadTaghi Hajiaghayi, Peyman Jabbarzade, Morteza Monemizadeh(参考訳) マトロイドおよび濃度制約の下での部分モジュラー最大化は、機械学習、オークション理論、組合せ最適化において幅広い応用を持つ古典的な問題である。 本稿では,(1) oracle が単調部分モジュラ関数 $f: 2^{v} \rightarrow \mathbb{r}^+$ にアクセスし,(2) 基底となる基底集合 $v$ の要素の挿入と削除の順序 $\mathcal{s}$ が与えられる動的設定において,これらの問題を考察する。 行列制約の下でのサブモジュラー最大化問題に対する最初のフルダイナミックな$(4+\epsilon)$-approximationアルゴリズムを、期待最悪の$O(k\log(k)\log^3{(k/\epsilon)})$クエリ複雑性を用いて開発する。 これはChen and Peng (STOC'22) と Lattanzi et al. (NeurIPS'20) の開問題を解く。 副生成物として、濃度制約の下の部分モジュラ最大化のために、(濃度制約の$k$)動的アルゴリズムをパラメータ化し、$(2+\epsilon)$-approximate solution of the sequence $\mathcal{S}$ at any time $t$ using a expected worst-case complexity $O(k\epsilon^{-1}\log^2(k))$とする。 これは、基底集合の大きさに依存しないクエリ複雑性を持つ問題に対する最初の動的アルゴリズムである。

Submodular maximization under matroid and cardinality constraints are classical problems with a wide range of applications in machine learning, auction theory, and combinatorial optimization. In this paper, we consider these problems in the dynamic setting, where (1) we have oracle access to a monotone submodular function $f: 2^{V} \rightarrow \mathbb{R}^+$ and (2) we are given a sequence $\mathcal{S}$ of insertions and deletions of elements of an underlying ground set $V$. We develop the first fully dynamic $(4+\epsilon)$-approximation algorithm for the submodular maximization problem under the matroid constraint using an expected worst-case $O(k\log(k)\log^3{(k/\epsilon)})$ query complexity where $0 < \epsilon \le 1$. This resolves an open problem of Chen and Peng (STOC'22) and Lattanzi et al. (NeurIPS'20). As a byproduct, for the submodular maximization under the cardinality constraint $k$, we propose a parameterized (by the cardinality constraint $k$) dynamic algorithm that maintains a $(2+\epsilon)$-approximate solution of the sequence $\mathcal{S}$ at any time $t$ using an expected worst-case query complexity $O(k\epsilon^{-1}\log^2(k))$. This is the first dynamic algorithm for the problem that has a query complexity independent of the size of ground set $V$.
翻訳日:2023-12-28 01:59:12 公開日:2023-12-26
# Transavs: Transformerを使ったオーディオ・ビジュアル・セグメンテーション

Transavs: End-To-End Audio-Visual Segmentation With Transformer ( http://arxiv.org/abs/2305.07223v2 )

ライセンス: Link先を確認
Yuhang Ling, Yuxi Li, Zhenye Gan, Jiangning Zhang, Mingmin Chi, Yabiao Wang(参考訳) オーディオ・ビジュアル・セグメンテーション(AVS: Audio-Visual Segmentation)は、音声信号の探索により、映像フレーム内の音声オブジェクトをセグメント化することを目的とした課題である。 一般にAVSは,(1)複数のオブジェクトが生成する音声が同一のオーディオストリームに絡み合っているため,音声信号が本質的に高い情報密度を示すこと,(2)同じカテゴリのオブジェクトが類似した音声信号を生成する傾向があること,そしてそれらの区別が困難であること,そして,不明瞭なセグメンテーション結果をもたらすこと,の2つの課題に直面している。 そこで本研究では,TransformerベースのAVSタスク用エンドツーエンドフレームワークであるTransAVSを提案する。 具体的には、TransAVSはオーディオストリームをオーディオクエリとして切り離し、画像と対話し、完全なトランスフォーマーアーキテクチャを備えたセグメンテーションマスクにデコードする。 このスキームは包括的なオーディオ画像通信を促進するだけでなく、シーンにカプセル化されたインスタンスキューを明示的に抽出する。 一方,音声問合せに類似性を持たせるのではなく,明瞭な音響オブジェクトを捉えるよう促すため,クエリレベルとマスクレベルの両方で2つの自己教師付き損失関数を考案し,類似した音声データ内の特徴をキャプチャし,より正確なセグメンテーションを実現する。 実験の結果,TransAVS は AVSBench データセットの最先端性を実現し,オーディオと視覚のギャップを埋めることの有効性を強調した。

Audio-Visual Segmentation (AVS) is a challenging task, which aims to segment sounding objects in video frames by exploring audio signals. Generally AVS faces two key challenges: (1) Audio signals inherently exhibit a high degree of information density, as sounds produced by multiple objects are entangled within the same audio stream; (2) Objects of the same category tend to produce similar audio signals, making it difficult to distinguish between them and thus leading to unclear segmentation results. Toward this end, we propose TransAVS, the first Transformer-based end-to-end framework for AVS task. Specifically, TransAVS disentangles the audio stream as audio queries, which will interact with images and decode into segmentation masks with full transformer architectures. This scheme not only promotes comprehensive audio-image communication but also explicitly excavates instance cues encapsulated in the scene. Meanwhile, to encourage these audio queries to capture distinctive sounding objects instead of degrading to be homogeneous, we devise two self-supervised loss functions at both query and mask levels, allowing the model to capture distinctive features within similar audio data and achieve more precise segmentation. Our experiments demonstrate that TransAVS achieves state-of-the-art results on the AVSBench dataset, highlighting its effectiveness in bridging the gap between audio and visual modalities.
翻訳日:2023-12-28 01:57:45 公開日:2023-12-26
# グラフニューラル埋め込みを用いたアクティブセマンティック定位

Active Semantic Localization with Graph Neural Embedding ( http://arxiv.org/abs/2305.06141v5 )

ライセンス: Link先を確認
Mitsuki Yoshida, Kanji Tanaka, Ryogo Yamamoto, and Daiki Iwata(参考訳) セマンティック・ローカライゼーション(Semantic Localization)、すなわち、セマンティック・イメージ・モダリティによるロボットの自己ローカライゼーションは、近年出現しつつあるAIアプリケーション(例えば、ポイントゴールナビゲーション、オブジェクトゴールナビゲーション、ビジョン言語ナビゲーション)やトポロジカルマッピングアプリケーション(例えば、グラフニューラルSLAM、エゴ中心トポロジカルマップ)において重要である。 しかしながら、セマンティックローカライゼーションに関する既存の研究のほとんどは、視点計画なしで受動的視覚タスクに焦点を当てたり、追加の豊富なモダリティ(深さ測定など)に依存している。 したがって、問題はほとんど解決されていない。 本研究では,グラフニューラルローカライザと呼ばれる,軽量で完全にCPUベースのドメイン適応型セマンティックローカライゼーションフレームワークについて検討する。 このアプローチは,(1)局所的特徴と全体的特徴の視点と外観的不変性を組み合わせたシーングラフ,(2)グラフデータの直接学習/認識を可能にするグラフニューラルネットワーク(非ベクトルデータ)の2つに着想を得ている。 具体的には、グラフ畳み込みニューラルネットワークを受動視覚のためのシーングラフ分類器として訓練し、その知識を能動視覚のための強化学習プランナーに伝達する。 フォトリアリスティック・ハビタットシミュレータを用いて、自己教師あり学習と教師なしドメイン適応の2つのシナリオの実験を行い、提案手法の有効性を検証した。

Semantic localization, i.e., robot self-localization with semantic image modality, is critical in recently emerging embodied AI applications (e.g., point-goal navigation, object-goal navigation, vision language navigation) and topological mapping applications (e.g., graph neural SLAM, ego-centric topological map). However, most existing works on semantic localization focus on passive vision tasks without viewpoint planning, or rely on additional rich modalities (e.g., depth measurements). Thus, the problem is largely unsolved. In this work, we explore a lightweight, entirely CPU-based, domain-adaptive semantic localization framework, called graph neural localizer. Our approach is inspired by two recently emerging technologies: (1) Scene graph, which combines the viewpoint- and appearance- invariance of local and global features; (2) Graph neural network, which enables direct learning/recognition of graph data (i.e., non-vector data). Specifically, a graph convolutional neural network is first trained as a scene graph classifier for passive vision, and then its knowledge is transferred to a reinforcement-learning planner for active vision. Experiments on two scenarios, self-supervised learning and unsupervised domain adaptation, using a photo-realistic Habitat simulator validate the effectiveness of the proposed method.
翻訳日:2023-12-28 01:56:51 公開日:2023-12-26
# 移動体エージェントの幾何学的特徴に基づく高結合LiDAR-Visual SLAM

Tightly-Coupled LiDAR-Visual SLAM Based on Geometric Features for Mobile Agents ( http://arxiv.org/abs/2307.07763v3 )

ライセンス: Link先を確認
Ke Cao, Ruiping Liu, Ze Wang, Kunyu Peng, Jiaming Zhang, Junwei Zheng, Zhifeng Teng, Kailun Yang, Rainer Stiefelhagen(参考訳) この移動ロボットはSLAM(Simultaneous Localization and Mapping)を利用して、複雑で未知の環境で自律的なナビゲーションとタスク実行を提供する。 しかし,照明条件の悪さや動きのぼかしなど,動的かつ困難な状況のため,移動ロボット専用のアルゴリズムを開発することは困難である。 本稿では2つのサブシステム(LiDARとモノクロ視覚SLAM)と融合フレームワークを含む幾何学的特徴に基づく密結合LiDAR視覚SLAMを提案する。 fusion frameworkはマルチモーダル幾何学的特徴の深さと意味を関連付け、視覚的ラインランドマークを補完し、バンドル調整(ba)における方向最適化を追加する。 これはさらに視覚のオドメトリーを制約する。 一方、視覚サブシステムによって検出された全線分は、幾何学的特徴の局所的な計算のみを行うLiDARサブシステムの制限を克服する。 線形特徴点の方向を調整し、異常値をフィルターアウトすることで、より正確なオドメトリシステムを実現する。 最後に,視覚サブシステム追跡が失敗する間,lidarサブシステムの出力を補完的軌道としてシステムに提供し,サブシステムの動作を検出するモジュールを用いる。 各種屋内・屋外シナリオにまたがる地上ロボットから収集した公共データセットM2DGRの評価結果は,現状のマルチモーダル手法と比較して,より正確でロバストなポーズ推定を実現することを示す。

The mobile robot relies on SLAM (Simultaneous Localization and Mapping) to provide autonomous navigation and task execution in complex and unknown environments. However, it is hard to develop a dedicated algorithm for mobile robots due to dynamic and challenging situations, such as poor lighting conditions and motion blur. To tackle this issue, we propose a tightly-coupled LiDAR-visual SLAM based on geometric features, which includes two sub-systems (LiDAR and monocular visual SLAM) and a fusion framework. The fusion framework associates the depth and semantics of the multi-modal geometric features to complement the visual line landmarks and to add direction optimization in Bundle Adjustment (BA). This further constrains visual odometry. On the other hand, the entire line segment detected by the visual subsystem overcomes the limitation of the LiDAR subsystem, which can only perform the local calculation for geometric features. It adjusts the direction of linear feature points and filters out outliers, leading to a higher accurate odometry system. Finally, we employ a module to detect the subsystem's operation, providing the LiDAR subsystem's output as a complementary trajectory to our system while visual subsystem tracking fails. The evaluation results on the public dataset M2DGR, gathered from ground robots across various indoor and outdoor scenarios, show that our system achieves more accurate and robust pose estimation compared to current state-of-the-art multi-modal methods.
翻訳日:2023-12-28 01:45:30 公開日:2023-12-26
# ワイルフェルミオンに基づく情報の流れ制御装置と高エネルギー粒子の電磁相互作用に関する興味深い発言

A novel device for controlling the flow of information based on Weyl fermions and an interesting remark regarding the electromagnetic interactions of high energy particles ( http://arxiv.org/abs/2307.06489v2 )

ライセンス: Link先を確認
Georgios N. Tsigaridas, Aristides I. Kechriniotis, Christos A. Tsonos and Konstantinos K. Delibasis(参考訳) 本研究では,ワイルフェルミオンを用いて情報の流れを制御する新しい装置を提案する。 本研究では, 粒子の運動方向に垂直な電場を印加することにより, いくつかの異なるチャネル上でのワイルフェルミオンの流れを完全に制御できることを示す。 このようにして、各チャネル上のワイル電流の有無に応じて、情報を論理ビットとして送信することができる。 また,この装置の応答時間は非常に低く,パラメータの典型的な値として1ps未満であり,100pbpsという非常に高い速度で情報の流れを制御することができることを示した。 このデバイスはまた、電力消費量の低さや電磁摂動に対する堅牢性など、新たな利点を提供しており、電気通信、信号処理、古典的量子コンピューティングなど、いくつかの分野で重要な応用が期待されている。 また, ワイルフェルミオンは適切な磁場を用いて, 提案装置を介して効率的に誘導できることを実証する。 最後に、高エネルギー粒子の電磁相互作用に関する特に興味深い論点について論じる。

In this work we propose a novel device for controlling the flow of information using Weyl fermions. Based on a previous work of our group, we show that it is possible to fully control the flow of Weyl fermions on several different channels, by applying an electric field perpendicular to the direction of motion of the particles on each channel. In this way, we can transmit information as logical bits, depending on the existence or not of a Weyl current on each channel. We also show that the response time of this device is exceptionally low, less than 1 ps, for typical values of its parameters, allowing the control of the flow of information at extremely high rates, of the order of 100 Pbps. This device also offers additional advantages, as low power consumption and robustness against electromagnetic perturbations, and is expected to find important applications in several fields, as telecommunications, signal processing, classical and quantum computing, etc. In addition, we demonstrate that Weyl fermions can be efficiently guided through the proposed device using appropriate magnetic fields. Finally, we discuss a particularly interesting remark regarding the electromagnetic interactions of high energy particles.
翻訳日:2023-12-28 01:45:02 公開日:2023-12-26
# 漸近的にフリーなスケッチリッジアンサンブル:リスク、クロスバリデーション、チューニング

Asymptotically free sketched ridge ensembles: Risks, cross-validation, and tuning ( http://arxiv.org/abs/2310.04357v2 )

ライセンス: Link先を確認
Pratik Patil, Daniel LeJeune(参考訳) ランダム行列理論を用いて一般化クロス検証 (gcv) の一貫性を確立し, スケッチリッジ回帰アンサンブルの予測リスクを推定し, 正規化とスケッチパラメータの効率的かつ一貫したチューニングを可能にした。 その結果、非常に穏やかなデータ仮定の下で、漸近的にフリーなスケッチの幅広いクラスが得られた。 正方形の予測リスクに対して,無意味な暗黙のリッジバイアスとスケッチに基づく分散を分解し,無限アンサンブルでスケッチサイズをチューニングするだけで,そのリスクを大域的に最適化できることを示す。 一般の準4次予測リスク関数に対しては、GCVを拡張して一貫したリスク推定器を構築し、ワッサーシュタイン2計量におけるGCV補正予測の分布収束を得る。 これは特に、トレーニングデータに漸近的に正しいカバレッジ条件で予測間隔を構築することができる。 また,小型のスケッチ付き尾根アンサンブルを用いて,GCVを用いて非スケッチリッジ回帰のリスクを効率的に推定できる「アンサンブルトリック」を提案する。 提案手法は, 合成データと実データの両方を, カウントスケッチ, サブサンプル化離散コサイン変換などの実用的なスケッチを用いて実験的に検証する。

We employ random matrix theory to establish consistency of generalized cross validation (GCV) for estimating prediction risks of sketched ridge regression ensembles, enabling efficient and consistent tuning of regularization and sketching parameters. Our results hold for a broad class of asymptotically free sketches under very mild data assumptions. For squared prediction risk, we provide a decomposition into an unsketched equivalent implicit ridge bias and a sketching-based variance, and prove that the risk can be globally optimized by only tuning sketch size in infinite ensembles. For general subquadratic prediction risk functionals, we extend GCV to construct consistent risk estimators, and thereby obtain distributional convergence of the GCV-corrected predictions in Wasserstein-2 metric. This in particular allows construction of prediction intervals with asymptotically correct coverage conditional on the training data. We also propose an "ensemble trick" whereby the risk for unsketched ridge regression can be efficiently estimated via GCV using small sketched ridge ensembles. We empirically validate our theoretical results using both synthetic and real large-scale datasets with practical sketches including CountSketch and subsampled randomized discrete cosine transforms.
翻訳日:2023-12-28 01:36:13 公開日:2023-12-26
# SeisT:地震モニタリングタスクのための基礎的深層学習モデル

SeisT: A foundational deep learning model for earthquake monitoring tasks ( http://arxiv.org/abs/2310.01037v3 )

ライセンス: Link先を確認
Sen Li, Xu Yang, Anye Cao, Changbin Wang, Yaoqi Liu, Yapeng Liu, Qiang Niu(参考訳) 基礎地震記録である地震計は、地震研究とモニタリングに革命をもたらした。 近年の深層学習の進歩は、地震信号処理をさらに強化し、より正確で効果的な地震モニタリング能力を生み出した。 本稿では,地震モニタリングタスクのための基礎的深層学習モデルである地震計変換器(SeisT)を提案する。 seistは、異なるタスクに合わせた複数のモジュールを組み合わせることで、地震検出、地震位相抽出、第一運動極性分類、マグニチュード推定、後方方位推定、エピセントラル距離推定などのタスクにおいて、分散の一般化性能、最先端モデルよりも優れ、または一致している。 タスクのパフォーマンススコアは、それぞれ0.96, 0.96, 0.68, 0.95, 0.86, 0.55, 0.81である。 既存のモデルと比較して、最も重要な改善はフェーズpピッキング、フェーズsピッキング、マグニチュード推定で観察され、それぞれ1.7%、9.5%、および8.0%の値が得られた。 本研究は,厳密な実験と評価を通じて,地震信号処理と地震研究の発展に寄与する可能性が示唆された。

Seismograms, the fundamental seismic records, have revolutionized earthquake research and monitoring. Recent advancements in deep learning have further enhanced seismic signal processing, leading to even more precise and effective earthquake monitoring capabilities. This paper introduces a foundational deep learning model, the Seismogram Transformer (SeisT), designed for a variety of earthquake monitoring tasks. SeisT combines multiple modules tailored to different tasks and exhibits impressive out-of-distribution generalization performance, outperforming or matching state-of-the-art models in tasks like earthquake detection, seismic phase picking, first-motion polarity classification, magnitude estimation, back-azimuth estimation, and epicentral distance estimation. The performance scores on the tasks are 0.96, 0.96, 0.68, 0.95, 0.86, 0.55, and 0.81, respectively. The most significant improvements, in comparison to existing models, are observed in phase-P picking, phase-S picking, and magnitude estimation, with gains of 1.7%, 9.5%, and 8.0%, respectively. Our study, through rigorous experiments and evaluations, suggests that SeisT has the potential to contribute to the advancement of seismic signal processing and earthquake research.
翻訳日:2023-12-28 01:35:06 公開日:2023-12-26
# 頻繁な逐次学習のためのベイズ設計原理

Bayesian Design Principles for Frequentist Sequential Learning ( http://arxiv.org/abs/2310.00806v3 )

ライセンス: Link先を確認
Yunbei Xu, Assaf Zeevi(参考訳) 逐次学習問題に対する頻繁な後悔を最適化する一般的な理論を開発し,ベイズ主義の原理から効率的な帯域幅と強化学習アルゴリズムを導出する。 各ラウンドで「アルゴリズム的信念」を生成するための新しい最適化手法を提案し、ベイズ的後続法を用いて意思決定を行う。 アルゴリズムの頻繁な後悔を効果的に特徴づける本質的な複雑性尺度を「アルゴリズム情報比」と呼ぶ「アルゴリズム的信念」を作成するための最適化目標とする。 我々の知る限りでは、これはベイズ型アルゴリズムを事前自由化し、汎用的で最適な方法で敵の設定に適用する最初の体系的なアプローチである。 さらに、アルゴリズムは、実装がシンプルで、しばしば効率的である。 そこで本研究では, 確率的, 敵対的, 非定常環境において, 経験的性能を実現するマルチアームバンディットのための新しいアルゴリズムを提案する。 そして,これらの原理が線形包帯,包帯凸最適化,強化学習にどのように利用できるかを説明する。

We develop a general theory to optimize the frequentist regret for sequential learning problems, where efficient bandit and reinforcement learning algorithms can be derived from unified Bayesian principles. We propose a novel optimization approach to generate "algorithmic beliefs" at each round, and use Bayesian posteriors to make decisions. The optimization objective to create "algorithmic beliefs," which we term "Algorithmic Information Ratio," represents an intrinsic complexity measure that effectively characterizes the frequentist regret of any algorithm. To the best of our knowledge, this is the first systematical approach to make Bayesian-type algorithms prior-free and applicable to adversarial settings, in a generic and optimal manner. Moreover, the algorithms are simple and often efficient to implement. As a major application, we present a novel algorithm for multi-armed bandits that achieves the "best-of-all-worlds" empirical performance in the stochastic, adversarial, and non-stationary environments. And we illustrate how these principles can be used in linear bandits, bandit convex optimization, and reinforcement learning.
翻訳日:2023-12-28 01:34:44 公開日:2023-12-26
# シーケンス・ツー・シーケンスアーキテクチャを組み込んだメモリ対応マルチスピーカを用いたニューラルスピーカダイアリゼーション

Neural Speaker Diarization Using Memory-Aware Multi-Speaker Embedding with Sequence-to-Sequence Architecture ( http://arxiv.org/abs/2309.09180v2 )

ライセンス: Link先を確認
Gaobin Yang, Maokui He, Shutong Niu, Ruoyu Wang, Yanyan Yue, Shuangqing Qian, Shilong Wu, Jun Du, Chin-Hui Lee(参考訳) メモリ対応多話者埋め込み(MA-MSE)とシーケンシャル・ツー・シーケンス(Seq2Seq)アーキテクチャの長所を統合し,効率と性能を両立させるメモリ対応多話者埋め込み(NSD-MS2S)を用いたニューラルスピーカダイアリゼーションシステムを提案する。 次に、入力特徴フュージョンを組み込んでデコーディングのメモリ占有を更に減らし、異なるレベルの特徴をキャプチャするためにマルチヘッドアテンション機構を用いる。 nsd-ms2sは、chime-7 evalセット上で15.9%のマクロダイアリゼーションエラーレート(der)を達成し、これは公式ベースラインシステムと比較して49%の相対的な改善を示し、chime-7 dasrチャレンジのメイントラックで最高の性能を達成するための重要な技術である。 さらに,ma-mseモジュールにディープインタラクティブモジュール(dim)を導入して,よりクリーンでより識別可能なマルチスピーカー埋め込みの検索を改善し,現在のモデルがchime-7 dasrチャレンジで使用したシステムよりも優れています。 私たちのコードはhttps://github.com/liyunlongaaa/NSD-MS2Sで公開されます。

We propose a novel neural speaker diarization system using memory-aware multi-speaker embedding with sequence-to-sequence architecture (NSD-MS2S), which integrates the strengths of memory-aware multi-speaker embedding (MA-MSE) and sequence-to-sequence (Seq2Seq) architecture, leading to improvement in both efficiency and performance. Next, we further decrease the memory occupation of decoding by incorporating input features fusion and then employ a multi-head attention mechanism to capture features at different levels. NSD-MS2S achieved a macro diarization error rate (DER) of 15.9% on the CHiME-7 EVAL set, which signifies a relative improvement of 49% over the official baseline system, and is the key technique for us to achieve the best performance for the main track of CHiME-7 DASR Challenge. Additionally, we introduce a deep interactive module (DIM) in MA-MSE module to better retrieve a cleaner and more discriminative multi-speaker embedding, enabling the current model to outperform the system we used in the CHiME-7 DASR Challenge. Our code will be available at https://github.com/liyunlongaaa/NSD-MS2S.
翻訳日:2023-12-28 01:34:27 公開日:2023-12-26
# 線形多重カーネルを用いたガウス過程の分散学習

Sparsity-Aware Distributed Learning for Gaussian Processes with Linear Multiple Kernel ( http://arxiv.org/abs/2309.08201v2 )

ライセンス: Link先を確認
Richard Cornelius Suwandi, Zhidi Lin, Feng Yin, Zhiguo Wang, Sergios Theodoridis(参考訳) ガウス過程(GP)は、機械学習と信号処理において重要なツールであり、その効果はカーネル設計とハイパーパラメータ最適化に基づいている。 本稿では,新しいgp線形多重カーネル(lmk)と,超パラメータを最適化するための汎用分散学習フレームワークを提案する。 新たに提案されたグリッドスペクトル混合(GSM)カーネルは多次元データ向けに調整され、近似能力を維持しつつ、ハイパーパラメータの数を効果的に削減する。 さらに、このカーネルのハイパーパラメータ最適化がスパース解をもたらすことを示す。 そこで本研究では,Sparse LInear Multiple Kernel Learning (SLIM-KL) フレームワークを提案する。 このフレームワークは、複数のエージェント間の協調学習のための乗算器(ADMM)スキームの量子交互方向法を取り入れ、分散逐次凸近似(DSCA)アルゴリズムを用いて局所最適化問題を解く。 SLIM-KLは提案したカーネルの大規模ハイパーパラメータ最適化を効果的に管理し、同時にデータのプライバシの確保と通信コストの最小化を行う。 理論解析は学習フレームワークの収束保証を確立し,多様なデータセットを用いた実験は提案手法の優れた予測性能と効率を示す。

Gaussian processes (GPs) stand as crucial tools in machine learning and signal processing, with their effectiveness hinging on kernel design and hyper-parameter optimization. This paper presents a novel GP linear multiple kernel (LMK) and a generic sparsity-aware distributed learning framework to optimize the hyper-parameters. The newly proposed grid spectral mixture (GSM) kernel is tailored for multi-dimensional data, effectively reducing the number of hyper-parameters while maintaining good approximation capabilities. We further demonstrate that the associated hyper-parameter optimization of this kernel yields sparse solutions. To exploit the inherent sparsity property of the solutions, we introduce the Sparse LInear Multiple Kernel Learning (SLIM-KL) framework. The framework incorporates a quantized alternating direction method of multipliers (ADMM) scheme for collaborative learning among multiple agents, where the local optimization problem is solved using a distributed successive convex approximation (DSCA) algorithm. SLIM-KL effectively manages large-scale hyper-parameter optimization for the proposed kernel, simultaneously ensuring data privacy and minimizing communication costs. Theoretical analysis establishes convergence guarantees for the learning framework, while experiments on diverse datasets demonstrate the superior prediction performance and efficiency of our proposed methods.
翻訳日:2023-12-28 01:33:40 公開日:2023-12-26
# 単一画像参照に対する潜在劣化表現制約

Latent Degradation Representation Constraint for Single Image Deraining ( http://arxiv.org/abs/2309.04780v2 )

ライセンス: Link先を確認
Yuhong He, Long Peng, Lu Wang, Jun Cheng(参考訳) 雨片は様々な形状や方向を示すため、劣化表現の学習は単一の画像参照において極めて困難である。 既存の手法は主に複雑なモジュールの設計を目的としており、雨画像から潜在劣化表現を暗黙的に学習している。 このように、明示的な制約の欠如により、コンテンツ非依存の劣化表現を分離することは困難であり、結果として過度あるいは過小評価の問題が発生する。 そこで本稿では,DAEncoder(Direction-Aware Encoder),UNet Deraining Network(UNet Deraining Network),Multi-Scale Interaction Block(MSIBlock)からなるLDRCNet(Latent Degradation Representation Constraint Network)を提案する。 具体的には, 変形可能な畳み込みを用いて降雨の方向の整合性を利用して, 遅延劣化表現を適応的に抽出するDAEncoderを提案する。 次に、トレーニング中の劣化表現学習を明示的に制約するために制約損失を導入する。 最後に,情報伝達を適応的に行うために,情報伝達ネットワークの学習した劣化表現とデコーダ特徴を融合させるmsiブロックを提案する。 合成および実データを用いた実験結果から,本手法が新たな最先端性能を実現することを示す。

Since rain streaks show a variety of shapes and directions, learning the degradation representation is extremely challenging for single image deraining. Existing methods are mainly targeted at designing complicated modules to implicitly learn latent degradation representation from coupled rainy images. This way, it is hard to decouple the content-independent degradation representation due to the lack of explicit constraint, resulting in over- or under-enhancement problems. To tackle this issue, we propose a novel Latent Degradation Representation Constraint Network (LDRCNet) that consists of Direction-Aware Encoder (DAEncoder), UNet Deraining Network, and Multi-Scale Interaction Block (MSIBlock). Specifically, the DAEncoder is proposed to adaptively extract latent degradation representation by using the deformable convolutions to exploit the direction consistency of rain streaks. Next, a constraint loss is introduced to explicitly constraint the degradation representation learning during training. Last, we propose an MSIBlock to fuse with the learned degradation representation and decoder features of the deraining network for adaptive information interaction, which enables the deraining network to remove various complicated rainy patterns and reconstruct image details. Experimental results on synthetic and real datasets demonstrate that our method achieves new state-of-the-art performance.
翻訳日:2023-12-28 01:33:17 公開日:2023-12-26
# パックのリード:N-player Opponent Shaping

Leading the Pack: N-player Opponent Shaping ( http://arxiv.org/abs/2312.12564v2 )

ライセンス: Link先を確認
Alexandra Souly, Timon Willi, Akbir Khan, Robert Kirk, Chris Lu, Edward Grefenstette, Tim Rockt\"aschel(参考訳) 強化学習ソリューションは、2人の総和設定で大きな成功を収める。 この設定では、エージェントが共同プレイヤの学習に責任を負う、対向的シェーピング(OS)のパラダイムが、全体として悪い結果を回避し、報酬を最大化するエージェントへと導いてきた。 この方法は現在2人のプレイヤーに制限されている。 しかし、現実の世界には、多くのエージェントとの相互作用があり、ローカルスケールとグローバルスケールの両方で相互作用する。 本稿では,複数のコプレーヤと複数のシェーピングエージェントを含む環境に対して,対向シェーピング(os)手法を拡張する。 我々は,3から5までのプレイヤー数が異なる4つの異なる環境上で評価を行い,モデルベースのOS手法がナイーブラーニングよりも優れたグローバル福祉と均衡に収束することを実証した。 しかし,多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。 最後に,複数のosメソッドが存在するシナリオを考察し,協調エージェントの多数を必要とするゲームでは,osメソッドがグローバル福祉の貧弱な結果に収束することに注目した。

Reinforcement learning solutions have great success in the 2-player general sum setting. In this setting, the paradigm of Opponent Shaping (OS), in which agents account for the learning of their co-players, has led to agents which are able to avoid collectively bad outcomes, whilst also maximizing their reward. These methods have currently been limited to 2-player game. However, the real world involves interactions with many more agents, with interactions on both local and global scales. In this paper, we extend Opponent Shaping (OS) methods to environments involving multiple co-players and multiple shaping agents. We evaluate on over 4 different environments, varying the number of players from 3 to 5, and demonstrate that model-based OS methods converge to equilibrium with better global welfare than naive learning. However, we find that when playing with a large number of co-players, OS methods' relative performance reduces, suggesting that in the limit OS methods may not perform well. Finally, we explore scenarios where more than one OS method is present, noticing that within games requiring a majority of cooperating agents, OS methods converge to outcomes with poor global welfare.
翻訳日:2023-12-28 01:26:12 公開日:2023-12-26
# 真正性・不確実性・多様性を考慮したグラフ分類に対するモデル盗み攻撃

Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity ( http://arxiv.org/abs/2312.10943v2 )

ライセンス: Link先を確認
Zhihao Zhu, Chenwang Wu, Rui Fan, Yi Yang, Defu Lian, Enhong Chen(参考訳) 近年の研究では、gnnがモデル盗み攻撃に対して脆弱であることを実証している。 しかしながら、主にノード分類タスクに重点を置いており、グラフ分類タスクのドメイン内で発生する潜在的な脅威を無視している。 さらに、その実用性は、特に大規模データ要求と広範なモデル知識に関する不合理な仮定のために疑わしい。 そこで本研究では,実データに制限のある厳密な設定と,合成データを生成するためのハードラベル認識を推奨する。 Specifically, following important data generation principles, we introduce three model stealing attacks to adapt to different actual scenarios: MSA-AU is inspired by active learning and emphasizes the uncertainty to enhance query value of generated samples; MSA-AD introduces diversity based on Mixup augmentation strategy to alleviate the query inefficiency issue caused by over-similar samples generated by MSA-AU; MSA-AUD combines the above two strategies to seamlessly integrate the authenticity, uncertainty, and diversity of the generated samples. 最後に、広範囲にわたる実験により、隠れ、クエリ効率、盗み性能の観点から提案手法の優位性を一貫して示している。

Recent research demonstrates that GNNs are vulnerable to the model stealing attack, a nefarious endeavor geared towards duplicating the target model via query permissions. However, they mainly focus on node classification tasks, neglecting the potential threats entailed within the domain of graph classification tasks. Furthermore, their practicality is questionable due to unreasonable assumptions, specifically concerning the large data requirements and extensive model knowledge. To this end, we advocate following strict settings with limited real data and hard-label awareness to generate synthetic data, thereby facilitating the stealing of the target model. Specifically, following important data generation principles, we introduce three model stealing attacks to adapt to different actual scenarios: MSA-AU is inspired by active learning and emphasizes the uncertainty to enhance query value of generated samples; MSA-AD introduces diversity based on Mixup augmentation strategy to alleviate the query inefficiency issue caused by over-similar samples generated by MSA-AU; MSA-AUD combines the above two strategies to seamlessly integrate the authenticity, uncertainty, and diversity of the generated samples. Finally, extensive experiments consistently demonstrate the superiority of the proposed methods in terms of concealment, query efficiency, and stealing performance.
翻訳日:2023-12-28 01:25:20 公開日:2023-12-26
# 2層エミッタと少数キャビティによるパッシブフォトニック位相ゲート

Passive Photonic Phase Gate via a Two-Level Emitter and Few Cavities ( http://arxiv.org/abs/2312.10719v2 )

ライセンス: Link先を確認
Zhaohua Tian and Xue-Wen Chen(参考訳) 2レベルエミッタと少数のキャビティからなる単純なシステムでは、単一光子量子ビットを走行するための高忠実度決定性制御-$\pi$-phaseゲートが実現可能である。 ゲートはエミッタとキャビティ間の結合速度の最適設定と適切な時間的形状の光子ウェーブパペットの使用に依存しており、これは単にゲート操作がウェーブパペットの完全な吸収と再放出のプロセスに繋がる可能性がある。 このため、位相ゲートとしての非線形媒体の使用に伴う長年の課題を回避し、ウェーブパックの歪みがない。 吸収と再放出の過程を経て、2レベルエミッタは2光子ウェーブパックの非線形$\pi$位相シフトを可能にする。 ゲートの忠実度はわずか4つのキャビティで99%以上に達することができた。 提案したゲートは受動的であり、そのアーキテクチャは集積フォトニックプラットフォームと互換性があり、近年の量子フォトニクスの発展と一致している。

We show that a simple system consisting of a two-level emitter and few cavities could realize a high-fidelity deterministic controlled-$\pi$-phase gate for traveling single-photon qubits. The gate relies on the optimal setting of the coupling rates among the emitter and cavities and the use of photon wavepackets with an appropriate temporal shape, which could simply the gate operation to a process of complete absorption and re-emission of the wavepackets. consequently, it is free of wavepacket distortions, circumventing the long-standing challenge associated with the use of nonlinear media as a phase gate. Undergoing the process of absorption and re-emission, the two-level emitter enables a nonlinear $\pi$ phase shift for the two-photon wavepacket. The gate fidelity could reach over 99% with only four cavities. The proposed gate is passive and its architecture is compatible with integrated photonic platforms and in line with recent developments in quantum photonics.
翻訳日:2023-12-28 01:25:03 公開日:2023-12-26
# SlowTrack: 反対例を用いた自律運転におけるカメラベース知覚のレイテンシ向上

SlowTrack: Increasing the Latency of Camera-based Perception in Autonomous Driving Using Adversarial Examples ( http://arxiv.org/abs/2312.09520v2 )

ライセンス: Link先を確認
Chen Ma, Ningfei Wang, Qi Alfred Chen, Chao Shen(参考訳) 自律運転(AD)では、リアルタイム認識は周囲の物体を検知して安全な運転を確実にするための重要な要素である。 研究者は、その安全性とセキュリティの影響から、広告知覚の完全性を検討したが、可用性(リアルタイムパフォーマンス)やレイテンシの側面は、あまり注目されていない。 既存の遅延ベースの攻撃の研究は、主にオブジェクト検出、すなわちカメラベースのAD知覚のコンポーネントに焦点を当てており、カメラベースのAD認識全体を見渡すことで、車両のクラッシュのような効果的なシステムレベルの効果を達成するのを妨げている。 本稿では,カメラベースの広告知覚の実行時間を増やすために,敵対的攻撃を発生させる新しいフレームワークであるslowtrackを提案する。 3つの新しい損失関数設計とともに,新たな2段階攻撃戦略を提案する。 その結果,SlowTrackは既存の遅延ベースの攻撃に対して,同等の非受容レベルを維持しながら有意に優れていたことがわかった。 さらに,業界レベルのフルスタックADシステムであるBaidu Apolloと,生産レベルのADシミュレータであるLGSVLについて,SlowTrackと既存攻撃のシステムレベル効果を比較する2つのシナリオで評価を行った。 評価の結果,slowtrackの車両クラッシュ率は平均で95%程度であり,既存の作業では30%程度であることがわかった。

In Autonomous Driving (AD), real-time perception is a critical component responsible for detecting surrounding objects to ensure safe driving. While researchers have extensively explored the integrity of AD perception due to its safety and security implications, the aspect of availability (real-time performance) or latency has received limited attention. Existing works on latency-based attack have focused mainly on object detection, i.e., a component in camera-based AD perception, overlooking the entire camera-based AD perception, which hinders them to achieve effective system-level effects, such as vehicle crashes. In this paper, we propose SlowTrack, a novel framework for generating adversarial attacks to increase the execution time of camera-based AD perception. We propose a novel two-stage attack strategy along with the three new loss function designs. Our evaluation is conducted on four popular camera-based AD perception pipelines, and the results demonstrate that SlowTrack significantly outperforms existing latency-based attacks while maintaining comparable imperceptibility levels. Furthermore, we perform the evaluation on Baidu Apollo, an industry-grade full-stack AD system, and LGSVL, a production-grade AD simulator, with two scenarios to compare the system-level effects of SlowTrack and existing attacks. Our evaluation results show that the system-level effects can be significantly improved, i.e., the vehicle crash rate of SlowTrack is around 95% on average while existing works only have around 30%.
翻訳日:2023-12-28 01:24:21 公開日:2023-12-26
# 空間の動的真空圧縮性

Dynamical Vacuum Compressibility of Space ( http://arxiv.org/abs/2312.09047v2 )

ライセンス: Link先を確認
Yu-Cun Xie, Jen-Tsung Hsiang, Bei-Lok Hu(参考訳) 本稿では、大質量および無質量共役量子場を含む様々な動的時空の真空圧縮性を導出することにより、空間の量子熱力学特性に関するarXiv:2204.08634の研究を継続する。 ここで研究されている量子過程は、粒子生成、カシミール効果、トレース異常である。 空間は、所定の時間進化を持つ$S^2, S^3$, $T^3$, $S^1$を含む。 真空圧縮性は、1970年にZel'dovichによって提唱された真空粒子生成が初期の宇宙の力学に与える影響を捉えるための概念である真空粘性(英語版)と同じ量子熱力学/機械的応答関数のグループに属し、その後10年間に多くの著者による厳密な研究によって、曲面時空法における量子場理論と半古典重力理論を用いてバックレアクション効果を治療した。 量子場の起源の真空エネルギーの挙動, 負圧, 動的圧縮性の新たな複雑な特徴について, 様々な微妙な考察を行った。

This paper continues the investigation initiated in arXiv:2204.08634 into the quantum thermodynamic properties of space by deriving the vacuum compressibility of a variety of dynamical spacetimes containing massive and massless conformally coupled quantum fields. The quantum processes studied here include particle creation, Casimir effect, and the trace anomaly. The spaces include $S^2, S^3$, and $T^3$ with prescribed time evolution and $S^1$, where the temporal developments are backreaction determined. Vacuum compressibility belongs to the same group of quantum thermodynamic / mechanical response functions as vacuum viscosity, a concept first proposed in 1970 by Zel'dovich for capturing the effects of vacuum particle production on the dynamics of the early universe, made precise by rigorous work of many authors in the following decade using quantum field theory in curved spacetime methodologies and semiclassical gravity theory for treating backreaction effects. Various subtleties in understanding the behavior of the vacuum energies of quantum field origins, negative pressures and novel complicated features of dynamical compressibility are discussed.
翻訳日:2023-12-28 01:23:32 公開日:2023-12-26
# 通信コストが18キロバイト未満の10億大言語モデルのフェデレーションフルパラメータチューニング

Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes ( http://arxiv.org/abs/2312.06353v2 )

ライセンス: Link先を確認
Zhen Qin, Daoyuan Chen, Bingchen Qian, Bolin Ding, Yaliang Li, Shuiguang Deng(参考訳) 事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整を必要とする。 federated learning(fl)は、データプライバシを損なうことなく、エンドデバイス上の豊富なデータを使用して微調整を行う方法を提供する。 LLMの既存のファインチューニング手法の多くはパラメータ効率のよいファインチューニング技術に依存しており、フルパラメータチューニングでは到達できない。 しかし、フルパラメータチューニングに伴う通信オーバーヘッドは、サーバとクライアントの両方にとって非常に高い。 この研究は、ゼロ階最適化(ZOO)とランダムシードのセットを利用する新しいアプローチであるFedKSeedを紹介する。 デバイス上で、数十億のLLMを直接フルパラメータチューニングすることができる。 この手法はサーバとクライアント間の送信要求をほんの数スカラーの勾配とランダムな種に大幅に削減し、わずか数千バイトにまで削減する。 そこで我々は, FLに対するZOO摂動の意義を評価する戦略を開発し, 確率差シードサンプリングを可能にした。 これはモデル精度により大きな影響を与える摂動を優先する。 異なるLLM,データセット,データパーティションを用いた6つのシナリオを対象とした実験により,我々の手法は,コミュニケーション効率とタスク一般化の両面から,既存のLLMファインチューニング手法よりも優れていることを示した。

Pre-trained large language models (LLMs) require fine-tuning to improve their responsiveness to natural language instructions. Federated learning (FL) offers a way to perform fine-tuning using the abundant data on end devices without compromising data privacy. Most existing federated fine-tuning methods for LLMs rely on parameter-efficient fine-tuning techniques, which may not reach the performance heights possible with full-parameter tuning. However, the communication overhead associated with full-parameter tuning is prohibitively high for both servers and clients. This work introduces FedKSeed, a novel approach that employs zeroth-order optimization (ZOO) with a set of random seeds. It enables federated full-parameter tuning of billion-sized LLMs directly on devices. Our method significantly reduces transmission requirements between the server and clients to just a few scalar gradients and random seeds, amounting to only a few thousand bytes. Building on this, we develop a strategy to assess the significance of ZOO perturbations for FL, allowing for probability-differentiated seed sampling. This prioritizes perturbations that have a greater impact on model accuracy. Experiments across six scenarios with different LLMs, datasets and data partitions demonstrate that our approach outperforms existing federated LLM fine-tuning methods in terms of both communication efficiency and new task generalization.
翻訳日:2023-12-28 01:22:58 公開日:2023-12-26
# ギャップのブリッジ:モデル予測制御にインスパイアされた検証可能なモデルフリー二次プログラミングコントローラ

Bridging the Gaps: Learning Verifiable Model-Free Quadratic Programming Controllers Inspired by Model Predictive Control ( http://arxiv.org/abs/2312.05332v2 )

ライセンス: Link先を確認
Yiwen Lu, Zishuo Li, Yihan Zhou, Na Li, Yilin Mo(参考訳) 本稿では,モデル予測制御(MPC)からインスピレーションを得た新しいパラメータ化コントローラについて紹介する。 コントローラは線形MPC問題の擬似プログラミング(QP)解法に似ており、コントローラのパラメータはシステムモデルから派生するのではなく、Deep Reinforcement Learning(DRL)を介して訓練されている。 このアプローチは、多層パーセプトロン(MLP)や他のDRLで使用される一般的なニューラルネットワークアーキテクチャによる共通コントローラの制限を、検証性と性能保証の観点から解決し、学習したコントローラは、MPCに似た持続可能性や漸近安定性などの検証可能な特性を有する。 一方,提案するコントローラは,制御性能の面ではmpcやmlpコントローラと実証的に一致し,モデリングの不確かさやノイズに対して優れたロバスト性を有することを示す数値例がある。 さらに,提案した制御器はMPCに比べて計算効率が良く,MLP制御器よりも学習パラメータが少ない。 車両のドリフト操作タスクに関する実世界実験は、ロボットやその他の必要な制御タスクにおけるこれらのコントローラーの可能性を示しています。

In this paper, we introduce a new class of parameterized controllers, drawing inspiration from Model Predictive Control (MPC). The controller resembles a Quadratic Programming (QP) solver of a linear MPC problem, with the parameters of the controller being trained via Deep Reinforcement Learning (DRL) rather than derived from system models. This approach addresses the limitations of common controllers with Multi-Layer Perceptron (MLP) or other general neural network architecture used in DRL, in terms of verifiability and performance guarantees, and the learned controllers possess verifiable properties like persistent feasibility and asymptotic stability akin to MPC. On the other hand, numerical examples illustrate that the proposed controller empirically matches MPC and MLP controllers in terms of control performance and has superior robustness against modeling uncertainty and noises. Furthermore, the proposed controller is significantly more computationally efficient compared to MPC and requires fewer parameters to learn than MLP controllers. Real-world experiments on vehicle drift maneuvering task demonstrate the potential of these controllers for robotics and other demanding control tasks.
翻訳日:2023-12-28 01:22:35 公開日:2023-12-26
# moirai: 不均一デバイス上での分散推論の最適配置に向けて

Moirai: Towards Optimal Placement for Distributed Inference on Heterogeneous Devices ( http://arxiv.org/abs/2312.04025v3 )

ライセンス: Link先を確認
Beibei Zhang, Hongwei Zhu, Feng Gao, Zhihui Yang, Sean Xiaoyang Wang(参考訳) Deep Neural Networks(DNN)のエスカレートサイズは、複数のデバイスにまたがるDNNモデルのホスティングと提供に対する研究の関心を高めている。 デバイス間でDNNモデルを分割し、デバイス配置ソリューションを提供するいくつかの研究が報告されている。 しかし,本手法は,指数探索空間による配置性能の低下に悩まされるか,限定的なヒューリスティクスによる探索空間の縮小による最適配置を見逃すかのいずれかであった。 さらに、これらの手法は、グラフの粗化時に計算グラフの演算子間最適化を無視し、エンドツーエンドの推論性能を劣化させる。 本稿では,モデル内で実行時の演算子間融合をうまく活用して粗い計算グラフを描画し,推論バックエンドによるオペレータ間最適化を維持しながら探索空間を縮小するmoiraiを提案する。 Moiraiはまた、推論制約とデバイス不均一性を考慮し、デバイス配置アルゴリズムを多面的に一般化する。11の大規模なDNNによる大規模な実験的評価により、Moiraiは最先端の予測遅延(Placeto、m-SCT、GETF)を最大4.28$\times$で上回っている。 moirai コードは \url{https://github.com/moirai-placement/moirai} で匿名でリリースされる。

The escalating size of Deep Neural Networks (DNNs) has spurred a growing research interest in hosting and serving DNN models across multiple devices. A number of studies have been reported to partition a DNN model across devices, providing device placement solutions. The methods appeared in the literature, however, either suffer from poor placement performance due to the exponential search space or miss an optimal placement as a consequence of the reduced search space with limited heuristics. Moreover, these methods have ignored the runtime inter-operator optimization of a computation graph when coarsening the graph, which degrades the end-to-end inference performance. This paper presents Moirai that better exploits runtime inter-operator fusion in a model to render a coarsened computation graph, reducing the search space while maintaining the inter-operator optimization provided by inference backends. Moirai also generalizes the device placement algorithm from multiple perspectives by considering inference constraints and device heterogeneity.Extensive experimental evaluation with 11 large DNNs demonstrates that Moirai outperforms the state-of-the-art counterparts, i.e., Placeto, m-SCT, and GETF, up to 4.28$\times$ in reduction of the end-to-end inference latency. Moirai code is anonymously released at \url{https://github.com/moirai-placement/moirai}.
翻訳日:2023-12-28 01:22:14 公開日:2023-12-26
# 光キャビティ、2レベル原子およびJaynes-Cummingsエミッタで散乱した光子状態の統計

Statistics of tens-of-photon states scattered by optical cavity, two-level atom and Jaynes-Cummings emitter ( http://arxiv.org/abs/2311.16599v2 )

ライセンス: Link先を確認
Jia-Nan Wu and Bingsuo Zou and and Yongyou Zhang(参考訳) 光子状態を操作することは様々な光学デバイスの主要な要件であり、量子情報技術には高い関連性がある。 それでも十万光子状態の基本的な理論的枠組みは確立されていない。 本研究では,光共振器(OC),2レベル原子(TLA)およびJynes-Cummingsエミッタ(JCE)によって散乱した光子状態の統計を導出するために,行列積状態理論の確立に成功した。 10光子状態を例として、数光子の場合と異なる新しい物理結果を示す。 我々は、OCが入射光子状態の統計を変更せず、光子番号に依存しないことを検証する。 しかし、TLAやJCEでは、光子数は光子束と反膨らみの挙動に強く影響を及ぼす。 光子数が増加するにつれて、JCEによって誘導される光子-光子相関の最大強度が存在する。 特に、tla(jce)による散乱波は、bi-photonの場合と10-photonの場合とは非常に異なる統計挙動を示す。 これらの十光子状態と行列生成状態理論の区別可能な結論は、多光子操作への道を開く。

Manipulating photon states serves as a primary requirement for various optical devices and is of high relevance for quantum information technology. Nevertheless, the fundamental theoretical framework for tens-of-photon states has not been established. This study successfully establishes the matrix-product-state theory to explore the statistics of the tens-of-photon states scattered by optical cavities (OCs), two-level atoms (TLAs), and Jaynes-Cummings emitters (JCEs) in waveguide-QED systems. Taking 10-photon states as an example, we reveal some novel physical results that differ from those for few-photon cases. We verify that OCs do not change the statistics of the incident photon states, being independent of the photon number. However, for the TLAs and JCEs, the photon number strongly impacts the photon bunching and anti-bunching behaviors. As the photon number increases, there exists a maximum strength for the photon-photon correlation induced by the JCE. Especially, the scattered waves by the TLA (or JCE) exhibit extremely different statistics behaviors for the 10-photon cases from those for the bi-photon. These distinguishable conclusions for the tens-of-photon states and the matrix-product-state theory pave the way for the multi-photon manipulation.
翻訳日:2023-12-28 01:21:22 公開日:2023-12-26
# HandyPriors: 利き手と利き手との相互作用の物理的に一貫性のある知覚

HandyPriors: Physically Consistent Perception of Hand-Object Interactions with Differentiable Priors ( http://arxiv.org/abs/2311.16552v3 )

ライセンス: Link先を確認
Shutong Zhang, Yi-Ling Qiao, Guanglei Zhu, Eric Heiden, Dylan Turpin, Jingzhou Liu, Ming Lin, Miles Macklin, Animesh Garg(参考訳) ハンドオブジェクトの相互作用をモデル化するための様々なヒューリスティックな目的が過去の研究で提案されている。 しかしながら、結束的な枠組みが欠如しているため、これらの目的はしばしば適用範囲が狭く、その効率や精度によって制限される。 本稿では,近年の微分物理学とレンダリングの進歩を活用して,人間と物体の相互作用シーンにおけるポーズ推定のための統一的で汎用的なパイプラインであるHandyPriorsを提案する。 提案手法では,入力画像やセグメンテーションマスクとレンダリングプリエントと物理プリエントを併用することで,フレーム間の透過性や相対スライディングを緩和する。 さらに,手と物体のポーズ推定のための2つの代替案を提案する。 最適化に基づくポーズ推定は精度が向上する一方、微分可能前処理をダイナミクスモデルやオブザーバモデルとして利用するフィルタリングベーストラッキングはより高速に実行される。 我々は,HandyPriorsがポーズ推定タスクにおいて同等あるいは優れた結果が得られることを実証し,識別可能な物理モジュールがポーズ修正のための接触情報を予測できることを実証した。 また,本手法はロボットハンド操作や野生の人間-対象ポーズ推定を含む知覚タスクに一般化することを示した。

Various heuristic objectives for modeling hand-object interaction have been proposed in past work. However, due to the lack of a cohesive framework, these objectives often possess a narrow scope of applicability and are limited by their efficiency or accuracy. In this paper, we propose HandyPriors, a unified and general pipeline for pose estimation in human-object interaction scenes by leveraging recent advances in differentiable physics and rendering. Our approach employs rendering priors to align with input images and segmentation masks along with physics priors to mitigate penetration and relative-sliding across frames. Furthermore, we present two alternatives for hand and object pose estimation. The optimization-based pose estimation achieves higher accuracy, while the filtering-based tracking, which utilizes the differentiable priors as dynamics and observation models, executes faster. We demonstrate that HandyPriors attains comparable or superior results in the pose estimation task, and that the differentiable physics module can predict contact information for pose refinement. We also show that our approach generalizes to perception tasks, including robotic hand manipulation and human-object pose estimation in the wild.
翻訳日:2023-12-28 01:20:58 公開日:2023-12-26
# 演算子学習を用いたPDE制約制御問題の解法

Solving PDE-constrained Control Problems Using Operator Learning ( http://arxiv.org/abs/2111.04941v3 )

ライセンス: Link先を確認
Rakhoon Hwang, Jae Yong Lee, Jin Young Shin, Hyung Ju Hwang(参考訳) 複雑な物理システムのモデリングと制御は実世界の問題に不可欠である。 本稿では, PDE に制約された最適制御問題の解法として, 特殊正規化器を用いた PDE ソリューション演算子の代用モデルを導入することにより, 一般に適用可能な新しいフレームワークを提案する。 提案手法は, PDE制約に対する解演算子学習(Phase 1)と最適制御探索(Phase2)の2段階に分けられる。 サーロゲートモデルがフェーズ1で訓練されると、集中的な計算なしにフェーズ2で最適な制御を推測することができる。 私たちのフレームワークは、データ駆動とデータフリーの両方のケースに適用できます。 本稿では,ポアソン方程式からバーガース方程式まで多種多様なPDE制約を持つ制御変数に対する最適制御問題に対する本手法の適用例を示す。

The modeling and control of complex physical systems are essential in real-world problems. We propose a novel framework that is generally applicable to solving PDE-constrained optimal control problems by introducing surrogate models for PDE solution operators with special regularizers. The procedure of the proposed framework is divided into two phases: solution operator learning for PDE constraints (Phase 1) and searching for optimal control (Phase 2). Once the surrogate model is trained in Phase 1, the optimal control can be inferred in Phase 2 without intensive computations. Our framework can be applied to both data-driven and data-free cases. We demonstrate the successful application of our method to various optimal control problems for different control variables with diverse PDE constraints from the Poisson equation to Burgers' equation.
翻訳日:2023-12-27 23:38:55 公開日:2023-12-26
# 平軸および非同軸光線における「相補性」

'Complementarity' in paraxial and non-paraxial optical beams ( http://arxiv.org/abs/2104.14338v2 )

ライセンス: Link先を確認
Abhinash Kumar Roy, Nitish Kumar Chandra, Soumik Mahanti, Prasanta K. Panigrahi(参考訳) 2次元同軸および3次元非同軸光ビームをそれぞれqubitおよびqutrit系と対応させることにより、ヒルベルト・シュミットコヒーレンス、一般化予測可能性、線形エントロピーの相補関係を導出する。 混合性の尺度である線形エントロピーは、混合二粒子状態の相補性関係を飽和させる。 純粋な2つの量子ビット系とクトリット系では、大域的絡み合いを定量化し、コヒーレンス、予測可能性、絡み合いの間の試行的関係との相補性関係を減少させる。 これらの関係をウェッジ積形式論で解析し,複素ベクトル空間の固有幾何について検討する。 導出された補完関係は、実用的な進歩のために量子特性を操作および活用する能力についての洞察を提供する。

Establishing the correspondence of two dimensional paraxial and three dimensional non-paraxial optical beams with the qubit and qutrit systems respectively, we derive a complementary relation between Hilbert-Schmidt coherence, generalized predictability and linear entropy. The linear entropy, a measure of mixedness is shown to saturate the complementarity relation for mixed bi-partite states. For pure two qubit and qutrit systems, it quantifies the global entanglement and reduces the complementarity relation to the triality relation between coherence, predictability and entanglement. We analyze these relations in wedge-product formalism in order to investigate the innate geometry of the complex vector space. The derived complementary relations offer insights into our ability to manipulate and utilize quantum properties for practical advancements.
翻訳日:2023-12-27 23:37:24 公開日:2023-12-26
# SimCLF:関数レベルのバイナリ埋め込みのためのシンプルなコントラスト学習フレームワーク

SimCLF: A Simple Contrastive Learning Framework for Function-level Binary Embeddings ( http://arxiv.org/abs/2209.02442v2 )

ライセンス: Link先を確認
Sun RuiJin, Guo Shize, Guo Jinhong, Li Wei, Zhan Dazhi, Sun Meng, Pan Zhisong(参考訳) 機能レベルのバイナリコード類似性検出は、サイバーセキュリティの重要な側面である。 リリースソフトウェアにおけるバグの検出と特許侵害を可能にし、サプライチェーン攻撃の防止に重要な役割を果たしている。 実用的な組込み学習フレームワークは、アセンブリコード表現の堅牢性と関数ペアアノテーションの正確性に依存している。 しかし、異なる関数対と正確なラベルをアノテートすることは大きな課題となる。 これらの教師付き学習方法は、容易にオーバートレーニングされ、表現の堅牢性問題に苦しむことができる。 これらの課題に対処するために,関数レベルのバイナリ埋め込みのためのシンプルなコントラスト学習フレームワークSimCLFを提案する。 我々は教師なし学習アプローチを採用し、インスタンス識別としてバイナリコード類似性検出を定式化する。 SimCLFは分解されたバイナリ関数を直接操作し、任意のエンコーダで実装できる。 手動でアノテートした情報ではなく、拡張データのみを必要とする。 拡張データはコンパイラ最適化オプションとコードの難読化技術を使って生成される。 実験の結果、SimCLFは最先端の精度を超越し、数ショット設定において大きな優位性を持つことが示された。

Function-level binary code similarity detection is a crucial aspect of cybersecurity. It enables the detection of bugs and patent infringements in released software and plays a pivotal role in preventing supply chain attacks. A practical embedding learning framework relies on the robustness of the assembly code representation and the accuracy of function-pair annotation, which is traditionally accomplished using supervised learning-based frameworks. However, annotating different function pairs with accurate labels poses considerable challenges. These supervised learning methods can be easily overtrained and suffer from representation robustness problems. To address these challenges, we propose SimCLF: A Simple Contrastive Learning Framework for Function-level Binary Embeddings. We take an unsupervised learning approach and formulate binary code similarity detection as instance discrimination. SimCLF directly operates on disassembled binary functions and could be implemented with any encoder. It does not require manually annotated information but only augmented data. Augmented data is generated using compiler optimization options and code obfuscation techniques. The experimental results demonstrate that SimCLF surpasses the state-of-the-art in accuracy and has a significant advantage in few-shot settings.
翻訳日:2023-12-27 23:32:01 公開日:2023-12-26
# factmix: いくつかのラベル付きインドメイン例を使用して、クロスドメイン名前付きエンティティ認識に一般化する

FactMix: Using a Few Labeled In-domain Examples to Generalize to Cross-domain Named Entity Recognition ( http://arxiv.org/abs/2208.11464v3 )

ライセンス: Link先を確認
Linyi Yang, Lifan Yuan, Leyang Cui, Wenyang Gao, Yue Zhang(参考訳) 名前付きエンティティ認識(NER)は、限られたリソースドメインにおけるエンティティタグ付けに必須であり、近年は適切に注目されている。 既存のNERのアプローチは主にドメイン内設定で評価される。 対照的に、これらの本質的に忠実なモデルは、いくつかのラベル付きドメイン内の例を使用して、クロスドメインのNERでどのように機能するかは、ほとんど分かっていない。 本稿では,モデルの一般化能力を向上させるための2段階の有理中心データ拡張手法を提案する。 いくつかのデータセットで得られた結果から,本手法は従来の最先端手法と比較して,ドメイン間NERタスクの性能を著しく向上させることがわかった。 私たちのコードはhttps://github.com/lifan-yuan/factmixで利用可能です。

Few-shot Named Entity Recognition (NER) is imperative for entity tagging in limited resource domains and thus received proper attention in recent years. Existing approaches for few-shot NER are evaluated mainly under in-domain settings. In contrast, little is known about how these inherently faithful models perform in cross-domain NER using a few labeled in-domain examples. This paper proposes a two-step rationale-centric data augmentation method to improve the model's generalization ability. Results on several datasets show that our model-agnostic method significantly improves the performance of cross-domain NER tasks compared to previous state-of-the-art methods, including the data augmentation and prompt-tuning methods. Our codes are available at https://github.com/lifan-yuan/FactMix.
翻訳日:2023-12-27 23:31:45 公開日:2023-12-26
# menli: 自然言語推論によるロバストな評価指標

MENLI: Robust Evaluation Metrics from Natural Language Inference ( http://arxiv.org/abs/2208.07316v5 )

ライセンス: Link先を確認
Yanran Chen and Steffen Eger(参考訳) 最近提案されたBERTベースのテキスト生成評価指標は、標準的なベンチマークでよく機能するが、情報正当性などの敵攻撃に弱い。 これは、それらが意味的類似性のモデルであるという事実に由来する(一部)。 対照的に、我々は自然言語推論(NLI)に基づく評価指標を開発し、より適切なモデリングを行う。 我々は、嗜好ベースの敵攻撃フレームワークを設計し、我々のNLIベースのメトリクスが最近のBERTベースのメトリクスよりも攻撃に対してより堅牢であることを示す。 標準ベンチマークでは、NLIベースのメトリクスは既存の要約の指標よりも優れていますが、SOTA MTの指標よりは劣ります。 しかし、既存のメトリクスとNLIのメトリクスを組み合わせると、標準ベンチマーク(+5%から30%)で測定された高い逆の堅牢性(15%から30%)と高品質のメトリクスの両方が得られます。

Recently proposed BERT-based evaluation metrics for text generation perform well on standard benchmarks but are vulnerable to adversarial attacks, e.g., relating to information correctness. We argue that this stems (in part) from the fact that they are models of semantic similarity. In contrast, we develop evaluation metrics based on Natural Language Inference (NLI), which we deem a more appropriate modeling. We design a preference-based adversarial attack framework and show that our NLI based metrics are much more robust to the attacks than the recent BERT-based metrics. On standard benchmarks, our NLI based metrics outperform existing summarization metrics, but perform below SOTA MT metrics. However, when combining existing metrics with our NLI metrics, we obtain both higher adversarial robustness (15%-30%) and higher quality metrics as measured on standard benchmarks (+5% to 30%).
翻訳日:2023-12-27 23:31:31 公開日:2023-12-26
# 最大マルチビューエントロピー符号化による事前学習型一般軌道埋め込み

Pre-training General Trajectory Embeddings with Maximum Multi-view Entropy Coding ( http://arxiv.org/abs/2207.14539v2 )

ライセンス: Link先を確認
Yan Lin, Huaiyu Wan, Shengnan Guo, Jilin Hu, Christian S. Jensen, Youfang Lin(参考訳) 時空間的トラジェクタは移動と移動に関する貴重な情報を提供し、現実世界のアプリケーションを動かす様々な下流タスクを可能にする。 学習軌道埋め込みはタスクのパフォーマンスを向上させるが、高い計算コストを伴い、トレーニングデータの可用性が制限される可能性がある。 事前学習は、ラベルのないデータから学習できる特別に構築されたプレテキストタスクにより、汎用的な埋め込みを学ぶ。 既存の事前学習方法 (i)プレテキストタスクによる下流タスクの偏りによる一般的な埋め込み学習の難しさ。 (ii)旅行意味論と時空間相関の両方を捉えることの限界、及び (iii) 長く不規則にサンプリングされた軌道の複雑さ。 これらの課題に対処するために,汎用かつ包括的な軌道埋め込み学習のための最大多視点軌道エントロピー符号化(MMTEC)を提案する。 我々は,事前学習された軌道埋め込みのバイアスを低減し,様々な下流タスクに有用な埋め込みを実現するプリテキストタスクを導入する。 また,アテンションベース離散エンコーダとニューラルCDEベースの連続エンコーダを提案し,それぞれ埋め込み中の軌跡から旅行行動と時空間の連続的相関を抽出し,表現する。 2つの実世界のデータセットと3つのダウンストリームタスクに関する広範な実験は、提案の設計特性について洞察を与え、既存の軌道埋め込みメソッドを上回ることができることを示す。

Spatio-temporal trajectories provide valuable information about movement and travel behavior, enabling various downstream tasks that in turn power real-world applications. Learning trajectory embeddings can improve task performance but may incur high computational costs and face limited training data availability. Pre-training learns generic embeddings by means of specially constructed pretext tasks that enable learning from unlabeled data. Existing pre-training methods face (i) difficulties in learning general embeddings due to biases towards certain downstream tasks incurred by the pretext tasks, (ii) limitations in capturing both travel semantics and spatio-temporal correlations, and (iii) the complexity of long, irregularly sampled trajectories. To tackle these challenges, we propose Maximum Multi-view Trajectory Entropy Coding (MMTEC) for learning general and comprehensive trajectory embeddings. We introduce a pretext task that reduces biases in pre-trained trajectory embeddings, yielding embeddings that are useful for a wide variety of downstream tasks. We also propose an attention-based discrete encoder and a NeuralCDE-based continuous encoder that extract and represent travel behavior and continuous spatio-temporal correlations from trajectories in embeddings, respectively. Extensive experiments on two real-world datasets and three downstream tasks offer insight into the design properties of our proposal and indicate that it is capable of outperforming existing trajectory embedding methods.
翻訳日:2023-12-27 23:30:42 公開日:2023-12-26
# Few-Shot Intent Detectionのための自然言語推論に基づくセットアップの限界探索

Exploring the Limits of Natural Language Inference Based Setup for Few-Shot Intent Detection ( http://arxiv.org/abs/2112.07434v2 )

ライセンス: Link先を確認
Ayush Kumar, Vijit Malik, Jithendra Vepa(参考訳) Intent Detectionはダイアログシステムのコアタスクの1つである。 新規クラスに対する注釈付き発話の数が限られているため,インテント検出は困難である。 一般化されたFewショットインテント検出はより現実的であるが、十分なラベル付きデータからなるサンプルがほとんどない新規インテントと既存のインテントの両方のジョイントラベル空間を識別することを目的としている。 大きなラベルスペースと少ないショットによって、タスクの複雑さが増す。 本研究では,クラスラベル名のセマンティクスを活用して新しいクラスを学習し,予測する,自然言語推論に基づくシンプルで効果的な手法を用いる。 提案手法は,F1の2~8ポイントから4つのベンチマークデータセットのゲインを含む1ショット5ショットインテント検出タスクにおける最先端結果を実現する。 また,本手法は,最大20%のF1スコアを獲得して,より実践的な数ショットインテント検出の手法よりも優れている。 提案手法は,クラスラベル数を最大7から150まで,単一ドメインと複数ドメインのデータセットにまたがって良好に機能することを示す。

Intent Detection is one of the core tasks of dialog systems. Few-shot Intent Detection is challenging due to limited number of annotated utterances for novel classes. Generalized Few-shot intent detection is more realistic but challenging setup which aims to discriminate the joint label space of both novel intents which have few examples each and existing intents consisting of enough labeled data. Large label spaces and fewer number of shots increase the complexity of the task. In this work, we employ a simple and effective method based on Natural Language Inference that leverages the semantics in the class-label names to learn and predict the novel classes. Our method achieves state-of-the-art results on 1-shot and 5-shot intent detection task with gains ranging from 2-8\% points in F1 score on four benchmark datasets. Our method also outperforms existing approaches on a more practical setting of generalized few-shot intent detection with gains up to 20% F1 score. We show that the suggested approach performs well across single and multi domain datasets with the number of class labels from as few as 7 to as high as 150.
翻訳日:2023-12-27 23:28:23 公開日:2023-12-26
# トランスフォーマーがLOLに挑戦:科学的な抽象概念を端から端へ

Transformers Go for the LOLs: Generating (Humourous) Titles from Scientific Abstracts End-to-End ( http://arxiv.org/abs/2212.10522v2 )

ライセンス: Link先を確認
Yanran Chen and Steffen Eger(参考訳) 我々は、NLPと機械学習(ML)の会場から30万以上の抽象タイトルペアを微調整した7つの最新のトランスフォーマーベースモデル(ChatGPTを含む)を探索し、エンドツーエンドの抽象タイトル生成問題を考察する。 拡張として,ユーモラスな紙タイトルを作成することの難しさも考察する。 後者では、NLP/MLドメインにおける科学論文のための最初の大規模なユーモアアノテートデータセットをコンパイルし、約2.6kのタイトルを含む。 人的および自動メトリクスを用いて、すべてのモデルを評価する。 人間の評価は、私たちの最高のエンドツーエンドシステムは、人間の著者と同様の働きをすることを示している(しかし、明らかに少し悪い)。 しかし、面白いタイトルを生成することはより困難であり、我々の自動システムは明らかに人間と比べパフォーマンスが劣り、ユーモアのデータセットアーティファクトを学ぶことが多い。 最後に、ChatGPTは微調整なしで、最高の微調整システムのレベルで動作します。

We consider the end-to-end abstract-to-title generation problem, exploring seven recent transformer based models (including ChatGPT) fine-tuned on more than 30k abstract-title pairs from NLP and machine learning (ML) venues. As an extension, we also consider the harder problem of generating humorous paper titles. For the latter, we compile the first large-scale humor annotated dataset for scientific papers in the NLP/ML domains, comprising almost ~2.6k titles. We evaluate all models using human and automatic metrics. Our human evaluation suggests that our best end-to-end system performs similarly to human authors (but arguably slightly worse). Generating funny titles is more difficult, however, and our automatic systems clearly underperform relative to humans and often learn dataset artefacts of humor. Finally, ChatGPT, without any fine-tuning, performs on the level of our best fine-tuned system.
翻訳日:2023-12-27 23:18:23 公開日:2023-12-26
# クラスプロトタイプを用いたフェデレーション学習におけるデータ不均一性への取り組み

Tackling Data Heterogeneity in Federated Learning with Class Prototypes ( http://arxiv.org/abs/2212.02758v2 )

ライセンス: Link先を確認
Yutong Dai, Zeyuan Chen, Junnan Li, Shelby Heinecke, Lichao Sun, Ran Xu(参考訳) 連邦学習(FL)設定におけるクライアント間のデータの異質性は広く認められている課題である。 これに対し、パーソナライズド・フェデレーション・ラーニング(PFL)は、クライアントのタスクのローカルモデルをキュレートするフレームワークとして登場した。 PFLでは、グローバルモデル(一般化のための)がローカルモデルに通知し、ローカルモデル(パーソナライズのための)がグローバルモデルを更新するために集約される。 重要な観察は、局所モデルの一般化能力を向上させることができれば、グローバルモデルの一般化を改善し、より良いパーソナライズされたモデルを構築することができるということである。 本研究では,分類設定において見過ごされたデータの不均一性であるクラス不均衡について考察する。 クラスプロトタイプの統一性とセマンティクスを組み合わせることにより,個人化と一般化の両面において,局所モデルの性能を向上させる新しい手法であるFedNHを提案する。 FedNHは当初、潜伏空間でクラスプロトタイプを均一に配布し、クラスセマンティクスをクラスプロトタイプにスムーズに注入した。 クラスセマンティクスを注入して局所モデルを改善することで,プロトタイプの崩壊に対処できることを示す。 クロスデバイス設定下で、一般的な分類データセットで広範な実験が行われた。 その結果,本手法の有効性と安定性が示唆された。

Data heterogeneity across clients in federated learning (FL) settings is a widely acknowledged challenge. In response, personalized federated learning (PFL) emerged as a framework to curate local models for clients' tasks. In PFL, a common strategy is to develop local and global models jointly - the global model (for generalization) informs the local models, and the local models (for personalization) are aggregated to update the global model. A key observation is that if we can improve the generalization ability of local models, then we can improve the generalization of global models, which in turn builds better personalized models. In this work, we consider class imbalance, an overlooked type of data heterogeneity, in the classification setting. We propose FedNH, a novel method that improves the local models' performance for both personalization and generalization by combining the uniformity and semantics of class prototypes. FedNH initially distributes class prototypes uniformly in the latent space and smoothly infuses the class semantics into class prototypes. We show that imposing uniformity helps to combat prototype collapse while infusing class semantics improves local models. Extensive experiments were conducted on popular classification datasets under the cross-device setting. Our results demonstrate the effectiveness and stability of our method over recent works.
翻訳日:2023-12-27 23:17:15 公開日:2023-12-26
# FuNVol: 機能的主成分とニューラルSDEを用いたマルチアセットインプリッド変動市場シミュレータ

FuNVol: A Multi-Asset Implied Volatility Market Simulator using Functional Principal Components and Neural SDEs ( http://arxiv.org/abs/2303.00859v4 )

ライセンス: Link先を確認
Vedant Choudhary, Sebastian Jaimungal, Maxime Bergeron(参考訳) 歴史的価格に忠実な複数の資産にまたがるインプリードボラティリティ(IV)表面のシーケンスを生成するための新しいアプローチを導入する。 機能的データ解析と神経確率微分方程式(SDE)の組み合わせと確率積分変換ペナルティを組み合わせることで、モデルの誤特定を減らすことができる。 iv曲面と価格のジョイントダイナミクスを学ぶことは、歴史的特徴と一致し、本質的に静的な仲裁のない曲面のサブマニフォールド内に存在する市場シナリオを生み出すことを実証する。 最後に,シミュレーション表面を用いたデルタヘッジが実効P&Lと整合した利益と損失(P&L)分布を生成することを示す。

We introduce a new approach for generating sequences of implied volatility (IV) surfaces across multiple assets that is faithful to historical prices. We do so using a combination of functional data analysis and neural stochastic differential equations (SDEs) combined with a probability integral transform penalty to reduce model misspecification. We demonstrate that learning the joint dynamics of IV surfaces and prices produces market scenarios that are consistent with historical features and lie within the sub-manifold of surfaces that are essentially free of static arbitrage. Finally, we demonstrate that delta hedging using the simulated surfaces generates profit and loss (P&L) distributions that are consistent with realised P&Ls.
翻訳日:2023-12-27 23:06:34 公開日:2023-12-26
# lealla: 知識蒸留による軽量言語非依存文埋め込みの学習

LEALLA: Learning Lightweight Language-agnostic Sentence Embeddings with Knowledge Distillation ( http://arxiv.org/abs/2302.08387v2 )

ライセンス: Link先を確認
Zhuoyuan Mao and Tetsuji Nakagawa(参考訳) LaBSE (Feng et al., 2022) のような大規模言語に依存しない文埋め込みモデルは, 並列文アライメントのための最先端性能を得る。 しかし、これらの大規模モデルは推論速度と計算オーバーヘッドに苦しむことがある。 本研究は,軽量モデルを用いた言語非依存文埋め込みの学習を体系的に検討する。 シンディープエンコーダは、109言語に対してロバストな低次元文埋め込みを構築できることを実証する。 提案する蒸留法により, 教師モデルからの知識を取り入れ, さらなる改善を実現する。 tatoeba、united nations、buccの実証結果は、我々の軽量モデルの有効性を示している。 TensorFlow Hub上に、軽量言語に依存しない文埋め込みモデルLEALLAをリリースします。

Large-scale language-agnostic sentence embedding models such as LaBSE (Feng et al., 2022) obtain state-of-the-art performance for parallel sentence alignment. However, these large-scale models can suffer from inference speed and computation overhead. This study systematically explores learning language-agnostic sentence embeddings with lightweight models. We demonstrate that a thin-deep encoder can construct robust low-dimensional sentence embeddings for 109 languages. With our proposed distillation methods, we achieve further improvements by incorporating knowledge from a teacher model. Empirical results on Tatoeba, United Nations, and BUCC show the effectiveness of our lightweight models. We release our lightweight language-agnostic sentence embedding models LEALLA on TensorFlow Hub.
翻訳日:2023-12-27 23:05:47 公開日:2023-12-26
# バッチバイナリ分類を超えた量子学習理論

Quantum Learning Theory Beyond Batch Binary Classification ( http://arxiv.org/abs/2302.07409v4 )

ライセンス: Link先を確認
Preetham Mohan, Ambuj Tewari(参考訳) Arunachalam と de Wolf (2018) は、ブール関数の量子バッチ学習のサンプル複雑性が、実現可能で不可知的な設定において、対応する古典的なサンプル複雑度と同じ形式と順序を持つことを示した。 本稿では、これを表向きは意外なことに、バッチマルチクラス学習、オンラインブール学習、オンラインマルチクラス学習に拡張する。 オンライン学習の結果について、我々はまずダウィドとテワリの古典的モデル(2022年)の適応的逆変種を考える。 次に、量子実例を用いたオンライン学習の最初の(私たちの知る限りの)モデルを紹介します。

Arunachalam and de Wolf (2018) showed that the sample complexity of quantum batch learning of boolean functions, in the realizable and agnostic settings, has the same form and order as the corresponding classical sample complexities. In this paper, we extend this, ostensibly surprising, message to batch multiclass learning, online boolean learning, and online multiclass learning. For our online learning results, we first consider an adaptive adversary variant of the classical model of Dawid and Tewari (2022). Then, we introduce the first (to the best of our knowledge) model of online learning with quantum examples.
翻訳日:2023-12-27 23:05:01 公開日:2023-12-26
# dualstreamfoveanet:ロバストなfovea局在を解剖学的に認識するデュアルストリーム融合アーキテクチャ

DualStreamFoveaNet: A Dual Stream Fusion Architecture with Anatomical Awareness for Robust Fovea Localization ( http://arxiv.org/abs/2302.06961v4 )

ライセンス: Link先を確認
Sifan Song, Jinfeng Wang, Zilong Wang, Jionglong Su, Xiaowei Ding, Kang Dang(参考訳) 網膜疾患の分析には正確なfovea局在が不可欠である。 現在のディープラーニングベースの手法は従来の手法よりも優れていますが、胎児の周囲の局所的な解剖学的ランドマークの欠如、病気の網膜画像の堅牢な処理能力の欠如、画像条件の変化といった課題に直面しています。 本稿では,マルチキュー核融合のためのDualStreamFoveaNet (DSFN) と呼ばれるトランスフォーマーアーキテクチャを提案する。 このアーキテクチャは、ロバストなfoveaローカライゼーションのために、網膜と血管分布を用いた長距離接続とグローバルな特徴を明示的に組み込んでいる。 両ストリームエンコーダに空間的注意機構を導入し,自己学習型解剖情報を抽出・融合し,血管に沿って分布する特徴に着目し,トークン数を減らして計算コストを大幅に削減する。 提案アーキテクチャは,2つの公開データセットと1つの大規模プライベートデータセットに対して,最先端のパフォーマンスを実現する。 さらに、DSFNは正常および疾患網膜像の両方においてより堅牢であり、クロスデータセット実験においてより高度な一般化能力を有することを示した。

Accurate fovea localization is essential for analyzing retinal diseases to prevent irreversible vision loss. While current deep learning-based methods outperform traditional ones, they still face challenges such as the lack of local anatomical landmarks around the fovea, the inability to robustly handle diseased retinal images, and the variations in image conditions. In this paper, we propose a novel transformer-based architecture called DualStreamFoveaNet (DSFN) for multi-cue fusion. This architecture explicitly incorporates long-range connections and global features using retina and vessel distributions for robust fovea localization. We introduce a spatial attention mechanism in the dual-stream encoder to extract and fuse self-learned anatomical information, focusing more on features distributed along blood vessels and significantly reducing computational costs by decreasing token numbers. Our extensive experiments show that the proposed architecture achieves state-of-the-art performance on two public datasets and one large-scale private dataset. Furthermore, we demonstrate that the DSFN is more robust on both normal and diseased retina images and has better generalization capacity in cross-dataset experiments.
翻訳日:2023-12-27 23:04:51 公開日:2023-12-26
# 多くの量子の民間統計的推定

Private Statistical Estimation of Many Quantiles ( http://arxiv.org/abs/2302.06943v3 )

ライセンス: Link先を確認
Cl\'ement Lalanne (ENS de Lyon, DANTE, OCKHAM), Aur\'elien Garivier (UMPA-ENSL, MC2), R\'emi Gribonval (DANTE, OCKHAM)(参考訳) 本研究は、微分プライバシー下での多くの統計量体の推定を考察する。 より正確には、その分布とi.d.サンプルへのアクセスが与えられたとき、特定の点における累積分布関数(量子関数)の逆関数の推定について検討する。 例えば、このタスクはプライベートデータ生成において重要なものです。 我々は2つの異なるアプローチを示す。 1つ目は、サンプルの経験的量子化をプライベートに推定し、この結果を用いて分布の量子化を推定することである。 特に,Kaplanらによって導入された最近発表されたアルゴリズムの統計的性質について検討する。 第二のアプローチは、ある間隔における量子関数を均一に推定するために密度推定の手法を使用することである。 特に、2つのメソッドの間にトレードオフがあることを示します。 多くの分位関数を推定したい場合、特定の点における分位関数を推定するよりも密度を推定する方がよい。

This work studies the estimation of many statistical quantiles under differential privacy. More precisely, given a distribution and access to i.i.d. samples from it, we study the estimation of the inverse of its cumulative distribution function (the quantile function) at specific points. For instance, this task is of key importance in private data generation. We present two different approaches. The first one consists in privately estimating the empirical quantiles of the samples and using this result as an estimator of the quantiles of the distribution. In particular, we study the statistical properties of the recently published algorithm introduced by Kaplan et al. 2022 that privately estimates the quantiles recursively. The second approach is to use techniques of density estimation in order to uniformly estimate the quantile function on an interval. In particular, we show that there is a tradeoff between the two methods. When we want to estimate many quantiles, it is better to estimate the density rather than estimating the quantile function at specific points.
翻訳日:2023-12-27 23:04:29 公開日:2023-12-26
# 線形および非線形重尾多腕バンディットのクリッピングによる暗黙的正規化予測器

Implicitly normalized forecaster with clipping for linear and non-linear heavy-tailed multi-armed bandits ( http://arxiv.org/abs/2305.06743v3 )

ライセンス: Link先を確認
Yuriy Dorn and Nikita Kornilov and Nikolay Kutuzov and Alexander Nazin and Eduard Gorbunov and Alexander Gasnikov(参考訳) Implicitly Normalized Forecaster (INF)アルゴリズムは、敵対的マルチアームバンディット(MAB)問題に対する最適解であると考えられている。 しかし、INFの既存の複雑さの結果のほとんどは、有界報酬のような制限的な仮定に依存している。 近年,逆向きと確率的重み付きMAB設定の両方で機能する関連アルゴリズムが提案されている。 しかし、このアルゴリズムは利用可能なデータを完全に活用できない。 本稿では,重み付き報酬分布を持つMAB問題に対するクリッピング (INF-clip) を用いた INF の新バージョンである Implicitly Normalized Forecaster を提案する。 報奨分布の軽度な仮定の下で収束結果を確立し, INF-clip が線形重み付き確率MAB問題に最適であることを示す。 さらに,inf-clipは両世界の最良のアルゴリズムよりも優れており,両腕の区別が困難である。

The Implicitly Normalized Forecaster (INF) algorithm is considered to be an optimal solution for adversarial multi-armed bandit (MAB) problems. However, most of the existing complexity results for INF rely on restrictive assumptions, such as bounded rewards. Recently, a related algorithm was proposed that works for both adversarial and stochastic heavy-tailed MAB settings. However, this algorithm fails to fully exploit the available data. In this paper, we propose a new version of INF called the Implicitly Normalized Forecaster with clipping (INF-clip) for MAB problems with heavy-tailed reward distributions. We establish convergence results under mild assumptions on the rewards distribution and demonstrate that INF-clip is optimal for linear heavy-tailed stochastic MAB problems and works well for non-linear ones. Furthermore, we show that INF-clip outperforms the best-of-both-worlds algorithm in cases where it is difficult to distinguish between different arms.
翻訳日:2023-12-27 22:58:11 公開日:2023-12-26
# q2d:質問をダイアログに変えてモデルに検索の仕方を教える

q2d: Turning Questions into Dialogs to Teach Models How to Search ( http://arxiv.org/abs/2304.14318v2 )

ライセンス: Link先を確認
Yonatan Bitton, Shlomi Cohen-Ganor, Ido Hakimi, Yoad Lewenberg, Roee Aharoni, Enav Weinreb(参考訳) 最近のダイアログにおける言語モデルのエキサイティングな機能の1つは、特定のダイアログ応答を基盤として、関連する情報を独立して検索する能力である。 しかし、検索クエリの発行方法をモデルに教えるトレーニングデータを得るには時間とリソースがかかります。 本稿では,質問から情報参照ダイアログを生成する自動データ生成パイプラインq2dを提案する。 我々は,大規模言語モデル(PaLM)に質問応答データセットの対話型バージョンを作成し,外部検索APIと通信して対話応答をグラウンド化するクエリ生成モデルを改善するよう促す。 検索クエリによる人書きダイアログに依存する従来の手法とは異なり,提案手法では,より優れた制御とスケールで,クエリベースの基底ダイアログを自動的に生成することができる。 実験の結果,(1)qreccデータセット上でのクエリ生成では,合成生成データに基づくモデルが,人間生成データを用いたモデルの90%から97%のパフォーマンスを達成し,(2)既存の対話データやbamboogle qaデータセットに示すような,新たなドメインにおけるダイアログモデルのトレーニングデータを生成することに成功しています。 3) 生成したダイアログを徹底的に分析することにより,人間が高い品質のダイアログを見いだし,人文対話と区別するのに苦労していることを示す。

One of the exciting capabilities of recent language models for dialog is their ability to independently search for relevant information to ground a given dialog response. However, obtaining training data to teach models how to issue search queries is time and resource consuming. In this work, we propose q2d: an automatic data generation pipeline that generates information-seeking dialogs from questions. We prompt a large language model (PaLM) to create conversational versions of question answering datasets, and use it to improve query generation models that communicate with external search APIs to ground dialog responses. Unlike previous approaches which relied on human written dialogs with search queries, our method allows to automatically generate query-based grounded dialogs with better control and scale. Our experiments demonstrate that: (1) For query generation on the QReCC dataset, models trained on our synthetically-generated data achieve 90%--97% of the performance of models trained on the human-generated data; (2) We can successfully generate data for training dialog models in new domains without any existing dialog data as demonstrated on the multi-hop MuSiQue and Bamboogle QA datasets. (3) We perform a thorough analysis of the generated dialogs showing that humans find them of high quality and struggle to distinguish them from human-written dialogs.
翻訳日:2023-12-27 22:55:31 公開日:2023-12-26
# ヤンミル方程式に基づく角運動波の予測

Predicting Angular-Momentum Waves Based on Yang-Mills Equations ( http://arxiv.org/abs/2304.12625v4 )

ライセンス: Link先を確認
Xing-Yan Fan, Xiang-Ru Xie, and Jing-Ling Chen(参考訳) 物理学における最もエレガントな理論の1つとして、yang-mills (ym) 理論はマクスウェルの方程式を電磁気学に統一するだけでなく、電弱と強い相互作用を簡潔に説明する標準模型を基礎としている。 ポテンシャルと場の相互作用を含むym方程式の非常に非線形な項はそれらの分解を遅らせる。 u(1)$の場合、マクスウェル方程式の解は、世界中の現代の通信ネットワークで広く適用されている電磁波である。 同様に、弱結合と零結合の仮定の下でのym方程式の作用素解は、この研究の原点である$su(2)$ angular-momentum波を予測する。 このような角運動量波は、ディラックの電子の 'spin Zitterbewegung'' のようなスピン角運動量の振動によって実験で実現されることが望まれる。

As one of the most elegant theories in physics, Yang-Mills (YM) theory not only incorporates Maxwell's equations unifying electromagnetism, but also underpins the standard model explaining the electroweak and strong interactions in a succinct way. Whereas the highly nonlinear terms in YM equations involving the interactions between potentials and fields retard the resolution for them. In the $U(1)$ case, the solutions of Maxwell's equations are the electromagnetic waves, which have been applied extensively in the modern communication networks all over the world. Likewise the operator solutions of the YM equations under the assumptions of weak-coupling and zero-coupling predict the $SU(2)$ angular-momentum waves, which is the staple of this work. Such angular-momentum waves are hopefully realized in the experiments through the oscillations of spin angular momentum, such as the ``spin Zitterbewegung'' of Dirac's electron.
翻訳日:2023-12-27 22:55:02 公開日:2023-12-26
# 2レベル開量子系における完全正性、正性、長期漸近挙動

Complete positivity, positivity and long-time asymptotic behavior in a two-level open quantum system ( http://arxiv.org/abs/2304.01748v2 )

ライセンス: Link先を確認
G. Th\'eret and D. Sugny(参考訳) 時間局所量子マスター方程式により動的に制御される2レベル開量子系において、完全正の正、正、非マルコフ性の概念を研究する。 動的マップの完全正の正と正の正の値を確保するために,時間依存緩和率に関する必要十分条件を確立する。 オープンシステムの非マルコフ的行動とそれらの関係について論じる。 また,動力学の長期漸近的挙動を速度関数として解析した。 システムの平衡状態にどの条件がかかるかを示す。 この一般的な研究を例に挙げる。

We study the concepts of complete positivity, positivity and non-Markovianity in a two-level open quantum system whose dynamics are governed by a time-local quantum master equation. We establish necessary and sufficient conditions on the time-dependent relaxation rates to ensure complete positivity and positivity of the dynamical map. We discuss their relations with the non-Markovian behavior of the open system. We also analyze the long-time asymptotic behavior of the dynamics as a function of the rates. We show under which conditions on the rates the system tends to the equilibrium state. Different examples illustrate this general study.
翻訳日:2023-12-27 22:53:33 公開日:2023-12-26
# UADB: 教師なし異常検出ブースター

UADB: Unsupervised Anomaly Detection Booster ( http://arxiv.org/abs/2306.01997v2 )

ライセンス: Link先を確認
Hangting Ye, Zhining Liu, Xinyi Shen, Wei Cao, Shun Zheng, Xiaofan Gui, Huishuai Zhang, Yi Chang, Jiang Bian(参考訳) 教師なし異常検出(unsupervised anomaly detection, uad)は、その幅広い実世界応用のために重要なデータマイニング問題である。 監視信号の完全欠如により、UDA法は異常を検出するために異常パターン(例えば、散在/疎集)に関する暗黙の仮定に依存する。 しかし、現実世界のデータは複雑であり、異なる領域で大きく異なる。 そのような複雑さを記述できる仮定はひとつもなく、すべてのシナリオで有効である。 これは、UAD法が全能でないことを示す最近の研究でも確認されている。 上記の観測に基づいて、魔法の普遍的な勝者の仮定を探す代わりに、異なるデータに適応可能な任意の UAD モデルに権限を与える一般的な UAD Booster (UADB) を設計することを模索する。 既存のUADメソッドで採用されている異種モデル構造と仮定を考えると、これは難しい作業です。 これを実現するために、我々はUDAの問題を深く掘り下げて、通常のデータや異常と比べて、それを見つける。 (i)特徴空間における明確な構造・パターンの欠如 (二)適切な仮定なしにモデルで学ぶのが難しく、最終的に導くこと (iii)異なる学習者間の高いばらつき。 これらの知見を踏まえて,我々は提案する。 (i)データ仮定を持たない模倣学習者(ブースター)にソースuadモデルの知識を蒸留する。 (ii)両者のばらつきを利用して自動補正を行うため、 (iii)元のuadモデルよりもブースターが向上した。 ニューラルネットワークを強力な表現力のブースターとして、普遍近似器として使用し、フレキシブルなポストホックチューニングを行う。 UADBは、統一された方法で異種UADモデルを拡張できるモデルに依存しないフレームワークである。 80以上のグラフデータセットに対する大規模な実験は、UADBの有効性を示している。

Unsupervised Anomaly Detection (UAD) is a key data mining problem owing to its wide real-world applications. Due to the complete absence of supervision signals, UAD methods rely on implicit assumptions about anomalous patterns (e.g., scattered/sparsely/densely clustered) to detect anomalies. However, real-world data are complex and vary significantly across different domains. No single assumption can describe such complexity and be valid in all scenarios. This is also confirmed by recent research that shows no UAD method is omnipotent. Based on above observations, instead of searching for a magic universal winner assumption, we seek to design a general UAD Booster (UADB) that empowers any UAD models with adaptability to different data. This is a challenging task given the heterogeneous model structures and assumptions adopted by existing UAD methods. To achieve this, we dive deep into the UAD problem and find that compared to normal data, anomalies (i) lack clear structure/pattern in feature space, thus (ii) harder to learn by model without a suitable assumption, and finally, leads to (iii) high variance between different learners. In light of these findings, we propose to (i) distill the knowledge of the source UAD model to an imitation learner (booster) that holds no data assumption, then (ii) exploit the variance between them to perform automatic correction, and thus (iii) improve the booster over the original UAD model. We use a neural network as the booster for its strong expressive power as a universal approximator and ability to perform flexible post-hoc tuning. Note that UADB is a model-agnostic framework that can enhance heterogeneous UAD models in a unified way. Extensive experiments on over 80 tabular datasets demonstrate the effectiveness of UADB.
翻訳日:2023-12-27 22:46:46 公開日:2023-12-26
# バロン型空間に対する埋め込み不等式

Embedding Inequalities for Barron-type Spaces ( http://arxiv.org/abs/2305.19082v2 )

ライセンス: Link先を確認
Lei Wu(参考訳) 深層学習理論における根本的な問題の一つは、高次元の2層ニューラルネットワークの近似と一般化特性を理解することである。 この問題に取り組むために、研究者はバロン空間 $\mathcal{B}_s(\Omega)$ とスペクトルバロン空間 $\mathcal{F}_s(\Omega)$ を導入し、インデックス $s$ はこれらの空間内の関数の滑らかさを特徴づけ、$\Omega\subset\mathbb{R}^d$ は入力領域を表す。 しかし、この二つのタイプのバロン空間の間の関係は未だ明らかではない。 任意の$\delta\in (0,1), s\in \mathbb{N}^{+}$, $f: \Omega \mapsto\mathbb{R}$, \[ \delta\gamma^{\delta-s}_{\Omega}\|f\|_{\mathcal{F}_{s-\delta}(\Omega)}\lesssim_s \|f\|_{\mathcal{B}_s(\Omega)}\lesssim_s \|f\|_{\mathcal{F}_{s+1}(\Omega)}, \] ここで $\gammaOmega \mapsto\mathbb{R}$, $f: \Omega \mapsto\mathbb{R}$, \\Omega}\|f\|_{\mathcal{F}_{s-\delta}(\Omega)} が成立する。 さらに、下界が密であることを示す例を示す。

One of the fundamental problems in deep learning theory is understanding the approximation and generalization properties of two-layer neural networks in high dimensions. In order to tackle this issue, researchers have introduced the Barron space $\mathcal{B}_s(\Omega)$ and the spectral Barron space $\mathcal{F}_s(\Omega)$, where the index $s$ characterizes the smoothness of functions within these spaces and $\Omega\subset\mathbb{R}^d$ represents the input domain. However, it is still not clear what is the relationship between the two types of Barron spaces. In this paper, we establish continuous embeddings between these spaces as implied by the following inequality: for any $\delta\in (0,1), s\in \mathbb{N}^{+}$ and $f: \Omega \mapsto\mathbb{R}$, it holds that \[ \delta\gamma^{\delta-s}_{\Omega}\|f\|_{\mathcal{F}_{s-\delta}(\Omega)}\lesssim_s \|f\|_{\mathcal{B}_s(\Omega)}\lesssim_s \|f\|_{\mathcal{F}_{s+1}(\Omega)}, \] where $\gamma_{\Omega}=\sup_{\|v\|_2=1,x\in\Omega}|v^Tx|$ and notably, the hidden constants depend solely on the value of $s$. Furthermore, we provide examples to demonstrate that the lower bound is tight.
翻訳日:2023-12-27 22:45:01 公開日:2023-12-26
# 制約領域における学習速度自由サンプリング

Learning Rate Free Sampling in Constrained Domains ( http://arxiv.org/abs/2305.14943v3 )

ライセンス: Link先を確認
Louis Sharrock, Lester Mackey, Christopher Nemeth(参考訳) 我々は、完全に学習率のない制約付き領域をサンプリングするための新しい粒子ベースのアルゴリズム群を紹介する。 提案手法は, コンベックス最適化によるコインベッティングのアイデアと, 確率測度空間上のミラー化最適化問題としての制約サンプリングの視点を利用する。 この観点から、Langevin 動的ミラー化や Stein 変分勾配勾配勾配のミラー化など、既存の制約付きサンプリングアルゴリズムの統一フレームワークも導入する。 提案手法は,シンプレックス上のターゲットからのサンプリング,公平性制約によるサンプリング,選択後の推定における制約付きサンプリング問題など,様々な数値例で性能を示す。 提案手法は,ハイパーパラメータを調整することなく,既存の制約サンプリング手法と競合する性能を実現する。

We introduce a suite of new particle-based algorithms for sampling in constrained domains which are entirely learning rate free. Our approach leverages coin betting ideas from convex optimisation, and the viewpoint of constrained sampling as a mirrored optimisation problem on the space of probability measures. Based on this viewpoint, we also introduce a unifying framework for several existing constrained sampling algorithms, including mirrored Langevin dynamics and mirrored Stein variational gradient descent. We demonstrate the performance of our algorithms on a range of numerical examples, including sampling from targets on the simplex, sampling with fairness constraints, and constrained sampling problems in post-selection inference. Our results indicate that our algorithms achieve competitive performance with existing constrained sampling methods, without the need to tune any hyperparameters.
翻訳日:2023-12-27 22:42:27 公開日:2023-12-26
# 何を見るか、何を読むか? テキスト画像アライメント評価の改善

What You See is What You Read? Improving Text-Image Alignment Evaluation ( http://arxiv.org/abs/2305.10400v4 )

ライセンス: Link先を確認
Michal Yarom, Yonatan Bitton, Soravit Changpinyo, Roee Aharoni, Jonathan Herzig, Oran Lang, Eran Ofek, Idan Szpektor(参考訳) テキストと対応する画像が意味的に一致しているかを自動的に判断することは、視覚言語モデルにとって大きな課題であり、画像から画像への生成や画像からテキストへのタスクに応用されている。 本研究では,テキスト画像アライメントの自動評価手法について検討する。 テキスト・ツー・イメージと画像・ツー・テキストの生成タスクから複数のデータセットにまたがる総合的な評価セットである SeeTRUE をまず紹介する。 次に、アライメントを決定するための2つの自動手法について説明する。まず、質問生成モデルと視覚的質問応答モデルに基づくパイプラインと、マルチモーダル事前学習モデルの微調整によるエンドツーエンド分類手法を用いる。 どちらの手法も、複雑な合成や不自然な画像を含む難解なケースにおいて、様々なテキストイメージアライメントタスクにおいて、従来のアプローチを超越している。 最後に、画像とテキスト間の特定の不一致をローカライズする方法と、テキスト・ツー・イメージ・ジェネレーションにおける候補を自動的にランク付けする方法を示す。

Automatically determining whether a text and a corresponding image are semantically aligned is a significant challenge for vision-language models, with applications in generative text-to-image and image-to-text tasks. In this work, we study methods for automatic text-image alignment evaluation. We first introduce SeeTRUE: a comprehensive evaluation set, spanning multiple datasets from both text-to-image and image-to-text generation tasks, with human judgements for whether a given text-image pair is semantically aligned. We then describe two automatic methods to determine alignment: the first involving a pipeline based on question generation and visual question answering models, and the second employing an end-to-end classification approach by finetuning multimodal pretrained models. Both methods surpass prior approaches in various text-image alignment tasks, with significant improvements in challenging cases that involve complex composition or unnatural images. Finally, we demonstrate how our approaches can localize specific misalignments between an image and a given text, and how they can be used to automatically re-rank candidates in text-to-image generation.
翻訳日:2023-12-27 22:40:51 公開日:2023-12-26
# WBCAtt: 詳細な形態的属性を付加した白血球データセット

WBCAtt: A White Blood Cell Dataset Annotated with Detailed Morphological Attributes ( http://arxiv.org/abs/2306.13531v2 )

ライセンス: Link先を確認
Satoshi Tsutsui, Winnie Pang, Bihan Wen(参考訳) 顕微鏡レベルでの血液検査は臨床診断において基本的な役割を担い、幅広い医療条件に影響を与える。 例えば、我々の血液の重要な成分である白血球(WBC)の詳細な研究は、白血病や貧血などの血液関連疾患の診断に不可欠である。 WBC画像を含む複数のデータセットが提案されているが、主に細胞分類に焦点を当てており、医療領域における説明可能な人工知能(XAI)の重要性にもかかわらず、そのような分類を説明するために必要な形態的詳細を欠いていることが多い。 本稿では,WBC画像に対する包括的なアノテーションを導入することで,この制限に対処する。 病理学者とのコラボレーション,文献レビュー,顕微鏡画像の手動検査を通じて,細胞とその成分(核,細胞質,顆粒)に関連する11の形態学的特性を同定した。 そして、これらの属性で1万のWBC画像を注釈付けしました。 さらに,これらの属性を画像から予測する実験を行い,基本的なwbc分類以上の知見を提供する。 このような広範なアノテーションを提供する最初のパブリックデータセットとして、属性アノテーションの恩恵を受ける特定のアプリケーションについても説明します。 全体として、我々のデータセットは、WBC認識モデルを解釈する方法を舗装し、病理学と血液学の分野でXAIをさらに前進させます。

The examination of blood samples at a microscopic level plays a fundamental role in clinical diagnostics, influencing a wide range of medical conditions. For instance, an in-depth study of White Blood Cells (WBCs), a crucial component of our blood, is essential for diagnosing blood-related diseases such as leukemia and anemia. While multiple datasets containing WBC images have been proposed, they mostly focus on cell categorization, often lacking the necessary morphological details to explain such categorizations, despite the importance of explainable artificial intelligence (XAI) in medical domains. This paper seeks to address this limitation by introducing comprehensive annotations for WBC images. Through collaboration with pathologists, a thorough literature review, and manual inspection of microscopic images, we have identified 11 morphological attributes associated with the cell and its components (nucleus, cytoplasm, and granules). We then annotated ten thousand WBC images with these attributes. Moreover, we conduct experiments to predict these attributes from images, providing insights beyond basic WBC classification. As the first public dataset to offer such extensive annotations, we also illustrate specific applications that can benefit from our attribute annotations. Overall, our dataset paves the way for interpreting WBC recognition models, further advancing XAI in the fields of pathology and hematology.
翻訳日:2023-12-27 22:34:06 公開日:2023-12-26
# 熱コヒーレント状態の調製と量子温度測定におけるその役割

Preparation of thermal coherent state and its role in quantum thermometry ( http://arxiv.org/abs/2306.04369v3 )

ライセンス: Link先を確認
Asghar Ullah, M. Tahir Naseem, and \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu(参考訳) 熱環境と量子システムの間の避けられない相互作用は、典型的には量子コヒーレンスを低下させ、貯水池工学と戦うことができる。 共振器に縦結合した熱駆動二段系を用いて熱コヒーレント状態を実現することを提案する。 開系力学を記述するためにマスター方程式を用いると、2レベル系と共振器に対するマスター方程式の定常解が得られる。 共振器の状態は熱コヒーレントな状態であり、2レベル系は熱のままである。 この観測は共振器の2次相関係数と光子数統計量を評価することによって検証される。 さらに, 共振器の熱コヒーレント状態を利用した量子温度測定の利点を明らかにした。 この文脈では、共振器は2レベルシステムによって媒介される浴槽の未知温度を測定するプローブとして機能し、両者の接続を戦略的にブリッジする。 その結果, アンシラ支援プローブを用いて精度を高め, 適用温度範囲を拡大できる可能性が示唆された。

The unavoidable interaction between thermal environments and quantum systems typically leads to the degradation of the quantum coherence, which can be fought against by reservoir engineering. We propose that a thermal coherent state can be realized using a thermally driven two-level system longitudinally coupled to a resonator. Using the master equation approach to describe the open system dynamics, we obtain the steady-state solution of the master equation for the two-level system and resonator. We find that the state of the resonator is a thermal coherent state, while the two-level system remains thermal. This observation is verified by evaluating the second-order correlation coefficient and photon number statistics of the resonator. Moreover, we reveal the potential benefits of employing the thermal coherent state of the resonator in quantum thermometry. In this context, the resonator functions as a probe to measure the unknown temperature of a bath mediated by a two-level system, strategically bridging the connection between the two. Our findings elucidate that using an ancilla-assisted probe may enhance precision and broaden the applicable temperature range.
翻訳日:2023-12-27 22:29:42 公開日:2023-12-26
# CoTracker: 一緒に追跡する方がよい

CoTracker: It is Better to Track Together ( http://arxiv.org/abs/2307.07635v2 )

ライセンス: Link先を確認
Nikita Karaev, Ignacio Rocco, Benjamin Graham, Natalia Neverova, Andrea Vedaldi, Christian Rupprecht(参考訳) CoTrackerは、ビデオシーケンスを横切るフレーム内の高密度な点をトラックするトランスフォーマーベースのモデルである。 これは、その相関を無視して、ポイントを独立に追跡する既存の最先端のアプローチとは異なる。 ジョイントトラッキングの結果,追跡精度は著しく向上し,ロバスト性も向上した。 また、CoTrackerが同時に70kポイントをトラックできる仮想トラックの概念など、いくつかの技術革新も提供しています。 さらに、cotrackerは短いウィンドウ(オンラインタスクに適している)で因果的に動作するが、長いビデオシーケンスでウィンドウをアンロールすることでトレーニングされ、長期的なトラッキングを可能かつ大幅に改善する。 定性的に印象的な追跡結果を示す。そこでは、オクルードされたり視野を離れたりしても、ポイントを長時間追跡することができる。 定量的に言えば、CoTrackerは標準ベンチマークで最近のトラッカー全てを上回っている。

We introduce CoTracker, a transformer-based model that tracks dense points in a frame jointly across a video sequence. This differs from most existing state-of-the-art approaches that track points independently, ignoring their correlation. We show that joint tracking results in a significantly higher tracking accuracy and robustness. We also provide several technical innovations, including the concept of virtual tracks, which allows CoTracker to track 70k points jointly and simultaneously. Furthermore, CoTracker operates causally on short windows (hence, it is suitable for online tasks), but is trained by unrolling the windows across longer video sequences, which enables and significantly improves long-term tracking. We demonstrate qualitatively impressive tracking results, where points can be tracked for a long time even when they are occluded or leave the field of view. Quantitatively, CoTracker outperforms all recent trackers on standard benchmarks, often by a substantial margin.
翻訳日:2023-12-27 22:22:03 公開日:2023-12-26
# 微分可能なブロックの世界:プリミティブのレンダリングによる質的3d分解

Differentiable Blocks World: Qualitative 3D Decomposition by Rendering Primitives ( http://arxiv.org/abs/2307.05473v2 )

ライセンス: Link先を確認
Tom Monnier, Jake Austin, Angjoo Kanazawa, Alexei A. Efros, Mathieu Aubry(参考訳) シーンのキャリブレーションされた画像が与えられた場合、3Dプリミティブを用いてシンプルでコンパクトで動作可能な3D世界表現を生成するアプローチを提案する。 多くのアプローチは高忠実度3Dシーンの復元に重点を置いているが、我々はシーンを小さなテクスチャ化されたプリミティブからなる中級3D表現にパースすることに重点を置いている。 このような表現は解釈可能であり、操作が容易であり、物理ベースのシミュレーションに適している。 さらに,従来の3次元入力データに依存したプリミティブ分解法とは異なり,本手法は画像を直接操作する。 具体的には、プリミティブをテクスチャ化されたスーパークアッドリックメッシュとしてモデル化し、画像レンダリング損失でパラメータをスクラッチから最適化する。 我々は,各プリミティブに対する透明性のモデリングの重要性を強調し,最適化に欠かせないと同時に,プリミティブの数に応じた処理を可能にする。 その結果、テクスチャ化されたプリミティブは、入力画像を忠実に再構成し、視認可能な3dポイントを正確にモデル化し、被写体領域のアモーダル形状補完を提供する。 我々は,DTUの様々なシーンにおける芸術の状況と比較し,BlendedMVSとNerfstudioのリアルライフキャプチャの堅牢性を示す。 また、この結果を用いてシーンの編集や物理シミュレーションを行う方法についても紹介する。 コードとビデオの結果はhttps://www.tmonnier.com/dbwで入手できる。

Given a set of calibrated images of a scene, we present an approach that produces a simple, compact, and actionable 3D world representation by means of 3D primitives. While many approaches focus on recovering high-fidelity 3D scenes, we focus on parsing a scene into mid-level 3D representations made of a small set of textured primitives. Such representations are interpretable, easy to manipulate and suited for physics-based simulations. Moreover, unlike existing primitive decomposition methods that rely on 3D input data, our approach operates directly on images through differentiable rendering. Specifically, we model primitives as textured superquadric meshes and optimize their parameters from scratch with an image rendering loss. We highlight the importance of modeling transparency for each primitive, which is critical for optimization and also enables handling varying numbers of primitives. We show that the resulting textured primitives faithfully reconstruct the input images and accurately model the visible 3D points, while providing amodal shape completions of unseen object regions. We compare our approach to the state of the art on diverse scenes from DTU, and demonstrate its robustness on real-life captures from BlendedMVS and Nerfstudio. We also showcase how our results can be used to effortlessly edit a scene or perform physical simulations. Code and video results are available at https://www.tmonnier.com/DBW .
翻訳日:2023-12-27 22:20:08 公開日:2023-12-26
# 近接近傍相互作用を持つ1次元量子デバイス上でのスピンスクイージングの変分生成

Variational generation of spin squeezing on one-dimensional quantum devices with nearest-neighbor interactions ( http://arxiv.org/abs/2306.16194v2 )

ライセンス: Link先を確認
Zheng-Hang Sun, Yong-Yi Wang, Yu-Ran Zhang, Franco Nori, Heng Fan(参考訳) スピンスクイーズ状態の効率的な調製は量子化メトロジーにとって重要である。 強いスピンスクイーズを生成するための現在のプロトコルは、高次元または長距離の相互作用に依存する。 鍵となる課題は、近傍の相互作用しか持たない1次元系のスピンスクイーズを生成する方法である。 そこで我々は,この問題を解決するために変分スピンスキーズアルゴリズムを開発した。 これらの変分アルゴリズムについて,ディジタル回路とアナログ量子回路の両方を考察する。 変分スピンスケージングアルゴリズムの閉最適化ループの後、生成されたスクイージングは、2軸ツイストリングから生成される最強のスクイージングに匹敵する。 実験的不完全性の解析により、本研究で提案する変分スピンスキーズアルゴリズムは、近年開発された雑音中規模量子コンピュータにおいて実現可能である。

Efficient preparation of spin-squeezed states is important for quantum-enhanced metrology. Current protocols for generating strong spin squeezing rely on either high dimensionality or long-range interactions. A key challenge is how to generate considerable spin squeezing in one-dimensional systems with only nearest-neighbor interactions. Here, we develop variational spin-squeezing algorithms to solve this problem. We consider both digital and analog quantum circuits for these variational algorithms. After the closed optimization loop of the variational spin-squeezing algorithms, the generated squeezing can be comparable to the strongest squeezing created from two-axis twisting. By analyzing the experimental imperfections, the variational spin-squeezing algorithms proposed in this work are feasible in recent developed noisy intermediate-scale quantum computers.
翻訳日:2023-12-27 22:16:59 公開日:2023-12-26
# 大きな言語モデルによって生成されたファクトチェック情報は、ニュース識別を減少させる

Fact-checking information generated by a large language model can decrease news discernment ( http://arxiv.org/abs/2308.10800v3 )

ライセンス: Link先を確認
Matthew R. DeVerna, Harry Yaojun Yan, Kai-Cheng Yang, Filippo Menczer(参考訳) ファクトチェックは誤情報に対する効果的な戦略であるが、その大規模実装はオンライン情報の圧倒的な量によって妨げられる。 近年の人工知能(AI)言語モデルでは,事実確認タスクにおいて顕著な能力を発揮している。 本稿では,一般的な大言語モデル(LLM)が生成した事実確認情報が,事前登録されたランダム化制御実験における政治的ニュースの信条および共有意図に与える影響について検討する。 LLMは、偽の見出しを引用する上で合理的に機能するが、参加者が見出しの正確さを識別したり、正確なニュースを共有する能力にはあまり影響しない。 その後の分析では、AIファクトチェッカーは特定のケースでは有害であることが明らかになっている。 ポジティブな面では、AIファクトチェック情報は、正しくラベル付けされた真の見出しの共有意図を高める。 参加者がLSMのファクトチェックを閲覧してそれを選択するオプションが与えられると、真偽のニュースと偽のニュースの両方を共有する傾向が著しく高くなるが、偽のニュースを信じる傾向は極めて高い。 我々の発見は、AIアプリケーションから生じる潜在的な害の重大な原因を浮き彫りにし、意図しない結果の防止や緩和のための政策のクリティカルな必要性を浮き彫りにしている。

Fact checking can be an effective strategy against misinformation, but its implementation at scale is impeded by the overwhelming volume of information online. Recent artificial intelligence (AI) language models have shown impressive ability in fact-checking tasks, but how humans interact with fact-checking information provided by these models is unclear. Here, we investigate the impact of fact-checking information generated by a popular large language model (LLM) on belief in, and sharing intent of, political news in a preregistered randomized control experiment. Although the LLM performs reasonably well in debunking false headlines, we find that it does not significantly affect participants' ability to discern headline accuracy or share accurate news. Subsequent analysis reveals that the AI fact-checker is harmful in specific cases: it decreases beliefs in true headlines that it mislabels as false and increases beliefs in false headlines that it is unsure about. On the positive side, the AI fact-checking information increases sharing intents for correctly labeled true headlines. When participants are given the option to view LLM fact checks and choose to do so, they are significantly more likely to share both true and false news but only more likely to believe false news. Our findings highlight an important source of potential harm stemming from AI applications and underscore the critical need for policies to prevent or mitigate such unintended consequences.
翻訳日:2023-12-27 22:08:53 公開日:2023-12-26
# VisIT-Bench: 実世界利用に触発された視覚言語教育のベンチマーク

VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use ( http://arxiv.org/abs/2308.06595v4 )

ライセンス: Link先を確認
Yonatan Bitton, Hritik Bansal, Jack Hessel, Rulin Shao, Wanrong Zhu, Anas Awadalla, Josh Gardner, Rohan Taori, Ludwig Schmidt(参考訳) 実世界における視覚モデルの評価のためのベンチマークであるVisIT-Bench(Visual InsTruction Benchmark)を紹介する。 我々の出発点は、チューニングされた視覚言語モデルに対処できるはずの指導を想定する70の「インストラクションファミリー」をキュレーションすることである。 VQAv2やCOCOのような評価を超えて、タスクは基本的な認識からゲームプレイ、クリエイティブ生成まで幅広い。 キュレーションの後、データセットは592のテストクエリで構成され、それぞれに人間による命令条件付きキャプションがあります。 これらの説明は、例えば車椅子利用者のための店舗のアクセシビリティを尋ねる指示のために、表面的な命令固有の要素を記述し、命令条件付きキャプションはランプ/電位障害を記述している。 これらの説明は 1)各インスタンスのヒューマン検証された参照出力の収集,及び 2) テキストのみのLLMによる候補マルチモーダル世代の自動評価は, 人間の判断と一致した。 人的評価と自動評価の両方を用いて、モデルと参照間の品質ギャップを定量化する。例えば、トップパフォーマンスの命令追従モデルがGPT-4参照に対して、比較のわずか27%で勝利する。 VisIT-Benchは動的に参加でき、実践者は自身のモデルのレスポンスをプロジェクトのWebサイトに投稿するだけでよい。

We introduce VisIT-Bench (Visual InsTruction Benchmark), a benchmark for evaluation of instruction-following vision-language models for real-world use. Our starting point is curating 70 'instruction families' that we envision instruction tuned vision-language models should be able to address. Extending beyond evaluations like VQAv2 and COCO, tasks range from basic recognition to game playing and creative generation. Following curation, our dataset comprises 592 test queries, each with a human-authored instruction-conditioned caption. These descriptions surface instruction-specific factors, e.g., for an instruction asking about the accessibility of a storefront for wheelchair users, the instruction-conditioned caption describes ramps/potential obstacles. These descriptions enable 1) collecting human-verified reference outputs for each instance; and 2) automatic evaluation of candidate multimodal generations using a text-only LLM, aligning with human judgment. We quantify quality gaps between models and references using both human and automatic evaluations; e.g., the top-performing instruction-following model wins against the GPT-4 reference in just 27% of the comparison. VisIT-Bench is dynamic to participate, practitioners simply submit their model's response on the project website; Data, code and leaderboard is available at visit-bench.github.io.
翻訳日:2023-12-27 22:07:10 公開日:2023-12-26
# AFN: Encoder-Decoderフレームワークによる適応核融合正規化

AFN: Adaptive Fusion Normalization via an Encoder-Decoder Framework ( http://arxiv.org/abs/2308.03321v3 )

ライセンス: Link先を確認
Zikai Zhou, Huanran Chen(参考訳) ディープラーニングの成功は、正規化層とは区別できない。 研究者は様々な正規化関数を提案しており、それぞれに利点と欠点がある。 これに対し、すべての正規化手順を組み合わせて弱点を緩和する統一正規化関数を設計する努力がなされている。 また,Adaptive Fusion Normalizationと呼ばれる新しい正規化関数も提案した。 実験により,AFNは領域一般化や画像分類タスクにおいて,従来の正規化手法よりも優れていた。

The success of deep learning is inseparable from normalization layers. Researchers have proposed various normalization functions, and each of them has both advantages and disadvantages. In response, efforts have been made to design a unified normalization function that combines all normalization procedures and mitigates their weaknesses. We also proposed a new normalization function called Adaptive Fusion Normalization. Through experiments, we demonstrate AFN outperforms the previous normalization techniques in domain generalization and image classification tasks.
翻訳日:2023-12-27 22:06:34 公開日:2023-12-26
# 大規模言語モデルを用いたユビキタスコンピューティングのための自然言語に基づくコンテキストモデリングと推論:チュートリアル

Natural Language based Context Modeling and Reasoning for Ubiquitous Computing with Large Language Models: A Tutorial ( http://arxiv.org/abs/2309.15074v2 )

ライセンス: Link先を確認
Haoyi Xiong and Jiang Bian and Sijia Yang and Xiaofei Zhang and Linghe Kong and Daqing Zhang(参考訳) 大規模言語モデル(llm)は、コンピュータシステムにコンテキスト認識を導入した後、2018年から20年で驚くほど急増している。 ユビキタスデバイス、ユーザ、社会の状況を考慮することで、コンテキスト対応コンピューティングは、生活支援、位置情報ベースのソーシャルネットワークサービスなど、幅広い革新的な応用を可能にしている。 文脈を認識し、それに従って行動を決定するために、オントロジーやOWLといった様々な人工知能技術がコンテキストモデリングや推論の表現として採用されている。 近年、LLMの台頭と、その改良された自然言語理解と推論能力により、自然言語を用いて文脈をモデル化し、ChatGPTやGPT-4といったLLMと相互作用して文脈推論を行うことが可能になった。 このチュートリアルでは、モデルの微調整を必要とせずに、llmがコンテキストモデリングと推論を実行できるテキスト、プロンプト、自律エージェント(自動エージェント)の使用例を示す。 我々は関連する分野の研究を整理し、導入し、このコンピューティングパラダイムを llm-driven context-aware computing (lcac) と命名する。 LCaCパラダイムでは、ユーザの要求、データを読み取るセンサー、アクチュエータへのコマンドはテキストとして表現されなければならない。 ユーザの要求とセンサデータのテキストを考えると、オートエージェントはコンテキスト推論のためにllmにプロンプトおよび送信することでコンテキストをモデル化する。 llmはアクションのプランを生成し、オートエージェントに応答します。 この概念を証明するために,(1)集合住宅における移動型zアーム操作による生活支援,(2)旅行の計画とスケジュールのコンテキスト認識とパーソナライズによるスケジューリングという2つのショーケースを用いた。

Large language models (LLMs) have become phenomenally surging, since 2018--two decades after introducing context-awareness into computing systems. Through taking into account the situations of ubiquitous devices, users and the societies, context-aware computing has enabled a wide spectrum of innovative applications, such as assisted living, location-based social network services and so on. To recognize contexts and make decisions for actions accordingly, various artificial intelligence technologies, such as Ontology and OWL, have been adopted as representations for context modeling and reasoning. Recently, with the rise of LLMs and their improved natural language understanding and reasoning capabilities, it has become feasible to model contexts using natural language and perform context reasoning by interacting with LLMs such as ChatGPT and GPT-4. In this tutorial, we demonstrate the use of texts, prompts, and autonomous agents (AutoAgents) that enable LLMs to perform context modeling and reasoning without requiring fine-tuning of the model. We organize and introduce works in the related field, and name this computing paradigm as the LLM-driven Context-aware Computing (LCaC). In the LCaC paradigm, users' requests, sensors reading data, and the command to actuators are supposed to be represented as texts. Given the text of users' request and sensor data, the AutoAgent models the context by prompting and sends to the LLM for context reasoning. LLM generates a plan of actions and responds to the AutoAgent, which later follows the action plan to foster context-awareness. To prove the concepts, we use two showcases--(1) operating a mobile z-arm in an apartment for assisted living, and (2) planning a trip and scheduling the itinerary in a context-aware and personalized manner.
翻訳日:2023-12-27 21:56:51 公開日:2023-12-26
# meta-rlのリカレントハイパーネットワークは驚くほど強力

Recurrent Hypernetworks are Surprisingly Strong in Meta-RL ( http://arxiv.org/abs/2309.14970v4 )

ライセンス: Link先を確認
Jacob Beck, Risto Vuorio, Zheng Xiong, Shimon Whiteson(参考訳) 深部強化学習(Deep reinforcement learning, RL)は, サンプル不効率のため, 展開が困難であることが知られている。 Meta-RLは、このサンプルの非効率性に直接対処し、メタトレーニングで関連するタスクの分散が利用できる場合に、数ショットの学習を実行する。 多くの特殊なメタrl手法が提案されているが、最近の研究は、リカレントネットワークのような市販のシーケンシャルモデルと組み合わせたエンドツーエンド学習が驚くほど強力なベースラインであることを示唆している。 しかし、このような主張は支持する証拠が限られているため、特に前回の作業が正反対に確立された場合、議論を呼んでいる。 本稿では,実証的な調査を行う。 同様に、リカレントネットワークは高いパフォーマンスを達成することができるが、ハイパーネットワークの利用は、その可能性の最大化に不可欠であることを示す。 驚くべきことに、ハイパーネットワークと組み合わせると、既存の特殊メソッドよりもはるかに単純なリカレントベースラインが、評価されるすべてのメソッドの最強のパフォーマンスを達成します。 コードはhttps://github.com/jacooba/hyper.comで提供します。

Deep reinforcement learning (RL) is notoriously impractical to deploy due to sample inefficiency. Meta-RL directly addresses this sample inefficiency by learning to perform few-shot learning when a distribution of related tasks is available for meta-training. While many specialized meta-RL methods have been proposed, recent work suggests that end-to-end learning in conjunction with an off-the-shelf sequential model, such as a recurrent network, is a surprisingly strong baseline. However, such claims have been controversial due to limited supporting evidence, particularly in the face of prior work establishing precisely the opposite. In this paper, we conduct an empirical investigation. While we likewise find that a recurrent network can achieve strong performance, we demonstrate that the use of hypernetworks is crucial to maximizing their potential. Surprisingly, when combined with hypernetworks, the recurrent baselines that are far simpler than existing specialized methods actually achieve the strongest performance of all methods evaluated. We provide code at https://github.com/jacooba/hyper.
翻訳日:2023-12-27 21:55:55 公開日:2023-12-26
# SSPFusion:赤外線・可視画像融合のための意味構造保存手法

SSPFusion: A Semantic Structure-Preserving Approach for Infrared and Visible Image Fusion ( http://arxiv.org/abs/2309.14745v2 )

ライセンス: Link先を確認
Qiao Yang, Yu Zhang, Jian Zhang, Zijing Zhao, Shunli Zhang, Jinqiao Wang, Junzhe Chen(参考訳) 既存の学習ベースの赤外線および可視画像融合(ivif)法の多くは、融合画像に大量の冗長な情報、すなわちエッジブルリング効果、あるいは物体検出器では認識できない情報を示す。 これらの問題を緩和するために,ivifに対する意味構造保存手法,すなわちsspfusionを提案する。 まず,赤外線および可視画像の構造的特徴を抽出するための構造的特徴抽出器(sfe)を設計する。 そこで我々は,赤外線画像と可視画像の構造的特徴を融合させるマルチスケールな構造保存融合(SPF)モジュールを導入し,融合とソース画像間の意味的構造の整合性を維持した。 これら2つの有効モジュールにより,2つの赤外線と可視画像から高品質な融合画像を生成することができ,下流コンピュータビジョンタスクの性能を向上させることができる。 3つのベンチマークによる実験結果から,本手法は質的および定量的評価において8つの最先端画像融合法を上回った。 このメソッドのコードは、さらなる比較結果とともに、https://github.com/qiaoyang-cv/sspfusionで利用可能になる。

Most existing learning-based infrared and visible image fusion (IVIF) methods exhibit massive redundant information in the fusion images, i.e., yielding edge-blurring effect or unrecognizable for object detectors. To alleviate these issues, we propose a semantic structure-preserving approach for IVIF, namely SSPFusion. At first, we design a Structural Feature Extractor (SFE) to extract the structural features of infrared and visible images. Then, we introduce a multi-scale Structure-Preserving Fusion (SPF) module to fuse the structural features of infrared and visible images, while maintaining the consistency of semantic structures between the fusion and source images. Owing to these two effective modules, our method is able to generate high-quality fusion images from pairs of infrared and visible images, which can boost the performance of downstream computer-vision tasks. Experimental results on three benchmarks demonstrate that our method outperforms eight state-of-the-art image fusion methods in terms of both qualitative and quantitative evaluations. The code for our method, along with additional comparison results, will be made available at: https://github.com/QiaoYang-CV/SSPFUSION.
翻訳日:2023-12-27 21:55:35 公開日:2023-12-26
# 言語モデルの物理:その3.1,知識の蓄積と抽出

Physics of Language Models: Part 3.1, Knowledge Storage and Extraction ( http://arxiv.org/abs/2309.14316v2 )

ライセンス: Link先を確認
Zeyuan Allen-Zhu and Yuanzhi Li(参考訳) 大規模言語モデル(LLM)は膨大な量の世界の知識を格納することができ、しばしば質問回答によって抽出できる(例:エイブラハム・リンカーンの誕生日は? しかし、トレーニング中(すなわち不正行為)に類似した質問への露出に基づいて、あるいはwikipediaのような情報源から知識を抽出するために真に学習することで、そのような質問に答えるだろうか? 本稿では,本課題を自伝データセットを用いて検討する。 モデルの知識抽出能力とトレーニングデータの多様性尺度との間には,強い相関関係がみられた。 $\textbf{essentially}$, 知識が確実に抽出されるためには、十分に拡張されなければならない(例えば、パラフレージング、文のシャッフル)$\textit{during pretraining}$. である。 このような拡張がなければ、知識は記憶されるが抽出できないため、その後の命令の微調整に関わらず、精度は0%になる。 To understand why this occurs, we employ (nearly) linear probing to demonstrate a strong connection between the observed correlation and how the model internally encodes knowledge -- whether it is linearly encoded in the hidden embeddings of entity names or distributed across other token embeddings in the training text. This paper provides $\textbf{several key recommendations for LLM pretraining in the industry}$: (1) rewrite the pretraining data -- using small, auxiliary models -- to provide knowledge augmentation, and (2) incorporate more instruction-finetuning data into the pretraining stage before it becomes too late.

Large language models (LLMs) can store a vast amount of world knowledge, often extractable via question-answering (e.g., "What is Abraham Lincoln's birthday?"). However, do they answer such questions based on exposure to similar questions during training (i.e., cheating), or by genuinely learning to extract knowledge from sources like Wikipedia? In this paper, we investigate this issue using a controlled biography dataset. We find a strong correlation between the model's ability to extract knowledge and various diversity measures of the training data. $\textbf{Essentially}$, for knowledge to be reliably extracted, it must be sufficiently augmented (e.g., through paraphrasing, sentence shuffling) $\textit{during pretraining}$. Without such augmentation, knowledge may be memorized but not extractable, leading to 0% accuracy, regardless of subsequent instruction fine-tuning. To understand why this occurs, we employ (nearly) linear probing to demonstrate a strong connection between the observed correlation and how the model internally encodes knowledge -- whether it is linearly encoded in the hidden embeddings of entity names or distributed across other token embeddings in the training text. This paper provides $\textbf{several key recommendations for LLM pretraining in the industry}$: (1) rewrite the pretraining data -- using small, auxiliary models -- to provide knowledge augmentation, and (2) incorporate more instruction-finetuning data into the pretraining stage before it becomes too late.
翻訳日:2023-12-27 21:55:14 公開日:2023-12-26
# ラムダの自己浄化と絡み合いの復活

Self-Purification and Entanglement Revival in Lambda Matter ( http://arxiv.org/abs/2309.01054v3 )

ライセンス: Link先を確認
Dongni Chen, Stefano Chesi, Mahn-Soo Choi(参考訳) 本研究では,シングルモードボソンと相互作用するラムダ型階層構造を持つ3レベルシステム群における絡み合いのダイナミクスについて検討する。 本研究は、完全対称波動関数の部分空間内のゼロエネルギー状態に焦点を当てる。 驚くべきことに, 興味をそそる再現行動を伴う絡み合いの普遍的な二段階ダイナミクスを観察した。 絡み合いの復活は、量子状態が緩和され、システム内の特別な暗黒状態に普遍的に収束する自己純化過程の結果である。

In this study, we explore the dynamics of entanglement in an ensemble of three-level systems with a lambda-type level structure interacting with single-mode bosons. Our investigation focuses on zero-energy states within the subspace of totally symmetric wave functions. Remarkably, we observe a universal two-stage dynamics of entanglement with intriguing revival behavior. The revival of entanglement is a consequence of the self-purification process, where the quantum state relaxes and converges universally to a special dark state within the system.
翻訳日:2023-12-27 21:53:13 公開日:2023-12-26
# 事前学習言語モデルに基づくオントロジー改訂

Ontology Revision based on Pre-trained Language Models ( http://arxiv.org/abs/2310.18378v2 )

ライセンス: Link先を確認
Qiu Ji, Guilin Qi, Yuxin Ye, Jiaye Li, Site Li, Jianjie Ren, Songtao Lu(参考訳) オントロジーの改訂は、新しいオントロジーを既存のオントロジーにシームレスに組み込むことを目的としており、オントロジーの進化、オントロジーの保守、オントロジーのアライメントといったタスクにおいて重要な役割を果たす。 単一オントロジーの修復と同様に、オントロジーの修正作業における論理的不整合の解消も重要かつ有意義である。これは、一貫性のないオントロジーによる不整合と推論が無意味な答えをもたらすおもな要因であり、この問題を解決するために、オントロジーにおける公理の修正演算子と設計ランク戦略を定義するために様々なオントロジー修正アプローチが提案されている。 しかし、公理を区別する重要な情報を提供する公理意味論を考えることは稀である。 また、事前学習されたモデルは公理意味論の符号化に利用することができ、近年、多くの自然言語処理タスクやオントロジー関連のものに広く適用されている。 まず、4つのスコアリング関数を定義し、オントロジーから様々な情報を考慮し、事前学習されたモデルに基づいて公理をランク付けする。 関数に基づいて、同時に満足できない概念に対処するためにオントロジリビジョンアルゴリズムが提案される。 効率を向上させるため、適応型リビジョンアルゴリズムは、不満足な概念群をグループ別に扱うように設計されている。 19個のオントロジー対の実験を行い、アルゴリズムとスコアリング関数を既存のものと比較する。 実験によると、我々のアルゴリズムは有望な性能を達成できる。

Ontology revision aims to seamlessly incorporate a new ontology into an existing ontology and plays a crucial role in tasks such as ontology evolution, ontology maintenance, and ontology alignment. Similar to repair single ontologies, resolving logical incoherence in the task of ontology revision is also important and meaningful, because incoherence is a main potential factor to cause inconsistency and reasoning with an inconsistent ontology will obtain meaningless answers.To deal with this problem, various ontology revision approaches have been proposed to define revision operators and design ranking strategies for axioms in an ontology. However, they rarely consider axiom semantics which provides important information to differentiate axioms. In addition, pre-trained models can be utilized to encode axiom semantics, and have been widely applied in many natural language processing tasks and ontology-related ones in recent years.Therefore, in this paper, we study how to apply pre-trained models to revise ontologies. We first define four scoring functions to rank axioms based on a pre-trained model by considering various information from an ontology. Based on the functions, an ontology revision algorithm is then proposed to deal with unsatisfiable concepts at once. To improve efficiency, an adapted revision algorithm is designed to deal with unsatisfiable concepts group by group. We conduct experiments over 19 ontology pairs and compare our algorithms and scoring functions with existing ones. According to the experiments, our algorithms could achieve promising performance.
翻訳日:2023-12-27 21:45:49 公開日:2023-12-26
# グループ不変学習による人間選好へのアライメントの一般化

Improving Generalization of Alignment with Human Preferences through Group Invariant Learning ( http://arxiv.org/abs/2310.11971v3 )

ライセンス: Link先を確認
Rui Zheng, Wei Shen, Yuan Hua, Wenbin Lai, Shihan Dou, Yuhao Zhou, Zhiheng Xi, Xiao Wang, Haoran Huang, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) 言語モデル(LLM)に基づくAIアシスタントの成功は、人間からのフィードバックからの強化学習(RLHF)に大きく依存している。 ユニバーサルなAIアシスタントとして、さまざまなドメインで一貫して実行するという期待が高まっています。 しかし、以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。 これにより、トレーニングの安定性と、新しい、目に見えないデータに一般化するモデルの能力の両方が損なわれる。 本研究では,様々なデータグループやドメインにまたがる一貫したポリシーをRLで学習する手法を提案する。 グループアノテーションの取得に関わる課題を考慮し,データを自動的に異なるグループに分類し,パフォーマンスの分散を意図的に最大化する。 そして、挑戦するグループでうまく機能するようにポリシーを最適化します。 最後に、確立したグループを活用して探索空間を適応的に調整し、より困難なデータに学習能力を割り当て、モデルが単純なデータに対して過度に最適化されるのを防ぐ。 実験結果から,本手法はトレーニング安定性とモデル一般化を著しく向上させることが示された。

The success of AI assistants based on language models (LLMs) hinges crucially on Reinforcement Learning from Human Feedback (RLHF), which enables the generation of responses more aligned with human preferences. As universal AI assistants, there's a growing expectation for them to perform consistently across various domains. However, previous work shows that Reinforcement Learning (RL) often exploits shortcuts to attain high rewards and overlooks challenging samples. This focus on quick reward gains undermines both the stability in training and the model's ability to generalize to new, unseen data. In this work, we propose a novel approach that can learn a consistent policy via RL across various data groups or domains. Given the challenges associated with acquiring group annotations, our method automatically classifies data into different groups, deliberately maximizing performance variance. Then, we optimize the policy to perform well on challenging groups. Lastly, leveraging the established groups, our approach adaptively adjusts the exploration space, allocating more learning capacity to more challenging data and preventing the model from over-optimizing on simpler data. Experimental results indicate that our approach significantly enhances training stability and model generalization.
翻訳日:2023-12-27 21:43:40 公開日:2023-12-26
# 自動スコーリングのための微調整ChatGPT

Fine-tuning ChatGPT for Automatic Scoring ( http://arxiv.org/abs/2310.10072v3 )

ライセンス: Link先を確認
Ehsan Latif and Xiaoming Zhai(参考訳) 本研究は,理科教育における事例評価タスクを用いて,構築された回答を自動的に評価するための微調整ChatGPT (GPT-3.5) の可能性を明らかにする。 OpenAIの生成モデルであるGPT-3.5の最近の研究は、高い精度と人間的な応答で自然言語を予測する上で、その優位性を証明した。 GPT-3.5は、雑誌やウィキペディアなどの膨大なオンライン言語教材で訓練されているため、学生がトレーニングされた資料とは異なる言語を使用するため、事前学習されたGPT-3.5を直接使用する以上のことが自動スコアリングに必要である。 これらは、特定のタスクのためにデータを微調整したドメイン固有モデルが、モデルパフォーマンスを向上させることを意味する。 本研究では,中高生の回答とエキスパートスコアの多様なデータセットを用いた6つの評価課題について,gpt-3.5を微調整した。 6つのタスクは、2つのマルチラベルと4つのマルチクラスアセスメントタスクで構成される。 細調整 GPT-3.5 と,Google が生成する言語モデル BERT を比較した。 その結果、bertに対する科学的な質問と回答から構築されたドメイン内トレーニングコーパスは平均精度が0.838, sd = 0.069であった。 GPT-3.5は6つのタスクにおいて、自動スコアの精度(平均=9.15、SD=0.042)が顕著な平均値(9.1%)を示し、p =0.001 < 0.05である。 具体的には、マルチラベルタスク(5ラベルのitem 1、10ラベルのitem 2)において、gpt-3.5は全ラベルのbertよりもスコアリング精度が著しく向上し、第2の項目は7.1%増加した。 GPT-3.5の4種類の項目の平均得点率はBERTに比べて10.6%増加した。 本研究は,高精細なGPT-3.5の学習におけるドメイン固有データの自動評価における有効性を確認した。 パブリック利用とコミュニティエンゲージメントのための微調整されたモデルをリリースしました。

This study highlights the potential of fine-tuned ChatGPT (GPT-3.5) for automatically scoring student written constructed responses using example assessment tasks in science education. Recent studies on OpenAI's generative model GPT-3.5 proved its superiority in predicting the natural language with high accuracy and human-like responses. GPT-3.5 has been trained over enormous online language materials such as journals and Wikipedia; therefore, more than direct usage of pre-trained GPT-3.5 is required for automatic scoring as students utilize a different language than trained material. These imply that a domain-specific model, fine-tuned over data for specific tasks, can enhance model performance. In this study, we fine-tuned GPT-3.5 on six assessment tasks with a diverse dataset of middle-school and high-school student responses and expert scoring. The six tasks comprise two multi-label and four multi-class assessment tasks. We compare the performance of fine-tuned GPT-3.5 with the fine-tuned state-of-the-art Google's generated language model, BERT. The results show that in-domain training corpora constructed from science questions and responses for BERT achieved average accuracy = 0.838, SD = 0.069. GPT-3.5 shows a remarkable average increase (9.1%) in automatic scoring accuracy (mean = 9.15, SD = 0.042) for the six tasks, p =0.001 < 0.05. Specifically, for multi-label tasks (item 1 with 5 labels; item 2 with 10 labels), GPT-3.5 achieved significantly higher scoring accuracy than BERT across all the labels, with the second item achieving a 7.1% increase. The average scoring increase for the four multi-class items for GPT-3.5 was 10.6% compared to BERT. Our study confirmed the effectiveness of fine-tuned GPT-3.5 for automatic scoring of student responses on domain-specific data in education with high accuracy. We have released fine-tuned models for public use and community engagement.
翻訳日:2023-12-27 21:42:53 公開日:2023-12-26
# AugUndo: 教師なし深度補完のための拡張のスケールアップ

AugUndo: Scaling Up Augmentations for Unsupervised Depth Completion ( http://arxiv.org/abs/2310.09739v2 )

ライセンス: Link先を確認
Yangchao Wu, Tian Yu Liu, Hyoungseob Park, Stefano Soatto, Dong Lao, Alex Wong(参考訳) スパース深度と画像再構成誤差を最小化することにより、教師なし深度補完法を訓練する。 再サンプリング、強度飽和、オクルージョンからのアーティファクトのブロックは、画像再構成の品質に影響する一般的なデータ拡張スキームの好ましくない副産物であり、トレーニング信号である。 したがって、他のビジョンタスクのトレーニングパイプラインに必須であると思われるイメージの典型的な拡張は、小さな画像インテンシティの変更とフリップ以外には使用が限られている。 密度変換が3次元シーンのスケールを変え、幾何学変換が再サンプリング中にスパースポイントを分解するので、スパース深さのモジュラリティはさらに小さくなっている。 そこで本稿では,教師なし深度補完のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。 これは、出力深さの座標への幾何変換を反転または ` `undo'-ing し、深度マップを元の参照フレームに戻すことで達成される。 これにより、元の画像とスパース深度マップを用いて復元損失を計算し、拡張された入力に対するナイーブ損失計算の落とし穴をなくすことができる。 このシンプルで効果的な戦略により、パフォーマンスを高めるために拡張をスケールアップできます。 室内(VOID)と屋外(KITTI)のデータセットに対して,各データセットの平均11.75%で既存の3つの手法を改善した手法を実証した。

Unsupervised depth completion methods are trained by minimizing sparse depth and image reconstruction error. Block artifacts from resampling, intensity saturation, and occlusions are amongst the many undesirable by-products of common data augmentation schemes that affect image reconstruction quality, and thus the training signal. Hence, typical augmentations on images viewed as essential to training pipelines in other vision tasks have seen limited use beyond small image intensity changes and flipping. The sparse depth modality have seen even less as intensity transformations alter the scale of the 3D scene, and geometric transformations may decimate the sparse points during resampling. We propose a method that unlocks a wide range of previously-infeasible geometric augmentations for unsupervised depth completion. This is achieved by reversing, or ``undo"-ing, geometric transformations to the coordinates of the output depth, warping the depth map back to the original reference frame. This enables computing the reconstruction losses using the original images and sparse depth maps, eliminating the pitfalls of naive loss computation on the augmented inputs. This simple yet effective strategy allows us to scale up augmentations to boost performance. We demonstrate our method on indoor (VOID) and outdoor (KITTI) datasets where we improve upon three existing methods by an average of 11.75% across both datasets.
翻訳日:2023-12-27 21:42:20 公開日:2023-12-26
# CoLadder: 階層的なコード生成を多層抽象化でサポートするプログラマ

CoLadder: Supporting Programmers with Hierarchical Code Generation in Multi-Level Abstraction ( http://arxiv.org/abs/2310.08699v2 )

ライセンス: Link先を確認
Ryan Yen, Jiawen Zhu, Sangho Suh, Haijun Xia, Jian Zhao(参考訳) プログラマはコード生成にLarge Language Models (LLM) をますます頼りにしている。 しかし、プログラマの目標と生成されたコードとのミスアライメントは、コード評価プロセスを複雑にし、プロンプトオーサリングとコード評価の切り替えを頻繁に要求する。 しかし、現在のLLM駆動のコードアシスタントは、プログラマが目標から意図をフォーマットするのに十分な足場がなく、これらの意図を自然言語のプロンプトに変換するための重要なステップである。 このギャップに対処するため、プログラミングにLLMを使用する場合、プログラマの戦略に関する洞察を得るために反復的な設計プロセスを採用しました。 そこで我々はCoLadderを開発した。CoLadderは,階層的なタスクの分解,コードセグメントの直接操作,プロンプトオーサリング時の結果評価を支援するシステムである。 12人の経験豊富なプログラマによるユーザスタディによると、CoLadderはプログラマが問題解決の意図を柔軟に外部化するのを支援し、目標から最終的なコード実装に至るまで、さまざまな抽象化レベルにわたるコードの評価と修正の能力を向上する。

Programmers increasingly rely on Large Language Models (LLMs) for code generation. However, misalignment between programmers' goals and generated code complicates the code evaluation process and demands frequent switching between prompt authoring and code evaluation. Yet, current LLM-driven code assistants lack sufficient scaffolding to help programmers format intentions from their overarching goals, a crucial step before translating these intentions into natural language prompts. To address this gap, we adopted an iterative design process to gain insights into programmers' strategies when using LLMs for programming. Building on our findings, we created CoLadder, a system that supports programmers by facilitating hierarchical task decomposition, direct code segment manipulation, and result evaluation during prompt authoring. A user study with 12 experienced programmers showed that CoLadder is effective in helping programmers externalize their problem-solving intentions flexibly, improving their ability to evaluate and modify code across various abstraction levels, from goal to final code implementation.
翻訳日:2023-12-27 21:41:45 公開日:2023-12-26
# シミュレーションを賢明に選ぶ - 自動運転のためのオープンソースシミュレータのレビュー

Choose Your Simulator Wisely: A Review on Open-source Simulators for Autonomous Driving ( http://arxiv.org/abs/2311.11056v2 )

ライセンス: Link先を確認
Yueyuan Li, Wei Yuan, Songan Zhang, Weihao Yan, Qiyuan Shen, Chunxiang Wang, Ming Yang(参考訳) シミュレーターは自動運転において重要な役割を担い、かなりの時間、コスト、労働力の節約を提供する。 過去数年間、自動運転のためのシミュレーターの数は大幅に増加している。 しかし、シミュレータで開発・評価するアルゴリズムの妥当性については懸念が高まり、シミュレータの開発状況の徹底的な分析の必要性が指摘されている。 本研究のギャップを埋めるため,シミュレータの進化を解析し,機能やユーティリティがいかに発達してきたかを説明する。 次に、既存のシミュレータをタスク適用性に基づいて分類し、特定のタスクに対するシミュレータの適合性を迅速に評価する分類を研究者に提供する。 アクセシビリティ、保守状態、品質などの要因を考慮して、選択シミュレータの勧告を提示する。 シミュレーション実験の信頼性に影響を与えるシミュレータの潜在的な危険性を認識し,アクティブにメンテナンスされたオープンソースシミュレータの重要な問題を同定し,正当化するために多大な労力を費やした。 さらに,本論文は,シミュレータの信頼性向上のためのガイドとして,これらの課題に対処するための潜在的な解決策をレビューする。

Simulators play a crucial role in autonomous driving, offering significant time, cost, and labor savings. Over the past few years, the number of simulators for autonomous driving has grown substantially. However, there is a growing concern about the validity of algorithms developed and evaluated in simulators, indicating a need for a thorough analysis of the development status of the simulators. To bridge the gap in research, this paper analyzes the evolution of simulators and explains how the functionalities and utilities have developed. Then, the existing simulators are categorized based on their task applicability, providing researchers with a taxonomy to swiftly assess a simulator's suitability for specific tasks. Recommendations for select simulators are presented, considering factors such as accessibility, maintenance status, and quality. Recognizing potential hazards in simulators that could impact the confidence of simulation experiments, the paper dedicates substantial effort to identifying and justifying critical issues in actively maintained open-source simulators. Moreover, the paper reviews potential solutions to address these issues, serving as a guide for enhancing the credibility of simulators.
翻訳日:2023-12-27 21:34:49 公開日:2023-12-26
# 全スライド画像分類のためのマルチインスタンス学習

Attention-Challenging Multiple Instance Learning for Whole Slide Image Classification ( http://arxiv.org/abs/2311.07125v2 )

ライセンス: Link先を確認
Yunlong Zhang and Honglin Li and Yuxuan Sun and Sunyi Zheng and Chenglu Zhu and Lin Yang(参考訳) オーバーフィッティングは、全スライド画像(WSI)解析における多重インスタンス学習(MIL)手法の適用において重要な課題である。 注意マップを可視化すると、現在のMIL法は判別インスタンスのサブセットに焦点を合わせ、効果的なモデル一般化を妨げることが分かる。 この問題に対処するため,より困難なインスタンスに注意を集中させることを目的とした注意制御型MIL(ACMIL)を提案する。 ACMILには、より差別的なインスタンスをキャプチャするためのMultiple Branch Attention(MBA)と、Stochastic Top-K Instance Masking(STKIM)という2つのテクニックが組み込まれている。 2つの事前訓練されたバックボーンを持つ3つのWSIデータセットの評価は、最先端の手法より優れている。 さらに, ヒートマップの可視化とumapの可視化により, オーバーフィッティング課題を克服するacmilの有効性を包括的に示す。 ソースコードは \url{https://github.com/dazhangyu123/acmil} で入手できる。

Overfitting is a significant challenge in the application of Multiple Instance Learning (MIL) methods for Whole Slide Image (WSI) analysis. Visualizing attention heatmaps reveals that current MIL methods focus on a subset of discriminative instances, hindering effective model generalization. To tackle this, we propose Attention-Challenging MIL (ACMIL), aimed at forcing the attention mechanism to focus on more challenging instances. ACMIL incorporates two techniques, Multiple Branch Attention (MBA) to capture more discriminative instances and Stochastic Top-K Instance Masking (STKIM) to suppress top-k salient instances. Evaluation on three WSI datasets with two pre-trained backbones outperforms state-of-the-art methods. Additionally, through heatmap visualization and UMAP visualization, this paper comprehensively illustrates ACMIL's effectiveness in overcoming the overfitting challenge. The source code is available at \url{https://github.com/dazhangyu123/ACMIL}.
翻訳日:2023-12-27 21:33:31 公開日:2023-12-26
# 生体音響信号の自動深層学習

Auto deep learning for bioacoustic signals ( http://arxiv.org/abs/2311.04945v2 )

ライセンス: Link先を確認
Giulio Tosato, Abdelrahman Shehata, Joshua Janssen, Kees Kamp, Pramatya Jati, Dan Stowell(参考訳) 本研究では,従来の手作業による深層学習モデルと比較して,鳥声分類の精度と効率を高めるために,自動深層学習の可能性を検討する。 西地中海のWetland Birdsデータセットを用いて、自動機械学習フレームワークであるAutoKerasを使用して、ニューラルネットワーク検索とハイパーパラメータチューニングを自動化する。 比較分析は、AutoKeras由来のモデルがMobileNet、ResNet50、VGG16といった従来のモデルより一貫して優れているという我々の仮説を検証する。 我々のアプローチと知見は、バイオ音響研究とモデルの発展に向けた自動ディープラーニングの転換可能性の核心である。 実際、自動テクニックは、パフォーマンスを改善しながら、手動の機能エンジニアリングとモデル設計の必要性をなくす。 本研究は, この初期フィールドにおける再現性を高めるため, サンプリング, 評価, 報告のベストプラクティスを照らすものである。 使用したコードは、https: //github.com/giuliotosato/AutoKeras-bioacustic Keywords: AutoKeras、自動ディープラーニング、オーディオ分類、Wetlands Birdデータセット、比較分析、バイオ音響学、検証データセット、マルチクラス分類、スペクトログラムで利用可能である。

This study investigates the potential of automated deep learning to enhance the accuracy and efficiency of multi-class classification of bird vocalizations, compared against traditional manually-designed deep learning models. Using the Western Mediterranean Wetland Birds dataset, we investigated the use of AutoKeras, an automated machine learning framework, to automate neural architecture search and hyperparameter tuning. Comparative analysis validates our hypothesis that the AutoKeras-derived model consistently outperforms traditional models like MobileNet, ResNet50 and VGG16. Our approach and findings underscore the transformative potential of automated deep learning for advancing bioacoustics research and models. In fact, the automated techniques eliminate the need for manual feature engineering and model design while improving performance. This study illuminates best practices in sampling, evaluation and reporting to enhance reproducibility in this nascent field. All the code used is available at https: //github.com/giuliotosato/AutoKeras-bioacustic Keywords: AutoKeras; automated deep learning; audio classification; Wetlands Bird dataset; comparative analysis; bioacoustics; validation dataset; multi-class classification; spectrograms.
翻訳日:2023-12-27 21:32:17 公開日:2023-12-26
# 任意の複合系に対する量子安定化形式

Quantum stabilizer formalism for any composite system ( http://arxiv.org/abs/2311.04255v2 )

ライセンス: Link先を確認
Zhelin Tian(参考訳) 量子安定化器形式は、もともと量子エラー訂正符号をより便利に記述するために導入され、現在では量子コンピューティングや量子基礎など、多くの分野で重要な役割を担っている。 この論文では、まず関連する背景と必要な基礎知識を紹介し、量子安定化器の定義とその量子系の進化と測定への応用を紹介する。 最後に、量子安定化器形式を、以前に定義しなかったqubit-qutritおよびqubit-ququart系に拡張し、任意の複合系の量子安定化器をさらに定義する。

The quantum stabilizer formalism was originally introduced to describe quantum error correction codes more conveniently and now are also playing an important role in many other fields, e.g., quantum computing and quantum foundation. In this dissertation, we first introduce relevant background and necessary basic knowledge, then introduce the definition of quantum stabilizer and its application in quantum system evolution and measurement. Finally, we try to extend the quantum stabilizer formalism to qubit-qutrit and qubit-ququart systems which not defined before, and further define quantum stabilizers of arbitrary composite systems.
翻訳日:2023-12-27 21:31:39 公開日:2023-12-26
# FETV:オープンドメインテキスト・ビデオ・ジェネレーションの微粒化評価ベンチマーク

FETV: A Benchmark for Fine-Grained Evaluation of Open-Domain Text-to-Video Generation ( http://arxiv.org/abs/2311.01813v3 )

ライセンス: Link先を確認
Yuanxin Liu, Lei Li, Shuhuai Ren, Rundong Gao, Shicheng Li, Sishuo Chen, Xu Sun, Lu Hou(参考訳) 近年,open-domain text-to-video (t2v) 世代モデルが目覚ましい進歩を遂げている。 しかし, 有望な結果は生成したビデオの定性的なケースで主に示され, T2Vモデルの定量的評価は2つの重大な問題に直面している。 まず、既存の研究はテキストプロンプトの異なるカテゴリにおけるT2Vモデルのきめ細かい評価を欠いている。 一部のベンチマークはプロンプトを分類しているが、その分類は単一のアスペクトのみに焦点を当てるか、ビデオ生成における時間的情報を考慮しないかのどちらかである。 第二に、自動評価指標が人間の基準と一致しているかは不明である。 これらの問題に対処するために,テキスト・ビデオ生成のきめ細かい評価のためのベンチマークであるFETVを提案する。 FETVはマルチアスペクトであり、主要なコンテンツ、制御する属性、迅速な複雑さの3つの直交的な側面に基づいてプロンプトを分類する。 FETVはまた、ビデオ生成に適したいくつかの時間カテゴリーを導入している。 FETVに基づいて、4つの代表的T2Vモデルの総合的手動評価を行い、異なる側面から異なるカテゴリのプロンプトの長所と短所を明らかにする。 また,テストベッドとしてFETVを拡張し,自動T2V測定の信頼性を評価する。 FETVのマルチアスペクト分類は、異なるシナリオにおけるメトリクスの信頼性のきめ細かい分析を可能にする。 既存の自動メトリクス(例えば、CLIPScoreとFVD)は、人間の評価と相関が低い。 この問題に対処するために、CLIPScoreとFVDを改善するためのいくつかのソリューションを検討し、既存のメトリクスよりも人間との大きな相関を示す2つの自動メトリクスを開発した。 ベンチマークページ: https://github.com/llyx97/FETV。

Recently, open-domain text-to-video (T2V) generation models have made remarkable progress. However, the promising results are mainly shown by the qualitative cases of generated videos, while the quantitative evaluation of T2V models still faces two critical problems. Firstly, existing studies lack fine-grained evaluation of T2V models on different categories of text prompts. Although some benchmarks have categorized the prompts, their categorization either only focuses on a single aspect or fails to consider the temporal information in video generation. Secondly, it is unclear whether the automatic evaluation metrics are consistent with human standards. To address these problems, we propose FETV, a benchmark for Fine-grained Evaluation of Text-to-Video generation. FETV is multi-aspect, categorizing the prompts based on three orthogonal aspects: the major content, the attributes to control and the prompt complexity. FETV is also temporal-aware, which introduces several temporal categories tailored for video generation. Based on FETV, we conduct comprehensive manual evaluations of four representative T2V models, revealing their pros and cons on different categories of prompts from different aspects. We also extend FETV as a testbed to evaluate the reliability of automatic T2V metrics. The multi-aspect categorization of FETV enables fine-grained analysis of the metrics' reliability in different scenarios. We find that existing automatic metrics (e.g., CLIPScore and FVD) correlate poorly with human evaluation. To address this problem, we explore several solutions to improve CLIPScore and FVD, and develop two automatic metrics that exhibit significant higher correlation with humans than existing metrics. Benchmark page: https://github.com/llyx97/FETV.
翻訳日:2023-12-27 21:30:56 公開日:2023-12-26
# SAMSGL:時空間予測のための連続型マルチスケールグラフ学習

SAMSGL: Series-Aligned Multi-Scale Graph Learning for Spatio-Temporal Forecasting ( http://arxiv.org/abs/2312.02646v2 )

ライセンス: Link先を確認
Xiaobei Zou, Luolin Xiong, Yang Tang, Jurgen Kurths(参考訳) 交通予報や天気予報のような各領域の時空間予測は、主に伝播ダイナミクスのモデル化とノード間の高次元相互作用の取得が困難であるため、困難な取り組みである。 時空間予測におけるグラフベースのネットワークによる大きな進歩にもかかわらず、さらなる考慮を必要とする予測性能に密接に関連する2つの重要な要因が残っている。 本稿では,予測性能の向上を目的とした多スケールグラフ学習(samsgl)フレームワークを提案する。 空間的相互作用における時間的遅延に対処するために,非遅延グラフ信号の集約を容易にするために,時間的遅延の影響を緩和し,精度を向上させる一連のグラフ畳み込み層を提案する。 グローバルな時空間相互作用と局所的な時空間相互作用を理解するために,マルチスケールグラフ学習とグラフ完全連結(Graph-FC)ブロックという,2つの重要な要素を含む時空間アーキテクチャを開発した。 マルチスケールグラフ構造学習は、遅延ノード埋め込みと非遅延ノード埋め込みの両方を学習するグローバルグラフ構造と、隣接する要因に影響されるノード変動を学習するローカルグラフ構造を含む。 Graph-FCは、空間情報と時間情報を相乗的に融合して予測精度を高める。 SAMSGLの性能を評価するため,気象・交通予測データセットの実験を行い,その有効性と優位性を示す。

Spatio-temporal forecasting in various domains, like traffic prediction and weather forecasting, is a challenging endeavor, primarily due to the difficulties in modeling propagation dynamics and capturing high-dimensional interactions among nodes. Despite the significant strides made by graph-based networks in spatio-temporal forecasting, there remain two pivotal factors closely related to forecasting performance that need further consideration: time delays in propagation dynamics and multi-scale high-dimensional interactions. In this work, we present a Series-Aligned Multi-Scale Graph Learning (SAMSGL) framework, aiming to enhance forecasting performance. In order to handle time delays in spatial interactions, we propose a series-aligned graph convolution layer to facilitate the aggregation of non-delayed graph signals, thereby mitigating the influence of time delays for the improvement in accuracy. To understand global and local spatio-temporal interactions, we develop a spatio-temporal architecture via multi-scale graph learning, which encompasses two essential components: multi-scale graph structure learning and graph-fully connected (Graph-FC) blocks. The multi-scale graph structure learning includes a global graph structure to learn both delayed and non-delayed node embeddings, as well as a local one to learn node variations influenced by neighboring factors. The Graph-FC blocks synergistically fuse spatial and temporal information to boost prediction accuracy. To evaluate the performance of SAMSGL, we conduct experiments on meteorological and traffic forecasting datasets, which demonstrate its effectiveness and superiority.
翻訳日:2023-12-27 21:23:30 公開日:2023-12-26
# 大規模言語モデルのためのデータ管理:調査

Data Management For Large Language Models: A Survey ( http://arxiv.org/abs/2312.01700v2 )

ライセンス: Link先を確認
Zige Wang, Wanjun Zhong, Yufei Wang, Qi Zhu, Fei Mi, Baojun Wang, Lifeng Shang, Xin Jiang, Qun Liu(参考訳) データは、LLM(Large Language Models)のトレーニングにおいて、基本的な役割を果たす。 効果的なデータ管理は、特に適切なトレーニングデータセットの定式化において、事前トレーニングおよび教師付き微調整フェーズにおけるモデル性能の向上とトレーニング効率の向上に重要である。 データ管理の重要性は大きいが、現在の研究コミュニティでは、管理戦略選択の背景にある理論的根拠や、その影響、キュレートされたデータセットの評価方法、改善された戦略の追求に関する体系的な分析が不足している。 その結果、データ管理の探究が研究コミュニティの間でますます注目を集めている。 本調査は,llmの事前学習と教師付き微調整段階におけるデータ管理の現状について,データ量,データ品質,ドメイン/タスク構成など,データ管理戦略設計のさまざまな特筆すべき側面を包括的に概観する。 将来に向けて、既存の課題を外挿し、この分野の開発に有望な方向性を概説する。 そこで本調査は,データ管理の効果的な実践を通じて,強力なLCMの構築を目指す実践者の指針となる。 最新の論文のコレクションはhttps://github.com/ZigeW/data_management_LLMで公開されている。

Data plays a fundamental role in the training of Large Language Models (LLMs). Effective data management, particularly in the formulation of a well-suited training dataset, holds significance for enhancing model performance and improving training efficiency during pretraining and supervised fine-tuning phases. Despite the considerable importance of data management, the current research community still falls short in providing a systematic analysis of the rationale behind management strategy selection, its consequential effects, methodologies for evaluating curated datasets, and the ongoing pursuit of improved strategies. Consequently, the exploration of data management has attracted more and more attention among the research community. This survey provides a comprehensive overview of current research in data management within both the pretraining and supervised fine-tuning stages of LLMs, covering various noteworthy aspects of data management strategy design: data quantity, data quality, domain/task composition, etc. Looking toward the future, we extrapolate existing challenges and outline promising directions for development in this field. Therefore, this survey serves as a guiding resource for practitioners aspiring to construct powerful LLMs through effective data management practices. The collection of the latest papers is available at https://github.com/ZigeW/data_management_LLM.
翻訳日:2023-12-27 21:22:43 公開日:2023-12-26
# Jellyfish: データ前処理のための大規模言語モデル

Jellyfish: A Large Language Model for Data Preprocessing ( http://arxiv.org/abs/2312.01678v3 )

ライセンス: Link先を確認
Haochen Zhang, Yuyang Dong, Chuan Xiao, Masafumi Oyamada(参考訳) 本稿では,オープンソースのLCMであるJellyfishを,DPのためのユニバーサルタスクソルバとして紹介する。 Llama 2 13Bモデルに基づいて構築されたJellyfishは、エラー検出、データインプット、スキーママッチング、エンティティマッチングなど、典型的なDPタスクのデータセットをトレーニングし、他のタスクに一般化機能を提供する。 驚くべきことに、jellyfishは130億のパラメータで、ローカル、シングル、低価格のgpu上で動作でき、データのセキュリティを確保し、さらなるチューニングを可能にする。 自然言語を理解する能力は、DPタスクの指示を手作業で作成することができる。 事前知識に大きく依存する既存の多くのメソッドとは異なり、Jellyfishはチューニングプロセス中にドメイン知識を取得し、推論中に任意の知識注入を統合する。 Jellyfishの特徴的な特徴はインタプリタであり、出力決定を解明する。 Jellyfishを構築するために、我々は一連の事前調整およびDPチューニング技術を開発した。 jellyfishには、生データをモデルプロンプトに自動的に変換するインスタンスシリアライザと、タスクやデータセット固有の知識を任意に導入してdpパフォーマンスを向上させるナレッジインジェクタが備えられている。 実データを用いたjellyfishの評価は,最先端の手法と比較してその競合性,未認識のタスクに対する強い一般化性を示している。 JellyfishのパフォーマンスはGPTシリーズモデルに匹敵し、インタプリタはGPT-3.5に比べて推論能力が向上した。 また,jellyfishの構築における技術の有効性についても評価を行った。 私たちのモデルはHugging Faceで利用可能です。

In this paper, we present Jellyfish, an open-source LLM as a universal task solver for DP. Built on the Llama 2 13B model, Jellyfish is instruction-tuned with the datasets of several typical DP tasks including error detection, data imputation, schema matching, and entity matching, and delivers generalizability to other tasks. Remarkably, Jellyfish can operate on a local, single, and low-priced GPU with its 13 billion parameters, ensuring data security and enabling further tuning. Its proficiency in understanding natural language allows users to manually craft instructions for DP tasks. Unlike many existing methods that heavily rely on prior knowledge, Jellyfish acquires domain knowledge during its tuning process and integrates optional knowledge injection during inference. A distinctive feature of Jellyfish is its interpreter, which elucidates its output decisions. To construct Jellyfish, we develop a series of pre-tuning and DP-tuning techniques. Jellyfish is equipped with an instance serializer, which automatically translates raw data into model prompts, and a knowledge injector, which optionally introduces task- and dataset-specific knowledge to enhance DP performance. Our evaluation of Jellyfish, using a range of real datasets, shows its competitiveness compared to state-of-the-art methods and its strong generalizability to unseen tasks. Jellyfish's performance rivals that of GPT series models, and its interpreter offers enhanced reasoning capabilities compared to GPT-3.5. Furthermore, our evaluation highlights the effectiveness of the techniques employed in constructing Jellyfish. Our model is available at Hugging Face: https://huggingface.co/NECOUDBFM/Jellyfish .
翻訳日:2023-12-27 21:22:22 公開日:2023-12-26
# 大規模言語モデリングのためのスパイキングニューラルネットワークのアストロサイト拡張

Astrocyte-Enabled Advancements in Spiking Neural Networks for Large Language Modeling ( http://arxiv.org/abs/2312.07625v2 )

ライセンス: Link先を確認
Guobin Shen, Dongcheng Zhao, Yiting Dong, Yang Li, Jindong Li, Kang Sun, Yi Zeng(参考訳) 脳の複雑な神経構造の中で、アストロサイトは発達、構造、代謝において重要な役割を果たす。 これらの細胞は三成分シナプスを介して神経活動を調節し、学習や記憶などの認知過程に直接影響を与える。 アストロサイトの重要性の認識が高まりつつあるにもかかわらず、従来のスパイキングニューラルネットワーク(SNN)モデルは主に神経細胞中心であり、アストロサイトが神経力学に深く影響していることを見越す。 これらの生物学的知見に触発されて、我々は神経細胞-星細胞相互作用を計算パラダイムに統合する革新的なフレームワークであるアストロサイト修飾スパイキングユニット(am-su)を開発した。 astrocyte-modulated spiking neural network(astrosnn)は,記憶保持と自然言語生成,特に長期依存と複雑な言語構造を扱うタスクにおいて,非常に優れた性能を示す。 astrosnnの設計は生物学的信頼性を高めるだけでなく、新しい計算動力学を導入し、複雑な時間依存のより効果的な処理を可能にする。 さらに、AstroSNNは、低レイテンシ、高スループット、実用的なアプリケーションにおけるメモリ使用量の削減を示し、リソース制約のある環境に非常に適している。 我々の研究は、知的ニューラルネットワークに天体力学をうまく統合することで、生物学的可視性とニューラルモデリングのギャップを狭め、神経細胞とアストロサイトの両方を含む未来の生物学的にインスパイアされたニューラルコンピューティング研究の基盤となる。

Within the complex neuroarchitecture of the brain, astrocytes play crucial roles in development, structure, and metabolism. These cells regulate neural activity through tripartite synapses, directly impacting cognitive processes such as learning and memory. Despite the growing recognition of astrocytes' significance, traditional Spiking Neural Network (SNN) models remain predominantly neuron-centric, overlooking the profound influence of astrocytes on neural dynamics. Inspired by these biological insights, we have developed an Astrocyte-Modulated Spiking Unit (AM-SU), an innovative framework that integrates neuron-astrocyte interactions into the computational paradigm, demonstrating wide applicability across various hardware platforms. Our Astrocyte-Modulated Spiking Neural Network (AstroSNN) exhibits exceptional performance in tasks involving memory retention and natural language generation, particularly in handling long-term dependencies and complex linguistic structures. The design of AstroSNN not only enhances its biological authenticity but also introduces novel computational dynamics, enabling more effective processing of complex temporal dependencies. Furthermore, AstroSNN shows low latency, high throughput, and reduced memory usage in practical applications, making it highly suitable for resource-constrained environments. By successfully integrating astrocytic dynamics into intelligent neural networks, our work narrows the gap between biological plausibility and neural modeling, laying the groundwork for future biologically-inspired neural computing research that includes both neurons and astrocytes.
翻訳日:2023-12-27 21:13:12 公開日:2023-12-26
# 医用画像におけるCLIP : 包括的調査

CLIP in Medical Imaging: A Comprehensive Survey ( http://arxiv.org/abs/2312.07353v3 )

ライセンス: Link先を確認
Zihao Zhao, Yuxiao Liu, Han Wu, Yonghao Li, Sheng Wang, Lin Teng, Disheng Liu, Zhiming Cui, Qian Wang, Dinggang Shen(参考訳) Contrastive Language-Image Pre-Training (CLIP) は、シンプルだが効果的な事前学習パラダイムであり、視覚モデルにテキスト管理を導入することに成功した。 様々なタスクにおいて有望な結果を示しており、その一般化性と解釈可能性に起因する。 CLIPの使用は最近、医療画像領域への関心が高まり、医療ビジョンと言語を調整するための事前訓練パラダイムとして機能し、多様な臨床タスクにおいて重要な要素となっている。 この将来性のある方向性をより深く理解することを目的として、この調査は、CLIP事前トレーニングとCLIP駆動アプリケーションの両方に関して、医療画像領域におけるCLIPパラダイムの詳細な調査を提供する。 本研究は,(1)クリップ方法論の基礎を簡潔に紹介することから始める。 2) 医療領域におけるCLIP事前訓練の適応について検討し, 医用画像の特徴と報告のCLIPの最適化方法について検討した。 3)さらに,クリップ事前学習モデルの分類,高密度予測,クロスモーダルタスクなど,様々なタスクにおける実用化について検討する。 (4) 医用画像領域におけるCLIPの限界について考察し, 医用画像領域の要求に対処するための前方視方向を提案する。 この包括的調査は、CLIPパラダイムの全体的理解と、その潜在的な影響を、医学画像分析の分野の研究者に提供することを期待する。 プロジェクトのページはhttps://github.com/zhaozh10/Awesome-CLIP-in-Medical-Imagingにある。

Contrastive Language-Image Pre-training (CLIP), a simple yet effective pre-training paradigm, successfully introduces text supervision to vision models. It has shown promising results across various tasks, attributable to its generalizability and interpretability. The use of CLIP has recently gained increasing interest in the medical imaging domain, serving both as a pre-training paradigm for aligning medical vision and language, and as a critical component in diverse clinical tasks. With the aim of facilitating a deeper understanding of this promising direction, this survey offers an in-depth exploration of the CLIP paradigm within the domain of medical imaging, regarding both refined CLIP pre-training and CLIP-driven applications. In this study, We (1) start with a brief introduction to the fundamentals of CLIP methodology. (2) Then, we investigate the adaptation of CLIP pre-training in the medical domain, focusing on how to optimize CLIP given characteristics of medical images and reports. (3) Furthermore, we explore the practical utilization of CLIP pre-trained models in various tasks, including classification, dense prediction, and cross-modal tasks. (4) Finally, we discuss existing limitations of CLIP in the context of medical imaging and propose forward-looking directions to address the demands of medical imaging domain. We expect that this comprehensive survey will provide researchers in the field of medical image analysis with a holistic understanding of the CLIP paradigm and its potential implications. The project page can be found on https://github.com/zhaozh10/Awesome-CLIP-in-Medical-Imaging.
翻訳日:2023-12-27 21:12:24 公開日:2023-12-26
# Coupled Confusion Correction: 疎アノテーションを持つ群衆から学ぶ

Coupled Confusion Correction: Learning from Crowds with Sparse Annotations ( http://arxiv.org/abs/2312.07331v2 )

ライセンス: Link先を確認
Hansong Zhang, Shikun Li, Dan Zeng, Chenggang Yan, Shiming Ge(参考訳) データセットのサイズが大きくなるにつれて、こうしたデータセットに正確に注釈をつけることは、時間と経済の両方で高価なため、現実的ではない。 そのため,ラベルの収集コストを軽減するためにクラウドソーシングが広く採用され,ラベルノイズも必然的に導入され,最終的にはモデルの性能が低下する。 クラウドソーシングアノテーションから学ぶためには、各アノテータの専門知識をモデル化するのが一般的だが、クラウドソーシングによって収集されるアノテーションは通常、非常に疎結合である。 この問題を緩和するために,2つのモデルを同時に訓練し,相互に学習した混乱行列を補正する結合混乱補正(ccc)を提案する。 バイレベル最適化により、一方のモデルで学習した混乱行列は他方からの蒸留データによって補正できる。 さらに,類似の専門知識を共有する ‘annotator groups'' をクラスタ化し,それらの混乱行列を一緒に修正する。 このように、アノテーターの専門知識、特にめったにないラベルを提供する人の専門知識は、よりよく捉えられる。 注意すべき点として、アノテーションの空間性は、平均的なラベル数が低いことを意味するだけでなく、非常に少ないラベルを提供するアノテータが常に存在することを指摘した。 そこで我々は,クラウドソーシングラベルの生成を制御するために,ベータディストリビューションを使用することを提案する。 2種類の合成データセットと3つの実世界のデータセットで大規模な実験を行い、CCCが最先端のアプローチを著しく上回ることを示した。

As the size of the datasets getting larger, accurately annotating such datasets is becoming more impractical due to the expensiveness on both time and economy. Therefore, crowd-sourcing has been widely adopted to alleviate the cost of collecting labels, which also inevitably introduces label noise and eventually degrades the performance of the model. To learn from crowd-sourcing annotations, modeling the expertise of each annotator is a common but challenging paradigm, because the annotations collected by crowd-sourcing are usually highly-sparse. To alleviate this problem, we propose Coupled Confusion Correction (CCC), where two models are simultaneously trained to correct the confusion matrices learned by each other. Via bi-level optimization, the confusion matrices learned by one model can be corrected by the distilled data from the other. Moreover, we cluster the ``annotator groups'' who share similar expertise so that their confusion matrices could be corrected together. In this way, the expertise of the annotators, especially of those who provide seldom labels, could be better captured. Remarkably, we point out that the annotation sparsity not only means the average number of labels is low, but also there are always some annotators who provide very few labels, which is neglected by previous works when constructing synthetic crowd-sourcing annotations. Based on that, we propose to use Beta distribution to control the generation of the crowd-sourcing labels so that the synthetic annotations could be more consistent with the real-world ones. Extensive experiments are conducted on two types of synthetic datasets and three real-world datasets, the results of which demonstrate that CCC significantly outperforms state-of-the-art approaches.
翻訳日:2023-12-27 21:11:58 公開日:2023-12-26
# ハイブリッドニューラルネットワークを用いた学生理科文章の自動スコアリング

Automatic Scoring of Students' Science Writing Using Hybrid Neural Network ( http://arxiv.org/abs/2312.03752v2 )

ライセンス: Link先を確認
Ehsan Latif and Xiaoming Zhai(参考訳) 本研究では,マルチパースペクティブハイブリッドニューラルネットワーク(hnn)を用いて,理科教育における学生の反応を解析的に評価する。 HNNモデルの精度を4つのMLアプローチ(BERT, AACR, Naive Bayes, Logistic Regression)と比較した。 その結果,HHNは5つのスコア(p<0.001)において,Naive Bayes,Logistic Regression,AACR,BERTよりも8%,3%,1%,0.12%高い精度を示した。 HNNの全体的な精度(M = 96.23%、SD = 1.45%)は、高価なBERTモデルの精度(M = 96.12%、SD = 1.52%)に匹敵する。 また、HNNはBERTよりも訓練や推論の効率が良く、軽量だが精度の低いNaive Bayesモデルに匹敵する効率であることも見てきた。 本研究は,HNNを用いて学生の理科文章を自動評価することの正確さと効率性を確認した。

This study explores the efficacy of a multi-perspective hybrid neural network (HNN) for scoring student responses in science education with an analytic rubric. We compared the accuracy of the HNN model with four ML approaches (BERT, AACR, Naive Bayes, and Logistic Regression). The results have shown that HHN achieved 8%, 3%, 1%, and 0.12% higher accuracy than Naive Bayes, Logistic Regression, AACR, and BERT, respectively, for five scoring aspects (p<0.001). The overall HNN's perceived accuracy (M = 96.23%, SD = 1.45%) is comparable to the (training and inference) expensive BERT model's accuracy (M = 96.12%, SD = 1.52%). We also have observed that HNN is x2 more efficient in training and inferencing than BERT and has comparable efficiency to the lightweight but less accurate Naive Bayes model. Our study confirmed the accuracy and efficiency of using HNN to score students' science writing automatically.
翻訳日:2023-12-27 21:08:38 公開日:2023-12-26
# LLM推論の強化:強化インコンテキストプルーニングによるFew-shot Learningの限界を押し上げる

Boosting LLM Reasoning: Push the Limits of Few-shot Learning with Reinforced In-Context Pruning ( http://arxiv.org/abs/2312.08901v2 )

ライセンス: Link先を確認
Xijie Huang, Li Lyna Zhang, Kwang-Ting Cheng, Mao Yang(参考訳) 大きな言語モデル(LLM)は、様々なタスクにおいて印象的な能力を示しているが、それでも数学の推論に苦戦している。 CoT(Chain-of-Thoughts)のプロンプトと微調整LDMを最適化する努力にもかかわらず、数発の学習の可能性はまだ明らかになっていない。 本研究では,数ショットのCoT学習の境界を推し進める新しい手法であるCoT-Influxを提案する。 CoT-Influxは、コンテキストウィンドウの長さが制限されているため、有用な例と限られた数の例を選択することの課題に対処する。 自然言語入力には多くの冗長性が含まれているという観測に触発されて、llmsのプラグアンドプレイモジュールとして粗いprunerを提案しました。 プルーナーを訓練するために,多種多様な難易度とステップを持つ算数推論データセットを収集し,算数推論とトークン長制約に対する入力の有効性を計測する報奨を導入し,強化学習を用いた新しい学習手法を提案する。 その結果、CoT-Influx は CoT を著しく上回り、様々な LLM (LLaMA2-7B, 13B, 70B) と 5 つの数学的データセットにわたってベースラインを誘導し、最大4.55% の絶対改善を実現した。 注目すべきは、微調整なしでは、CoT-Influxを搭載したLLaMA2-70Bは、GSM8K上の幅広いLLM(PaLM、Minervaなど)とGPT-3.5を超えることである。

Large language models (LLMs) have shown impressive capabilities in various tasks, yet they still struggle with math reasoning. Despite efforts to optimize Chain-of-Thoughts (CoT) prompts and fine-tune LLMs, the potential of few-shot learning remains unexplored. In this work, we propose CoT-Influx, a novel approach pushing the boundaries of few-shot CoT learning to improve LLM math reasoning capabilities. CoT-Influx addresses the challenges of the selection of useful examples and limited number of examples due to restricted context window length. Inspired by our observation that natural language inputs contain many redundancy, we propose a coarse-to-fine pruner as a plug-and-play module for LLMs, which first identifies as many crucial CoT examples as possible and then further prunes unimportant tokens within the context window. To train the pruner, we collect a math reasoning dataset with diverse difficulty and steps, introduce a reward to measure both the input's effectiveness for math reasoning and token length constraints, and propose a novel training approach with reinforcement learning. As a result, CoT-Influx significantly outperforms CoT and few-shot prompting baselines across various LLMs (LLaMA2-7B, 13B, 70B) and 5 mathematical datasets, achieving up to 4.55% absolute improvements. Remarkably, without any fine-tuning, LLaMA2-70B with CoT-Influx surpasses GPT-3.5 and a wide range of larger LLMs (PaLM, Minerva, etc.) on the GSM8K.
翻訳日:2023-12-27 20:59:14 公開日:2023-12-26
# SEEAvatar: 制約された幾何学と外観を持つフォトリアリスティックテキストから3次元アバター生成

SEEAvatar: Photorealistic Text-to-3D Avatar Generation with Constrained Geometry and Appearance ( http://arxiv.org/abs/2312.08889v2 )

ライセンス: Link先を確認
Yuanyou Xu, Zongxin Yang, Yi Yang(参考訳) 大規模なテキストから画像への生成モデルによって、テキストから3dアバターの生成は有望な進歩を遂げている。 しかし、ほとんどの方法は不正確な幾何学と低品質の外観によって制限されたフォトリアリスティックな結果を生み出すことができない。 より実用的なアバター生成に向けて,本論文では,Self-Evolving 制約付きテキストからフォトリアリスティックな3Dアバターを生成する方法であるSEEAvatarを提案する。 幾何学では,テンプレートアバターを用いて最適化アバターを適度なグローバル形状に制約することを提案する。 テンプレートアバターは、ヒトの事前で初期化され、最適化されたアバターを周期的に進化テンプレートとして更新し、より柔軟な形状生成を可能にする。 さらに、顔や手などの局所的な部分において、静的な人間によって、微妙な構造を維持するために制約される。 外観生成のために,プロンプトエンジニアリングにより拡張された拡散モデルを用いて,物理ベースのレンダリングパイプラインをガイドし,リアルなテクスチャを生成する。 アルベドテクスチャに光度制約を適用し、誤った照明効果を抑制する。 実験により,本手法は,大域的・局所的な幾何学的手法と外観的品質を大きなマージンで比較した。 本手法は高品質なメッシュやテクスチャを生成できるため,任意の照明条件下でのリアルレンダリングのために,従来のグラフィックパイプラインに直接適用することができる。 プロジェクトページ: https://yoxu515.github.io/SEEAvatar/。

Powered by large-scale text-to-image generation models, text-to-3D avatar generation has made promising progress. However, most methods fail to produce photorealistic results, limited by imprecise geometry and low-quality appearance. Towards more practical avatar generation, we present SEEAvatar, a method for generating photorealistic 3D avatars from text with SElf-Evolving constraints for decoupled geometry and appearance. For geometry, we propose to constrain the optimized avatar in a decent global shape with a template avatar. The template avatar is initialized with human prior and can be updated by the optimized avatar periodically as an evolving template, which enables more flexible shape generation. Besides, the geometry is also constrained by the static human prior in local parts like face and hands to maintain the delicate structures. For appearance generation, we use diffusion model enhanced by prompt engineering to guide a physically based rendering pipeline to generate realistic textures. The lightness constraint is applied on the albedo texture to suppress incorrect lighting effect. Experiments show that our method outperforms previous methods on both global and local geometry and appearance quality by a large margin. Since our method can produce high-quality meshes and textures, such assets can be directly applied in classic graphics pipeline for realistic rendering under any lighting condition. Project page at: https://yoxu515.github.io/SEEAvatar/.
翻訳日:2023-12-27 20:58:38 公開日:2023-12-26
# レコメンダシステムに対するモデル盗み攻撃

Model Stealing Attack against Recommender System ( http://arxiv.org/abs/2312.11571v2 )

ライセンス: Link先を確認
Zhihao Zhu, Rui Fan, Chenwang Wu, Yi Yang, Defu Lian, Enhong Chen(参考訳) 近年,データプライバシ攻撃に対するレコメンダシステムの脆弱性が実証されている。 しかし、モデル盗み攻撃のようなレコメンダシステムにおけるプライバシモデルへの脅威に関する研究はまだ初期段階にある。 いくつかの敵攻撃は、ターゲットモデル(ターゲットデータ)の豊富なトレーニングデータを収集したり、大量のクエリを作成することによって、リコメンダシステムに対するモデル盗難攻撃をある程度達成している。 本稿では,利用可能な対象データとクエリの量を制限するとともに,対象データとセットしたアイテムを共有する補助データを利用して,モデル盗み攻撃を促進させる。 ターゲットモデルは、ターゲットと補助データを異なる方法で扱うが、同様の行動パターンにより、アタックメカニズムを用いて攻撃を支援することができる。 また,対象モデルに照会した推薦リストを効果的に抽出するために,盗み機能を設計する。 実験の結果,提案手法は,多くのレコメンダシステムや様々なシナリオに適用でき,複数のデータセットに対して優れた攻撃性能を示すことがわかった。

Recent studies have demonstrated the vulnerability of recommender systems to data privacy attacks. However, research on the threat to model privacy in recommender systems, such as model stealing attacks, is still in its infancy. Some adversarial attacks have achieved model stealing attacks against recommender systems, to some extent, by collecting abundant training data of the target model (target data) or making a mass of queries. In this paper, we constrain the volume of available target data and queries and utilize auxiliary data, which shares the item set with the target data, to promote model stealing attacks. Although the target model treats target and auxiliary data differently, their similar behavior patterns allow them to be fused using an attention mechanism to assist attacks. Besides, we design stealing functions to effectively extract the recommendation list obtained by querying the target model. Experimental results show that the proposed methods are applicable to most recommender systems and various scenarios and exhibit excellent attack performance on multiple datasets.
翻訳日:2023-12-27 20:49:14 公開日:2023-12-26
# 基礎モデルによる推論に関する調査

A Survey of Reasoning with Foundation Models ( http://arxiv.org/abs/2312.11562v4 )

ライセンス: Link先を確認
Jiankai Sun, Chuanyang Zheng, Enze Xie, Zhengying Liu, Ruihang Chu, Jianing Qiu, Jiaqi Xu, Mingyu Ding, Hongyang Li, Mengzhe Geng, Yue Wu, Wenhai Wang, Junsong Chen, Zhangyue Yin, Xiaozhe Ren, Jie Fu, Junxian He, Wu Yuan, Qi Liu, Xihui Liu, Yu Li, Hao Dong, Yu Cheng, Ming Zhang, Pheng Ann Heng, Jifeng Dai, Ping Luo, Jingdong Wang, Ji-Rong Wen, Xipeng Qiu, Yike Guo, Hui Xiong, Qun Liu, Zhenguo Li(参考訳) 複雑な問題解決において重要な能力である推論は、交渉、医療診断、刑事捜査など、現実世界の様々な場面で重要な役割を果たしている。 人工知能(AGI)の分野における基本的な方法論として機能する。 基礎モデルの開発が進み、推論タスクの能力を探究することへの関心が高まっている。 本稿では,様々な推論タスク,メソッド,ベンチマークの最新の進歩を浮き彫りにして,推論に適応可能な基礎モデルを提案する。 次に、基礎モデルにおける推論能力の出現の背後にある潜在的な将来方向を掘り下げる。 また,マルチモーダル学習,自律エージェント,スーパーアライメントとの関連性についても論じる。 これらの今後の研究の方向性を議論することで、この分野の探索に研究者を刺激し、基礎モデルによる推論のさらなる進歩を刺激し、agiの開発に貢献することを望んでいる。

Reasoning, a crucial ability for complex problem-solving, plays a pivotal role in various real-world settings such as negotiation, medical diagnosis, and criminal investigation. It serves as a fundamental methodology in the field of Artificial General Intelligence (AGI). With the ongoing development of foundation models, there is a growing interest in exploring their abilities in reasoning tasks. In this paper, we introduce seminal foundation models proposed or adaptable for reasoning, highlighting the latest advancements in various reasoning tasks, methods, and benchmarks. We then delve into the potential future directions behind the emergence of reasoning abilities within foundation models. We also discuss the relevance of multimodal learning, autonomous agents, and super alignment in the context of reasoning. By discussing these future research directions, we hope to inspire researchers in their exploration of this field, stimulate further advancements in reasoning with foundation models, and contribute to the development of AGI.
翻訳日:2023-12-27 20:48:57 公開日:2023-12-26
# MAC-SQL: テキストからSQLへのコラボレーションフレームワーク

MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL ( http://arxiv.org/abs/2312.11242v2 )

ライセンス: Link先を確認
Bing Wang, Changyu Ren, Jian Yang, Xinnian Liang, Jiaqi Bai, Qian-Wen Zhang, Zhao Yan, Zhoujun Li(参考訳) 大規模言語モデル(LLM)を用いたテキストからSQLへの手法の最近の進歩は顕著な性能を示している。 それでもこれらのアプローチは、広範なデータベース処理、複雑なユーザクエリ、誤ったSQL結果の処理において、引き続き困難に直面する。 これらの課題に対処するために,テキスト・トゥ・SQLタスク用に設計された新しいLLMベースのマルチエージェント協調フレームワークである‘textsc{MAC-SQL} を紹介する。 このフレームワークは、3つのエージェントで構成されている: \textit{selector} は、voluminous database を凝縮し、関連するテーブルスキーマをユーザ質問のために保持する責任を負う; \textit{decomposer} は、複雑なユーザー質問をより単純なサブ問題に分解し、それらを徐々に解決する; \textit{refiner} は、欠陥のあるsqlクエリの検証と改善を任務とする。 BIRDとSpiderの2つのText-to-SQLデータセットに対して総合的な実験を行い、BIRDテストセット上で59.59\%の最先端実行精度を達成する。 さらに,コードLlama 7Bに基づくインストラクション微調整モデルSQL-Llamaをオープンソース化し,BIRDとSpiderに基づくトレーニングデータから派生したエージェント命令データセットを作成した。 sql-llamaモデルは、birdとspiderの開発セットで奨励的な結果を示している。 しかし、GPT-4と比較しても、増強の可能性は顕著である。 私たちのコードとデータはhttps://github.com/wbbeyourself/MAC-SQLで公開されています。

Recent advancements in Text-to-SQL methods employing Large Language Models (LLMs) have demonstrated remarkable performance. Nonetheless, these approaches continue to encounter difficulties when handling extensive databases, intricate user queries, and erroneous SQL results. To tackle these challenges, we present \textsc{MAC-SQL}, a novel LLM-based multi-agent collaborative framework designed for the Text-to-SQL task. Our framework comprises three agents: the \textit{Selector}, accountable for condensing voluminous databases and preserving relevant table schemas for user questions; the \textit{Decomposer}, which disassembles complex user questions into more straightforward sub-problems and resolves them progressively; and the \textit{Refiner}, tasked with validating and refining defective SQL queries. We perform comprehensive experiments on two Text-to-SQL datasets, BIRD and Spider, achieving a state-of-the-art execution accuracy of 59.59\% on the BIRD test set. Moreover, we have open-sourced an instruction fine-tuning model, SQL-Llama, based on Code Llama 7B, in addition to an agent instruction dataset derived from training data based on BIRD and Spider. The SQL-Llama model has demonstrated encouraging results on the development sets of both BIRD and Spider. However, when compared to GPT-4, there remains a notable potential for enhancement. Our code and data are publicly available at https://github.com/wbbeyourself/MAC-SQL.
翻訳日:2023-12-27 20:48:03 公開日:2023-12-26
# 脳とテキストのデコードにおけるデータ汚染問題

Data Contamination Issues in Brain-to-Text Decoding ( http://arxiv.org/abs/2312.10987v2 )

ライセンス: Link先を確認
Congchi Yin, Qian Yu, Zhiwei Fang, Jie He, Changping Peng, Zhangang Lin, Jingping Shao, Piji Li(参考訳) 非侵襲的な認知信号を自然言語にデコードすることは、長年、実用的な脳-コンピュータインターフェース(BCI)の構築の目標であった。 最近の大きなマイルストーンは、機能的磁気共鳴イメージング(fMRI)や脳波(EEG)といった認知信号をオープンな語彙設定下でテキストに復号することに成功している。 しかし、認知信号復号タスクのトレーニング、検証、テストのためにデータセットを分割する方法はまだ議論の余地がある。 本稿では,現在のデータセット分割手法を体系的に分析し,データ汚染の存在がモデル性能を大幅に上回ることを示す。 具体的には、まず被験者の認知信号の漏洩が、堅牢なエンコーダの訓練を損なうことを明らかにする。 第2に,テキスト刺激の漏洩により,自動回帰デコーダがテストセットに情報を記憶することを証明する。 デコーダは、認知信号を真に理解するためではなく、高精度なテキストを生成する。 データ汚染の影響をなくし、異なるモデルの一般化能力を十分に評価するために、異なるタイプの認知データセット(例えば、fmri、脳波)に対する新しい分割法を提案する。 また,提案したデータセット分割パラダイムに基づくSOTA脳テキスト復号モデルの性能を,さらなる研究のベースラインとして検証した。

Decoding non-invasive cognitive signals to natural language has long been the goal of building practical brain-computer interfaces (BCIs). Recent major milestones have successfully decoded cognitive signals like functional Magnetic Resonance Imaging (fMRI) and electroencephalogram (EEG) into text under open vocabulary setting. However, how to split the datasets for training, validating, and testing in cognitive signal decoding task still remains controversial. In this paper, we conduct systematic analysis on current dataset splitting methods and find the existence of data contamination largely exaggerates model performance. Specifically, first we find the leakage of test subjects' cognitive signals corrupts the training of a robust encoder. Second, we prove the leakage of text stimuli causes the auto-regressive decoder to memorize information in test set. The decoder generates highly accurate text not because it truly understands cognitive signals. To eliminate the influence of data contamination and fairly evaluate different models' generalization ability, we propose a new splitting method for different types of cognitive datasets (e.g. fMRI, EEG). We also test the performance of SOTA Brain-to-Text decoding models under the proposed dataset splitting paradigm as baselines for further research.
翻訳日:2023-12-27 20:46:54 公開日:2023-12-26
# aiの性別バイアス、格差、公平性: トレーニングデータは重要か?

AI Gender Bias, Disparities, and Fairness: Does Training Data Matter? ( http://arxiv.org/abs/2312.10833v2 )

ライセンス: Link先を確認
Ehsan Latif, Xiaoming Zhai, and Lei Liu(参考訳) 本研究は,人工知能(AI)におけるジェンダー問題,特に学生書記応答の自動スコアリングシステムにおける多岐にわたる問題について考察する。 主な目的は、aiスコア結果における混合生成データセットを用いた一般的なトレーニングサンプルにおいて、性別バイアス、格差、公平性の有無を調べることである。 本研究は、BERTとGPT-3.5の微調整版を用いて、6つの評価項目で男女1000人以上の学生の反応を分析した。 この研究はバイアス分析に3つの異なる手法を用いており、バイアスを評価するための精度差の補正、男女差を評価するための平均スコアギャップ(MSG)、公平さを評価するための平等オッド(EO)である。 その結果,混合学習モデルにおけるスコアリング精度は,男女ともに有意差を示し,有意なスコアバイアスは認められなかった。 BERT と GPT-3.5 のどちらとも一致し,混合学習モデルでは,ヒトと比較してMSG と非異種予測が少なかった。 対照的に、性別に特化して訓練されたモデルでは、より大きなMSGが得られ、不均衡なトレーニングデータが男女格差を拡大するアルゴリズムモデルを作成する可能性があることを示している。 EO分析は、混合訓練されたモデルは、性特化訓練されたモデルと比較して、より公平な結果をもたらすことを示唆している。 総じて,性別不均衡データは必ずしもスコアのバイアスを生じさせるのではなく,性別格差を増大させ,スコアの公平さを低下させることが示唆された。

This study delves into the pervasive issue of gender issues in artificial intelligence (AI), specifically within automatic scoring systems for student-written responses. The primary objective is to investigate the presence of gender biases, disparities, and fairness in generally targeted training samples with mixed-gender datasets in AI scoring outcomes. Utilizing a fine-tuned version of BERT and GPT-3.5, this research analyzes more than 1000 human-graded student responses from male and female participants across six assessment items. The study employs three distinct techniques for bias analysis: Scoring accuracy difference to evaluate bias, mean score gaps by gender (MSG) to evaluate disparity, and Equalized Odds (EO) to evaluate fairness. The results indicate that scoring accuracy for mixed-trained models shows an insignificant difference from either male- or female-trained models, suggesting no significant scoring bias. Consistently with both BERT and GPT-3.5, we found that mixed-trained models generated fewer MSG and non-disparate predictions compared to humans. In contrast, compared to humans, gender-specifically trained models yielded larger MSG, indicating that unbalanced training data may create algorithmic models to enlarge gender disparities. The EO analysis suggests that mixed-trained models generated more fairness outcomes compared with gender-specifically trained models. Collectively, the findings suggest that gender-unbalanced data do not necessarily generate scoring bias but can enlarge gender disparities and reduce scoring fairness.
翻訳日:2023-12-27 20:46:33 公開日:2023-12-26
# 善を模倣し、悪を避ける: 安全強化学習への漸進的アプローチ

Imitate the Good and Avoid the Bad: An Incremental Approach to Safe Reinforcement Learning ( http://arxiv.org/abs/2312.10385v2 )

ライセンス: Link先を確認
Huy Hoang and Tien Mai and Pradeep Varakantham(参考訳) 強化学習(rl)において安全な行動を強制するための一般的な枠組みは、期待コスト(またはその他のコスト対策)に基づく軌道ベースの制約が安全性を強制するために採用され、さらに重要なことに、期待報酬を最大化しながらこれらの制約を強制する、制限付きrlである。 制約付きRLを解くための最近のアプローチでは、トラジェクトリに基づくコスト制約を代理問題に変換し、RL法に小さな修正を加えて解くことができる。 このようなアプローチによる重要な欠点は、各状態におけるコスト制約の過度あるいは過小評価である。 したがって、軌道ベースのコスト制約を変更しず、代わりに ``good'' の軌跡を模倣し、漸進的に改善したポリシーから生じる ``bad'' の軌跡を避けるアプローチを提供する。 私たちは、報酬しきい値(学習によって異なる)と全体的なコスト制約を利用して、トラックを ``good'' または ``bad'' とラベル付けするオラクルを採用しています。 私たちのアプローチの重要な利点は、開始ポリシーや一連の軌道から作業し、それを改善することができることです。 総括的な実験により,提案手法は予測コスト,CVaRコスト,さらには未知のコスト制約に対して,制約付きRL問題を解くためのベンチマーク手法よりも優れていることを示した。

A popular framework for enforcing safe actions in Reinforcement Learning (RL) is Constrained RL, where trajectory based constraints on expected cost (or other cost measures) are employed to enforce safety and more importantly these constraints are enforced while maximizing expected reward. Most recent approaches for solving Constrained RL convert the trajectory based cost constraint into a surrogate problem that can be solved using minor modifications to RL methods. A key drawback with such approaches is an over or underestimation of the cost constraint at each state. Therefore, we provide an approach that does not modify the trajectory based cost constraint and instead imitates ``good'' trajectories and avoids ``bad'' trajectories generated from incrementally improving policies. We employ an oracle that utilizes a reward threshold (which is varied with learning) and the overall cost constraint to label trajectories as ``good'' or ``bad''. A key advantage of our approach is that we are able to work from any starting policy or set of trajectories and improve on it. In an exhaustive set of experiments, we demonstrate that our approach is able to outperform top benchmark approaches for solving Constrained RL problems, with respect to expected cost, CVaR cost, or even unknown cost constraints.
翻訳日:2023-12-27 20:44:56 公開日:2023-12-26
# fed-co2: フェデレーション学習における重度データ不均質性に対するオンラインおよびオフラインモデルの協調

Fed-CO2: Cooperation of Online and Offline Models for Severe Data Heterogeneity in Federated Learning ( http://arxiv.org/abs/2312.13923v2 )

ライセンス: Link先を確認
Zhongyi Cai, Ye Shi, Wei Huang, Jingya Wang(参考訳) フェデレーション学習(federated learning, fl)は、複数のクライアントがプライベートデータを共有することなく、グローバルなモデルを協調的に学習できる、有望な分散学習パラダイムとして登場した。 しかしながら、flの有効性はトレーニングに使用されるデータの品質に大きく依存している。 特に,ラベル分布スキューや特徴スキューなどのデータ不均一性問題はFLの性能に大きな影響を及ぼす可能性がある。 FLにおける従来の研究は主にラベル分布スキューデータの不均一性に対処することに焦点を当ててきたが、最近の研究は機能スキュー問題に対処する最初の進歩を成し遂げた。 特に、これらの2種類のデータ不均一性は別々に研究され、統一FLフレームワークでは十分に研究されていない。 このギャップに対処するため,我々は,\textbf{o}nline モデルと \textbf{o}ffline モデルの間の \textbf{c}o 操作機構内でラベル分布のスキューと特徴スキューの両方を処理するユニバーサルflフレームワーク fed-co$_{2}$ を提案する。 具体的には、オンラインモデルはすべてのクライアント間で共有される一般的な知識を学習し、オフラインモデルは各クライアントの専門知識を学ぶためにローカルでトレーニングされる。 機能シフトの存在下でのモデル協調をさらに強化するために,オンラインモデルとオフラインモデル間の相互学習を強化するクライアント内知識伝達機構と,モデルのドメイン一般化能力を高めるクライアント間知識伝達機構を設計する。 広範な実験によって、feed-co$_{2}$は、ラベル分布のスキューと特徴スキューの扱いという観点で、既存のパーソナライズされたフェデレーション学習アルゴリズムの幅広い範囲を上回っていることが示された。 実験結果は,収束解析により簡易な設定で支持される。

Federated Learning (FL) has emerged as a promising distributed learning paradigm that enables multiple clients to learn a global model collaboratively without sharing their private data. However, the effectiveness of FL is highly dependent on the quality of the data that is being used for training. In particular, data heterogeneity issues, such as label distribution skew and feature skew, can significantly impact the performance of FL. Previous studies in FL have primarily focused on addressing label distribution skew data heterogeneity, while only a few recent works have made initial progress in tackling feature skew issues. Notably, these two forms of data heterogeneity have been studied separately and have not been well explored within a unified FL framework. To address this gap, we propose Fed-CO$_{2}$, a universal FL framework that handles both label distribution skew and feature skew within a \textbf{C}ooperation mechanism between the \textbf{O}nline and \textbf{O}ffline models. Specifically, the online model learns general knowledge that is shared among all clients, while the offline model is trained locally to learn the specialized knowledge of each individual client. To further enhance model cooperation in the presence of feature shifts, we design an intra-client knowledge transfer mechanism that reinforces mutual learning between the online and offline models, and an inter-client knowledge transfer mechanism to increase the models' domain generalization ability. Extensive experiments show that our Fed-CO$_{2}$ outperforms a wide range of existing personalized federated learning algorithms in terms of handling label distribution skew and feature skew, both individually and collectively. The empirical results are supported by our convergence analyses in a simplified setting.
翻訳日:2023-12-27 20:37:20 公開日:2023-12-26
# 英語地名の言語的特徴に関する確率論的分析

A Stochastic Analysis of the Linguistic Provenance of English Place Names ( http://arxiv.org/abs/2312.12850v2 )

ライセンス: Link先を確認
Michael Dalvean(参考訳) 英語の地名分析では、英語の地名に影響を与えた言語の1つで、地名のルートと地形的特徴、固有名および/または居住用語との類似から意味が導かれることが多い。 ここでの問題は、根の解釈に使用するベース言語を決定するのが難しい場合があります。 この論文の目的は、アイルランド、スコットランド、ウェールズ、デンマーク、ノルウェー、スウェーデン、フランス、ドイツ、オランダ、古代ローマの18799の地名と84685の地名の類似性を確率的に決定することである。 各英語の地名は、他国の地名に類似している程度に応じてランク付けされ、地名を解釈するために使用する可能性のある言語を決定する基礎となる。 提供されるランキングを使って、多くの観察を行うことができる。 特に、'Didlington' は英語のサンプルの中では最も古風な英語の地名であり、'Anna' は最小である。 さらに、非英語の地名はノルウェー語地名に最もよく似ており、ウェールズ語地名に最も似ていることが判明した。

In English place name analysis, meanings are often derived from the resemblance of roots in place names to topographical features, proper names and/or habitation terms in one of the languages that have had an influence on English place names. The problem here is that it is sometimes difficult to determine the base language to use to interpret the roots. The purpose of this paper is to stochastically determine the resemblance between 18799 English place names and 84685 place names from Ireland, Scotland, Wales, Denmark, Norway, Sweden, France, Germany, the Netherlands and Ancient Rome. Each English place name is ranked according to the extent to which it resembles place names from the other countries, and this provides a basis for determining the likely language to use to interpret the place name. A number of observations can be made using the ranking provided. In particular, it is found that `Didlington' is the most archetypically English place name in the English sample, and `Anna' is the least. Furthermore, it is found that the place names in the non-English datasets are most similar to Norwegian place names and least similar to Welsh place names.
翻訳日:2023-12-27 20:34:48 公開日:2023-12-26
# AIに基づくエネルギー輸送安全:インテリジェントセンシングシステムを用いたパイプラインラジアル脅威推定

AI-Based Energy Transportation Safety: Pipeline Radial Threat Estimation Using Intelligent Sensing System ( http://arxiv.org/abs/2312.11583v2 )

ライセンス: Link先を確認
Chengyuan Zhu, Yiyuan Yang, Kaixiang Yang, Haifeng Zhang, Qinmin Yang, C. L. Philip Chen(参考訳) 人工知能技術の応用は、特に外部の脅威に対する防御において、エネルギーパイプラインの安全性を大幅に強化し、強化している。 主な方法は、外部振動を検出するためのインテリジェントセンサーの統合、イベントタイプや位置の識別、手作業による検出方法の置き換えなどである。 しかし、実用的な実装は、脅威イベントの認証を複雑にする外部信号の空間的寸法を正確に識別する能力を制限する現在の方法の限界を露呈している。 本研究は,より詳細な認識と局所化を実現するために,深層学習技術を活用することで,上記の課題を克服しようとするものである。 この改良はパイプラインの真の脅威を効果的に識別するために不可欠であり、エネルギー輸送の安全性を高める。 本稿では,分散光ファイバーセンシング技術に基づくエネルギーパイプラインの放射状脅威推定手法を提案する。 具体的には,包括的信号特徴を抽出し,脅威推定・認識ネットワークを構築するための連続的マルチビュー・マルチドメイン特徴融合手法を提案する。 収集した音響信号データの利用を最適化し,基礎となる原理を解明する。 さらに,事前学習モデルによる伝達学習の概念を取り入れ,認識精度と学習効率の両立を図る。 実世界のシナリオから収集された実証的証拠は,本手法の有効性,特に誤報の大幅な低減と認識精度の顕著な向上を裏付けるものである。 より一般的に,本手法は汎用性を示し,広い範囲の認識タスクやシナリオに当てはめることができる。

The application of artificial intelligence technology has greatly enhanced and fortified the safety of energy pipelines, particularly in safeguarding against external threats. The predominant methods involve the integration of intelligent sensors to detect external vibration, enabling the identification of event types and locations, thereby replacing manual detection methods. However, practical implementation has exposed a limitation in current methods - their constrained ability to accurately discern the spatial dimensions of external signals, which complicates the authentication of threat events. Our research endeavors to overcome the above issues by harnessing deep learning techniques to achieve a more fine-grained recognition and localization process. This refinement is crucial in effectively identifying genuine threats to pipelines, thus enhancing the safety of energy transportation. This paper proposes a radial threat estimation method for energy pipelines based on distributed optical fiber sensing technology. Specifically, we introduce a continuous multi-view and multi-domain feature fusion methodology to extract comprehensive signal features and construct a threat estimation and recognition network. The utilization of collected acoustic signal data is optimized, and the underlying principle is elucidated. Moreover, we incorporate the concept of transfer learning through a pre-trained model, enhancing both recognition accuracy and training efficiency. Empirical evidence gathered from real-world scenarios underscores the efficacy of our method, notably in its substantial reduction of false alarms and remarkable gains in recognition accuracy. More generally, our method exhibits versatility and can be extrapolated to a broader spectrum of recognition tasks and scenarios.
翻訳日:2023-12-27 20:32:40 公開日:2023-12-26
# WaveCoder: 改良されたデータ生成による広範かつVersatile拡張インストラクションチューニング

WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation ( http://arxiv.org/abs/2312.14187v2 )

ライセンス: Link先を確認
Zhaojian Yu, Xin Zhang, Ning Shang, Yangyu Huang, Can Xu, Yishujie Zhao, Wenxiang Hu, Qiufeng Yin(参考訳) 最近の研究は、高品質な命令データセットに微調整された後、様々なタスクに対処する印象的な能力が得られることを示した。 しかし、既存の命令データ生成手法はしばしば重複データを生成し、データ品質を十分に制御できない。 本稿では,命令データを4つのコード関連タスクに分類することで,命令チューニングの一般化を拡張し,オープンソースコードから多種多様な高品質な命令データを生成するLLMベースのジェネレータデータ処理フレームワークを提案する。 そこで我々は,4つの普遍的なコード関連タスクにまたがる20,000の命令インスタンスからなるデータセットであるCodeOceanを紹介した。 次に、WidespreadとVersatile拡張命令チューニングを備えた微調整コードLLMであるWaveCoderを紹介する。 このモデルは、特にコード言語モデル(llms)の命令チューニングを強化するために設計されている。 我々の実験では、Wavecoderモデルは、異なるコード関連タスクを同じレベルの微調整スケールで一般化する能力において、他のオープンソースモデルよりも優れていることを示した。 さらに、Wavecoderは、以前のコード生成タスクで高い効率を示す。 そこで本稿では,命令データ生成と微調整モデルに多大な貢献を行い,コード関連タスクのパフォーマンス向上のための新たな洞察とツールを提供する。

Recent work demonstrates that, after being fine-tuned on a high-quality instruction dataset, the resulting model can obtain impressive capabilities to address a wide range of tasks. However, existing methods for instruction data generation often produce duplicate data and are not controllable enough on data quality. In this paper, we extend the generalization of instruction tuning by classifying the instruction data to 4 code-related tasks and propose a LLM-based Generator-Discriminator data process framework to generate diverse, high-quality instruction data from open source code. Hence, we introduce CodeOcean, a dataset comprising 20,000 instruction instances across 4 universal code-related tasks,which is aimed at augmenting the effectiveness of instruction tuning and improving the generalization ability of fine-tuned model. Subsequently, we present WaveCoder, a fine-tuned Code LLM with Widespread And Versatile Enhanced instruction tuning. This model is specifically designed for enhancing instruction tuning of Code Language Models (LLMs). Our experiments demonstrate that Wavecoder models outperform other open-source models in terms of generalization ability across different code-related tasks at the same level of fine-tuning scale. Moreover, Wavecoder exhibits high efficiency in previous code generation tasks. This paper thus offers a significant contribution to the field of instruction data generation and fine-tuning models, providing new insights and tools for enhancing performance in code-related tasks.
翻訳日:2023-12-27 20:21:41 公開日:2023-12-26
# v*:マルチモーダルllmの中核機構としての誘導視覚探索

V*: Guided Visual Search as a Core Mechanism in Multimodal LLMs ( http://arxiv.org/abs/2312.14135v2 )

ライセンス: Link先を確認
Penghao Wu, Saining Xie(参考訳) 複雑なタスクを振り返って実行するとき、見るものをどのように見て、選択的に処理するかが重要です。 しかし、現在のMLLM(Multimodal LLM)におけるこの視覚探索機構の欠如は、特に高解像度で視覚的に混み合った画像を扱う際に、重要な視覚的詳細に集中する能力を妨げている。 そこで我々は,llmにおける世界知識を効率的なビジュアルクエリに活用する,llm誘導ビジュアル検索機構であるv*を紹介する。 MLLMと組み合わせると、このメカニズムは協調的推論、文脈理解、特定の視覚要素の正確なターゲティングを促進する。 この統合により、Show、sEArch、TelL (SEAL) と名付けられたMLLMメタアーキテクチャが新たに導入された。 V*Benchは、高解像度画像を処理し、視覚的詳細に集中できるMLLMを評価するために設計されたベンチマークである。 本研究は,マルチモーダルシステムに視覚検索機能を組み込むことの必要性を強調した。 コードはhttps://github.com/penghao-wu/vstar.comで入手できる。

When we look around and perform complex tasks, how we see and selectively process what we see is crucial. However, the lack of this visual search mechanism in current multimodal LLMs (MLLMs) hinders their ability to focus on important visual details, especially when handling high-resolution and visually crowded images. To address this, we introduce V*, an LLM-guided visual search mechanism that employs the world knowledge in LLMs for efficient visual querying. When combined with an MLLM, this mechanism enhances collaborative reasoning, contextual understanding, and precise targeting of specific visual elements. This integration results in a new MLLM meta-architecture, named Show, sEArch, and TelL (SEAL). We further create V*Bench, a benchmark specifically designed to evaluate MLLMs in their ability to process high-resolution images and focus on visual details. Our study highlights the necessity of incorporating visual search capabilities into multimodal systems. The code is available https://github.com/penghao-wu/vstar.
翻訳日:2023-12-27 20:21:19 公開日:2023-12-26
# 教育用LDMの知識蒸留

Knowledge Distillation of LLM for Education ( http://arxiv.org/abs/2312.15842v1 )

ライセンス: Link先を確認
Ehsan Latif, Luyang Fang, Ping Ma, and Xiaoming Zhai(参考訳) 本研究では,細調整された大言語モデル(LLM)の知識を,より小さく,より効率的かつ正確なニューラルネットワークに蒸留する方法を提案する。 本手法では,教師モデルとして機能するllmの予測確率を用いて,小学生モデルの学習を行う。 これはllmの出力確率から学習するために調整された特殊損失関数によって達成され、生徒モデルが教師のパフォーマンスを密接に模倣することを保証する。 このアプローチをテストするために,6,684名の学生が回答する大規模データセット7Tと,学生が回答する他の3つのデータセットを用いた。 また、元のニューラルネットワーク(NN)モデルと性能を比較し、精度を検証した。 その結果、NNと蒸留した学生モデルは7Tデータセットの教師モデルに匹敵する精度を示したが、他のデータセットではNNの精度が有意に低く(平均28%)、提案した蒸留モデルはNNよりも12倍高い精度を達成することができた。 さらに、学生モデルのサイズは0.1mから0.02mの範囲で、パラメータの100倍小さく、元の出力モデルサイズに比べて10倍小さい。 この研究の意義は、高度なAI技術を一般的な教育環境、特に自動スコアリングで利用できるようにすることにある。

This study proposes a method for distilling the knowledge of fine-tuned Large Language Models (LLMs) into a smaller, more efficient, and accurate neural network, specifically targeting the challenge of deploying these models on resource-constrained devices. Our methodology involves training the smaller student model using the prediction probabilities of the LLM, which serves as a teacher model. This is achieved through a specialized loss function tailored to learn from the LLM's output probabilities, ensuring that the student model closely mimics the teacher's performance. To test this approach, we utilized a large dataset, 7T, containing 6,684 student-written responses to science questions and three other datasets with student-written responses. We also compared performance with original neural network (NN) models to validate the accuracy. Results have shown that the NN and distilled student models have comparable accuracy to the teacher model for the 7T dataset; however, other datasets have shown significantly lower accuracy (28% on average) for NN, though our proposed distilled model is still able to achieve 12\% higher accuracy than NN. Furthermore, the student model size ranges from 0.1M to 0.02M, 100 times smaller in terms of parameters and ten times smaller compared with the original output model size. The significance of this research lies in its potential to make advanced AI technologies accessible in typical educational settings, particularly for automatic scoring.
翻訳日:2023-12-27 16:21:37 公開日:2023-12-26
# 正および負の分散に対するラマンレーザーとそのポンプレーザーの強い周波数相関と反相関

Strong frequency correlation and anti-correlation between a Raman laser and its pump laser for positive and negative dispersions ( http://arxiv.org/abs/2312.15841v1 )

ライセンス: Link先を確認
Zifan Zhou, Ruoxi Zhu, and Selim M. Shahriar(参考訳) ラマンレーザーの周波数はラマンポンプレーザの周波数と高い相関性または反相関性を示し、ラマンレーザが経験した分散度が正か負かによって異なることを示した。 サブアルミナルレーザーでは、単体よりもはるかに大きいグループ指数の正の分散に対応して、その周波数のシフトはラマンポンプレーザーとほぼ同じである。 対照的に、超薄膜レーザでは、ゼロに近い群指数の負の分散に対応して、その周波数はラマンポンプレーザのそれと反対の方向にシフトし、群指数の逆数とほぼ等しい係数で大きい振幅を有する。 これらの結果は、このようなレーザーを用いたセンサの最大到達感度を決定する上で、特に古典的揺らぎによってポンプレーザー線幅がシャウロータウン線幅を超えて大きく拡大される状況において重要な役割を果たす。

We show that the frequency of a Raman laser is highly correlated or anti-correlated with the frequency of the Raman pump laser, depending on whether the dispersion experienced by the Raman laser is positive or negative. For a subluminal laser, corresponding to a positive dispersion with a group index that is much larger than unity, the shift in its frequency is approximately the same as that in the Raman pump laser. In contrast, for a superluminal laser, corresponding to a negative dispersion with a group index that is close to zero, its frequency shifts in the direction opposite to that of the Raman pump lasers, and has an amplitude that is larger by a factor approximately equaling the inverse of the group index. These findings would play a critical role in determining the maximum achievable sensitivity of sensors employing such lasers, especially under conditions where the pump laser linewidth is broadened significantly beyond the Schawlow-Townes linewidth due to classical fluctuations.
翻訳日:2023-12-27 16:21:16 公開日:2023-12-26
# クロスモーダル医用画像検索のためのマスキングコントラスト再構成

Masked Contrastive Reconstruction for Cross-modal Medical Image-Report Retrieval ( http://arxiv.org/abs/2312.15840v1 )

ライセンス: Link先を確認
Zeqiang Wei, Kai Jin, Xiuzhuang Zhou(参考訳) クロスモーダル医療画像検索タスクは臨床診断や様々な医療生成タスクにおいて重要な役割を果たす。 セマンティクスの一貫性を高めるために、異なるモダリティ間の多様性を排除することが、このタスクの重要な課題である。 現在の視覚言語予備訓練(vlp)モデルは、クロスモーダルコントラスト学習(cross-modal contrastive learning)とマスクドリコンストラクション( masked reconstruction)を併用し、クロスモーダル検索の性能を効果的に向上させることができる。 このフレームワークは典型的にはデュアルストリーム入力を使用し、クロスモーダルなコントラスト学習や再構成のためのマスク付きデータにアンマスケデータを使用する。 しかし,タスク競合や2つのプロキシタスクの入力の違いによる情報干渉により,モーダル内およびモーダル間における表現学習の有効性は制限されている。 本稿では,マスク付きデータを両タスクの唯一の入力として利用する,Masked Contrastive and Reconstruction (MCR) という効率的なVLPフレームワークを提案する。 これにより、タスク接続が強化され、情報干渉や競合を減らすと同時に、必要なgpuメモリとトレーニング時間が大幅に削減される。 さらに、アグリゲーション前のマッピング(MbA)と呼ばれる新しいモダリティアライメント戦略を導入する。 従来の手法とは異なり、MbAは局所的な特徴集約を行う前に、異なるモダリティを共通の特徴空間にマッピングすることにより、モダリティアライメントを改善するために必要な詳細な意味情報の損失を減らす。 さらに,マスキング入力のみを使用するため,トレーニングに必要なgpuメモリと時間を大幅に削減する。 MIMIC-CXRデータセットを用いた定性的,定量的な実験により,医療用クロスモーダル検索タスクの最先端性能を実証した。

Cross-modal medical image-report retrieval task plays a significant role in clinical diagnosis and various medical generative tasks. Eliminating heterogeneity between different modalities to enhance semantic consistency is the key challenge of this task. The current Vision-Language Pretraining (VLP) models, with cross-modal contrastive learning and masked reconstruction as joint training tasks, can effectively enhance the performance of cross-modal retrieval. This framework typically employs dual-stream inputs, using unmasked data for cross-modal contrastive learning and masked data for reconstruction. However, due to task competition and information interference caused by significant differences between the inputs of the two proxy tasks, the effectiveness of representation learning for intra-modal and cross-modal features is limited. In this paper, we propose an efficient VLP framework named Masked Contrastive and Reconstruction (MCR), which takes masked data as the sole input for both tasks. This enhances task connections, reducing information interference and competition between them, while also substantially decreasing the required GPU memory and training time. Moreover, we introduce a new modality alignment strategy named Mapping before Aggregation (MbA). Unlike previous methods, MbA maps different modalities to a common feature space before conducting local feature aggregation, thereby reducing the loss of fine-grained semantic information necessary for improved modality alignment. Additionally, due to using only masked input, our method significantly reduces the gpu memory and time required for training. Qualitative and quantitative experiments conducted on the MIMIC-CXR dataset validate the effectiveness of our approach, demonstrating state-of-the-art performance in medical cross-modal retrieval tasks.
翻訳日:2023-12-27 16:20:57 公開日:2023-12-26
# SecQA: コンピュータセキュリティにおける大規模言語モデル評価のための簡潔な質問回答データセット

SecQA: A Concise Question-Answering Dataset for Evaluating Large Language Models in Computer Security ( http://arxiv.org/abs/2312.15838v1 )

ライセンス: Link先を確認
Zefang Liu(参考訳) 本稿では,コンピュータセキュリティ分野における大規模言語モデル(LLM)の性能評価に適した新しいデータセットSecQAを紹介する。 gpt-4は"computer systems security: planning for success"という教科書に基づいて、セキュリティ原則のllmsの理解と適用を評価することを目標としている。 複雑さが増大する2つのバージョンを含むSecQAの構造と意図を詳述し、様々な難易度で簡潔な評価を行う。 また,GPT-3.5-Turbo,GPT-4,Llama-2,Vicuna,Mistral,Zephyrの各モデルにおいて,0ショットと5ショットの学習設定を用いて,優れたLCMの評価を行った。 我々の結果はSecQA v1とv2データセットにカプセル化され、コンピュータセキュリティコンテキストにおけるこれらのモデルのさまざまな機能と制限を強調します。 この研究は、セキュリティ関連コンテンツの理解におけるllmの現状に関する洞察を提供するだけでなく、この重要な研究領域における今後の進歩のベンチマークとしてsecqaを確立する。

In this paper, we introduce SecQA, a novel dataset tailored for evaluating the performance of Large Language Models (LLMs) in the domain of computer security. Utilizing multiple-choice questions generated by GPT-4 based on the "Computer Systems Security: Planning for Success" textbook, SecQA aims to assess LLMs' understanding and application of security principles. We detail the structure and intent of SecQA, which includes two versions of increasing complexity, to provide a concise evaluation across various difficulty levels. Additionally, we present an extensive evaluation of prominent LLMs, including GPT-3.5-Turbo, GPT-4, Llama-2, Vicuna, Mistral, and Zephyr models, using both 0-shot and 5-shot learning settings. Our results, encapsulated in the SecQA v1 and v2 datasets, highlight the varying capabilities and limitations of these models in the computer security context. This study not only offers insights into the current state of LLMs in understanding security-related content but also establishes SecQA as a benchmark for future advancements in this critical research area.
翻訳日:2023-12-27 16:20:27 公開日:2023-12-26
# 完全ランダム化ベンチマークのための最適実験設計と解析

Optimized experiment design and analysis for fully randomized benchmarking ( http://arxiv.org/abs/2312.15836v1 )

ライセンス: Link先を確認
Alex Kwiatkowski, Laurent J. Stephenson, Hannah M. Knaack, Alejandra L. Collopy, Christina M. Bowers, Dietrich Leibfried, Daniel H. Slichter, Scott Glancy, Emanuel Knill(参考訳) ランダム化ベンチマーク(Randomized benchmarking, RB)は、利用可能な量子ゲートの品質を計算コンテキストで評価する手法である。 RBは、ゲートの既知のランダムなシーケンスを初期状態に適用し、最終的な測定ステップの統計を用いて、ゲート品質の計量であるシーケンスのステップ毎の効果的な非分極誤差を決定する。 本稿では,実験毎に新しいランダムシーケンスを描画する完全ランダム化ベンチマークの利点について検討する。 完全なランダム化の利点は、推定されたステップエラーの信頼区間の小さいこと、ヒューリスティックスなしで最大確率解析を使用できること、シーケンス長の簡単な最適化、時間非依存のエラー率の典型的な仮定を超えて振舞いをモデル化し測定する能力などである。 我々は、成功確率の単指数減衰の基本的なRBモデルを一般化する時間依存誤差または非マルコフ誤差のモデルについて議論する。 いずれのモデルに対しても、本実験における固定時間制約による推定パラメータの不確かさを最小限に抑えるための具体的なプロトコルを実装し、最大可能性解析を実装した。 我々は,前回公表した実験をいくつか検討し,最適化された完全ランダム化による改善の可能性について検討した。 我々は,国立標準技術研究所(NIST)の単一イオン量子ビットにおけるクリフォードランダム化ベンチマーク実験において,そのような改善を実験的に観察した。 均一な長さと意図的な繰り返しによる実験では、ステップエラーは2.42^{+0.30}_{-0.22}\times 10^{-5}$で、最適化された完全ランダム化実験では2.57^{+0.07}_{-0.06}\times 10^{-5}$であった。 最適化された完全ランダム化ベンチマークの結果,ステップエラーの不確かさが大幅に減少した。

Randomized benchmarking (RB) is a widely used strategy to assess the quality of available quantum gates in a computational context. RB involves applying known random sequences of gates to an initial state and using the statistics of a final measurement step to determine an effective depolarizing error per step of the sequence, which is a metric of gate quality. Here we investigate the advantages of fully randomized benchmarking, where a new random sequence is drawn for each experimental trial. The advantages of full randomization include smaller confidence intervals on the inferred step error, the ability to use maximum likelihood analysis without heuristics, straightforward optimization of the sequence lengths, and the ability to model and measure behaviors that go beyond the typical assumption of time-independent error rates. We discuss models of time-dependent or non-Markovian errors that generalize the basic RB model of a single exponential decay of the success probability. For any of these models, we implement a concrete protocol to minimize the uncertainty of the estimated parameters given a fixed time constraint on the complete experiment, and we implement a maximum likelihood analysis. We consider several previously published experiments and determine the potential for improvements with optimized full randomization. We experimentally observe such improvements in Clifford randomized benchmarking experiments on a single trapped ion qubit at the National Institute of Standards and Technology (NIST). For an experiment with uniform lengths and intentionally repeated sequences the step error was $2.42^{+0.30}_{-0.22}\times 10^{-5}$, and for an optimized fully randomized experiment of the same total duration the step error was $2.57^{+0.07}_{-0.06}\times 10^{-5}$. We find a substantial decrease in the uncertainty of the step error as a result of optimized fully randomized benchmarking.
翻訳日:2023-12-27 16:20:05 公開日:2023-12-26
# ShallowBlocker: ブロッキングのためのセット類似性の改善

ShallowBlocker: Improving Set Similarity Joins for Blocking ( http://arxiv.org/abs/2312.15835v1 )

ライセンス: Link先を確認
Nils Barlaug(参考訳) ブロックは大規模なエンティティマッチングにおいて重要なステップだが、新しいデータセットごとに専門家から重要な手動エンジニアリングを必要とすることが多い。 近年の研究では、ディープラーニングは最先端技術であり、古典的な手法と比較して、ハンズオフと正確なブロッキングを実現する大きな可能性を秘めている。 しかし実際には、このようなディープラーニング手法はしばしば不安定であり、解釈可能性が少なく、ハイパーパラメータチューニングと重要な計算リソースを必要とする。 本稿では,ShallowBlockerという古典的文字列類似度尺度に基づくハンドオフブロッキング手法を提案する。 絶対類似性、相対類似性、局所濃度条件を組み合わせた新しいハイブリッド・セット類似性結合と、新しい有効候補前フィルタによるサイズフィルタを用いる。 本手法は,教師なしブロックと教師なしブロッキングの両方に対して,スケーラブルな方法で最先端のペアの有効性を実現する。

Blocking is a crucial step in large-scale entity matching but often requires significant manual engineering from an expert for each new dataset. Recent work has show that deep learning is state-of-the-art and has great potential for achieving hands-off and accurate blocking compared to classical methods. However, in practice, such deep learning methods are often unstable, offers little interpretability, and require hyperparameter tuning and significant computational resources. In this paper, we propose a hands-off blocking method based on classical string similarity measures: ShallowBlocker. It uses a novel hybrid set similarity join combining absolute similarity, relative similarity, and local cardinality conditions with a new effective pre-candidate filter replacing size filter. We show that the method achieves state-of-the-art pair effectiveness on both unsupervised and supervised blocking in a scalable way.
翻訳日:2023-12-27 16:19:32 公開日:2023-12-26
# SAMによる地域別プリミティブによるビデオフレーム補間

Video Frame Interpolation with Region-Distinguishable Priors from SAM ( http://arxiv.org/abs/2312.15868v1 )

ライセンス: Link先を確認
Yan Han and Xiaogang Xu and Yingqi Lin and Jiafei Wu and Zhe Liu(参考訳) 既存のビデオフレーム補間法 (vfi) では, 隣接フレーム間の動き推定が重要な役割を果たす。 しかし, 既存手法における推定精度は, 補間のために隣接するフレーム内の対応する領域を識別するあいまいさが主な原因である。 したがって、動き推定の前に異なる領域を区別することで精度を高めることが最重要となる。 本稿では,オープンワールドセグメンテーションモデル(SAM (Segment Anything Model) など)を活用して,異なるフレームの領域識別可能なプライオリティ(RDP)を導出する,新たなソリューションを提案する。 これらの RDP は空間変化のガウス混合として表現され、任意の数の領域を統一的なモジュラリティで区別する。 RDPを既存のモーションベースVFI手法に統合することで、設計した階層型領域対応機能融合モジュール(HRFFM)により、動作推定の機能を強化することができる。 HRFFMは、RDP誘導特徴正規化(RDPFN)を用いて、VFIエンコーダの様々な階層的な段階にRDPを組み込む。 HRFFM と RDP では、VFI のエンコーダ内の特徴は、隣接するフレームの一致した領域に類似した表現を示し、中間フレームの合成を改善する。 HRFFMは様々な場面で連続的にVFI性能を向上させる。

In existing Video Frame Interpolation (VFI) approaches, the motion estimation between neighboring frames plays a crucial role. However, the estimation accuracy in existing methods remains a challenge, primarily due to the inherent ambiguity in identifying corresponding areas in adjacent frames for interpolation. Therefore, enhancing accuracy by distinguishing different regions before motion estimation is of utmost importance. In this paper, we introduce a novel solution involving the utilization of open-world segmentation models, e.g., SAM (Segment Anything Model), to derive Region-Distinguishable Priors (RDPs) in different frames. These RDPs are represented as spatial-varying Gaussian mixtures, distinguishing an arbitrary number of areas with a unified modality. RDPs can be integrated into existing motion-based VFI methods to enhance features for motion estimation, facilitated by our designed play-and-plug Hierarchical Region-aware Feature Fusion Module (HRFFM). HRFFM incorporates RDP into various hierarchical stages of VFI's encoder, using RDP-guided Feature Normalization (RDPFN) in a residual learning manner. With HRFFM and RDP, the features within VFI's encoder exhibit similar representations for matched regions in neighboring frames, thus improving the synthesis of intermediate frames. Extensive experiments demonstrate that HRFFM consistently enhances VFI performance across various scenes.
翻訳日:2023-12-27 16:11:36 公開日:2023-12-26
# Punctuation Matters! 言語モデルのステルスバックドア攻撃

Punctuation Matters! Stealthy Backdoor Attack for Language Models ( http://arxiv.org/abs/2312.15867v1 )

ライセンス: Link先を確認
Xuan Sheng, Zhicheng Li, Zhaoyang Han, Xiangmao Chang, Piji Li(参考訳) 近年の研究では、自然言語処理(NLP)モデルがバックドア攻撃に弱いことが指摘されている。 バックドア付きモデルはクリーンなサンプルに対して正常な出力を生成し、敵が注入するトリガーで不適切にテキスト上で実行する。 しかし、以前のテキストバックドア攻撃の研究はステルス性にほとんど注意を払わなかった。 さらに、いくつかの攻撃方法は文法上の問題を引き起こしたり、元のテキストの意味を変更したりする。 したがって、人間や防衛システムによって容易に検出できる。 本稿では,テキストモデルに対する新しいステルスバックドア攻撃法を提案し,その手法を \textbf{puncattack} と呼ぶ。 引き金として句読点の組み合わせを利用し、それらを置き換えるために戦略的に適切な位置を選択する。 広範な実験により,提案手法は様々なタスクにおいて,複数のモデルに効果的に妥協できることを実証する。 一方,提案手法は,文法的な問題を生じさせることなく,文の意味を変えることなく,ステルスネスの優れた性能を有することを示す自動評価と人的検査を行う。

Recent studies have pointed out that natural language processing (NLP) models are vulnerable to backdoor attacks. A backdoored model produces normal outputs on the clean samples while performing improperly on the texts with triggers that the adversary injects. However, previous studies on textual backdoor attack pay little attention to stealthiness. Moreover, some attack methods even cause grammatical issues or change the semantic meaning of the original texts. Therefore, they can easily be detected by humans or defense systems. In this paper, we propose a novel stealthy backdoor attack method against textual models, which is called \textbf{PuncAttack}. It leverages combinations of punctuation marks as the trigger and chooses proper locations strategically to replace them. Through extensive experiments, we demonstrate that the proposed method can effectively compromise multiple models in various tasks. Meanwhile, we conduct automatic evaluation and human inspection, which indicate the proposed method possesses good performance of stealthiness without bringing grammatical issues and altering the meaning of sentences.
翻訳日:2023-12-27 16:11:12 公開日:2023-12-26
# BalMCTS:制約最適化問題に対するMCTSの目的関数と探索ノードのバランシング

BalMCTS: Balancing Objective Function and Search Nodes in MCTS for Constraint Optimization Problems ( http://arxiv.org/abs/2312.15864v1 )

ライセンス: Link先を確認
Yingkai Xiao, Jingjin Liu, Hankz Hankui Zhuo(参考訳) 制約最適化問題(COP)は、通常はブランチとバウンド(B\&B)メソッドによって解決される組合せ問題において複雑な課題を提起する。 しかし、従来の手法では最適解を見つけるのにかなりの時間を要するため、より短時間で最適に近い解を素早く特定することが重要である。 本稿では, 最上位の$n$ 解における最適あるいは至近最適解の同定に焦点をあてた, 深さ優先探索アルゴリズムを用いたcopの解法の有効性について検討する。 そこで本研究では,mtsに基づく新しいヒューリスティックニューラルネットワークアルゴリズムを提案する。 さらに,本手法では,COP問題を符号化し,グラフニューラルネットワークを用いて変数や制約に関する情報を集約し,代入に適切な変数を提供する。 確率型COPの場合の実験結果から,本手法は初期5つの実現可能な解のうち17.63%未満のギャップを有する実現可能な解を同定する。 さらに, 適応制約満足度問題 (CSP) の事例に適用した場合, 探索ノードにおいて最先端の手法に比べて5%未満の顕著な減少率を示す。

Constraint Optimization Problems (COP) pose intricate challenges in combinatorial problems usually addressed through Branch and Bound (B\&B) methods, which involve maintaining priority queues and iteratively selecting branches to search for solutions. However, conventional approaches take a considerable amount of time to find optimal solutions, and it is also crucial to quickly identify a near-optimal feasible solution in a shorter time. In this paper, we aim to investigate the effectiveness of employing a depth-first search algorithm for solving COP, specifically focusing on identifying optimal or near-optimal solutions within top $n$ solutions. Hence, we propose a novel heuristic neural network algorithm based on MCTS, which, by simultaneously conducting search and training, enables the neural network to effectively serve as a heuristic during Backtracking. Furthermore, our approach incorporates encoding COP problems and utilizing graph neural networks to aggregate information about variables and constraints, offering more appropriate variables for assignments. Experimental results on stochastic COP instances demonstrate that our method identifies feasible solutions with a gap of less than 17.63% within the initial 5 feasible solutions. Moreover, when applied to attendant Constraint Satisfaction Problem (CSP) instances, our method exhibits a remarkable reduction of less than 5% in searching nodes compared to state-of-the-art approaches.
翻訳日:2023-12-27 16:10:56 公開日:2023-12-26
# PDiT:深層強化学習のための相互理解と意思決定変換器

PDiT: Interleaving Perception and Decision-making Transformers for Deep Reinforcement Learning ( http://arxiv.org/abs/2312.15863v1 )

ライセンス: Link先を確認
Hangyu Mao, Rui Zhao, Ziyue Li, Zhiwei Xu, Hao Chen, Yiqun Chen, Bin Zhang, Zhen Xiao, Junge Zhang, and Jiangjin Yin(参考訳) ディープ・ネットワークと強化学習(RL)アルゴリズムの設計はどちらもディープ・RLにとって重要である。 この作品は前者を研究する。 具体的には,2つのトランスを非常に自然な方法でカスケードする知覚・意思決定間変換(pdit)ネットワークを提案する。パーセプションはパッチレベルでの観察を処理して,環境知覚に焦点をあてる一方,決定者は所望のリターン,知覚者の出力,行動の履歴を条件として,意思決定に注意を払う。 このようなネットワーク設計は、画像観察、固有受容観測、ハイブリッド画像言語観測などの環境下でのオンラインおよびオフラインのrlアルゴリズムなど、多くの深いrl設定に適用できる。 広汎な実験により、PDiTは異なる設定で強いベースラインよりも優れた性能を達成できるだけでなく、説明可能な特徴表現を抽出できることが示されている。 私たちのコードは \url{https://github.com/maohangyu/PDiT} で利用可能です。

Designing better deep networks and better reinforcement learning (RL) algorithms are both important for deep RL. This work studies the former. Specifically, the Perception and Decision-making Interleaving Transformer (PDiT) network is proposed, which cascades two Transformers in a very natural way: the perceiving one focuses on \emph{the environmental perception} by processing the observation at the patch level, whereas the deciding one pays attention to \emph{the decision-making} by conditioning on the history of the desired returns, the perceiver's outputs, and the actions. Such a network design is generally applicable to a lot of deep RL settings, e.g., both the online and offline RL algorithms under environments with either image observations, proprioception observations, or hybrid image-language observations. Extensive experiments show that PDiT can not only achieve superior performance than strong baselines in different settings but also extract explainable feature representations. Our code is available at \url{https://github.com/maohangyu/PDiT}.
翻訳日:2023-12-27 16:10:29 公開日:2023-12-26
# 可変運動量秩序をもつトポロジカルエキシトン絶縁体の発見

Discovery of a topological exciton insulator with tunable momentum order ( http://arxiv.org/abs/2312.15862v1 )

ライセンス: Link先を確認
Md Shafayat Hossain, Tyler A. Cochran, Yu-Xiao Jiang, Songbo Zhang, Huangyu Wu, Xiaoxiong Liu, Xiquan Zheng, Byunghoon Kim, Guangming Cheng, Qi Zhang, Maksim Litskevich, Junyi Zhang, Zi-Jia Cheng, Jinjin Liu, Jia-Xin Yin, Xian P. Yang, Jonathan Denlinger, Massimo Tallarida, Ji Dai, Elio Vescovo, Anil Rajapitamahuni, Hu Miao, Nan Yao, Yingying Peng, Yugui Yao, Zhiwei Wang, Luis Balicas, Titus Neupert, M. Zahid Hasan(参考訳) 位相と相関は現代物理学の基本概念であるが、1つの量子位相内での同時発生は例外的に稀である。 本研究では,電子とホールのクーロン相互作用がt=100 k以下で自発的に励起子結合状態を形成する半金属,ta2pd3te5におけるそのような物質の相の発見について述べる。 さらに, 走査型トンネル顕微鏡による観察により, 励起絶縁体状態におけるギャップのない境界モードの存在が明らかとなった。 それらの磁場応答と理論計算はこれらのモードのトポロジカルな起源を示唆しており、Ta2Pd3Te5は構造相転移を隠蔽しない3次元材料において、初めて実験的に同定されたトポロジカルエキトニック絶縁体である。 さらに, 有限運動量を持つ一次運動量と異なるT=5K以下の二次励起不安定性を明らかにする。 外部磁場による前例のない波長変動を観測した。 これらの発見は、新しいトポロジカルな物質の位相相とそのチューナビリティの研究におけるフロンティアを解き放ちます。

Topology and correlations are fundamental concepts in modern physics, but their simultaneous occurrence within a single quantum phase is exceptionally rare. In this study, we present the discovery of such a phase of matter in Ta2Pd3Te5, a semimetal where the Coulomb interaction between electrons and holes leads to the spontaneous formation of excitonic bound states below T=100 K. Our spectroscopy unveils the development of an insulating gap stemming from the condensation of these excitons, thus giving rise to a highly sought-after correlated quantum phase known as the excitonic insulator. Remarkably, our scanning tunneling microscopy measurements reveal the presence of gapless boundary modes in the excitonic insulator state. Their magnetic field response and our theoretical calculations suggest a topological origin of these modes, rendering Ta2Pd3Te5 as the first experimentally identified topological excitonic insulator in a three-dimensional material not masked by any structural phase transition. Furthermore, our study uncovers a secondary excitonic instability below T=5 K, which differs from the primary one in having finite momentum. We observe unprecedented tunability of its wavevector by an external magnetic field. These findings unlock a frontier in the study of novel correlated topological phases of matter and their tunability.
翻訳日:2023-12-27 16:10:07 公開日:2023-12-26
# 逐次変形による逆仮想試行

Towards Squeezing-Averse Virtual Try-On via Sequential Deformation ( http://arxiv.org/abs/2312.15861v1 )

ライセンス: Link先を確認
Sang-Heon Shim, Jiwoo Chung, Jae-Pil Heo(参考訳) 本稿では,近年の高解像度仮想試行法における視覚品質劣化問題について検討する。 この傾向は、図1(a)の上段に示すように、衣服のテクスチャが袖で絞られていることを実証的に見出す。 この問題の主な理由は、一般的な2つの損失、すなわちtv(total variation)と敵対的損失の間の勾配衝突から生じる。 特に、テレビの損失は、反りのある衣服マスクでスリーブと胴体の境界を切り離すことを目的としているが、敵対的な損失は両者を組み合わせることを目的としている。 このような反対の目的は、不整合勾配をカスケードされた外観フロー推定にフィードバックし、望ましくないアーチファクトを生み出す。 そこで本研究では,TVOB層とタスク共存層(TACO層)に出現フロー予測層を分散させるシークエンシャル変形(SD-VITON)を提案する。 具体的には,TVOB層を介して衣服を人体に密着し,TACO層を介して精製を続ける。 さらに、図1(a)の一番下の列は、腰の周りで異なる種類のスクイーズアーティファクトを示している。 そこで本研究では,まず着衣をタックアウトしたシャツスタイルに整え,その後,外観の滑らかさを損なうことなく、反りのある衣服の質感を部分的に消去する手法を提案する。 実験の結果,SD-VITONは両種類のアーティファクトの解決に成功し,ベースライン法よりも優れていた。 ソースコードはhttps://github.com/SHShim0513/SD-VITONで入手できる。

In this paper, we first investigate a visual quality degradation problem observed in recent high-resolution virtual try-on approach. The tendency is empirically found that the textures of clothes are squeezed at the sleeve, as visualized in the upper row of Fig.1(a). A main reason for the issue arises from a gradient conflict between two popular losses, the Total Variation (TV) and adversarial losses. Specifically, the TV loss aims to disconnect boundaries between the sleeve and torso in a warped clothing mask, whereas the adversarial loss aims to combine between them. Such contrary objectives feedback the misaligned gradients to a cascaded appearance flow estimation, resulting in undesirable squeezing artifacts. To reduce this, we propose a Sequential Deformation (SD-VITON) that disentangles the appearance flow prediction layers into TV objective-dominant (TVOB) layers and a task-coexistence (TACO) layer. Specifically, we coarsely fit the clothes onto a human body via the TVOB layers, and then keep on refining via the TACO layer. In addition, the bottom row of Fig.1(a) shows a different type of squeezing artifacts around the waist. To address it, we further propose that we first warp the clothes into a tucked-out shirts style, and then partially erase the texture from the warped clothes without hurting the smoothness of the appearance flows. Experimental results show that our SD-VITON successfully resolves both types of artifacts and outperforms the baseline methods. Source code will be available at https://github.com/SHShim0513/SD-VITON.
翻訳日:2023-12-27 16:09:44 公開日:2023-12-26
# SCPMan:膵分離のための形状コンテキストと事前拘束型マルチスケール注意ネットワーク

SCPMan: Shape Context and Prior Constrained Multi-scale Attention Network for Pancreatic Segmentation ( http://arxiv.org/abs/2312.15859v1 )

ライセンス: Link先を確認
Leilei Zeng, Xuechen Li, Xinquan Yang, Linlin Shen, Song Wu(参考訳) 膵癌の予後不良のため、正確な早期発見と分節は治療成績の改善に重要である。 しかし膵管の分節は, ぼやけた境界, 高形状の変動, クラス不均衡により困難である。 そこで本研究では,頑健な膵分節に対して形状コンテキストと事前制約を有するマルチスケールアテンションネットワークを提案する。 具体的には,MFE(Multi-scale Feature extract Module)とMAI(Mixed-scale Attention Integration Module)を提案する。 さらに、形状コンテキストメモリ(scm)モジュールを導入して、スケールや膵臓形状のセマンティクスを共同モデル化する。 アクティブシェイプモデル (ASM) は、その形状をモデル化するためにさらに用いられる。 NIHデータセットとMSDデータセットを用いた実験は、我々のモデルの有効性を示し、それぞれ1.01%と1.03%の最先端Dice Scoreを改善する。 我々のアーキテクチャは、ぼやけた境界に対する堅牢なセグメンテーション性能と、スケールと膵の形状の変化を提供する。

Due to the poor prognosis of Pancreatic cancer, accurate early detection and segmentation are critical for improving treatment outcomes. However, pancreatic segmentation is challenged by blurred boundaries, high shape variability, and class imbalance. To tackle these problems, we propose a multiscale attention network with shape context and prior constraint for robust pancreas segmentation. Specifically, we proposed a Multi-scale Feature Extraction Module (MFE) and a Mixed-scale Attention Integration Module (MAI) to address unclear pancreas boundaries. Furthermore, a Shape Context Memory (SCM) module is introduced to jointly model semantics across scales and pancreatic shape. Active Shape Model (ASM) is further used to model the shape priors. Experiments on NIH and MSD datasets demonstrate the efficacy of our model, which improves the state-of-the-art Dice Score for 1.01% and 1.03% respectively. Our architecture provides robust segmentation performance, against the blurry boundaries, and variations in scale and shape of pancreas.
翻訳日:2023-12-27 16:09:14 公開日:2023-12-26
# マルチビュー環境における人物追跡のためのオンライン政策の学習

Learning Online Policies for Person Tracking in Multi-View Environments ( http://arxiv.org/abs/2312.15858v1 )

ライセンス: Link先を確認
Keivan Nalaie, Rong Zheng(参考訳) 本稿では,複数の同期カメラ間の協調的マルチパーソントラッキングのための新しい効率的なフレームワークmvsparseを提案する。 MVSparseシステムは、エッジサーバベースのモデルと、個々のカメラで動作する分散軽量強化学習(RL)エージェントを組み合わせた、慎重にオーケストレーションされたパイプラインで構成されている。 これらのRLエージェントは、過去のカメラデータと近隣カメラによる検出結果に基づいて、各フレーム内の情報ブロックをインテリジェントに選択し、計算負荷と通信オーバーヘッドを大幅に削減する。 エッジサーバは複数のカメラビューを集約して検出タスクを実行し、個々のエージェントにフィードバックを提供する。 様々な視点から入力を共通の基底面に投影し、深い検出モデルを適用することで、mvsparseはマルチビュービデオにおける時間的および空間的冗長性を最適に活用する。 特に、マルチカメラ歩行者追跡データセットの実証分析、マルチカメラ、マルチパーソン検出パイプラインの開発、mvsparseの実装など、オープンデータセットと実世界のシナリオの両方で印象的な結果が得られました。 実験的に、MVSparseはベースラインアプローチと比較して、全体的な推論時間を1.88Xと1.60Xで加速するが、トラッキングの精度は2.27%と3.17%しか差がない。

In this paper, we introduce MVSparse, a novel and efficient framework for cooperative multi-person tracking across multiple synchronized cameras. The MVSparse system is comprised of a carefully orchestrated pipeline, combining edge server-based models with distributed lightweight Reinforcement Learning (RL) agents operating on individual cameras. These RL agents intelligently select informative blocks within each frame based on historical camera data and detection outcomes from neighboring cameras, significantly reducing computational load and communication overhead. The edge server aggregates multiple camera views to perform detection tasks and provides feedback to the individual agents. By projecting inputs from various perspectives onto a common ground plane and applying deep detection models, MVSparse optimally leverages temporal and spatial redundancy in multi-view videos. Notably, our contributions include an empirical analysis of multi-camera pedestrian tracking datasets, the development of a multi-camera, multi-person detection pipeline, and the implementation of MVSparse, yielding impressive results on both open datasets and real-world scenarios. Experimentally, MVSparse accelerates overall inference time by 1.88X and 1.60X compared to a baseline approach while only marginally compromising tracking accuracy by 2.27% and 3.17%, respectively, showcasing its promising potential for efficient multi-camera tracking applications.
翻訳日:2023-12-27 16:08:55 公開日:2023-12-26
# SERF: 微粒な対話型3Dセグメンテーションとラジアンスフィールドによる編集

SERF: Fine-Grained Interactive 3D Segmentation and Editing with Radiance Fields ( http://arxiv.org/abs/2312.15856v1 )

ライセンス: Link先を確認
Kaichen Zhou, Lanqing Hong, Enze Xie, Yongxin Yang, Zhenguo Li, Wei Zhang(参考訳) 2Dベースのインタラクティブ編集の分野では大きな進歩があったが、細粒度の3Dベースのインタラクティブ編集はいまだに研究されていない。 この制限は、異なる修正に対して堅牢な効率的な3D表現の欠如と、効果的な3Dインタラクティブセグメンテーション手法の欠如の2つの主な課題に起因する。 本稿では,SERFと呼ばれる放射場を用いた対話型3次元セグメンテーション・編集アルゴリズムを提案する。 提案手法では,マルチビューアルゴリズムと事前学習した2次元モデルを統合することにより,ニューラルネットワーク表現を生成する。 この表現に基づいて,局所情報を保存し,変形に対して堅牢な新しい表面レンダリング技術を導入する。 さらに、この表現は、3Dの監督を必要とせず、正確でインタラクティブな3Dセグメンテーションを実現するための基盤を形成する。 この表現の調和は、インタラクティブな幾何学的編集やテクスチャ描画といったタスクを含む、インタラクティブな3D編集操作を促進する。 実データと合成データの両方の編集に関する広範な実験と可視化の例から,本手法の表現品質と編集能力に優れることを示す。

Although significant progress has been made in the field of 2D-based interactive editing, fine-grained 3D-based interactive editing remains relatively unexplored. This limitation can be attributed to two main challenges: the lack of an efficient 3D representation robust to different modifications and the absence of an effective 3D interactive segmentation method. In this paper, we introduce a novel fine-grained interactive 3D segmentation and editing algorithm with radiance fields, which we refer to as SERF. Our method entails creating a neural mesh representation by integrating multi-view algorithms with pre-trained 2D models. Building upon this representation, we introduce a novel surface rendering technique that preserves local information and is robust to deformation. Moreover, this representation forms the basis for achieving accurate and interactive 3D segmentation without requiring 3D supervision. Harnessing this representation facilitates a range of interactive 3D editing operations, encompassing tasks such as interactive geometry editing and texture painting. Extensive experiments and visualization examples of editing on both real and synthetic data demonstrate the superiority of our method on representation quality and editing ability.
翻訳日:2023-12-27 16:08:31 公開日:2023-12-26
# 深度誘導による幾何アウェア低光度画像と映像エンハンスメント

Geometric-Aware Low-Light Image and Video Enhancement via Depth Guidance ( http://arxiv.org/abs/2312.15855v1 )

ライセンス: Link先を確認
Yingqi Lin, Xiaogang Xu, Yan Han, Jiafei Wu, Zhe Liu(参考訳) 低照度向上(LLE)は、低照度条件下で撮影された写真やビデオの品質向上を目的としている。 既存のlle法の多くが幾何学的モデリングを活用していない点に注意が必要だ。 照明条件に影響を与えるシーンの物理的構造に関する洞察を提供するため,幾何学的情報を取り入れることでLLE性能を向上させることができると考えている。 そこで本研究では,lleの低光度エンハンスメントモデルを支援するために,特徴表現空間に幾何学的事前情報を統合することにより,lleの機能改善を学習する手法を提案する。 本稿では,幾何表現として深さ優先を用いる。 提案手法は, 統一手法を用いて, 奥行き先を様々なLLEフレームワークに統合することに焦点を当てる。 この手法は2つの重要な新しいモジュールから構成される。 まず、奥行き認識機能抽出モジュールは、画像表現に奥行き事前を注入するように設計されている。 次に,階層型深度誘導機能融合モジュール(HDGFFM)を,深度認識機能とLLEモデル内の元の画像特徴を組み合わせたクロスドメインアテンション機構で構成する。 公開低光度画像と映像エンハンスメントベンチマークについて広範な実験を行った。 その結果,設計したフレームワークは既存のLLEメソッドを大幅に強化することがわかった。

Low-Light Enhancement (LLE) is aimed at improving the quality of photos/videos captured under low-light conditions. It is worth noting that most existing LLE methods do not take advantage of geometric modeling. We believe that incorporating geometric information can enhance LLE performance, as it provides insights into the physical structure of the scene that influences illumination conditions. To address this, we propose a Geometry-Guided Low-Light Enhancement Refine Framework (GG-LLERF) designed to assist low-light enhancement models in learning improved features for LLE by integrating geometric priors into the feature representation space. In this paper, we employ depth priors as the geometric representation. Our approach focuses on the integration of depth priors into various LLE frameworks using a unified methodology. This methodology comprises two key novel modules. First, a depth-aware feature extraction module is designed to inject depth priors into the image representation. Then, Hierarchical Depth-Guided Feature Fusion Module (HDGFFM) is formulated with a cross-domain attention mechanism, which combines depth-aware features with the original image features within the LLE model. We conducted extensive experiments on public low-light image and video enhancement benchmarks. The results illustrate that our designed framework significantly enhances existing LLE methods.
翻訳日:2023-12-27 16:08:09 公開日:2023-12-26
# 時系列学習戦略のためのカリキュラムとサイクル損失

Curricular and Cyclical Loss for Time Series Learning Strategy ( http://arxiv.org/abs/2312.15853v1 )

ライセンス: Link先を確認
Chenxi Sun, Hongyan Li, Moxian Song, Derun Cai, Shenda Hong(参考訳) 時系列は現実世界のアプリケーションで広く使われており、多くのディープラーニングモデルがうまく機能している。 現在の研究では、モデルの学習戦略の重要性が示されており、その利点は学習サンプルの順序と大きさである。 しかし、その抽象的かつダイナミックな構成のため、時系列に対する効果的な戦略は提案されていない。 一方、既存のワンショットタスクと時系列の連続タスクは、異なる学習プロセスとメカニズムを必要とする。 完全なアプローチは提案されていない。 そこで本研究では, 初めて時系列を学習するための新しい曲率および周期的損失(クレーシアル)を提案する。 これはモデルとタスクに依存しないもので、余分な手順なしでオリジナルの損失の上にプラグインすることができる。 CRUCIALには2つの特徴がある: サンプルコントリビューションを動的に決定し、損失振幅を調整し、損失分布と選択確率を関連付けることで、周期的に変化するデータセットを管理し、適応サイクルを達成することができる。 単調なサイズに比べ,周期的なサイズは期待誤差を低減できる。 3種類のタスクと5つの実世界のデータセットの実験は、時系列学習におけるほとんどのディープラーニングモデルに対するCRUCIALの利点を示している。

Time series widely exists in real-world applications and many deep learning models have performed well on it. Current research has shown the importance of learning strategy for models, suggesting that the benefit is the order and size of learning samples. However, no effective strategy has been proposed for time series due to its abstract and dynamic construction. Meanwhile, the existing one-shot tasks and continuous tasks for time series necessitate distinct learning processes and mechanisms. No all-purpose approach has been suggested. In this work, we propose a novel Curricular and CyclicaL loss (CRUCIAL) to learn time series for the first time. It is model- and task-agnostic and can be plugged on top of the original loss with no extra procedure. CRUCIAL has two characteristics: It can arrange an easy-to-hard learning order by dynamically determining the sample contribution and modulating the loss amplitude; It can manage a cyclically changed dataset and achieve an adaptive cycle by correlating the loss distribution and the selection probability. We prove that compared with monotonous size, cyclical size can reduce expected error. Experiments on 3 kinds of tasks and 5 real-world datasets show the benefits of CRUCIAL for most deep learning models when learning time series.
翻訳日:2023-12-27 16:07:46 公開日:2023-12-26
# next-basketレコメンデーションのためのハイパーグラフ強化知識木プロンプト学習

Hypergraph Enhanced Knowledge Tree Prompt Learning for Next-Basket Recommendation ( http://arxiv.org/abs/2312.15851v1 )

ライセンス: Link先を確認
Zi-Feng Mai, Chang-Dong Wang, Zhongjie Zeng, Ya Li, Jiaquan Chen, Philip S. Yu(参考訳) next-basket recommendation (nbr) は、対応するバスケットシーケンスから次のバスケットのアイテムを推測することを目的としている。 既存のnbrメソッドは、主にプレーングラフでのメッセージパッシングか、バスケットシーケンスでの遷移モデリングに基づいている。 しかし、これらの手法はポイント・ツー・ポイントのバイナリアイテム関係のみを考慮し、現実世界のシナリオにおけるアイテム依存度は高次であることが多い。 さらに、異なるユーザに対する同じ項目の重要性は、ユーザの好みの変化によって異なり、アイテム間の関係は通常、さまざまな側面を含む。 プレトレーニング言語モデル(PLM)は自然言語処理(NLP)とコンピュータビジョン(CV)の複数のタスクに優れており、多くの研究者がPLMを活用してレコメンデーションを強化している。 しかし,既存の PLM ベースのレコメンデーション手法は,Of-Vocabulary (OOV) 項目に遭遇すると劣化する。 OOVアイテムは、PLMの語彙外にあるIDであり、PLMには理解できないものである。 そこで本研究では,知識グラフ(KG)をKTP(Knowledge Tree Prompt)というプロンプトに変換する手法HEKP4NBRを提案する。 ハイパーグラフ畳み込みモジュールは、複数の側面からMoEモデルによって測定されたアイテム類似度に基づいてハイパーグラフを構築し、ハイパーグラフに畳み込みを用いて複数の項目間の相関をモデル化する。 実企業データに基づく2つのデータセットを用いたhekp4nbrの広範な実験を行い,その効果を検証する。

Next-basket recommendation (NBR) aims to infer the items in the next basket given the corresponding basket sequence. Existing NBR methods are mainly based on either message passing in a plain graph or transition modelling in a basket sequence. However, these methods only consider point-to-point binary item relations while item dependencies in real world scenarios are often in higher order. Additionally, the importance of the same item to different users varies due to variation of user preferences, and the relations between items usually involve various aspects. As pretrained language models (PLMs) excel in multiple tasks in natural language processing (NLP) and computer vision (CV), many researchers have made great efforts in utilizing PLMs to boost recommendation. However, existing PLM-based recommendation methods degrade when encountering Out-Of-Vocabulary (OOV) items. OOV items are those whose IDs are out of PLM's vocabulary and thus unintelligible to PLM. To settle the above challenges, we propose a novel method HEKP4NBR, which transforms the knowledge graph (KG) into prompts, namely Knowledge Tree Prompt (KTP), to help PLM encode the OOV item IDs in the user's basket sequence. A hypergraph convolutional module is designed to build a hypergraph based on item similarities measured by an MoE model from multiple aspects and then employ convolution on the hypergraph to model correlations among multiple items. Extensive experiments are conducted on HEKP4NBR on two datasets based on real company data and validate its effectiveness against multiple state-of-the-art methods.
翻訳日:2023-12-27 16:07:29 公開日:2023-12-26
# nomaベースモバイルエッジコンピューティングのための高効率推論高速化アルゴリズム

High Efficiency Inference Accelerating Algorithm for NOMA-based Mobile Edge Computing ( http://arxiv.org/abs/2312.15850v1 )

ライセンス: Link先を確認
Xin Yuan, Ning Li, Tuo Zhang, Muqing Li, Yuwen Chen, Jose Fernan Martinez Ortega, Song Guo(参考訳) デバイス、エッジサーバ、クラウド間の推論モデルを分割することで、EIの性能を大幅に向上させることができる。 さらに、B5G/6Gの重要なサポート技術である非直交多重アクセス(NOMA)は、膨大な接続と高スペクトル効率を実現することができる。 NOMAの利点によって、MECでモデル分割とNOMAを統合することで、推論遅延をさらに減らすことができる。 しかし、従来の研究では分割推論におけるNOMAベースのコミュニケーションは適切に考慮されていない。 そこで本研究では,mecの分割推論にnomaを統合し,エッジにおけるモデル推論を高速化する効果的な通信・計算資源割当てアルゴリズムを提案する。 具体的には、モバイルユーザが、NOMAベースのMECで計算するために必要な大規模なモデル推論タスクがある場合、デバイスとエッジサーバの双方のエネルギー消費と推論遅延を考慮に入れ、最適なモデル分割戦略、サブチャネル割り当て戦略(アップリンクとダウンリンク)、送信電力割り当て戦略(アップリンクとダウンリンク)を見つける。 最小推論遅延とエネルギー消費を同時に満たすことができず、サブチャネル割り当てとモデル分割の変数は離散的であるので、それらの間の最適なトレードオフを見つけるために勾配降下(GD)アルゴリズムを採用する。 さらに,パラメータ離散化に起因するGDアルゴリズムの複雑性を低減するために,ループ反復GD手法(Li-GD)を提案する。 また,提案アルゴリズムの特性についても検討し,提案アルゴリズムの有効性を実証した。

Splitting the inference model between device, edge server, and cloud can improve the performance of EI greatly. Additionally, the non-orthogonal multiple access (NOMA), which is the key supporting technologies of B5G/6G, can achieve massive connections and high spectrum efficiency. Motivated by the benefits of NOMA, integrating NOMA with model split in MEC to reduce the inference latency further becomes attractive. However, the NOMA based communication during split inference has not been properly considered in previous works. Therefore, in this paper, we integrate the NOMA into split inference in MEC, and propose the effective communication and computing resource allocation algorithm to accelerate the model inference at edge. Specifically, when the mobile user has a large model inference task needed to be calculated in the NOMA-based MEC, it will take the energy consumption of both device and edge server and the inference latency into account to find the optimal model split strategy, subchannel allocation strategy (uplink and downlink), and transmission power allocation strategy (uplink and downlink). Since the minimum inference delay and energy consumption cannot be satisfied simultaneously, and the variables of subchannel allocation and model split are discrete, the gradient descent (GD) algorithm is adopted to find the optimal tradeoff between them. Moreover, the loop iteration GD approach (Li-GD) is proposed to reduce the complexity of GD algorithm that caused by the parameter discrete. Additionally, the properties of the proposed algorithm are also investigated, which demonstrate the effectiveness of the proposed algorithms.
翻訳日:2023-12-27 16:06:48 公開日:2023-12-26
# ロバストな感情認識のためのハイブリッド特徴再構成型モダリティ協調トランス

Modality-Collaborative Transformer with Hybrid Feature Reconstruction for Robust Emotion Recognition ( http://arxiv.org/abs/2312.15848v1 )

ライセンス: Link先を確認
Chengxin Chen, Pengyuan Zhang(参考訳) 感情コンピューティングの重要な側面として、マルチモーダル感情認識はマルチメディアコミュニティにおいて活発な研究領域となっている。 最近の進歩にもかかわらず、この分野は現実世界のアプリケーションにおける2つの大きな課題に直面している。 1)不均一なマルチモーダル特徴からジョイント表現の構築効率を向上させること、及び 2) ランダムなモダリティ特徴の欠如による性能低下の軽減。 本稿では,これらの問題に対処する統合フレームワークMCT-HFR(Modality-Collaborative Transformer with Hybrid Feature Restruction)を提案する。 mctの重要なコンポーネントは、関連するすべてのモダリティのモダリティ内およびモダリティ間関係を同時抽出および動的にバランスをとる、新しい注意に基づくエンコーダである。 追加のモダリティ-ワイズパラメータ共有により、よりコンパクトな表現はより少ない時間と空間の複雑さでエンコードできる。 MCTのロバスト性を改善するため,ローカル・フィーチャー・イマジネーション(LFI)とグローバル・フィーチャー・アライメント(GFA)の2つのモジュールからなるHFRを導入する。 モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。 2つの人気のあるベンチマークデータセットにおける実験的評価により,提案手法が完全かつ不完全なデータシナリオにおいて,先進的なベースラインを一貫して上回ることを示した。

As a vital aspect of affective computing, Multimodal Emotion Recognition has been an active research area in the multimedia community. Despite recent progress, this field still confronts two major challenges in real-world applications: 1) improving the efficiency of constructing joint representations from unaligned multimodal features, and 2) relieving the performance decline caused by random modality feature missing. In this paper, we propose a unified framework, Modality-Collaborative Transformer with Hybrid Feature Reconstruction (MCT-HFR), to address these issues. The crucial component of MCT is a novel attention-based encoder which concurrently extracts and dynamically balances the intra- and inter-modality relations for all associated modalities. With additional modality-wise parameter sharing, a more compact representation can be encoded with less time and space complexity. To improve the robustness of MCT, we further introduce HFR which consists of two modules: Local Feature Imagination (LFI) and Global Feature Alignment (GFA). During model training, LFI leverages complete features as supervisory signals to recover local missing features, while GFA is designed to reduce the global semantic gap between pairwise complete and incomplete representations. Experimental evaluations on two popular benchmark datasets demonstrate that our proposed method consistently outperforms advanced baselines in both complete and incomplete data scenarios.
翻訳日:2023-12-27 16:06:01 公開日:2023-12-26
# 物理世界検索エンジンを用いた日常物体識別のための学習からランクへのアプローチ

Learning-To-Rank Approach for Identifying Everyday Objects Using a Physical-World Search Engine ( http://arxiv.org/abs/2312.15844v1 )

ライセンス: Link先を確認
Kanta Kaneda, Shunya Nagashima, Ryosuke Korekata, Motonari Kambara and Komei Sugiura(参考訳) 家庭内サービスロボットは、日々のケアとサポートの需要の増加に対する解決策を提供する。 自動化とオペレータの介入を組み合わせたヒューマン・イン・ザ・ループ(human-in-the-loop)アプローチは、社会における彼らの使用に対する現実的なアプローチであると考えられている。 そこで本稿では,LTRPO(Learning-to-rank physical objects)タスクとして定義するHuman-in-the-loop設定において,オープン語彙のユーザ命令から対象オブジェクトを取得するタスクに着目した。 例えば、"テーブルが丸いダイニングルームへ行ってボトルを拾う"という命令が与えられた場合、そのモデルでは、オペレータ/ユーザが選択できるターゲットオブジェクトのランク付けリストを出力する必要がある。 本稿では,LTRPOタスクの新しいアプローチであるMultiRankItを提案する。 MultiRankItでは、参照表現と対象境界ボックスを含むフレーズ間の関係をモデル化するクロスモーダル名詞句エンコーダと、対象オブジェクトと周辺環境の複数の画像の関係をモデル化するクロスモーダル地域特徴エンコーダを導入している。 さらに, LTRPOタスクのための新しいデータセットを構築し, 複雑な参照表現と, 様々な対象物体を特徴とする実環境イメージを伴って構築した。 我々はデータセット上でモデルを検証し、平均的相互ランクとリコール@kでベースライン法を上回りました。 さらに,人間のループ環境におけるユーザの指示に基づき,国内サービスロボットが標準化された国内環境において日常オブジェクトを検索する環境において,物理的実験を行った。 実験の結果,対象物検索の成功率は80%であった。 私たちのコードはhttps://github.com/keio-smilab23/MultiRankItで利用可能です。

Domestic service robots offer a solution to the increasing demand for daily care and support. A human-in-the-loop approach that combines automation and operator intervention is considered to be a realistic approach to their use in society. Therefore, we focus on the task of retrieving target objects from open-vocabulary user instructions in a human-in-the-loop setting, which we define as the learning-to-rank physical objects (LTRPO) task. For example, given the instruction "Please go to the dining room which has a round table. Pick up the bottle on it," the model is required to output a ranked list of target objects that the operator/user can select. In this paper, we propose MultiRankIt, which is a novel approach for the LTRPO task. MultiRankIt introduces the Crossmodal Noun Phrase Encoder to model the relationship between phrases that contain referring expressions and the target bounding box, and the Crossmodal Region Feature Encoder to model the relationship between the target object and multiple images of its surrounding contextual environment. Additionally, we built a new dataset for the LTRPO task that consists of instructions with complex referring expressions accompanied by real indoor environmental images that feature various target objects. We validated our model on the dataset and it outperformed the baseline method in terms of the mean reciprocal rank and recall@k. Furthermore, we conducted physical experiments in a setting where a domestic service robot retrieved everyday objects in a standardized domestic environment, based on users' instruction in a human--in--the--loop setting. The experimental results demonstrate that the success rate for object retrieval achieved 80%. Our code is available at https://github.com/keio-smilab23/MultiRankIt.
翻訳日:2023-12-27 16:05:24 公開日:2023-12-26
# コヒーレント散乱による2つの浮遊ナノ粒子の同時冷却

Simultaneous ground-state cooling of two levitated nanoparticles by coherent scattering ( http://arxiv.org/abs/2312.15898v1 )

ライセンス: Link先を確認
Yi Xu, Yu-Hong Liu, Cheng Liu, and Jie-Qiao Liao(参考訳) 2つの浮遊ナノ粒子の同時冷却は、量子エンタングルメントや粒子の翻訳運動を伴う量子相関のようなマクロ的な量子効果を研究するための重要な前提条件である。 ここでは,共役キャビティ浮揚粒子系を考察し,ハミルトニアンの詳細な導出を示す。 2つの粒子の$y$-direction運動は空洞場と$x$-および$z$-direction運動の両方から切り離され、さらに$z$-direction運動は粒子の適切な位置を選択することにより空洞場と$x$-direction運動からさらに切り離される。 3モードおよび5モードキャビティ浮上型光機械モデルにおいて,これらのメカニカルモードの同時冷却について検討した。 2つのツイーザーが同じパワーを持つ場合、同時に地中冷却を抑制するダークモード効果が存在することが判明した。 それでも、これらのモードの同時冷却は、適切なパラメータの下でダークモード効果を破ることによって実現できる。 本システムでは,キャビティ浮上光力学系における量子効果と応用を研究するための汎用プラットフォームを提供する。

Simultaneous ground-state cooling of two levitated nanoparticles is a crucial prerequisite for investigation of macroscopic quantum effects such as quantum entanglement and quantum correlation involving translational motion of particles. Here we consider a coupled cavity-levitated-particle system and present a detailed derivation of its Hamiltonian. We find that the $y$-direction motions of the two particles are decoupled from the cavity field and both the $x$- and $z$-direction motions, and that the $z$-direction motions can be further decoupled from the cavity field and the $x$-direction motions by choosing proper locations of the particles. We study the simultaneous cooling of these mechanical modes in both the three-mode and five-mode cavity-levitated optomechanical models. It is found that there exists the dark-mode effect when the two tweezers have the same powers, which suppress the simultaneous ground-state cooling. Nevertheless, the simultaneous ground-state cooling of these modes can be realized by breaking the dark-mode effect under proper parameters. Our system provides a versatile platform to study quantum effects and applications in cavity-levitated optomechanical systems.
翻訳日:2023-12-27 15:58:40 公開日:2023-12-26
# オープンセット分散ロボットローカライゼーションのための再帰蒸留

Recursive Distillation for Open-Set Distributed Robot Localization ( http://arxiv.org/abs/2312.15897v1 )

ライセンス: Link先を確認
Kenta Tsukahara, Kanji Tanaka(参考訳) 最先端の自己ローカライゼーションモデルにおける典型的な仮定は、ターゲットのワークスペースに注釈付きトレーニングデータセットが利用できるということである。 しかし、ロボットが一般のオープンワールドを旅するときは必ずしもそうではない。 本研究は,オープンワールド分散ロボットシステムのための新しいトレーニングスキームを導入する。 提案手法では,ロボット(「学生」)が不慣れな場所(「教師」)で出会った他のロボットに指導を求めることができる。 具体的には、教師モデルから擬似学習データセットを再構成し、ドメイン、クラス、語彙のインクリメンタル設定の下で生徒モデルの継続的な学習に使用する。 従来の知識伝達方式と異なり,教師モデルの仮定は最小限であり,非協力的,非訓練的(画像検索エンジンなど)な教師やブラックボックスの教師(データプライバシなど)など,さまざまなオープンセットの教師を扱える。 本稿では, 学生が学習したデータフリー再帰蒸留シナリオを用いて, 次世代のオープン教師セットに再帰的に参加できるような, 汎用モデルの事例としてのランキング関数について検討する。

A typical assumption in state-of-the-art self-localization models is that an annotated training dataset is available for the target workspace. However, this is not necessarily true when a robot travels around the general open world. This work introduces a novel training scheme for open-world distributed robot systems. In our scheme, a robot (``student") can ask the other robots it meets at unfamiliar places (``teachers") for guidance. Specifically, a pseudo-training dataset is reconstructed from the teacher model and then used for continual learning of the student model under domain, class, and vocabulary incremental setup. Unlike typical knowledge transfer schemes, our scheme introduces only minimal assumptions on the teacher model, so that it can handle various types of open-set teachers, including those uncooperative, untrainable (e.g., image retrieval engines), or black-box teachers (i.e., data privacy). In this paper, we investigate a ranking function as an instance of such generic models, using a challenging data-free recursive distillation scenario, where a student once trained can recursively join the next-generation open teacher set.
翻訳日:2023-12-27 15:58:18 公開日:2023-12-26
# WWW:コンピューティング・イン・メモリとは何か、いつ、どこで?

WWW: What, When, Where to Compute-in-Memory ( http://arxiv.org/abs/2312.15896v1 )

ライセンス: Link先を確認
Tanvi Sharma, Mustafa Ali, Indranil Chakraborty, Kaushik Roy(参考訳) コンピュート・イン・メモリ(CiM)は、フォン・ノイマンマシンの高データ移動コストを軽減するための魅力的なソリューションとして登場した。 CiMは、機械学習(ML)推論において支配的な計算である、大規模並列汎用行列乗算(GEMM)演算をメモリ上で実行することができる。 しかし、計算用メモリの再購入は重要な疑問を呈する 1) アナログとデジタルのCiMが複数ある場合,システムの観点から適合性を決定する必要がある。 2) CiMを使用する場合: ML推論には、さまざまなメモリと計算要件のワークロードが含まれているため、CiMが標準の処理コアよりも有効であるかどうかの特定が難しい。 3) CiMを統合する場所: 各メモリレベルは異なる帯域幅と容量を持ち、CiM統合のデータの移動と局所性に影響を及ぼす。 本稿では,ML推論高速化のためのCiM統合に関するこれらの質問に対する回答について検討する。 我々は、アナログおよびデジタルプリミティブを含むCiMプロトタイプの初期システムレベルの評価にTimeloop-Accelergyを使用する。 CiMをNvidia A100のようなベースラインアーキテクチャでさまざまなキャッシュメモリレベルに統合し、さまざまなMLワークロードにデータフローを調整します。 実験の結果、CiMアーキテクチャはエネルギー効率を向上し、INT-8の精度で確立されたベースラインの最大0.12倍の低エネルギーを実現し、最大4倍の性能向上を達成できた。 提案した研究は、どのタイプのCiMを使用するか、いつ、どこで、GEMMアクセラレーションのためのキャッシュ階層にそれを最適に統合するかについての洞察を提供する。

Compute-in-memory (CiM) has emerged as a compelling solution to alleviate high data movement costs in von Neumann machines. CiM can perform massively parallel general matrix multiplication (GEMM) operations in memory, the dominant computation in Machine Learning (ML) inference. However, re-purposing memory for compute poses key questions on 1) What type of CiM to use: Given a multitude of analog and digital CiMs, determining their suitability from systems perspective is needed. 2) When to use CiM: ML inference includes workloads with a variety of memory and compute requirements, making it difficult to identify when CiM is more beneficial than standard processing cores. 3) Where to integrate CiM: Each memory level has different bandwidth and capacity, that affects the data movement and locality benefits of CiM integration. In this paper, we explore answers to these questions regarding CiM integration for ML inference acceleration. We use Timeloop-Accelergy for early system-level evaluation of CiM prototypes, including both analog and digital primitives. We integrate CiM into different cache memory levels in an Nvidia A100-like baseline architecture and tailor the dataflow for various ML workloads. Our experiments show CiM architectures improve energy efficiency, achieving up to 0.12x lower energy than the established baseline with INT-8 precision, and upto 4x performance gains with weight interleaving and duplication. The proposed work provides insights into what type of CiM to use, and when and where to optimally integrate it in the cache hierarchy for GEMM acceleration.
翻訳日:2023-12-27 15:57:57 公開日:2023-12-26
# ポイントプロンプトインスタンスセグメンテーションのための意味認識SAM

Semantic-aware SAM for Point-Prompted Instance Segmentation ( http://arxiv.org/abs/2312.15895v1 )

ライセンス: Link先を確認
Zhaoyang Wei, Pengfei Chen, Xuehui Yu, Guorong Li, Jianbin Jiao, Zhenjun Han(参考訳) ラベルのコストを最小化することを目的として,ビジュアルタスクにおけるシングルポイントアノテーションが研究で注目されている。 最近、Segment Anything (SAM) のような視覚基盤モデルは、堅牢なゼロショット機能と例外的なアノテーション性能のために広く使われている。 しかし、SAMのクラスに依存しない出力と局所的セグメンテーションへの高い信頼は「意味的曖昧さ」を導入し、正確なカテゴリー別セグメンテーションに挑戦する。 本稿では,SAMを用いた費用対効果の高いカテゴリー別セグメンタを提案する。 この課題に対処するために,複数インスタンス学習(MIL)と整合性を備えたSAMとポイントプロンプトを備えたセマンティック・アウェア・インスタンスセグメンテーション・ネットワーク(SAPNet)を開発した。 SAPNetはSAMによって生成される最も代表的なマスクの提案を戦略的に選択し、セグメンテーションを監督する。 さらに,「グループ」と「ローカル」の課題を弱教師付きセグメンテーションにおいて緩和するために,ポイント距離誘導とボックスマイニング戦略を導入する。 これらの戦略は、セグメンテーション全体のパフォーマンスをさらに向上させるのに役立つ。 Pascal VOCとCOCOの実験結果は、提案したSAPNetの有望な性能を示し、そのセマンティックマッチング機能と、ポイントプロンプトされたインスタンスセグメンテーションを前進させる可能性を強調した。 コードは公開される予定だ。

Single-point annotation in visual tasks, with the goal of minimizing labelling costs, is becoming increasingly prominent in research. Recently, visual foundation models, such as Segment Anything (SAM), have gained widespread usage due to their robust zero-shot capabilities and exceptional annotation performance. However, SAM's class-agnostic output and high confidence in local segmentation introduce 'semantic ambiguity', posing a challenge for precise category-specific segmentation. In this paper, we introduce a cost-effective category-specific segmenter using SAM. To tackle this challenge, we have devised a Semantic-Aware Instance Segmentation Network (SAPNet) that integrates Multiple Instance Learning (MIL) with matching capability and SAM with point prompts. SAPNet strategically selects the most representative mask proposals generated by SAM to supervise segmentation, with a specific focus on object category information. Moreover, we introduce the Point Distance Guidance and Box Mining Strategy to mitigate inherent challenges: 'group' and 'local' issues in weakly supervised segmentation. These strategies serve to further enhance the overall segmentation performance. The experimental results on Pascal VOC and COCO demonstrate the promising performance of our proposed SAPNet, emphasizing its semantic matching capabilities and its potential to advance point-prompted instance segmentation. The code will be made publicly available.
翻訳日:2023-12-27 15:57:28 公開日:2023-12-26
# Few-Shotセグメンテーションにおけるタスク破壊的背景抑制

Task-Disruptive Background Suppression for Few-Shot Segmentation ( http://arxiv.org/abs/2312.15894v1 )

ライセンス: Link先を確認
Suho Park, SuBeen Lee, Sangeek Hyun, Hyun Seok Seong, Jae-Pil Heo(参考訳) Few-shot segmentationは、限られた数のアノテートサポートイメージのみを使用して、クエリイメージ内の新規ターゲットオブジェクトを正確にセグメントすることを目的としている。 最近の研究は、背景と前景を利用して、クエリとサポートの密接な相関を正確に計算している。 しかし、一般的に様々な種類のオブジェクトを含む背景の特性を見落としている。 本稿では,(1)問合せとサポートの背景が異なっていた場合,(2)サポートの背景にあるオブジェクトがクエリのターゲットオブジェクトと類似している場合,という問題をもたらす背景の特徴を強調する。 上記のケースを考慮せずに、サポートバックグラウンド全体を採用すると、クエリフォアグラウンドがバックグラウンドとして誤解される。 この問題に対処するために,問合せ関連スコアと目標関連スコアの2点に基づいて,これらの破壊的サポート背景特徴を抑えるモジュールであるTBSを提案する。 前者はサポート背景のみに存在する非共有機能の影響を軽減することを目的としており、後者はターゲット-類似サポート背景機能の影響を減らすことを目的としている。 これら2つのスコアに基づいて,クエリの背景とサポートとの類似性をキャプチャするクエリの背景関連スコアを定義し,それを利用して,サポートの背景機能を拡大し,破壊的サポートの背景の影響を適応的に制限する。 提案手法は,PASCAL-5およびCOCO-20データセットの1ショットセグメンテーションにおける最先端性能を実現する。 公式コードはgithub.com/SuhoPark0706/TBSNetで利用可能です。

Few-shot segmentation aims to accurately segment novel target objects within query images using only a limited number of annotated support images. The recent works exploit support background as well as its foreground to precisely compute the dense correlations between query and support. However, they overlook the characteristics of the background that generally contains various types of objects. In this paper, we highlight this characteristic of background which can bring problematic cases as follows: (1) when the query and support backgrounds are dissimilar and (2) when objects in the support background are similar to the target object in the query. Without any consideration of the above cases, adopting the entire support background leads to a misprediction of the query foreground as background. To address this issue, we propose Task-disruptive Background Suppression (TBS), a module to suppress those disruptive support background features based on two spatial-wise scores: query-relevant and target-relevant scores. The former aims to mitigate the impact of unshared features solely existing in the support background, while the latter aims to reduce the influence of target-similar support background features. Based on these two scores, we define a query background relevant score that captures the similarity between the backgrounds of the query and the support, and utilize it to scale support background features to adaptively restrict the impact of disruptive support backgrounds. Our proposed method achieves state-of-the-art performance on PASCAL-5 and COCO-20 datasets on 1-shot segmentation. Our official code is available at github.com/SuhoPark0706/TBSNet.
翻訳日:2023-12-27 15:57:01 公開日:2023-12-26
# 純化と量子ニューラルネットワークによるn-GHZ状態超高密度符号化チャネルの容量向上

Capacity Enhancement of n-GHZ State Super-dense Coding Channels by Purification and Quantum Neural Network ( http://arxiv.org/abs/2312.15892v1 )

ライセンス: Link先を確認
Rong Zhang, Xiaoguang Chen, Yaoyao Wang and Bin Lu(参考訳) nghz状態に基づくスーパーデンス符号化プロトコルを提案し、通信相手が要求に応じて送信されたコードワード数を選択し、量子スーパーデンス符号化プロトコルを複数の送信コードワードシナリオに適用できるようにする。 絡み合いの浄化と量子ニューラルネットワーク(QNN)を組み合わせて超高密度符号化のチャネル容量を改善する手法を提案する。 Cirqプラットフォームにおける現実的な量子通信ノイズ環境をシミュレートすることにより、一元的および非単元的雑音条件下での異なる次元の超高密度符号化通信シナリオにおいて、純度とQNNがフィリティとチャネル容量の増大に与える影響を分析する。 実験の結果,純度とQNNを別々に適用した場合,超密度符号化のチャネルキャパシティは異なる度に向上し,純度とQNNの組み合わせは超密度符号化のチャネルキャパシティ向上に重畳され,その拡張効果は異なる次元でより重要であることがわかった。

A super-dense coding protocol based on the n-GHZ state is proposed to enable the two communicating parties to choose the number of transmitted code words according to their demand and to adapt the quantum super-dense coding protocol to multiple transmitted code word scenarios. A method is proposed that combines entanglement purification and Quantum Neural Network (QNN) to improve the channel capacity of super-dense coding. By simulating a realistic quantum communication noise environment in the Cirq platform, the effect of purification and QNN on the enhancement of fidelity and channel capacity in super-dense coding communication scenarios with different dimensions under unitary and non-unitary noise conditions is analyzed. The experimental results show that the channel capacity of super-dense coding is improved in different degrees when purification and QNN are applied separately, and the combination of purification and QNN has a superimposed effect on the channel capacity enhancement of super-dense coding, and the enhancement effect is more significant in different dimensions.
翻訳日:2023-12-27 15:56:34 公開日:2023-12-26
# モダリティを欠くロバストなマルチモーダルプロンプトに向けて

Towards Robust Multimodal Prompting With Missing Modalities ( http://arxiv.org/abs/2312.15890v1 )

ライセンス: Link先を確認
Jaehyuk Jang, Yooseung Wang, Changick Kim(参考訳) 近年,すべてのモダリティケースに対して学習可能な欠落認識プロンプトを導入するマルチモーダルプロンプトが注目されている。 しかし、2つの重大な問題に直面している。 1)プロンプトの数は,モダリティの数が増えるにつれて指数関数的に増加する。 2)トレーニングと推論の間にモダリティの異なるシナリオでは堅牢性に欠ける。 本稿では,これらの課題に対処するための簡易かつ効果的なプロンプトデザインを提案する。 欠落認識のプロンプトを使う代わりに、プロンプトをモダリティ固有のトークンとして利用し、各モダリティのユニークな特徴を捉えることができる。 さらに,プロンプト間の直交性をキー要素として活用し,異なるモダリティにまたがる異なる情報を学び,学習表現の多様性を促進する。 広範な実験によって、プロンプト数を減らしながら、プロンプト設計がパフォーマンスとロバスト性の両方を向上できることが示されました。

Recently, multimodal prompting, which introduces learnable missing-aware prompts for all missing modality cases, has exhibited impressive performance. However, it encounters two critical issues: 1) The number of prompts grows exponentially as the number of modalities increases; and 2) It lacks robustness in scenarios with different missing modality settings between training and inference. In this paper, we propose a simple yet effective prompt design to address these challenges. Instead of using missing-aware prompts, we utilize prompts as modality-specific tokens, enabling them to capture the unique characteristics of each modality. Furthermore, our prompt design leverages orthogonality between prompts as a key element to learn distinct information across different modalities and promote diversity in the learned representations. Extensive experiments demonstrate that our prompt design enhances both performance and robustness while reducing the number of prompts.
翻訳日:2023-12-27 15:56:12 公開日:2023-12-26
# ANN vs SNN: 移植可能な脳と機械のインタフェースにおけるニューラルデコードの一症例

ANN vs SNN: A case study for Neural Decoding in Implantable Brain-Machine Interfaces ( http://arxiv.org/abs/2312.15889v1 )

ライセンス: Link先を確認
Biyan Zhou, Pao-Sheng Vincent Sun, and Arindam Basu(参考訳) 組込み型脳-機械インタフェース(iBMI)をワイヤレス化して患者の快適性と安全性を高めることが重要であるが、近年のニューラルプローブにおけるチャネル数の増加傾向は、データレートの増加による課題となっている。 エッジコンピューティングを用いてソースの生データから情報を抽出することは、最適な圧縮比を提供する統合意図デコーダを用いて、この問題に対する有望な解決策である。 本研究では,運動復号化のための異なるニューラルネットワーク(NN)を精度と実装コストの観点から比較する。 さらに,従来の信号処理技術と機械学習を組み合わせることで,単純なnnでも驚くほど優れた性能が得られることを示す。 ブロックを追加することで、ALN\_3d、SNN\_3D、ANNモデルに対して$\approx 0.05$、$0.04$、$0.03$の最大ゲインが得られ、LSTMとSNN\_streamingモデルでは$0.02$以下となった。 トレーニングデータの増加は、すべてのモデルのR^2$を0.03-0.04$に改善する助けとなった。 一般に、LSTMとSNN\_streamingモデルは、それぞれ(精度対メモリ/操作)パレート曲線の高位と低位を占有し、SNN\_3DとANN\_3Dは中間位置を占める。 我々の研究は、このデータセットの成果を提示し、未来のデコーダ統合実装の道を開く。

While it is important to make implantable brain-machine interfaces (iBMI) wireless to increase patient comfort and safety, the trend of increased channel count in recent neural probes poses a challenge due to the concomitant increase in the data rate. Extracting information from raw data at the source by using edge computing is a promising solution to this problem, with integrated intention decoders providing the best compression ratio. In this work, we compare different neural networks (NN) for motor decoding in terms of accuracy and implementation cost. We further show that combining traditional signal processing techniques with machine learning ones deliver surprisingly good performance even with simple NNs. Adding a block Bidirectional Bessel filter provided maximum gains of $\approx 0.05$, $0.04$ and $0.03$ in $R^2$ for ANN\_3d, SNN\_3D and ANN models, while the gains were lower ($\approx 0.02$ or less) for LSTM and SNN\_streaming models. Increasing training data helped improve the $R^2$ of all models by $0.03-0.04$ indicating they have more capacity for future improvement. In general, LSTM and SNN\_streaming models occupy the high and low ends of the pareto curves (for accuracy vs. memory/operations) respectively while SNN\_3D and ANN\_3D occupy intermediate positions. Our work presents state of the art results for this dataset and paves the way for decoder-integrated-implants of the future.
翻訳日:2023-12-27 15:55:55 公開日:2023-12-26
# 思考と検索: 医学大規模言語モデルの拡張した仮説知識グラフ

Think and Retrieval: A Hypothesis Knowledge Graph Enhanced Medical Large Language Models ( http://arxiv.org/abs/2312.15883v1 )

ライセンス: Link先を確認
Xinke Jiang, Ruizhe Zhang, Yongxin Xu, Rihong Qiu, Yue Fang, Zhiyuan Wang, Jinyi Tang, Hongxin Ding, Xu Chu, Junfeng Zhao, Yasha Wang(参考訳) 大規模言語モデル(llm)の台頭が自然言語処理の分野におけるタスクパフォーマンスに与えた影響について考察する。 本稿では,検索機能強化(RAG)とファインチューニング(FT)の2つの戦略に焦点をあて,医療用LLMを強化するための知識グラフを活用した仮説知識グラフ拡張(HyKGE)フレームワークを提案する。 LLMとナレッジグラフを統合することで、HyKGEは正確性と解釈可能性の問題に対処し、医療分野における潜在的な応用を示す上で優れた性能を示す。 実世界のデータセットを用いた評価では,HyKGEが特に複雑で困難なシナリオにおいて,正確な信頼性を持った正確な知識を提供する上で優れていることが強調されている。 コードは公開まで利用可能である。

We explore how the rise of Large Language Models (LLMs) significantly impacts task performance in the field of Natural Language Processing. We focus on two strategies, Retrieval-Augmented Generation (RAG) and Fine-Tuning (FT), and propose the Hypothesis Knowledge Graph Enhanced (HyKGE) framework, leveraging a knowledge graph to enhance medical LLMs. By integrating LLMs and knowledge graphs, HyKGE demonstrates superior performance in addressing accuracy and interpretability challenges, presenting potential applications in the medical domain. Our evaluations using real-world datasets highlight HyKGE's superiority in providing accurate knowledge with precise confidence, particularly in complex and difficult scenarios. The code will be available until published.
翻訳日:2023-12-27 15:55:25 公開日:2023-12-26
# 確率軌道予測のための注意型ソーシャルグラフトランスネットワーク

Attention-aware Social Graph Transformer Networks for Stochastic Trajectory Prediction ( http://arxiv.org/abs/2312.15881v1 )

ライセンス: Link先を確認
Yao Liu, Binghao Li, Xianzhi Wang, Claude Sammut, Lina Yao(参考訳) 軌道予測は、自律運転やロボット工学など、様々なインテリジェントな技術の基本である。 歩行者や車両の移動予測は、緊急ブレーキ、衝突の低減、交通安全の向上に役立つ。 現在の軌道予測研究は、複雑な社会的相互作用、高力学、多様性の問題に直面している。 特に、長期予測にはまだ制限がある。 マルチモーダル軌道予測のためのアテンション対応ソーシャルグラフトランスフォーマーネットワークを提案する。 グラフ畳み込みネットワークとトランスフォーマネットワークを組み合わせることで,時空間グラフからの安定な解像度の擬似画像を生成する。 さらに,歩行者と車両の混合交通を伴うシナリオにおいて,ソーシャルインタラクション情報を扱うための注意対応モジュールを設計した。 したがって、グラフとトランスフォーマーの利点、すなわち、任意の数の隣接者に対して情報を集約する能力と、複雑な時間依存データ処理を行う能力を維持することができる。 歩行者,車両,混合軌道を含むデータセットについて実験を行った。 本研究は, 各種測定値の変位誤差を最小化し, 衝突の可能性を大幅に低減することを示す。 また,本モデルが最終変位誤差を効果的に低減し,長期にわたって予測できることに注意が必要である。

Trajectory prediction is fundamental to various intelligent technologies, such as autonomous driving and robotics. The motion prediction of pedestrians and vehicles helps emergency braking, reduces collisions, and improves traffic safety. Current trajectory prediction research faces problems of complex social interactions, high dynamics and multi-modality. Especially, it still has limitations in long-time prediction. We propose Attention-aware Social Graph Transformer Networks for multi-modal trajectory prediction. We combine Graph Convolutional Networks and Transformer Networks by generating stable resolution pseudo-images from Spatio-temporal graphs through a designed stacking and interception method. Furthermore, we design the attention-aware module to handle social interaction information in scenarios involving mixed pedestrian-vehicle traffic. Thus, we maintain the advantages of the Graph and Transformer, i.e., the ability to aggregate information over an arbitrary number of neighbors and the ability to perform complex time-dependent data processing. We conduct experiments on datasets involving pedestrian, vehicle, and mixed trajectories, respectively. Our results demonstrate that our model minimizes displacement errors across various metrics and significantly reduces the likelihood of collisions. It is worth noting that our model effectively reduces the final displacement error, illustrating the ability of our model to predict for a long time.
翻訳日:2023-12-27 15:55:11 公開日:2023-12-26
# KnowledgeNavigator: 知識グラフによる推論強化のための大規模言語モデルを活用する

KnowledgeNavigator: Leveraging Large Language Models for Enhanced Reasoning over Knowledge Graph ( http://arxiv.org/abs/2312.15880v1 )

ライセンス: Link先を確認
Tiezheng Guo and Qingwen Yang and Chen Wang and Yanyi Liu and Pan Li and Jiawei Tang and Dapeng Li and Yingyou Wen(参考訳) 大規模言語モデル(LLM)は、その強力な自然言語理解とゼロショット能力によって、様々な下流タスクにおいて優れたパフォーマンスを達成しているが、LLMは依然として知識制限に悩まされている。 特に長い論理的連鎖や複雑な推論を必要とするシナリオでは、LLMの幻覚と知識制限は質問応答(QA)のパフォーマンスを制限する。 本稿では,知識グラフから外部知識を効率的かつ正確に検索し,それをllm推論の鍵要素として用いることにより,これらの課題に対処するための新しいフレームワークナレッジナビゲータを提案する。 具体的には、KnowledgeNavigatorはまず質問の潜在的な制約を掘り下げて、推論を導く。 そして、llmと質問のガイダンスを用いて、知識グラフの反復推論を通じて回答をサポートする外部知識を検索してフィルタリングする。 最後に、KnowledgeNavigatorは構造化された知識をLLMに親しみやすい効果的なプロンプトに構成し、その推論を支援する。 我々は,複数のKGQAベンチマーク上でKnowledgeNavigatorを評価し,フレームワークの有効性と一般化を示し,従来の知識グラフ拡張LPM法よりも優れ,完全に教師付きモデルに匹敵する性能を示した。

Large language model (LLM) has achieved outstanding performance on various downstream tasks with its powerful natural language understanding and zero-shot capability, but LLM still suffers from knowledge limitation. Especially in scenarios that require long logical chains or complex reasoning, the hallucination and knowledge limitation of LLM limit its performance in question answering (QA). In this paper, we propose a novel framework KnowledgeNavigator to address these challenges by efficiently and accurately retrieving external knowledge from knowledge graph and using it as a key factor to enhance LLM reasoning. Specifically, KnowledgeNavigator first mines and enhances the potential constraints of the given question to guide the reasoning. Then it retrieves and filters external knowledge that supports answering through iterative reasoning on knowledge graph with the guidance of LLM and the question. Finally, KnowledgeNavigator constructs the structured knowledge into effective prompts that are friendly to LLM to help its reasoning. We evaluate KnowledgeNavigator on multiple public KGQA benchmarks, the experiments show the framework has great effectiveness and generalization, outperforming previous knowledge graph enhanced LLM methods and is comparable to the fully supervised models.
翻訳日:2023-12-27 15:54:51 公開日:2023-12-26
# PBCounter:擬似ブール式上の重み付きモデル数

PBCounter: Weighted Model Counting on Pseudo-Boolean Formulas ( http://arxiv.org/abs/2312.15877v1 )

ライセンス: Link先を確認
Yong Lai, Zhenghang Xu, Minghao Yin(参考訳) 重み付きモデルカウント (wmc) では、重みをリテラルに割り当て、代入の重みがそのリテラルの重みの積である与えられた命題公式のモデルの重みの和を計算する。 現在のwmcソルバは結合正規形(cnf)公式に取り組んでいる。 しかし、CNFは多くの応用において人間にとって自然な表現ではない。 CNF よりも強い擬ブール式(PB) の表現力により, PB 式上で WMC を実行することを提案する。 最近の動的プログラミングアルゴリズムフレームワーク addmc for wmc に基づいて,重み付きpb計数ツール pbcounter を実装した。 pbcounter と最新の重み付きモデルカウンタである sharpsat-td, exactmc, d4, addmc を比較した。 ベンチマークの3つの領域における実験は、pbcounterがcnf公式のモデルカウンタよりも優れていることを示している。

In Weighted Model Counting (WMC), we assign weights to literals and compute the sum of the weights of the models of a given propositional formula where the weight of an assignment is the product of the weights of its literals. The current WMC solvers work on Conjunctive Normal Form (CNF) formulas. However, CNF is not a natural representation for human-being in many applications. Motivated by the stronger expressive power of pseudo-Boolean (PB) formulas than CNF, we propose to perform WMC on PB formulas. Based on a recent dynamic programming algorithm framework called ADDMC for WMC, we implement a weighted PB counting tool PBCounter. We compare PBCounter with the state-of-the-art weighted model counters SharpSAT-TD, ExactMC, D4, and ADDMC, where the latter tools work on CNF with encoding methods that convert PB constraints into a CNF formula. The experiments on three domains of benchmarks show that PBCounter is superior to the model counters on CNF formulas.
翻訳日:2023-12-27 15:54:28 公開日:2023-12-26
# ニューラルマシン変換用トランスフォーマにおける異種エンコーダのスケーリング

Heterogeneous Encoders Scaling In The Transformer For Neural Machine Translation ( http://arxiv.org/abs/2312.15872v1 )

ライセンス: Link先を確認
Jia Cheng Hu, Roberto Cavicchioli, Giulia Berardinelli, Alessandro Capotondi(参考訳) トランスフォーマーは現在、ニューラルネットワーク翻訳における均質な構成(自己認識のみ)において最も優れたアーキテクチャであるが、自然言語処理における最先端のモデルの多くは、異なるディープラーニングアプローチの組み合わせで作られている。 しかし、これらのモデルはしばしばいくつかのテクニックのみを組み合わせることに焦点を合わせており、なぜ他の手法が選択されるのかは定かではない。 本研究では,多種多様な手法を統合することの有効性について検討する。 単純な組み合わせ戦略とパフォーマンス駆動のシナジー基準に基づいて,最大5種類のエンコーダで構成されるマルチエンコーダトランスを設計した。 その結果, 単一エンコーダモデルと比較して7.16 BLEUの最大増加が観測された低リソース言語では, 様々な言語やデータセットサイズでの翻訳精度の向上が期待できることがわかった。

Although the Transformer is currently the best-performing architecture in the homogeneous configuration (self-attention only) in Neural Machine Translation, many State-of-the-Art models in Natural Language Processing are made of a combination of different Deep Learning approaches. However, these models often focus on combining a couple of techniques only and it is unclear why some methods are chosen over others. In this work, we investigate the effectiveness of integrating an increasing number of heterogeneous methods. Based on a simple combination strategy and performance-driven synergy criteria, we designed the Multi-Encoder Transformer, which consists of up to five diverse encoders. Results showcased that our approach can improve the quality of the translation across a variety of languages and dataset sizes and it is particularly effective in low-resource languages where we observed a maximum increase of 7.16 BLEU compared to the single-encoder model.
翻訳日:2023-12-27 15:54:06 公開日:2023-12-26
# 量子コンピュータにおける確率的ボラティリティ下でのオプション価格

Option pricing under stochastic volatility on a quantum computer ( http://arxiv.org/abs/2312.15871v1 )

ライセンス: Link先を確認
Guoming Wang, Angus Kan(参考訳) 我々は,一般的な確率的ボラティリティモデルであるヘストンモデルの下で,アジアおよびバリアオプションの価格設定のための量子アルゴリズムを開発し,典型的な市場条件下でのT数,T深度,論理量子ビット数の観点から,それらのコストを見積もる。 これらのアルゴリズムは、確率微分方程式のよく確立された数値法と量子振幅推定法を組み合わせたものである。 特に,その単純さにもかかわらず,弱オイラー法は,このタスクでよく知られた強オイラー法と同じレベルの精度が得られることを実証的に示す。 さらに、ガウス状態を作成するための高価な手順をなくすことで、弱いオイラースキームに基づく量子アルゴリズムは強いオイラースキームに基づくものよりも劇的に効率が良い。 我々の資源分析によれば、確率的変動性の下でのオプション価格設定は量子コンピュータの有望な応用であり、我々のアルゴリズムは、金融アプリケーションにおける実用的な量子優位性を達成するためのハードウェア要件を以前の技術よりも厳密に表現している。

We develop quantum algorithms for pricing Asian and barrier options under the Heston model, a popular stochastic volatility model, and estimate their costs, in terms of T-count, T-depth and number of logical qubits, on instances under typical market conditions. These algorithms are based on combining well-established numerical methods for stochastic differential equations and quantum amplitude estimation technique. In particular, we empirically show that, despite its simplicity, weak Euler method achieves the same level of accuracy as the better-known strong Euler method in this task. Furthermore, by eliminating the expensive procedure of preparing Gaussian states, the quantum algorithm based on weak Euler scheme achieves drastically better efficiency than the one based on strong Euler scheme. Our resource analysis suggests that option pricing under stochastic volatility is a promising application of quantum computers, and that our algorithms render the hardware requirement for reaching practical quantum advantage in financial applications less stringent than prior art.
翻訳日:2023-12-27 15:53:50 公開日:2023-12-26
# segment-enhanced contrastive representation learningに基づく医学レポート生成

Medical Report Generation based on Segment-Enhanced Contrastive Representation Learning ( http://arxiv.org/abs/2312.15869v1 )

ライセンス: Link先を確認
Ruoqing Zhao, Xi Wang, Hongliang Dai, Pan Gao, Piji Li(参考訳) 自動放射線学レポート生成は、放射線学レポートを改善し、放射線科医の作業負荷を軽減する可能性を秘めている。 しかし、医療報告生成タスクは、医療データの可用性の限界とデータバイアスの存在により、ユニークな課題を生んでいる。 利用可能なデータの有用性を最大化し、データバイアスを減らすために、segment anything model(sam)を利用して臓器、異常、骨などをセグメント化し、画像の有意義なroisに注意を払い、より良い視覚的表現を得るためのフレームワークであるmscl(medical image segmentation with contrastive learning)を提案する。 次に,訓練中に目標と意味的に類似したレポートに重みを割り当てる教師付きコントラスト損失を導入する。 この損失関数の設計は、データバイアスの影響を緩和し、医療画像の本質的な特徴を捉え、高品質なレポートを生成するようモデルに促すことを目的としている。 実験の結果,提案モデルの有効性が実証され,iu x線公開データセットで最新性能が得られた。

Automated radiology report generation has the potential to improve radiology reporting and alleviate the workload of radiologists. However, the medical report generation task poses unique challenges due to the limited availability of medical data and the presence of data bias. To maximize the utility of available data and reduce data bias, we propose MSCL (Medical image Segmentation with Contrastive Learning), a framework that utilizes the Segment Anything Model (SAM) to segment organs, abnormalities, bones, etc., and can pay more attention to the meaningful ROIs in the image to get better visual representations. Then we introduce a supervised contrastive loss that assigns more weight to reports that are semantically similar to the target while training. The design of this loss function aims to mitigate the impact of data bias and encourage the model to capture the essential features of a medical image and generate high-quality reports. Experimental results demonstrate the effectiveness of our proposed model, where we achieve state-of-the-art performance on the IU X-Ray public dataset.
翻訳日:2023-12-27 15:53:30 公開日:2023-12-26
# 合成ゼロショット学習における近位長尾分布の解明

Revealing the Proximate Long-Tail Distribution in Compositional Zero-Shot Learning ( http://arxiv.org/abs/2312.15923v1 )

ライセンス: Link先を確認
Chenyi Jiang, Haofeng Zhang(参考訳) 合成ゼロショット学習(CZSL)は、目に見える状態オブジェクト対から新しい未知のペアへ知識を伝達することを目的としている。 このプロセスでは、状態オブジェクトの組み合わせの相互関係による視覚バイアスが視覚的特徴を曖昧にし、識別可能なクラスプロトタイプの学習を妨げる。 一般的なメソッドは、視覚的な特徴から直接状態とオブジェクトを分離することに集中し、データの観点から生じる可能性のある拡張を無視する。 実験では, 上記の問題による結果が, ロングテール分布に近似することを示した。 解として、CZSLを近似クラス不均衡問題に変換する。 CZSLの長尾分布におけるクラスの役割を数学的に推定する。 この知見に基づいて, 合成による視覚バイアスを分類器の訓練と推定に組み込むことにより, 事前の近似クラスとして推定する。 この強化により、分類器は各構成の識別可能なクラスプロトタイプを取得し、よりバランスのとれた予測を実現する。 実験の結果,提案手法はパラメータを付加することなく,モデルの性能を最先端レベルに引き上げることを示した。 私たちのコードは \url{https://github.com/LanchJL/ProLT-CZSL} で利用可能です。

Compositional Zero-Shot Learning (CZSL) aims to transfer knowledge from seen state-object pairs to novel unseen pairs. In this process, visual bias caused by the diverse interrelationship of state-object combinations blurs their visual features, hindering the learning of distinguishable class prototypes. Prevailing methods concentrate on disentangling states and objects directly from visual features, disregarding potential enhancements that could arise from a data viewpoint. Experimentally, we unveil the results caused by the above problem closely approximate the long-tailed distribution. As a solution, we transform CZSL into a proximate class imbalance problem. We mathematically deduce the role of class prior within the long-tailed distribution in CZSL. Building upon this insight, we incorporate visual bias caused by compositions into the classifier's training and inference by estimating it as a proximate class prior. This enhancement encourages the classifier to acquire more discernible class prototypes for each composition, thereby achieving more balanced predictions. Experimental results demonstrate that our approach elevates the model's performance to the state-of-the-art level, without introducing additional parameters. Our code is available at \url{https://github.com/LanchJL/ProLT-CZSL}.
翻訳日:2023-12-27 15:47:39 公開日:2023-12-26
# コンタクトセンター大言語モデルの構築に向けて

Towards Probing Contact Center Large Language Models ( http://arxiv.org/abs/2312.15922v1 )

ライセンス: Link先を確認
Varun Nathan, Ayush Kumar, Digvijay Ingle and Jithendra Vepa(参考訳) ドメイン固有命令を用いた微調整型大規模言語モデル(LLM)が,ドメイン固有理解を高める効果的な方法として登場した。 しかし、このプロセスで得られたコア特性を調べる作業は限られている。 本研究では,対話型,チャネル型,自動音声認識(ASR)特性を含む探索タスクを用いて,接触中心(CC)特定命令微調整LDMから学習した基本的特徴をベンチマークする。 異なるLLMアーキテクチャ(Flan-T5とLlama)、サイズ(3B, 7B, 11B, 13B)、微調整パラダイム(完全微調整とPEFT)について検討する。 その結果,OCB-LLMよりも応答受容性が48%以上向上し,ドメイン内下流タスクに対するCC-LLMsの顕著な効果が示された。 さらに,広く使用されているセンチバルデータセットにおけるoob-llmsとcc-llmsの性能を比較し,表面的,構文的,意味的情報を探索タスクを通して評価する。 興味深いことに、探索タスクのセットにおける分類器の相対的に一貫した性能に注目する。 この結果から, CC-LLMは, 符号化面, 構文, 意味的特性に依存しない傾向を示し, ドメイン固有適応と探索タスク性能の複雑な相互作用が強調され, 特定の文脈における微調整言語モデルの振る舞いを探求する機会が開かれた。

Fine-tuning large language models (LLMs) with domain-specific instructions has emerged as an effective method to enhance their domain-specific understanding. Yet, there is limited work that examines the core characteristics acquired during this process. In this study, we benchmark the fundamental characteristics learned by contact-center (CC) specific instruction fine-tuned LLMs with out-of-the-box (OOB) LLMs via probing tasks encompassing conversational, channel, and automatic speech recognition (ASR) properties. We explore different LLM architectures (Flan-T5 and Llama), sizes (3B, 7B, 11B, 13B), and fine-tuning paradigms (full fine-tuning vs PEFT). Our findings reveal remarkable effectiveness of CC-LLMs on the in-domain downstream tasks, with improvement in response acceptability by over 48% compared to OOB-LLMs. Additionally, we compare the performance of OOB-LLMs and CC-LLMs on the widely used SentEval dataset, and assess their capabilities in terms of surface, syntactic, and semantic information through probing tasks. Intriguingly, we note a relatively consistent performance of probing classifiers on the set of probing tasks. Our observations indicate that CC-LLMs, while outperforming their out-of-the-box counterparts, exhibit a tendency to rely less on encoding surface, syntactic, and semantic properties, highlighting the intricate interplay between domain-specific adaptation and probing task performance opening up opportunities to explore behavior of fine-tuned language models in specialized contexts.
翻訳日:2023-12-27 15:47:18 公開日:2023-12-26
# 経験的動的モデリングに基づく因果性検出の展望

Review on Causality Detection Based on Empirical Dynamic Modeling ( http://arxiv.org/abs/2312.15919v1 )

ライセンス: Link先を確認
Cao Zhihao, Qu Hongchun(参考訳) 現代の科学研究では、相関と因果関係の区別を理解することが重要である。 相関は広く使われている分析標準であるが、本質的に因果関係を含まない。 本稿では,特に非線形力学の文脈において,相関のみに依存する誤解釈の可能性について論じる。 機械学習を含む様々な相関研究手法の急速な発展にもかかわらず、変数間の因果関係の探索は現在も続いている。 経験的動的モデリング(EDM)は、動的システムのモデリングのためのデータ駆動フレームワークとして登場し、データ解析における従来の定式化手法を取り入れることで、自分自身を区別する。 代わりに、時系列データから直接動的システムの振る舞いを再構築する。 EDMの基本的な前提は、動的システムは特定の規則によって支配される一連の状態が高次元空間で時間とともに進化する過程として概念化できるということである。 これらの進化状態の再構築により、動的システムを効果的にモデル化することができる。 edmを用いて,動的システム内の変数間の因果関係を時系列データを用いて検出する。 変数 X が変数 Y を引き起こすとき、X に関する情報は Y に固有のものであり、Y のデータから抽出できると仮定する。 本研究は,相関と因果関係の弁証関係を検討することから始まり,相関関係が因果関係に等しくないこと,相関関係の欠如が必ずしも因果関係の欠如を示すとは限らないことを強調する。

In contemporary scientific research, understanding the distinction between correlation and causation is crucial. While correlation is a widely used analytical standard, it does not inherently imply causation. This paper addresses the potential for misinterpretation in relying solely on correlation, especially in the context of nonlinear dynamics. Despite the rapid development of various correlation research methodologies, including machine learning, the exploration into mining causal correlations between variables remains ongoing. Empirical Dynamic Modeling (EDM) emerges as a data-driven framework for modeling dynamic systems, distinguishing itself by eschewing traditional formulaic methods in data analysis. Instead, it reconstructs dynamic system behavior directly from time series data. The fundamental premise of EDM is that dynamic systems can be conceptualized as processes where a set of states, governed by specific rules, evolve over time in a high-dimensional space. By reconstructing these evolving states, dynamic systems can be effectively modeled. Using EDM, this paper explores the detection of causal relationships between variables within dynamic systems through their time series data. It posits that if variable X causes variable Y, then the information about X is inherent in Y and can be extracted from Y's data. This study begins by examining the dialectical relationship between correlation and causation, emphasizing that correlation does not equate to causation, and the absence of correlation does not necessarily indicate a lack of causation.
翻訳日:2023-12-27 15:46:46 公開日:2023-12-26
# 教師付き知識によって、大きな言語モデルがコンテキスト内学習を改善

Supervised Knowledge Makes Large Language Models Better In-context Learners ( http://arxiv.org/abs/2312.15918v1 )

ライセンス: Link先を確認
Linyi Yang, Shuibai Zhang, Zhuohao Yu, Guangsheng Bao, Yidong Wang, Jindong Wang, Ruochen Xu, Wei Ye, Xing Xie, Weizhu Chen, Yue Zhang(参考訳) 大規模言語モデル(llm)は、プロンプトエンジニアリングを通じて、新たなコンテキスト内学習能力を示す。 大規模生成モデルの最近の進歩は、実世界の言語アプリケーションでの使用をさらに拡大した。 しかし、自然言語理解や質問応答におけるLLMの一般化性と現実性を改善するという重要な課題は、まだ未解決のままである。 従来のインコンテキスト学習研究は,ユーザの特定の指示や品質期待に順応するモデルの改善と,望ましくないアウトプットを避けることに注力してきたが,推論段階におけるLLMのインコンテキスト学習を改善するためのタスク特化言語モデル(SLM)の使用についてはほとんど研究されていない。 我々の主な貢献は、LCMの信頼性を高めるシンプルで効果的なフレームワークの確立である。 1)アウトオブディストリビューションデータを一般化する。 2) LLM の差別モデルによる利益の解明,及び 3) 生成タスクにおける幻覚の最小化。 提案手法を用いて,Llama 2 と ChatGPT の強化版が,一般化可能性および事実性に関する原バージョンを上回った。 16のキュレートされたデータセット、プロンプト、モデルチェックポイント、9つの異なるタスクにわたるLLM出力を含む、包括的なリソーススイートを提供しています。 実験分析では, LLMに識別モデルを組み込むことの利点に光を当て, より信頼性の高い LLM を育成する手法の可能性を強調した。

Large Language Models (LLMs) exhibit emerging in-context learning abilities through prompt engineering. The recent progress in large-scale generative models has further expanded their use in real-world language applications. However, the critical challenge of improving the generalizability and factuality of LLMs in natural language understanding and question answering remains under-explored. While previous in-context learning research has focused on enhancing models to adhere to users' specific instructions and quality expectations, and to avoid undesired outputs, little to no work has explored the use of task-Specific fine-tuned Language Models (SLMs) to improve LLMs' in-context learning during the inference stage. Our primary contribution is the establishment of a simple yet effective framework that enhances the reliability of LLMs as it: 1) generalizes out-of-distribution data, 2) elucidates how LLMs benefit from discriminative models, and 3) minimizes hallucinations in generative tasks. Using our proposed plug-in method, enhanced versions of Llama 2 and ChatGPT surpass their original versions regarding generalizability and factuality. We offer a comprehensive suite of resources, including 16 curated datasets, prompts, model checkpoints, and LLM outputs across 9 distinct tasks. Our empirical analysis sheds light on the advantages of incorporating discriminative models into LLMs and highlights the potential of our methodology in fostering more reliable LLMs.
翻訳日:2023-12-27 15:46:23 公開日:2023-12-26
# デュアルノイズ推定による単眼3Dハンドメッシュの復元

Monocular 3D Hand Mesh Recovery via Dual Noise Estimation ( http://arxiv.org/abs/2312.15916v1 )

ライセンス: Link先を確認
Hanhui Li, Xiaojian Lin, Xuan Huang, Zejun Yang, Zhisheng Wang, Xiaodan Liang(参考訳) 現在のパラメトリックモデルは、3Dハンドポーズと形状推定において顕著な進歩を遂げている。 しかし、固定手位相と複雑な手ポーズのため、現在のモデルは画像によく整合したメッシュを生成することは困難である。 本稿では,この問題に対処するため,二重雑音推定手法を提案する。 入力として単一ビュー画像が与えられると、まずベースラインパラメトリック回帰器を用いて粗い手メッシュを得る。 メッシュ頂点とその画像平面投影はノイズが多いと仮定し、統一確率モデルに関連付けることができる。 次にノイズの分布を学習し、メッシュ頂点とその投影を洗練する。 さらに、精巧な頂点を用いて、カメラパラメータをクローズド形式で精製する。 そこで本手法は,高品質な3Dハンドメッシュを実現する。 大規模Interhand2.6Mデータセットの大規模な実験により、提案手法はベースラインの性能を10$\%以上向上するだけでなく、最先端のパフォーマンスも達成することを示した。 プロジェクトページ: \url{https://github.com/hanhuili/DNE4Hand}。

Current parametric models have made notable progress in 3D hand pose and shape estimation. However, due to the fixed hand topology and complex hand poses, current models are hard to generate meshes that are aligned with the image well. To tackle this issue, we introduce a dual noise estimation method in this paper. Given a single-view image as input, we first adopt a baseline parametric regressor to obtain the coarse hand meshes. We assume the mesh vertices and their image-plane projections are noisy, and can be associated in a unified probabilistic model. We then learn the distributions of noise to refine mesh vertices and their projections. The refined vertices are further utilized to refine camera parameters in a closed-form manner. Consequently, our method obtains well-aligned and high-quality 3D hand meshes. Extensive experiments on the large-scale Interhand2.6M dataset demonstrate that the proposed method not only improves the performance of its baseline by more than 10$\%$ but also achieves state-of-the-art performance. Project page: \url{https://github.com/hanhuili/DNE4Hand}.
翻訳日:2023-12-27 15:45:58 公開日:2023-12-26
# ChartBench: チャートの複雑なビジュアル推論のためのベンチマーク

ChartBench: A Benchmark for Complex Visual Reasoning in Charts ( http://arxiv.org/abs/2312.15915v1 )

ライセンス: Link先を確認
Zhengzhuo Xu, Sinan Du, Yiyan Qi, Chengjin Xu, Chun Yuan, Jian Guo(参考訳) MLLM(Multimodal Large Language Models)は,マルチモーダルな理解と生成能力を示す。 しかし、それらの合成チャートの理解は限られており、既存のベンチマークは単純であり、実際の例とは大きく異なるため、MLLMのチャート理解能力を正確に評価することは困難である。 したがって、グラフデータ上での現在のMLLMの限界を明らかにするためには、挑戦的なベンチマークが不可欠である。 本稿では,より複雑なビジュアル論理によるチャート理解について検討し,MLLMの基本的チャート理解とデータの信頼性を正確に測定するチャートベンチマークであるChartBenchを紹介する。 具体的には、ChartBench は \textbf{41} カテゴリ、 \textbf{2K} チャート、 \textbf{16K} QA アノテーションから構成される。 チャートタイプを著しく拡大する一方で、chartbenchはデータポイントの直接ラベル付けを避け、色、伝説、座標系などの要素を利用して、mllmは人間に似た値を推論する必要がある。 また,労働集約的な手作業評価やGPTに基づくコストの高い評価を回避しつつ,MLLMのチャート理解能力を正確に反映した改善された指標である‘textit{Acc+} も導入した。 本稿では,主要なオープンソースモデルであるtextbf{12} と,優れたプロプライエタリモデルの評価を行う。 広範な実験を通じて,MLLMのチャート上の限界を明らかにするとともに,MLLMのチャート理解能力に深い注意を払うための洞察を提供する。 ベンチマークとコードは研究対象として公開される予定だ。

Multimodal Large Language Models (MLLMs) have demonstrated remarkable multimodal understanding and generation capabilities. However, their understanding of synthetic charts is limited, while existing benchmarks are simplistic and the charts deviate significantly from real-world examples, making it challenging to accurately assess MLLMs' chart comprehension abilities. Hence, a challenging benchmark is essential for investigating progress and uncovering the limitations of current MLLMs on chart data. In this work, we propose to examine chart comprehension through more complex visual logic and introduce ChartBench, a comprehensive chart benchmark to accurately measure MLLMs' fundamental chart comprehension and data reliability. Specifically, ChartBench consists of \textbf{41} categories, \textbf{2K} charts, and \textbf{16K} QA annotations. While significantly expanding chart types, ChartBench avoids direct labelling of data points, which requires MLLMs to infer values akin to humans by leveraging elements like color, legends, and coordinate systems. We also introduce an improved metric, \textit{Acc+}, which accurately reflects MLLMs' chart comprehension abilities while avoiding labor-intensive manual evaluations or costly GPT-based evaluations. We conduct evaluations on \textbf{12} mainstream open-source models and \textbf{2} outstanding proprietary models. Through extensive experiments, we reveal the limitations of MLLMs on charts and provide insights to inspire the community to pay closer attention to MLLMs' chart comprehension abilities. The benchmark and code will be publicly available for research.
翻訳日:2023-12-27 15:45:41 公開日:2023-12-26
# 教師なし異常検出のための高密度コントラストパターンの生成と重み付け

Generating and Reweighting Dense Contrastive Patterns for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2312.15911v1 )

ライセンス: Link先を確認
Songmin Dai, Yifan Wu, Xiaoqiang Li, Xiangyang Xue(参考訳) 最近の教師なし異常検出手法は、補助データセットで事前学習された特徴抽出器や、うまく作られた異常をシミュレートしたサンプルに依存することが多い。 しかし、これは補助データセットの選択の事前や異常シミュレーションの戦略により、より多くの異常検出タスクへの適応性を制限する可能性がある。 この課題に対処するために,我々はまず先行のない異常発生パラダイムを導入し,その後,このパラダイムを基盤とした革新的な非教師付き異常検出フレームワークであるGRADを開発した。 GRADは,(1)局所構造を保ちながら局所構造を保ちながらコントラストパターンを生成する拡散モデル(PatchDiff),(2)PatchDiffが生み出す長い尾とラベルのないコントラストパターンの課題に対処する自己監督的リウェイト機構,(3)通常のパターンとリウェイトされたコントラストパターンを効率的に識別する軽量パッチレベル検出器の3つの重要な構成要素から構成される。 PatchDiffの生成結果は、構造的および論理的異常パターンなど、様々な種類の異常パターンを効果的に露呈する。 さらに、MVTec ADとMVTec LOCOの両方のデータセットに対する広範な実験も上記の観測をサポートし、GRADが競合異常検出精度と推論速度の向上を達成することを示した。

Recent unsupervised anomaly detection methods often rely on feature extractors pretrained with auxiliary datasets or on well-crafted anomaly-simulated samples. However, this might limit their adaptability to an increasing set of anomaly detection tasks due to the priors in the selection of auxiliary datasets or the strategy of anomaly simulation. To tackle this challenge, we first introduce a prior-less anomaly generation paradigm and subsequently develop an innovative unsupervised anomaly detection framework named GRAD, grounded in this paradigm. GRAD comprises three essential components: (1) a diffusion model (PatchDiff) to generate contrastive patterns by preserving the local structures while disregarding the global structures present in normal images, (2) a self-supervised reweighting mechanism to handle the challenge of long-tailed and unlabeled contrastive patterns generated by PatchDiff, and (3) a lightweight patch-level detector to efficiently distinguish the normal patterns and reweighted contrastive patterns. The generation results of PatchDiff effectively expose various types of anomaly patterns, e.g. structural and logical anomaly patterns. In addition, extensive experiments on both MVTec AD and MVTec LOCO datasets also support the aforementioned observation and demonstrate that GRAD achieves competitive anomaly detection accuracy and superior inference speed.
翻訳日:2023-12-27 15:45:17 公開日:2023-12-26
# 強化学習

Reinforcement Unlearning ( http://arxiv.org/abs/2312.15910v1 )

ライセンス: Link先を確認
Dayong Ye, Tianqing Zhu, Congcong Zhu, Derui Wang, Jason (Minhui) Xue, Sheng Shen, Wanlei Zhou(参考訳) 機械学習とは、データ所有者からの削除要求に基づいて、特定のトレーニングデータの影響を緩和するプロセスを指す。 しかし、未学習の研究で見過ごされてきた重要な分野は強化学習である。 強化学習は、エージェントが累積報酬を最大化するために環境内で最適な決定を行うように訓練することに焦点を当てる。 訓練の間、エージェントは環境の特徴を記憶しがちであり、プライバシーに関する重大な懸念を引き起こす。 データ保護規則に従って、環境の所有者はエージェントのトレーニングデータへのアクセスを無効化する権利を有しており、それによって新しい研究分野である'emph{reinforcement unlearning} の開発が必要とされる。 強化アンラーニングは、個々のデータサンプルではなく、環境全体を無効にすることです。 この独特の特徴は3つの異なる課題をもたらす。 1)環境のための未学習スキームの提案方法 2) 残りの環境におけるエージェントの性能の低下を回避する方法 3)未学習の有効性を評価する方法。 これらの課題に取り組むため,我々は2つの強化アンラーニング手法を提案する。 第1の方法は、エージェントが以前獲得した知識を徐々に消去することを目的とした、デクリメント強化学習に基づいている。 第2の方法は、環境中毒攻撃を利用して、エージェントが学習環境を正しくなくすための新しい知識を学ぶように促す。 特に,第3の課題に取り組むために,「環境推論攻撃」の概念を導入し,未学習の結果を評価する。 ソースコードは \url{https://anonymous.4open.science/r/reinforcement-unlearning-d347} で入手できる。

Machine unlearning refers to the process of mitigating the influence of specific training data on machine learning models based on removal requests from data owners. However, one important area that has been largely overlooked in the research of unlearning is reinforcement learning. Reinforcement learning focuses on training an agent to make optimal decisions within an environment to maximize its cumulative rewards. During the training, the agent tends to memorize the features of the environment, which raises a significant concern about privacy. As per data protection regulations, the owner of the environment holds the right to revoke access to the agent's training data, thus necessitating the development of a novel and pressing research field, known as \emph{reinforcement unlearning}. Reinforcement unlearning focuses on revoking entire environments rather than individual data samples. This unique characteristic presents three distinct challenges: 1) how to propose unlearning schemes for environments; 2) how to avoid degrading the agent's performance in remaining environments; and 3) how to evaluate the effectiveness of unlearning. To tackle these challenges, we propose two reinforcement unlearning methods. The first method is based on decremental reinforcement learning, which aims to erase the agent's previously acquired knowledge gradually. The second method leverages environment poisoning attacks, which encourage the agent to learn new, albeit incorrect, knowledge to remove the unlearning environment. Particularly, to tackle the third challenge, we introduce the concept of ``environment inference attack'' to evaluate the unlearning outcomes. The source code is available at \url{https://anonymous.4open.science/r/Reinforcement-Unlearning-D347}.
翻訳日:2023-12-27 15:44:48 公開日:2023-12-26
# データ制限付きオフラインメタ強化学習のための一般化可能なタスク表現学習

Generalizable Task Representation Learning for Offline Meta-Reinforcement Learning with Data Limitations ( http://arxiv.org/abs/2312.15909v1 )

ライセンス: Link先を確認
Renzhe Zhou, Chen-Xiao Gao, Zongzhang Zhang, Yang Yu(参考訳) 一般化とサンプル効率は、強化学習に関する長年の課題であり、静的で限られたオフラインデータで幅広い問題を解決する可能性から、オフラインメタ強化学習(OMRL)の分野が注目されている。 既存のOMRL法は、タスク表現を抽出するためにコントラスト学習を適用するのに十分な訓練タスクとデータカバレッジを仮定することが多い。 しかし、そのような仮定はいくつかの実世界の応用には適用されず、したがって表現の一般化能力を損なう。 本稿では,OMRLに制限された訓練タスクと制限された行動多様性の2種類のデータ制限を考慮し,データ制限に直面した一般化可能なタスク表現を学習するための新しいアルゴリズムであるGENTLEを提案する。 GENTLEは、タスクの特徴を抽出するために、エンコーダ・デコーダアーキテクチャであるTask Auto-Encoder~(TAE)を使用している。 既存の方法とは異なり、TAEは状態遷移と報酬の再構築にのみ最適化されており、これはタスクモデルの生成構造を捉え、訓練タスクが制限されたときに一般化可能な表現を生成する。 限られた行動多様性の影響を軽減するため、テスト中に遭遇したデータ分布とTAEのトレーニングに使用されるデータ分布を一致させるために、疑似遷移を一貫して構築する。 GENTLEは、与えられたコンテンツプロトコルとワンショットプロトコルの両方で、既存のOMRLメソッドよりも、分配タスクとアウト・オブ・ディストリビューションタスクの両方で大幅に優れている。

Generalization and sample efficiency have been long-standing issues concerning reinforcement learning, and thus the field of Offline Meta-Reinforcement Learning~(OMRL) has gained increasing attention due to its potential of solving a wide range of problems with static and limited offline data. Existing OMRL methods often assume sufficient training tasks and data coverage to apply contrastive learning to extract task representations. However, such assumptions are not applicable in several real-world applications and thus undermine the generalization ability of the representations. In this paper, we consider OMRL with two types of data limitations: limited training tasks and limited behavior diversity and propose a novel algorithm called GENTLE for learning generalizable task representations in the face of data limitations. GENTLE employs Task Auto-Encoder~(TAE), which is an encoder-decoder architecture to extract the characteristics of the tasks. Unlike existing methods, TAE is optimized solely by reconstruction of the state transition and reward, which captures the generative structure of the task models and produces generalizable representations when training tasks are limited. To alleviate the effect of limited behavior diversity, we consistently construct pseudo-transitions to align the data distribution used to train TAE with the data distribution encountered during testing. Empirically, GENTLE significantly outperforms existing OMRL methods on both in-distribution tasks and out-of-distribution tasks across both the given-context protocol and the one-shot protocol.
翻訳日:2023-12-27 15:44:23 公開日:2023-12-26
# 部分観測可能なマルチエージェントパスフィンディングのための分散モンテカルロ木探索

Decentralized Monte Carlo Tree Search for Partially Observable Multi-agent Pathfinding ( http://arxiv.org/abs/2312.15908v1 )

ライセンス: Link先を確認
Alexey Skrynnik, Anton Andreychuk, Konstantin Yakovlev, Aleksandr Panov(参考訳) マルチエージェントパスファインディング(mapf)問題は、グラフに閉じ込められたエージェント群に対するコンフリクトフリーパスの集合を見つけることである。 典型的なMAPFのシナリオでは、グラフとエージェントの開始と終了の頂点は事前に知られており、集中型計画アルゴリズムが利用可能である。 しかし,本研究では,エージェントが他のエージェントをローカルにのみ観察し,相互通信に制限される分散mapf設定に着目した。 具体的には,mapfの生涯の変種について検討し,それまでの変種が完了すると,新たな目標をエージェントに継続的に割り当てる。 成功したAlphaZeroアプローチからインスピレーションを得て、MAPFタスクのための分散マルチエージェントモンテカルロ木探索(MCTS)手法を提案する。 本手法は,エージェントの観察を利用して固有マルコフ決定過程を再現し,ニューラルネットワークmctのマルチエージェントタスク用に調整したプランニングを行う。 実験の結果,本手法は学習可能なMAPFソルバよりも優れていた。 ソースコードはhttps://github.com/airi-institute/mats-lpで入手できる。

The Multi-Agent Pathfinding (MAPF) problem involves finding a set of conflict-free paths for a group of agents confined to a graph. In typical MAPF scenarios, the graph and the agents' starting and ending vertices are known beforehand, allowing the use of centralized planning algorithms. However, in this study, we focus on the decentralized MAPF setting, where the agents may observe the other agents only locally and are restricted in communications with each other. Specifically, we investigate the lifelong variant of MAPF, where new goals are continually assigned to the agents upon completion of previous ones. Drawing inspiration from the successful AlphaZero approach, we propose a decentralized multi-agent Monte Carlo Tree Search (MCTS) method for MAPF tasks. Our approach utilizes the agent's observations to recreate the intrinsic Markov decision process, which is then used for planning with a tailored for multi-agent tasks version of neural MCTS. The experimental results show that our approach outperforms state-of-the-art learnable MAPF solvers. The source code is available at https://github.com/AIRI-Institute/mats-lp.
翻訳日:2023-12-27 15:43:56 公開日:2023-12-26
# アライグ・オン・ザ・フライ:確立したノルムにチャットボットの振る舞いを適応させる

Align on the Fly: Adapting Chatbot Behavior to Established Norms ( http://arxiv.org/abs/2312.15907v1 )

ライセンス: Link先を確認
Chunpu Xu, Steffi Chern, Ethan Chern, Ge Zhang, Zekun Wang, Ruibo Liu, Jing Li, Jie Fu, Pengfei Liu(参考訳) 本稿では,大規模言語モデルと,時間と場所をまたがる変化し,複雑で多様な人間的価値観(社会的規範など)を整合させることを目的としている。 これは、モデルパラメータ内の値を内部化する教師付き微調整のような既存のアライメント技術への挑戦を示す。 そこで本研究では,ストリーミング方式のリアルタイムアライメントであるon-the-fly preference optimization(opo)法を提案する。 外部メモリを使用してアライメントのための確立したルールを格納し、さらなるトレーニングなしにLCMの動作を制限し、人間の値の便利な更新とカスタマイズを可能にする。 また,提案手法をより効果的に評価するためのスケーラブルな評価も導入する。 法領域と道徳領域の人間と自動生成質問に対する実験結果から,提案手法の有効性が示唆された。 私たちのコードとデータはhttps://github.com/GAIR-NLP/OPO.orgで公開されています。

In this paper, we aim to align large language models with the ever-changing, complex, and diverse human values (e.g., social norms) across time and locations. This presents a challenge to existing alignment techniques, such as supervised fine-tuning, which internalize values within model parameters. To overcome this, we propose an On-the-fly Preference Optimization (OPO) method, which is a real-time alignment that works in a streaming way. It employs an external memory to store established rules for alignment, which can constrain LLMs' behaviors without further training, allowing for convenient updates and customization of human values. We also introduce a scalable evaluation to assess the proposed method more effectively. Experimental results on both human-annotated and auto-generated questions from legal and moral domains indicate the effectiveness of the proposed OPO method. Our code and data are released at https://github.com/GAIR-NLP/OPO.
翻訳日:2023-12-27 15:43:37 公開日:2023-12-26
# 神経確率微分方程式によるクロスドメイン軌道予測の伝達性の向上

Improving Transferability for Cross-domain Trajectory Prediction via Neural Stochastic Differential Equation ( http://arxiv.org/abs/2312.15906v1 )

ライセンス: Link先を確認
Daehee Park, Jaewoo Jeong, and Kuk-Jin Yoon(参考訳) マルチエージェント軌道予測は様々な実用的な用途に不可欠であり、車両や歩行者を含む多くの大規模軌道データセットの構築を促している。 しかし、外部要因とデータ取得戦略によるデータセット間の差異が存在する。 外部要因には地理的な違いと運転スタイル、データ取得戦略にはデータ取得率、履歴/予測長、検出/追跡エラーなどがある。 したがって、大規模データセットでトレーニングされたモデルの熟練した性能は、他の小規模データセットへの転送性に制限があり、既存の大規模データセットの利用が制限される。 この制限に対処するために、データ取得戦略による不一致を軽減するために、ニューラル確率微分方程式(NSDE)の連続的および確率的表現に基づく手法を提案する。 任意の時間ステップに対する連続表現の利点と,検出/トラッカーエラーに対する確率表現の利点を利用する。 さらに、データセット固有の検出/追跡エラーを処理するためのデータセット固有の拡散ネットワークとそのトレーニングフレームワークを提案する。 提案手法の有効性は, nuScenes, Argoverse, Lyft, InterACTION, Waymo Open Motion Dataset (WOMD) といった一般的なベンチマークデータセット上での最先端の軌跡予測モデルに対して検証される。 各種ソースおよびターゲットデータセット構成の性能向上は、データセット間の相違に対処する際のアプローチの一般的な能力を示している。

Multi-agent trajectory prediction is crucial for various practical applications, spurring the construction of many large-scale trajectory datasets, including vehicles and pedestrians. However, discrepancies exist among datasets due to external factors and data acquisition strategies. External factors include geographical differences and driving styles, while data acquisition strategies include data acquisition rate, history/prediction length, and detector/tracker error. Consequently, the proficient performance of models trained on large-scale datasets has limited transferability on other small-size datasets, bounding the utilization of existing large-scale datasets. To address this limitation, we propose a method based on continuous and stochastic representations of Neural Stochastic Differential Equations (NSDE) for alleviating discrepancies due to data acquisition strategy. We utilize the benefits of continuous representation for handling arbitrary time steps and the use of stochastic representation for handling detector/tracker errors. Additionally, we propose a dataset-specific diffusion network and its training framework to handle dataset-specific detection/tracking errors. The effectiveness of our method is validated against state-of-the-art trajectory prediction models on the popular benchmark datasets: nuScenes, Argoverse, Lyft, INTERACTION, and Waymo Open Motion Dataset (WOMD). Improvement in performance gain on various source and target dataset configurations shows the generalized competence of our approach in addressing cross-dataset discrepancies.
翻訳日:2023-12-27 15:43:20 公開日:2023-12-26
# 個人化テキスト・画像生成のためのクロス初期化

Cross Initialization for Personalized Text-to-Image Generation ( http://arxiv.org/abs/2312.15905v1 )

ライセンス: Link先を確認
Lianyu Pang, Jian Yin, Haoran Xie, Qiping Wang, Qing Li, Xudong Mao(参考訳) 近年、事前訓練されたテキスト・画像拡散モデルの高度な能力の恩恵を受け、顔のパーソナライズ技術が急増している。 その中でも注目すべきは、与えられた画像をテキスト埋め込みに変換することによってパーソナライズされた画像を生成するテキスト変換である。 しかし、Textual Inversionに基づく手法は、再構築品質と編集性の間のトレードオフのバランスに苦慮している。 本研究では,この問題を初期化レンズを用いて検討する。 従来の初期化手法を綿密に検討した結果,初期と学習した埋め込みとでは,スケールと向きの両面で大きな差異が認められた。 学習した組込みの規模は、最初の組込みの100倍まで大きくなる可能性がある。 このような埋め込みの大幅な変更は、過度に適合するリスクを増大させ、編集性を損なう可能性がある。 この観察により,初期化と学習した埋め込みのギャップを著しく狭める,クロス初期化と呼ばれる新しい初期化手法が導入された。 この方法は、復元性と編集性の両方を改善するだけでなく、最適化手順を5000から320に短縮する。 さらに,学習埋め込みを初期埋め込みに近いものにするために正規化項を適用する。 クロス初期化と組み合わせると,この正規化用語は編集性が効果的に向上することを示す。 基本手法と比較して,提案手法の優れた性能を示すための総合的な実証的証拠を提供する。 特に、我々の実験では、人物の表情をうまく編集する唯一の方法がクロス初期化である。 さらに,本手法の高速版では,約26秒で入力画像のキャプチャが可能であり,復元と編集性の両面でベースラインメソッドを上回っている。 コードは公開される予定だ。

Recently, there has been a surge in face personalization techniques, benefiting from the advanced capabilities of pretrained text-to-image diffusion models. Among these, a notable method is Textual Inversion, which generates personalized images by inverting given images into textual embeddings. However, methods based on Textual Inversion still struggle with balancing the trade-off between reconstruction quality and editability. In this study, we examine this issue through the lens of initialization. Upon closely examining traditional initialization methods, we identified a significant disparity between the initial and learned embeddings in terms of both scale and orientation. The scale of the learned embedding can be up to 100 times greater than that of the initial embedding. Such a significant change in the embedding could increase the risk of overfitting, thereby compromising the editability. Driven by this observation, we introduce a novel initialization method, termed Cross Initialization, that significantly narrows the gap between the initial and learned embeddings. This method not only improves both reconstruction and editability but also reduces the optimization steps from 5000 to 320. Furthermore, we apply a regularization term to keep the learned embedding close to the initial embedding. We show that when combined with Cross Initialization, this regularization term can effectively improve editability. We provide comprehensive empirical evidence to demonstrate the superior performance of our method compared to the baseline methods. Notably, in our experiments, Cross Initialization is the only method that successfully edits an individual's facial expression. Additionally, a fast version of our method allows for capturing an input image in roughly 26 seconds, while surpassing the baseline methods in terms of both reconstruction and editability. Code will be made publicly available.
翻訳日:2023-12-27 15:42:54 公開日:2023-12-26
# 効率的な勾配近似を用いた視覚言語モデルのブラックボックスチューニング

Black-Box Tuning of Vision-Language Models with Effective Gradient Approximation ( http://arxiv.org/abs/2312.15901v1 )

ライセンス: Link先を確認
Zixian Guo, Yuxiang Wei, Ming Liu, Zhilong Ji, Jinfeng Bai, Yiwen Guo, Wangmeng Zuo(参考訳) パラメータ効率のよいファインチューニング(peft)メソッドは、大きな視覚言語モデルを特定のタスクやシナリオに適応させる効果的な方法を提供する。 通常、彼らは事前学習されたモデルの非常に小さなパラメータをホワイトボックスの定式化で学習し、モデルアーキテクチャを知っていて、パラメータがアクセス可能であると仮定する。 しかし、大きなモデルは悪用や商業的要因を防ぐためにオープンソースではないことが多いため、ホワイトボックスのpeftメソッドの展開の障壁となっている。 モデルアクセシビリティへの依存を軽減するため,ブラックボックスモデルのテキストプロンプト最適化と出力特徴適応のための協調ブラックボックスチューニング(CBBT)を導入する。 具体的には、バックプロパゲーション勾配がブロックされていることを考慮し、摂動プロパゲーションを用いて予測を分析することにより、テキストプロパゲーションの勾配を近似する。 第二に、アクセシブルモデルの出力機能の上に軽量アダプタが配置され、モデル適応プロセスがさらに容易になる。 これらの設計を取り入れたCBBTは、既存のブラックボックスVL適応法と比較して、11のダウンストリームベンチマークで広範囲に評価され、顕著に改善されている。 コードはhttps://github.com/guozix/cbbtでリリースされる。

Parameter-efficient fine-tuning (PEFT) methods have provided an effective way for adapting large vision-language models to specific tasks or scenarios. Typically, they learn a very small scale of parameters for pre-trained models in a white-box formulation, which assumes model architectures to be known and parameters to be accessible. However, large models are often not open-source due to considerations of preventing abuse or commercial factors, hence posing a barrier to the deployment of white-box PEFT methods. To alleviate the dependence on model accessibility, we introduce collaborative black-box tuning (CBBT) for both textual prompt optimization and output feature adaptation for black-box models. Specifically, considering that the backpropagation gradients are blocked, we approximate the gradients of textual prompts by analyzing the predictions with perturbed prompts. Secondly, a lightweight adapter is deployed over the output feature of the inaccessible model, further facilitating the model adaptation process. Empowered with these designs, our CBBT is extensively evaluated on eleven downstream benchmarks and achieves remarkable improvements compared to existing black-box VL adaptation methods. Code is released at https://github.com/guozix/cbbt.
翻訳日:2023-12-27 15:42:30 公開日:2023-12-26
# 生成の連鎖:カスケード条件制御によるマルチモーダルジェスチャー合成

Chain of Generation: Multi-Modal Gesture Synthesis via Cascaded Conditional Control ( http://arxiv.org/abs/2312.15900v1 )

ライセンス: Link先を確認
Zunnan Xu, Yachao Zhang, Sicheng Yang, Ronghui Li, Xiu Li(参考訳) 本研究では,人間の発話からの多モーダル情報を利用して3次元ジェスチャーの生成を改善することを目的とする。 これまでの研究は、ジェスチャの質を高めるために追加のモダリティの導入に重点を置いてきた。 しかし、推論中にある種のモダリティが欠けている場合、これらのメソッドはうまく動作しない。 この問題に対処するために,ジェスチャ生成を改善するために,音声由来のマルチモーダル優先法を提案する。 本稿では,音声から先行を分離し,ジェスチャー生成の制約としてマルチモーダル先行を用いる新しい手法を提案する。 本手法は鎖状モデルを用いて顔の混在、身体の動き、手の動きを逐次生成する。 具体的には、音声の感情に基づく顔の変形とスタイル化から派生したリズムキューをジェスチャー生成のプロセスに組み込む。 マルチモーダルプリエントを組み込むことにより,生成ジェスチャの品質を向上し,推論時に高価なセットアップ準備を不要にする。 広範な実験とユーザスタディにより,提案手法が最先端の性能を実現することを確認した。

This study aims to improve the generation of 3D gestures by utilizing multimodal information from human speech. Previous studies have focused on incorporating additional modalities to enhance the quality of generated gestures. However, these methods perform poorly when certain modalities are missing during inference. To address this problem, we suggest using speech-derived multimodal priors to improve gesture generation. We introduce a novel method that separates priors from speech and employs multimodal priors as constraints for generating gestures. Our approach utilizes a chain-like modeling method to generate facial blendshapes, body movements, and hand gestures sequentially. Specifically, we incorporate rhythm cues derived from facial deformation and stylization prior based on speech emotions, into the process of generating gestures. By incorporating multimodal priors, our method improves the quality of generated gestures and eliminate the need for expensive setup preparation during inference. Extensive experiments and user studies confirm that our proposed approach achieves state-of-the-art performance.
翻訳日:2023-12-27 15:42:08 公開日:2023-12-26
# プログレッシブ対応プルーニングのためのグラフコンテキスト変換学習

Graph Context Transformation Learning for Progressive Correspondence Pruning ( http://arxiv.org/abs/2312.15971v1 )

ライセンス: Link先を確認
Junwen Guo, Guobao Xiao, Shiping Wang, Jun Yu(参考訳) 既存の対応プルーニング手法のほとんどは、そのような情報を利用する効果的な方法を無視しながら、可能な限りコンテキスト情報を集めることに集中している。 本稿では,このジレンマに対処するため,プログレッシブ対応プルーニングのためのコンセンサスガイダンスを行うために,文脈情報を強化するグラフコンテキスト変換ネットワーク(GCT-Net)を提案する。 具体的には、まずグラフネットワークを生成し、次にマルチブランチグラフコンテキストに変換するグラフコンテキストエンハンス変換器を設計する。 さらに、各グラフコンテキストの特徴を拡大するために、自己注意と相互注意を用いて、ユニークさと共有必須情報を強調する。 さらに,再調整されたグラフコンテキストをグローバルドメインに適用するために,グラフコンテキストガイダンストランスフォーマを提案する。 このモジュールは、信頼度に基づくサンプリング戦略を採用し、スクリーニングされた頂点と残りの頂点とのグローバルコンセンサスを探索することにより、正確な分類を導くために、高信頼度頂点を一時的にスクリーニングする。 屋外および屋内のデータセットを対象とする最先端手法と比較して,GCT-Netのアウトラヤ除去と相対ポーズ推定の広範な実験結果が優れた性能を示した。 ソースコードはhttps://github.com/guobaoxiao/gct-net/。

Most of existing correspondence pruning methods only concentrate on gathering the context information as much as possible while neglecting effective ways to utilize such information. In order to tackle this dilemma, in this paper we propose Graph Context Transformation Network (GCT-Net) enhancing context information to conduct consensus guidance for progressive correspondence pruning. Specifically, we design the Graph Context Enhance Transformer which first generates the graph network and then transforms it into multi-branch graph contexts. Moreover, it employs self-attention and cross-attention to magnify characteristics of each graph context for emphasizing the unique as well as shared essential information. To further apply the recalibrated graph contexts to the global domain, we propose the Graph Context Guidance Transformer. This module adopts a confident-based sampling strategy to temporarily screen high-confidence vertices for guiding accurate classification by searching global consensus between screened vertices and remaining ones. The extensive experimental results on outlier removal and relative pose estimation clearly demonstrate the superior performance of GCT-Net compared to state-of-the-art methods across outdoor and indoor datasets. The source code will be available at: https://github.com/guobaoxiao/GCT-Net/.
翻訳日:2023-12-27 15:35:36 公開日:2023-12-26
# 正確なパッチマッチ・マルチビューステレオのための学習変形可能な仮説サンプリング

Learning Deformable Hypothesis Sampling for Accurate PatchMatch Multi-View Stereo ( http://arxiv.org/abs/2312.15970v1 )

ライセンス: Link先を確認
Hongjie Li, Yao Guo, Xianwei Zheng, Hanjiang Xiong(参考訳) 本稿では,PatchMatch Multi-View Stereo (MVS) における雑音深度推定の課題を解決するために,学習可能な変形可能な仮説サンプリング(DeformSampler)を提案する。 PatchMatch MVSソルバが用いたヒューリスティックな深度仮説サンプリングモードは無神経であることが観察された。 (i)被写体表面の深さの区分的な滑らかな分布、及び (ii)表面点の線方向に沿った深さ予測確率の暗黙的マルチモーダル分布。 そこで,分布に敏感なサンプル空間を学習するためのDeformSamplerを開発した。 (i)被写体表面を横切るシーンの形状と一致した深さを伝播させ、 (II) 線方向に沿った実際の深さの点方向確率分布にアプローチするラプラス混合モデルに適合する。 我々はDeformSamplerを学習可能なPatchMatch MVSシステムに統合し、断片的不連続表面境界や弱いテクスチャ領域などの課題領域における深さ推定を強化する。 dtu と tanks \& temple データセットの実験結果は、最先端の競合製品と比較して優れた性能と一般化能力を示している。 コードはhttps://github.com/Geo-Tell/DS-PMNetで入手できる。

This paper introduces a learnable Deformable Hypothesis Sampler (DeformSampler) to address the challenging issue of noisy depth estimation for accurate PatchMatch Multi-View Stereo (MVS). We observe that the heuristic depth hypothesis sampling modes employed by PatchMatch MVS solvers are insensitive to (i) the piece-wise smooth distribution of depths across the object surface, and (ii) the implicit multi-modal distribution of depth prediction probabilities along the ray direction on the surface points. Accordingly, we develop DeformSampler to learn distribution-sensitive sample spaces to (i) propagate depths consistent with the scene's geometry across the object surface, and (ii) fit a Laplace Mixture model that approaches the point-wise probabilities distribution of the actual depths along the ray direction. We integrate DeformSampler into a learnable PatchMatch MVS system to enhance depth estimation in challenging areas, such as piece-wise discontinuous surface boundaries and weakly-textured regions. Experimental results on DTU and Tanks \& Temples datasets demonstrate its superior performance and generalization capabilities compared to state-of-the-art competitors. Code is available at https://github.com/Geo-Tell/DS-PMNet.
翻訳日:2023-12-27 15:35:02 公開日:2023-12-26
# 非線形ブラックボックスシステム同定のための訓練段階におけるディープネットワークの能力活用

Exploiting the capacity of deep networks only at training stage for nonlinear black-box system identification ( http://arxiv.org/abs/2312.15969v1 )

ライセンス: Link先を確認
Vahid MohammadZadeh Eivaghi, Mahdi Aliyari Shooredeli(参考訳) システム同定における深層モデルのモデリング能力の恩恵を受けるために, 推定時間を気にせずに, 学習段階でのみ深層モデルを用いた新しいトレーニング戦略を提案する。 この目的のために、異なる構造と目標を持つ2つの別々のモデルが採用されている。 1つ目は、教師モデルと呼ばれるシステム出力の分布をモデル化することを目的とした深い生成モデルであり、もう1つは、システム出力を予測するためにシステム入力(s)によって供給される学生モデルと呼ばれる浅い基底関数モデルである。 つまり、これらの孤立した経路は同じ究極の目標に達する必要がある。 ディープモデルは高非線形システムのモデリングにおいて優れた性能を示すため、これらの2つのモデルによって学習された表現空間を整列させることで、学生モデルは教師モデルの近似力を継承する。 提案する目的関数は,学習した潜伏表現間の距離ペナルティを加算した各生徒と教師モデルの目的から構成される。 3つの非線形ベンチマークのシミュレーション結果は、同じベンチマークに適用したディープアーキテクチャとの比較性能を示す。 アルゴリズムの透明性と構造効率も副産物として達成される。

To benefit from the modeling capacity of deep models in system identification, without worrying about inference time, this study presents a novel training strategy that uses deep models only at the training stage. For this purpose two separate models with different structures and goals are employed. The first one is a deep generative model aiming at modeling the distribution of system output(s), called the teacher model, and the second one is a shallow basis function model, named the student model, fed by system input(s) to predict the system output(s). That means these isolated paths must reach the same ultimate target. As deep models show a great performance in modeling of highly nonlinear systems, aligning the representation space learned by these two models make the student model to inherit the approximation power of the teacher model. The proposed objective function consists of the objective of each student and teacher model adding up with a distance penalty between the learned latent representations. The simulation results on three nonlinear benchmarks show a comparative performance with examined deep architectures applied on the same benchmarks. Algorithmic transparency and structure efficiency are also achieved as byproducts.
翻訳日:2023-12-27 15:34:42 公開日:2023-12-26
# 半導体ナノ構造における不均一ひずみのエンベロープ関数理論

Envelope-function theory of inhomogeneous strain in semiconductor nanostructures ( http://arxiv.org/abs/2312.15967v1 )

ライセンス: Link先を確認
Andrea Secchi and Filippo Troiani(参考訳) ストレインは半導体ヘテロ構造においてユビキタスな特徴であり、高度なMOSFETやスピンベースの量子ビットを含む様々なデバイスの特性を改善するために異なる方法で設計することができる。 しかし、封筒関数の枠組みにおけるその処理は、bir と pikus の理論により、均質な場合のみに確立されている。 ここでは、そのような理論を不均一ひずみの場合に一般化する。 問題の相対論的効果と計量的側面を完全に説明することにより、ひずみテンソルの第1および第2空間微分に依存する項を含む完全なエンベロープ函数ハミルトニアンを導出する。

Strain represents an ubiquitous feature in semiconductor heterostructures, and can be engineered by different means in order to improve the properties of various devices, including advanced MOSFETs and spin-based qubits. However, its treatment within the envelope function framework is well established only for the homogeneous case, thanks to the theory of Bir and Pikus. Here, we generalize such theory to the case of inhomogeneous strain. By fully accounting for the relativistic effects and metric aspects of the problem, we derive a complete envelope-function Hamiltonian, including the terms that depend on first and second spatial derivatives of the strain tensor.
翻訳日:2023-12-27 15:34:25 公開日:2023-12-26
# フェデレーション超次元計算

Federated Hyperdimensional Computing ( http://arxiv.org/abs/2312.15966v1 )

ライセンス: Link先を確認
Kazim Ergun, Rishikanth Chandrasekaran, Tajana Rosing(参考訳) フェデレートラーニング(FL)により、参加するクライアントの緩やかなセットが、中央サーバによる調整を通じて、データ共有を必要とせずに、グローバルモデルを共同で学習することが可能になる。 ディープニューラルネットワーク(DNN)のような巨大なモデルを持つ複雑なアルゴリズムに依存する既存のFLアプローチは、計算と通信のボトルネックに悩まされている。 本稿ではまず,超次元コンピューティング(HDC)に基づくフェデレーション学習フレームワークであるFedHDCを提案する。 FedHDCは、クライアント上で高速で軽量なローカルトレーニングを可能にし、堅牢な学習を提供し、DNNでの学習に比べてモデル通信オーバーヘッドが小さい。 しかし、現在のHDCアルゴリズムは、CIFAR10のようなより大きく複雑な画像を分類する際に、精度が低い。 この問題に対処するため、FedHDCを自己教師付きコントラスト学習機能抽出器で補完するFHDnnを設計する。 我々は、DNNの送信を回避し、その代わりに、学習を加速し、伝送コストを低減し、HDCの堅牢性を利用してネットワークエラーに対処する、HDC学習者のみを訓練する。 アルゴリズムの形式的解析を行い,その収束率を理論的に導出し,fhdnnがdnnよりも3$\times$高速に収束することを示す。 通信効率を向上させるために提案する戦略は,通信コストを66$\times$対DNN,ローカルクライアント計算,エネルギー消費を1.56$\times$で削減すると同時に,ネットワークエラーに対して堅牢である。 最後に, 通信効率を向上させるための提案手法は, 通信コストを32$\times$下げることができ, 精度がよい。

Federated learning (FL) enables a loose set of participating clients to collaboratively learn a global model via coordination by a central server and with no need for data sharing. Existing FL approaches that rely on complex algorithms with massive models, such as deep neural networks (DNNs), suffer from computation and communication bottlenecks. In this paper, we first propose FedHDC, a federated learning framework based on hyperdimensional computing (HDC). FedHDC allows for fast and light-weight local training on clients, provides robust learning, and has smaller model communication overhead compared to learning with DNNs. However, current HDC algorithms get poor accuracy when classifying larger & more complex images, such as CIFAR10. To address this issue, we design FHDnn, which complements FedHDC with a self-supervised contrastive learning feature extractor. We avoid the transmission of the DNN and instead train only the HDC learner in a federated manner, which accelerates learning, reduces transmission cost, and utilizes the robustness of HDC to tackle network errors. We present a formal analysis of the algorithm and derive its convergence rate both theoretically, and show experimentally that FHDnn converges 3$\times$ faster vs. DNNs. The strategies we propose to improve the communication efficiency enable our design to reduce communication costs by 66$\times$ vs. DNNs, local client compute and energy consumption by ~1.5 - 6$\times$, while being highly robust to network errors. Finally, our proposed strategies for improving the communication efficiency have up to 32$\times$ lower communication costs with good accuracy.
翻訳日:2023-12-27 15:34:13 公開日:2023-12-26
# RLの最適および悲観的アクター:探索と利用の分離

Optimistic and Pessimistic Actor in RL:Decoupling Exploration and Utilization ( http://arxiv.org/abs/2312.15965v1 )

ライセンス: Link先を確認
Jingpu Yang, Qirui Zhao, Helin Wang, Yuxiao Huang, Zirui Song, Miao Fang(参考訳) deep neural network(dnn)の一般化は、既存のデータセットの保守的処理に対する現在のオフライン強化学習技術への過度な依存によって制限される。 この手法は、特定のデータセットにのみ適応する最適でない解に落ち着くアルゴリズムをしばしば生み出す。 同様に、オンライン強化学習において、以前に課せられた懲罰的悲観主義は、その探索可能性のモデルを奪う。 本研究は,OPARL(Optimistic and Pessimistic Actor Reinforcement Learning)の新たな枠組みを提案する。 OPARLは、探索に特化した楽観的なアクターと、利用に焦点を当てた悲観的なアクターと、探索と利用戦略を効果的に区別する、ユニークなデュアルアクターアプローチを採用している。 この強化学習手法の独特な組み合わせは、よりバランスよく効率的なアプローチを促進する。 悲観的な利用戦略を通じて高い報酬をもたらす行動に焦点をあてる政策の最適化を可能にすると同時に、楽観的な探索を通じて広範な国家のカバレッジを確保することができる。 実験と理論的研究は、OPARLが応用と探索のためのエージェントの能力を改善することを示した。 DMControlベンチマークとMujoco環境のほとんどのタスクにおいて、OPARLは最先端の手法よりも優れている。 私たちのコードはhttps://github.com/yydsok/OPARLでリリースされました。

Deep neural network(DNN) generalization is limited by the over-reliance of current offline reinforcement learning techniques on conservative processing of existing datasets. This method frequently results in algorithms that settle for suboptimal solutions that only adjust to a certain dataset. Similarly, in online reinforcement learning, the previously imposed punitive pessimism also deprives the model of its exploratory potential. Our research proposes a novel framework, Optimistic and Pessimistic Actor Reinforcement Learning (OPARL). OPARL employs a unique dual-actor approach: an optimistic actor dedicated to exploration and a pessimistic actor focused on utilization, thereby effectively differentiating between exploration and utilization strategies. This unique combination in reinforcement learning methods fosters a more balanced and efficient approach. It enables the optimization of policies that focus on actions yielding high rewards through pessimistic utilization strategies, while also ensuring extensive state coverage via optimistic exploration. Experiments and theoretical study demonstrates OPARL improves agents' capacities for application and exploration. In the most tasks of DMControl benchmark and Mujoco environment, OPARL performed better than state-of-the-art methods. Our code has released on https://github.com/yydsok/OPARL
翻訳日:2023-12-27 15:33:42 公開日:2023-12-26
# テキスト・画像拡散モデルのセマンティックガイダンスチューニング

Semantic Guidance Tuning for Text-To-Image Diffusion Models ( http://arxiv.org/abs/2312.15964v1 )

ライセンス: Link先を確認
Hyun Kang, Dohae Lee, Myungjin Shin, In-Kwon Lee(参考訳) テキスト・ツー・イメージ(t2i)拡散モデルの最近の進歩は、ゼロショット一般化機能を備えた高品質画像の生成において素晴らしい成功を収めている。 しかし、現在のモデルはプロンプトセマンティクスに密着するのに苦労しており、しばしば特定の属性を誤って表現したり、見落としたりしている。 そこで本研究では,推論中の拡散モデルの誘導方向を変調する簡易な学習自由アプローチを提案する。 まず,素早い意味論を概念の集合に分解し,各概念に関するガイダンスの軌跡をモニタリングする。 私たちの重要な観察は、モデルがプロンプトセマンティクスに固執することの偏差は、これらの概念の1つまたは複数のガイダンスの相違と高い相関関係にあるということです。 この観察に基づいて,モデルが発散する任意の概念に対して,誘導方向を制御する手法を考案する。 広汎な実験により,拡散モデルにより生成された画像のセマンティックアライメントがプロンプトに応答して向上することが確認された。 プロジェクトページはhttps://korguy.github.io/。

Recent advancements in Text-to-Image (T2I) diffusion models have demonstrated impressive success in generating high-quality images with zero-shot generalization capabilities. Yet, current models struggle to closely adhere to prompt semantics, often misrepresenting or overlooking specific attributes. To address this, we propose a simple, training-free approach that modulates the guidance direction of diffusion models during inference. We first decompose the prompt semantics into a set of concepts, and monitor the guidance trajectory in relation to each concept. Our key observation is that deviations in model's adherence to prompt semantics are highly correlated with divergence of the guidance from one or more of these concepts. Based on this observation, we devise a technique to steer the guidance direction towards any concept from which the model diverges. Extensive experimentation validates that our method improves the semantic alignment of images generated by diffusion models in response to prompts. Project page is available at: https://korguy.github.io/
翻訳日:2023-12-27 15:33:25 公開日:2023-12-26
# MoTCoder: プログラミングタスクの混在を考慮に入れた大規模言語モデル

MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks ( http://arxiv.org/abs/2312.15960v1 )

ライセンス: Link先を確認
Jingyao Li, Pengguang Chen, Jiaya Jia(参考訳) 大規模言語モデル(llm)は、簡単なプログラミングタスクを扱う素晴らしい能力を示している。 しかし、より困難なプログラミング問題に直面した場合、パフォーマンスは悪化する傾向にある。 従来のモデルはモノリシックなコードブロックとしてソリューションを生成することが多く、複雑な問題に取り組む上での有効性を制限している。 この制限を克服するため、Modular-of-Thought Coder (MoTCoder)を提案する。 本稿では,タスクの論理的サブタスクとサブモジュールへの分解を促進するため,MoT命令チューニングの先駆的フレームワークを提案する。 我々の調査によると、サブモジュールの栽培と利用を通じて、MoTCoderは生成したソリューションのモジュラリティと正しさの両方を著しく改善し、APPSでは12.9%、CodeContestsでは9.43%の大幅な相対パス@1の改善を実現した。 私たちのコードはhttps://github.com/dvlab-research/motcoderで利用可能です。

Large Language Models (LLMs) have showcased impressive capabilities in handling straightforward programming tasks. However, their performance tends to falter when confronted with more challenging programming problems. We observe that conventional models often generate solutions as monolithic code blocks, restricting their effectiveness in tackling intricate questions. To overcome this limitation, we present Modular-of-Thought Coder (MoTCoder). We introduce a pioneering framework for MoT instruction tuning, designed to promote the decomposition of tasks into logical sub-tasks and sub-modules. Our investigations reveal that, through the cultivation and utilization of sub-modules, MoTCoder significantly improves both the modularity and correctness of the generated solutions, leading to substantial relative pass@1 improvements of 12.9% on APPS and 9.43% on CodeContests. Our codes are available at https://github.com/dvlab-research/MoTCoder.
翻訳日:2023-12-27 15:33:07 公開日:2023-12-26
# 微細パターンマイニングによる冗長性に基づく自動プログラム修復の促進

Enhancing Redundancy-based Automated Program Repair by Fine-grained Pattern Mining ( http://arxiv.org/abs/2312.15955v1 )

ライセンス: Link先を確認
Jiajun Jiang, Zijie Zhao, Zhirui Ye, Bo Wang, Hongyu Zhang, Junjie Chen(参考訳) 冗長性に基づく自動プログラム修復(APR)は、既存のソースコードを参照することでパッチを生成する。 しかし、既存のアプローチでは、複数行の類似コードが存在するか、既存のコードをランダムに参照する必要があるため、修正できるのは少数のバグだけであり、多くの不正確なパッチがある。 本研究では, 冗長性に基づくAPRの有効性を向上させることを目的として, 正確なパッチ数を改善するために, より効率的なソースコード再利用手法を提案する。 具体的には,効果的なパッチ生成(トークンと表現レベル)を導くための2段階のパターンマイニングプロセスを含む,repattという新しい修復手法を提案する。 我々は、広く使われている defects4j ベンチマークを広範囲に実験し、repatt を 8 つの最先端 apr アプローチと比較した。 以上の結果から,本手法は,最新の深層学習法と比較し,従来のフォールトローカライゼーションの手法と比較して,{15} 独自のバグと {19} 独自のバグを修復することで,既存のアプローチを補完することを示す。 さらに、完全なフォールトローカライゼーションが実際に行われている場合、Repatt はより高いパッチ精度、すなわち {83.8\%} を達成することでベースラインアプローチを著しく上回る。 さらに,Repattの強度とベースライン法を組み合わせるための効果的なパッチランキング戦略を提案する。 その結果、Top-1パッチのみを考慮すると124のバグを修復し、39のバグを修復することで最も優れた修復方法を改善した。 その結果,本手法の有効性が実証された。

Redundancy-based automated program repair (APR), which generates patches by referencing existing source code, has gained much attention since they are effective in repairing real-world bugs with good interpretability. However, since existing approaches either demand the existence of multi-line similar code or randomly reference existing code, they can only repair a small number of bugs with many incorrect patches, hindering their wide application in practice. In this work, we aim to improve the effectiveness of redundancy-based APR by exploring more effective source code reuse methods for improving the number of correct patches and reducing incorrect patches. Specifically, we have proposed a new repair technique named Repatt, which incorporates a two-level pattern mining process for guiding effective patch generation (i.e., token and expression levels). We have conducted an extensive experiment on the widely-used Defects4J benchmark and compared Repatt with eight state-of-the-art APR approaches. The results show that our approach complements existing approaches by repairing {15} unique bugs compared with the latest deep learning-based methods and {19} unique bugs compared with traditional repair methods when providing the perfect fault localization. In addition, when the perfect fault localization is unknown in real practice, Repatt significantly outperforms the baseline approaches by achieving much higher patch precision, i.e., {83.8\%}. Moreover, we further proposed an effective patch ranking strategy for combining the strength of Repatt and the baseline methods. The result shows that it repairs 124 bugs when only considering the Top-1 patches and improves the best-performing repair method by repairing 39 more bugs. The results demonstrate the effectiveness of our approach for practical use.
翻訳日:2023-12-27 15:32:51 公開日:2023-12-26
# HyperDeepONet:ハイパーネットワークによる限られたリソースを用いた複雑なターゲット関数空間を持つ学習演算子

HyperDeepONet: learning operator with complex target function space using the limited resources via hypernetwork ( http://arxiv.org/abs/2312.15949v1 )

ライセンス: Link先を確認
Jae Yong Lee, Sung Woong Cho, Hyung Ju Hwang(参考訳) 複雑な物理力学の高速かつ正確な予測は、様々なアプリケーションにおいて重要な課題である。 リソース制約のあるハードウェアのリアルタイム予測は、現実世界の問題においてさらに重要である。 近年,関数空間間の非線形マッピングを学習するためのフレームワークとしてDeepONetが提案されている。 しかし、DeepONetは多くのパラメータを必要とし、学習演算子、特に複雑な(不連続あるいは非滑らかな)ターゲット関数を持つ場合、高い計算コストがかかる。 本研究では,ハイパーネットワークの表現力を利用して,より少ないパラメータ集合を持つ複素演算子の学習を可能にするHyperDeepONetを提案する。 DeepONetとその変種モデルは、入力関数情報をターゲット関数に注入する方法と考えることができる。 この観点から、これらのモデルはHyperDeepONetの特定のケースと見なすことができる。 我々はdeeponetの複雑性を分析し、ハイパーdeeponetはオペレーター学習に必要な精度を得るために、比較的低い複雑さを必要とすると結論づける。 hyperdeeponetは、他のベンチマークと比較して計算リソースが少ない様々なオペレーターをうまく学習した。

Fast and accurate predictions for complex physical dynamics are a significant challenge across various applications. Real-time prediction on resource-constrained hardware is even more crucial in real-world problems. The deep operator network (DeepONet) has recently been proposed as a framework for learning nonlinear mappings between function spaces. However, the DeepONet requires many parameters and has a high computational cost when learning operators, particularly those with complex (discontinuous or non-smooth) target functions. This study proposes HyperDeepONet, which uses the expressive power of the hypernetwork to enable the learning of a complex operator with a smaller set of parameters. The DeepONet and its variant models can be thought of as a method of injecting the input function information into the target function. From this perspective, these models can be viewed as a particular case of HyperDeepONet. We analyze the complexity of DeepONet and conclude that HyperDeepONet needs relatively lower complexity to obtain the desired accuracy for operator learning. HyperDeepONet successfully learned various operators with fewer computational resources compared to other benchmarks.
翻訳日:2023-12-27 15:32:19 公開日:2023-12-26
# 未来はどんなデジタルになるのか? 予測シナリオの解析

How digital will the future be? Analysis of prospective scenarios ( http://arxiv.org/abs/2312.15948v1 )

ライセンス: Link先を確認
Aur\'elie Bugeau (IUF, LaBRI, UB), Anne-Laure Ligozat (ENSIIE, LISN, STL)(参考訳) 気候変動の文脈では、概して社会のあらゆる領域を包含する多くの先進的な研究が、選択肢の範囲を広げる可能性のある未来を想像する。 こうした未来におけるデジタル技術の役割は、特に標的にされることは滅多にない。 これらの研究は、気候変動を緩和し適応した世界でどのようなデジタル技術や方法論を想定しているか? 本稿では,デジタル技術とその応用を14の先進研究とそれに対応する35の将来のシナリオで調査するためのシナリオのタイプロジーを提案する。 我々の発見は、あらゆるシナリオが将来デジタル技術が存在すると考えているということだ。 デジタル技術との関係や、その物質性に関するあらゆる側面に疑問を呈するものはごくわずかであり、今日の技術に関するブレークスルーを想定する一般的な研究は存在しない。 本結果は,情報通信技術におけるシステム的視点の欠如を実証するものである。 そこで我々はICTの将来を展望する新たな先進的な研究を提唱する。

With the climate change context, many prospective studies, generally encompassing all areas of society, imagine possible futures to expand the range of options. The role of digital technologies within these possible futures is rarely specifically targeted. Which digital technologies and methodologies do these studies envision in a world that has mitigated and adapted to climate change? In this paper, we propose a typology for scenarios to survey digital technologies and their applications in 14 prospective studies and their corresponding 35 future scenarios. Our finding is that all the scenarios consider digital technology to be present in the future. We observe that only a few of them question our relationship with digital technology and all aspects related to its materiality, and none of the general studies envision breakthroughs concerning technologies used today. Our result demonstrates the lack of a systemic view of information and communication technologies. We therefore argue for new prospective studies to envision the future of ICT.
翻訳日:2023-12-27 15:32:04 公開日:2023-12-26
# BAL: アクティブラーニングのための多様性とノベルティのバランス

BAL: Balancing Diversity and Novelty for Active Learning ( http://arxiv.org/abs/2312.15944v1 )

ライセンス: Link先を確認
Jingyao Li, Pengguang Chen, Shaozuo Yu, Shu Liu, and Jiaya Jia(参考訳) Active Learningの目的は、データセットのサブセットを戦略的にラベル付けして、所定のラベル付け予算内でパフォーマンスを最大化することである。 本研究では,自己教師付き学習によって得られた特徴を活用する。 多様なデータを識別するために、単純だが強力なメトリクスであるクラスタ距離差を導入する。 次に,多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning(BAL)を導入する。 このアプローチは、広く認識されたベンチマークで確立されたすべてのアクティブラーニング手法を1.20%上回っている。 さらに,提案フレームワークの有効性を,より大規模かつ小規模のラベリング予算を包含して評価する。 実験の結果,サンプルの80%をラベル付けした場合,現在のSOTA法の性能は0.74%低下することがわかった。 コードはhttps://github.com/JulietLJY/BAL.comで入手できる。

The objective of Active Learning is to strategically label a subset of the dataset to maximize performance within a predetermined labeling budget. In this study, we harness features acquired through self-supervised learning. We introduce a straightforward yet potent metric, Cluster Distance Difference, to identify diverse data. Subsequently, we introduce a novel framework, Balancing Active Learning (BAL), which constructs adaptive sub-pools to balance diverse and uncertain data. Our approach outperforms all established active learning methods on widely recognized benchmarks by 1.20%. Moreover, we assess the efficacy of our proposed framework under extended settings, encompassing both larger and smaller labeling budgets. Experimental results demonstrate that, when labeling 80% of the samples, the performance of the current SOTA method declines by 0.74%, whereas our proposed BAL achieves performance comparable to the full dataset. Codes are available at https://github.com/JulietLJY/BAL.
翻訳日:2023-12-27 15:31:49 公開日:2023-12-26
# pano-nerf: 低ダイナミックレンジパノラマ画像からの幾何による高ダイナミックレンジ新規ビューの合成

Pano-NeRF: Synthesizing High Dynamic Range Novel Views with Geometry from Sparse Low Dynamic Range Panoramic Images ( http://arxiv.org/abs/2312.15942v1 )

ライセンス: Link先を確認
Zhan Lu, Qian Zheng, Boxin Shi, Xudong Jiang(参考訳) パノラマ画像による幾何回復と高ダイナミックレンジ(HDR)再構成の研究は、拡張現実感(XR)の発展とともにトレンドとなる。 Neural Radiance Fields (NeRF)は、広範囲の事前データを必要とせずに、両方のタスクに有望なシーン表現を提供する。 しかし、スパース低ダイナミックレンジ(LDR)パノラマ画像の入力の場合、NeRFはしばしば非拘束形状で劣化し、LDR入力からHDR放射率を再構成することができない。 パノラマ画像中の各画素からの放射を、シーン照明情報を伝える信号と、他の画素を照らす光源の両方としてモデル化することができる。 そこで本研究では, 忠実な幾何復元のための観測回数を増加させ, HDR再構成のための照度減衰を利用したスパースLDRパノラマ画像からの照度場を提案する。 広汎な実験により、照射場は幾何復元とHDR再構成の両方において最先端の手法より優れ、その効果が検証された。 さらに,空間変動照明推定の有望な副産物を示す。 コードはhttps://github.com/Lu-Zhan/Pano-NeRFで公開されている。

Panoramic imaging research on geometry recovery and High Dynamic Range (HDR) reconstruction becomes a trend with the development of Extended Reality (XR). Neural Radiance Fields (NeRF) provide a promising scene representation for both tasks without requiring extensive prior data. However, in the case of inputting sparse Low Dynamic Range (LDR) panoramic images, NeRF often degrades with under-constrained geometry and is unable to reconstruct HDR radiance from LDR inputs. We observe that the radiance from each pixel in panoramic images can be modeled as both a signal to convey scene lighting information and a light source to illuminate other pixels. Hence, we propose the irradiance fields from sparse LDR panoramic images, which increases the observation counts for faithful geometry recovery and leverages the irradiance-radiance attenuation for HDR reconstruction. Extensive experiments demonstrate that the irradiance fields outperform state-of-the-art methods on both geometry recovery and HDR reconstruction and validate their effectiveness. Furthermore, we show a promising byproduct of spatially-varying lighting estimation. The code is available at https://github.com/Lu-Zhan/Pano-NeRF.
翻訳日:2023-12-27 15:31:34 公開日:2023-12-26
# ECHO:高次分布アライメントによる効率的なデータセット凝縮

ECHO: Efficient Dataset Condensation by Higher-Order Distribution Alignment ( http://arxiv.org/abs/2312.15927v1 )

ライセンス: Link先を確認
Hansong Zhang, Shikun Li, Pengju Wang, Dan Zeng, Shiming Ge(参考訳) ディープラーニングの時代では、ディープニューラルネットワークのトレーニングには膨大なデータが必要となり、かなりのコストがかかる。 データセットの凝縮は、元の大規模データセットから必須情報を保存する小さな合成集合を学習することでこれに対処する。 今日では、最適化指向の手法が最先端(sota)結果のためのデータセットの凝縮を支配しているが、計算集約的なbiレベル最適化は大規模データセットの実用性を妨げている。 代替ソリューションとして、分散マッチング(DM)ベースの手法は、実例と合成例の表現分布を整列させることでコストを削減する。 しかし、現在のDMベースの手法は、SOTA最適化指向の手法と同等ではない。 本稿では,既存のdmベース手法では分布の高次アライメントを見落としており,その結果が最適以下の結果をもたらす可能性があることを論じる。 そこで本研究では,高次分布アライメント(ECHO)による効率的なデータセット凝縮手法を提案する。 具体的には、表現分布の1次モーメントを以前の方法と整列するだけでなく、カーネルヒルベルト空間の古典的理論に基づいて実および合成例の表現分布の高次モーメントを更に整列させることで、合成例を学ぶ。 提案手法は,様々なシナリオにおける効率性を維持しながら,大幅な性能向上を実現する。

In the era of deep learning, training deep neural networks often requires extensive data, leading to substantial costs. Dataset condensation addresses this by learning a small synthetic set that preserves essential information from the original large-scale dataset. Nowadays, optimization-oriented methods dominate dataset condensation for state-of-the-art (SOTA) results, but their computationally intensive bi-level optimization hinders practicality with large datasets. To enhance efficiency, as alternative solutions, Distribution-Matching (DM)-based methods reduce costs by aligning the representation distributions of real and synthetic examples. However, current DM-based methods still yield less comparable results to SOTA optimization-oriented methods. In this paper, we argue that existing DM-based methods overlook the higher-order alignment of the distributions, which may lead to sub-optimal matching results. Inspired by this, we propose a new DM-based method named as Efficient Dataset Condensation by Higher-Order Distribution Alignment (ECHO). Specifically, rather than only aligning the first-order moment of the representation distributions as previous methods, we learn synthetic examples via further aligning the higher-order moments of the representation distributions of real and synthetic examples based on the classical theory of reproducing kernel Hilbert space. Experiments demonstrate the proposed method achieves a significant performance boost while maintaining efficiency across various scenarios.
翻訳日:2023-12-27 15:31:11 公開日:2023-12-26
# fedms: スパースに活性化された基礎モデルの混合によるフェデレーション学習

FedMS: Federated Learning with Mixture of Sparsely Activated Foundations Models ( http://arxiv.org/abs/2312.15926v1 )

ライセンス: Link先を確認
Panlong Wu, Kangshuo Li, Ting Wang, and Fangxin Wang(参考訳) 基礎モデルは自然言語処理、コンピュータビジョン、マルチモーダルタスクにおいて大きな成功を収めている。 FMには多数のモデルパラメータがあり、トレーニング中にモデルを最適化するのにかなりの量のデータが必要である。 フェデレーション学習は、クライアントのデータプライバシを保ちながら、分散データからの協調学習を可能にすることによって、機械学習に革命をもたらした。 基礎モデルが連合学習によって力づけられる大きなメリットにもかかわらず、それらは厳しい計算、コミュニケーション、統計的な課題に直面します。 本稿では,FedMSと呼ばれる新しい2段階のフェデレーション学習アルゴリズムを提案する。 グローバルエキスパートは第一段階で訓練され、ローカルエキスパートは第二段階で訓練され、より良いパーソナライズを提供する。 我々は,これら2つの専門家とともにMixture of Foundation Models (MoFM)を構築し,第2段の通信ラウンド毎に集約に結合するゲートアダプタを挿入したゲートニューラルネットワークを設計する。 計算資源が限られているエッジコンピューティングのシナリオにさらに適応するために、事前学習された基礎モデルパラメータを冷凍し、低ランク適応行列を変圧器ブロックに挿入し、訓練中に徐々に活性化するSALアルゴリズムを設計する。 我々はFedMSの有効性を検証するために広範な実験を行い、その結果、FedMSは他のSOTAベースラインを55.25%まで上回る結果となった。

Foundation models have shown great success in natural language processing, computer vision, and multimodal tasks. FMs have a large number of model parameters, thus requiring a substantial amount of data to help optimize the model during the training. Federated learning has revolutionized machine learning by enabling collaborative learning from decentralized data while still preserving the data privacy of clients. Despite the great benefits foundation models can have empowered by federated learning, they face severe computation, communication, and statistical challenges. In this paper, we propose a novel two-stage federated learning algorithm called FedMS. A global expert is trained in the first stage and a local expert is trained in the second stage to provide better personalization. We construct a Mixture of Foundation Models (MoFM) with these two experts and design a gate neural network with an inserted gate adapter that joins the aggregation every communication round in the second stage. To further adapt to edge computing scenarios with limited computational resources, we design a novel Sparsely Activated LoRA (SAL) algorithm that freezes the pre-trained foundation model parameters inserts low-rank adaptation matrices into transformer blocks and activates them progressively during the training. We employ extensive experiments to verify the effectiveness of FedMS, results show that FedMS outperforms other SOTA baselines by up to 55.25% in default settings.
翻訳日:2023-12-27 15:30:45 公開日:2023-12-26
# 視覚質問応答のための検出に基づく中間監督

Detection-based Intermediate Supervision for Visual Question Answering ( http://arxiv.org/abs/2312.16012v1 )

ライセンス: Link先を確認
Yuhang Liu, Daowan Peng, Wei Wei, Yuanyuan Fu, Wenfeng Xie, Dangyang Chen(参考訳) 近年、ニューラル・モジュール・ネットワーク(NMN)は、特にマルチホップ視覚的および論理的推論を含む、構成的視覚的疑問に答えることに成功した。 NMNは、複雑な質問を、その質問の推論経路からインスタンス-モジュールを使っていくつかのサブタスクに分解し、答えの予測を誘導するために中間的な監督を利用する。 しかし、その性能は中間監督者のスケッチ的なモデリングによって妨げられる可能性がある。 例えば、(1)各インスタンスモジュールが1つの接地オブジェクトのみを参照し、他の潜在的に関連付けられた接地オブジェクトを見落とし、完全なクロスモーダルアライメント学習を妨げるという以前の仮定 (2)iouベースの中間監督は、バウンディングボックスオーバーラップの問題がモデルの無関係なオブジェクトへの焦点を導く可能性があるため、ノイズ信号を導入する可能性がある。 これらの問題に対処するために、新しい手法である \textbf{\underline{D}}etection-based \textbf{\underline{I}}ntermediate \textbf{\underline{S}}upervision (DIS) が提案され、シーケンス生成による複数の基底管理を容易にするために、生成的検出フレームワークを採用する。 このように、disはより包括的で正確な中間監視を提供し、その結果、回答予測性能が向上する。 さらに, 中間結果を考慮し, 構成質問に対する回答とサブクエストの整合性を高め, 提案したDisdisの優位性を実証し, 従来のアプローチと比較して精度と最先端の推論整合性を示す。

Recently, neural module networks (NMNs) have yielded ongoing success in answering compositional visual questions, especially those involving multi-hop visual and logical reasoning. NMNs decompose the complex question into several sub-tasks using instance-modules from the reasoning paths of that question and then exploit intermediate supervisions to guide answer prediction, thereby improving inference interpretability. However, their performance may be hindered due to sketchy modeling of intermediate supervisions. For instance, (1) a prior assumption that each instance-module refers to only one grounded object yet overlooks other potentially associated grounded objects, impeding full cross-modal alignment learning; (2) IoU-based intermediate supervisions may introduce noise signals as the bounding box overlap issue might guide the model's focus towards irrelevant objects. To address these issues, a novel method, \textbf{\underline{D}}etection-based \textbf{\underline{I}}ntermediate \textbf{\underline{S}}upervision (DIS), is proposed, which adopts a generative detection framework to facilitate multiple grounding supervisions via sequence generation. As such, DIS offers more comprehensive and accurate intermediate supervisions, thereby boosting answer prediction performance. Furthermore, by considering intermediate results, DIS enhances the consistency in answering compositional questions and their sub-questions.Extensive experiments demonstrate the superiority of our proposed DIS, showcasing both improved accuracy and state-of-the-art reasoning consistency compared to prior approaches.
翻訳日:2023-12-27 15:23:23 公開日:2023-12-26
# 遅延機構による抗戦剤評価の公平性の実現

Achieving Fairness in DareFightingICE Agents Evaluation Through a Delay Mechanism ( http://arxiv.org/abs/2312.16010v1 )

ライセンス: Link先を確認
Chollakorn Nimpattanavong, Thai Van Nguyen, Ibrahim Khan, Ruck Thawonmas, Worawat Choensawat, Kingkarn Sookhanaphibarn(参考訳) 本稿では,grpcフレームワークにおけるレイテンシ差の影響を軽減するための遅延機構を提案する。grpcフレームワーク - 高性能でオープンソースのユニバーサルリモートプロシージャコール(rpc)フレームワーク- - 異なるプログラミング言語間における,戦闘ゲーム研究プラットフォームであるdarefightingiceにおけるエージェントのパフォーマンス - を提案する。 調査によると、JavaとPythonのgRPCレイテンシの違いは、リアルタイムな意思決定に大きな影響を与える。 遅延メカニズムがなければ、JavaプラットフォームでのgRPCレイテンシの低下により、JavaベースのエージェントはPythonベースのエージェントを上回っます。 しかし、提案された遅延メカニズムにより、JavaベースのエージェントとPythonベースのエージェントの両方が同様の性能を示し、異なるプログラミング言語を用いて開発されたエージェントの公正な比較に繋がる。 したがって、この研究は、DareFightingICEでエージェントの開発と評価を行う際のgRPCレイテンシを考慮することの重要性を強調している。

This paper proposes a delay mechanism to mitigate the impact of latency differences in the gRPC framework--a high-performance, open-source universal remote procedure call (RPC) framework--between different programming languages on the performance of agents in DareFightingICE, a fighting game research platform. The study finds that gRPC latency differences between Java and Python can significantly impact real-time decision-making. Without a delay mechanism, Java-based agents outperform Python-based ones due to lower gRPC latency on the Java platform. However, with the proposed delay mechanism, both Java-based and Python-based agents exhibit similar performance, leading to a fair comparison between agents developed using different programming languages. Thus, this work underscores the crucial importance of considering gRPC latency when developing and evaluating agents in DareFightingICE, and the insights gained could potentially extend to other gRPC-based applications.
翻訳日:2023-12-27 15:22:49 公開日:2023-12-26
# 大規模量子ネットワークの絡み合いトポグラフィ

Entanglement topography of large-scale quantum networks ( http://arxiv.org/abs/2312.16009v1 )

ライセンス: Link先を確認
Md Sohel Mondal, Dov Fields, Vladimir S. Malinovsky, Siddhartha Santra(参考訳) 分散量子情報処理に必要な大規模量子ネットワークは、遠方のネットワークノード間で量子絡み合ったシステムを持つように仮定される。 量子ネットワークにおける分散絡み合いの程度と品質は、その機能である、そのトポロジ、エッジパラメータ分布、および分布プロトコルに依存する。 大規模量子ネットワークの一般モデルにおいて,パラメトリック・エンタングルメント・トポグラフィーを明らかにするとともに,エンタングルメント対応タスクの典型的な,最大実行可能領域の概念を導入する。 このような地形解析は,有効領域の観点から量子ネットワークに関する重要な機能情報を明らかにし,エッジパラメータの実験的ターゲットを提供し,効率的な量子ネットワーク設計を導くことができることを示す。 フォトニック量子ネットワークに適用すると、この地形解析により、半径10^3$kmsと1500ノードのネットワークにおいて、任意のノードのペアが、エッジ上の1ドルMHzの絡み合い発生源とノードでの絡み合いのみを使用して、$R_{sec}=1$ kHzの速度で量子セキュアな鍵を確立することができる。

Large-scale quantum networks, necessary for distributed quantum information processing, are posited to have quantum entangled systems between distant network nodes. The extent and quality of distributed entanglement in a quantum network, that is its functionality, depends on its topology, edge-parameter distributions and the distribution protocol. We uncover the parametric entanglement topography and introduce the notion of typical and maximal viable regions for entanglement-enabled tasks in a general model of large-scale quantum networks. We show that such a topographical analysis, in terms of viability regions, reveals important functional information about quantum networks, provides experimental targets for the edge parameters and can guide efficient quantum network design. Applied to a photonic quantum network, such a topographical analysis shows that in a network with radius $10^3$ kms and 1500 nodes, arbitrary pairs of nodes can establish quantum secure keys at a rate of $R_{sec}=1$ kHz using $1$ MHz entanglement generation sources on the edges and only entanglement swapping at the nodes.
翻訳日:2023-12-27 15:22:33 公開日:2023-12-26
# ICASSP2024ICMC-ASRグランドチャレンジのためのNUS-HLTシステム

The NUS-HLT System for ICASSP2024 ICMC-ASR Grand Challenge ( http://arxiv.org/abs/2312.16002v1 )

ライセンス: Link先を確認
Meng Ge, Yizhou Peng, Yidi Jiang, Jingru Lin, Junyi Ao, Mehmet Sinan Yildirim, Shuai Wang, Haizhou Li, Mengling Feng(参考訳) 本稿では,車載マルチチャネル音声認識におけるICMC-ASR Challengeの両トラックにおけるチームの取り組みを要約する。 提案するicmc-asrチャレンジには,マルチチャネルフロントエンド拡張とダイアリゼーション,トレーニングデータ拡張,マルチチャネル分岐による音声認識モデリングなどが含まれる。 The offical Eval1 and Eval2 set, our best system achieve a relative 34.3% improve in CER and 56.5% improve in cpCER, than the offical baseline system。

This paper summarizes our team's efforts in both tracks of the ICMC-ASR Challenge for in-car multi-channel automatic speech recognition. Our submitted systems for ICMC-ASR Challenge include the multi-channel front-end enhancement and diarization, training data augmentation, speech recognition modeling with multi-channel branches. Tested on the offical Eval1 and Eval2 set, our best system achieves a relative 34.3% improvement in CER and 56.5% improvement in cpCER, compared to the offical baseline system.
翻訳日:2023-12-27 15:22:11 公開日:2023-12-26
# Squeezed Fock States を用いた誤差補正

Error Correction Using Squeezed Fock States ( http://arxiv.org/abs/2312.16000v1 )

ライセンス: Link先を確認
S. B. Korolev, E. N. Bashmakova, T. Yu. Golubeva(参考訳) 本論文では, 圧縮フォック状態に基づく量子計算の誤り訂正符号について述べる。 また, 圧縮フォック状態を用いることで, ボソニック誤り訂正符号のknil-laflamme (kl) 基準を満足できることを示した。 最初の圧縮されたフォック状態は、高次状態よりも光子損失とデフォーカスエラーの両方を補正する。 KLコスト関数に基づいて,提案プロトコルと圧縮シュロディンガーの猫状態に基づく誤り訂正プロトコルの比較を行った。 圧縮された第1フォック状態は、光子損失と劣化を伴うチャネルをよりよく保護する。

The paper addresses the construction an error correction code for quantum calculations based on squeezed Fock states. It is shown that the use of squeezed Fock states makes it possible to satisfy the Knill-Laflamme (KL) criteria for bosonic error correction codes. It is shown that the first squeezed Fock state corrects both photon loss and dephasing errors better than higher-order states. A comparison of the proposed protocol with an error correction protocol based on the squeezed Schrodinger's cat states is carried out on the basis of the KL cost function. It is shown that the squeezed first Fock state better protects a channel with photon loss and dephasing.
翻訳日:2023-12-27 15:22:00 公開日:2023-12-26
# コンテクスト弾性とヘテロシデスティック評価による価格設定

Pricing with Contextual Elasticity and Heteroscedastic Valuation ( http://arxiv.org/abs/2312.15999v1 )

ライセンス: Link先を確認
Jianyu Xu, Yu-Xiang Wang(参考訳) 我々は、顧客がその特徴と価格に基づいて商品を購入するかどうかを決めるオンラインコンテキスト動的価格問題について検討する。 ヘテロシドスティックノイズのバリュエーションとして等価に表現できる機能ベースの価格弾性を取り入れ,顧客の期待需要をモデル化する新しい手法を提案する。 この問題を解決するために,任意の逆入力コンテキスト列を許容しながら,$o(\sqrt{dt\log t})$の後悔を味わう「pricing with perturbation (pwp)」という計算効率の高いアルゴリズムを提案する。 また、$d$と$t$(最大$\log t$ factor)に関する最適性を示すために、$\omega(\sqrt{dt})$で一致する下限を証明します。 以上の結果から,文脈弾性とヘテロ科学的評価の関係が明らかとなり,効果的かつ実用的な価格戦略への洞察が得られた。

We study an online contextual dynamic pricing problem, where customers decide whether to purchase a product based on its features and price. We introduce a novel approach to modeling a customer's expected demand by incorporating feature-based price elasticity, which can be equivalently represented as a valuation with heteroscedastic noise. To solve the problem, we propose a computationally efficient algorithm called "Pricing with Perturbation (PwP)", which enjoys an $O(\sqrt{dT\log T})$ regret while allowing arbitrary adversarial input context sequences. We also prove a matching lower bound at $\Omega(\sqrt{dT})$ to show the optimality regarding $d$ and $T$ (up to $\log T$ factors). Our results shed light on the relationship between contextual elasticity and heteroscedastic valuation, providing insights for effective and practical pricing strategies.
翻訳日:2023-12-27 15:21:49 公開日:2023-12-26
# 表現工学による大規模言語モデルと人間の好みの整合

Aligning Large Language Models with Human Preferences through Representation Engineering ( http://arxiv.org/abs/2312.15997v1 )

ライセンス: Link先を確認
Wenhao Liu, Xiaohua Wang, Muling Wu, Tianlong Li, Changze Lv, Zixuan Ling, Jianhao Zhu, Cenyuan Zhang, Xiaoqing Zheng, Xuanjing Huang(参考訳) 大規模言語モデル(llm)と人間の好みを整合させることは、有用性、真理性、安全性、無害性、興味深い性の観点からその有用性を高めるために重要である。 このアライメントを実現するための既存の方法は、モデル応答の相対的品質を評価する人間ラベルに基づいて、人間からのフィードバック(RLHF)から微調整LDMへの強化学習を用いる場合が多い。 それにもかかわらず、RLHFは微調整の不安定さに敏感であり、新しい表現工学(RepE)からインスピレーションを得て、LLM内の活動パターンに埋め込まれた高レベルの人間の嗜好の関連表現を特定し、その表現を変換することでモデル行動の正確な制御を実現する。 この新しいアプローチは、人間のフィードバック(rahf)からの表現アライメント(representation alignment from human feedback)として示され、効果的で、計算効率が高く、実装が容易であることが証明されている。 RAHFの多様な人間の嗜好の調節における汎用性は、LLM性能を向上させる可能性を示している。

Aligning large language models (LLMs) with human preferences is crucial for enhancing their utility in terms of helpfulness, truthfulness, safety, harmlessness, and interestingness. Existing methods for achieving this alignment often involves employing reinforcement learning from human feedback (RLHF) to fine-tune LLMs based on human labels assessing the relative quality of model responses. Nevertheless, RLHF is susceptible to instability during fine-tuning and presents challenges in implementation.Drawing inspiration from the emerging field of representation engineering (RepE), this study aims to identify relevant representations for high-level human preferences embedded in patterns of activity within an LLM, and achieve precise control of model behavior by transforming its representations. This novel approach, denoted as Representation Alignment from Human Feedback (RAHF), proves to be effective, computationally efficient, and easy to implement.Extensive experiments demonstrate the efficacy of RAHF in not only capturing but also manipulating representations to align with a broad spectrum of human preferences or values, rather than being confined to a singular concept or function (e.g. honesty or bias). RAHF's versatility in accommodating diverse human preferences shows its potential for advancing LLM performance.
翻訳日:2023-12-27 15:21:29 公開日:2023-12-26
# 実数的仮定によるカーネル回帰の一般化

Generalization in Kernel Regression Under Realistic Assumptions ( http://arxiv.org/abs/2312.15995v1 )

ライセンス: Link先を確認
Daniel Barzilai and Ohad Shamir(参考訳) 現在までに、現代の過度パラメータ化モデルはバイアス分散トレードオフを緩和し、過度なノイズにもかかわらず一般化しているように思われる。 近年の多くの研究は、この現象を比較的難解なカーネル回帰の環境で解析しようと試みている。 しかし、我々が詳しく論じているように、このトピックに関する過去のほとんどの作業は非現実的な仮定をするか、あるいは狭い問題設定に集中するかのどちらかです。 この研究は、ほとんどすべての共通かつ現実的な設定に対して、カーネル回帰の過剰なリスクを上限とする統一理論を提供することを目的としている。 具体的には、共通カーネルおよび任意の量の正規化、ノイズ、任意の入力次元、および任意の数のサンプルに対して保持される厳密な境界を提供する。 さらに、カーネル行列の固有値に対する相対摂動境界(独立興味を持つかもしれない)も提供する。 これらは自己正則化現象を示し、カーネルの固有分解の重い尾は正則化の暗黙の形式を提供し、良い一般化を可能にする。 一般的なカーネルに適用すると、結果は高い入力次元における過剰フィッティング、固定次元におけるほぼ温和な過剰フィッティング、正規化回帰に対する明示的な収束率を示す。 副産物として、カーネルシステムで訓練されたニューラルネットワークの時間依存境界を得る。

It is by now well-established that modern over-parameterized models seem to elude the bias-variance tradeoff and generalize well despite overfitting noise. Many recent works attempt to analyze this phenomenon in the relatively tractable setting of kernel regression. However, as we argue in detail, most past works on this topic either make unrealistic assumptions, or focus on a narrow problem setup. This work aims to provide a unified theory to upper bound the excess risk of kernel regression for nearly all common and realistic settings. Specifically, we provide rigorous bounds that hold for common kernels and for any amount of regularization, noise, any input dimension, and any number of samples. Furthermore, we provide relative perturbation bounds for the eigenvalues of kernel matrices, which may be of independent interest. These reveal a self-regularization phenomenon, whereby a heavy tail in the eigendecomposition of the kernel provides it with an implicit form of regularization, enabling good generalization. When applied to common kernels, our results imply benign overfitting in high input dimensions, nearly tempered overfitting in fixed dimensions, and explicit convergence rates for regularized regression. As a by-product, we obtain time-dependent bounds for neural networks trained in the kernel regime.
翻訳日:2023-12-27 15:21:03 公開日:2023-12-26
# proxy sensitive attribute label 生成によるバイアス緩和

Practical Bias Mitigation through Proxy Sensitive Attribute Label Generation ( http://arxiv.org/abs/2312.15994v1 )

ライセンス: Link先を確認
Bhushan Chaudhary, Anubha Pandey, Deepak Bhatt, Darshika Tiwari(参考訳) トレーニングされた機械学習システムのバイアスに対処するには、敏感な属性にアクセスする必要があることが多い。 実際には、これらの属性は、法律やポリシーの規則や、特定の人口統計学で利用できないデータのために利用できない。 既存のバイアス緩和アルゴリズムは、公平性を達成するためにセンシティブな属性にアクセスする必要があるため、現実のシナリオに適用性に制限がある。 本研究では,このボトルネックに対処するために,教師なしプロキシ依存属性ラベル生成手法を提案する。 そこで本研究では,非教師付き埋め込み生成とクラスタリングによる2段階のアプローチを提案する。 我々の研究の有効性は、バイアスが感度属性と相関する非感受性属性を通して伝播し、高次元の潜在空間にマッピングされると、データに存在する異なる人口集団のクラスタが生成されるという仮定に依存する。 実験結果から,Fair Mixup や Adversarial Debiasing などの既存アルゴリズムを用いたバイアス緩和は,真の感度特性と比較した場合,導出されたプロキシラベルと同等の結果が得られることが示された。

Addressing bias in the trained machine learning system often requires access to sensitive attributes. In practice, these attributes are not available either due to legal and policy regulations or data unavailability for a given demographic. Existing bias mitigation algorithms are limited in their applicability to real-world scenarios as they require access to sensitive attributes to achieve fairness. In this research work, we aim to address this bottleneck through our proposed unsupervised proxy-sensitive attribute label generation technique. Towards this end, we propose a two-stage approach of unsupervised embedding generation followed by clustering to obtain proxy-sensitive labels. The efficacy of our work relies on the assumption that bias propagates through non-sensitive attributes that are correlated to the sensitive attributes and, when mapped to the high dimensional latent space, produces clusters of different demographic groups that exist in the data. Experimental results demonstrate that bias mitigation using existing algorithms such as Fair Mixup and Adversarial Debiasing yields comparable results on derived proxy labels when compared against using true sensitive attributes.
翻訳日:2023-12-27 15:20:42 公開日:2023-12-26
# TD3とCACCを用いたカルマン型ハイブリッド車追従戦略

Adaptive Kalman-based hybrid car following strategy using TD3 and CACC ( http://arxiv.org/abs/2312.15993v1 )

ライセンス: Link先を確認
Yuqi Zheng, Ruidong Yan, Bin Jia, Rui Jiang, Adriana TAPUS, Xiaojing Chen, Shiteng Zheng, Ying Shang(参考訳) 自律運転において、深部強化学習と協調適応クルーズ制御(CACC)のハイブリッド戦略は、2つのアルゴリズムの利点を完全に活用し、追従車の性能を大幅に向上させることができる。 しかしながら,トラヒックフローの混合シナリオに適合する固定係数に基づく従来のハイブリッド戦略では,性能が低下し,さらには事故につながる可能性がある。 以上の問題に対処するため、適応カルマンフィルタに基づくハイブリッドカーをCACCとツイン遅延Deep Deterministic Policy Gradient (TD3)アルゴリズムで提案する。 固定係数に基づく従来のハイブリッド戦略とは異なり、適応係数として用いられるカルマンゲインhは、マルチタイムステップ予測とモンテカルロ木探索から導かれる。 4157745の時間ステップを用いたシミュレーションの結果,提案手法は,td3およびhcfsアルゴリズムと比較して,快適性と効率を損なうことなく,混合交通流における車追従の安全性を著しく向上できることがわかった。

In autonomous driving, the hybrid strategy of deep reinforcement learning and cooperative adaptive cruise control (CACC) can fully utilize the advantages of the two algorithms and significantly improve the performance of car following. However, it is challenging for the traditional hybrid strategy based on fixed coefficients to adapt to mixed traffic flow scenarios, which may decrease the performance and even lead to accidents. To address the above problems, a hybrid car following strategy based on an adaptive Kalman Filter is proposed by regarding CACC and Twin Delayed Deep Deterministic Policy Gradient (TD3) algorithms. Different from traditional hybrid strategy based on fixed coefficients, the Kalman gain H, using as an adaptive coefficient, is derived from multi-timestep predictions and Monte Carlo Tree Search. At the end of study, simulation results with 4157745 timesteps indicate that, compared with the TD3 and HCFS algorithms, the proposed algorithm in this study can substantially enhance the safety of car following in mixed traffic flow without compromising the comfort and efficiency.
翻訳日:2023-12-27 15:20:25 公開日:2023-12-26
# 離散メッセージによる知的エージェント間の通信効率の向上

Discrete Messages Improve Communication Efficiency among Isolated Intelligent Agents ( http://arxiv.org/abs/2312.15985v1 )

ライセンス: Link先を確認
Hang Chen, Yuchuan Jang, Weijie Zhou, Cristian meo, Ziwei Chen and Dianbo Liu(参考訳) 個人は様々な生活経験と学習過程を持っているにもかかわらず、言語を通して効果的にコミュニケーションすることができる。 本研究の目的は,コミュニケーションメディアとしての言語の有効性を検討することである。 まず、エージェントが多様な個人的な経験を持つ場合、個別のメッセージは連続メッセージよりも効果的である。 第二に、複数の離散トークンを用いた通信は単一のトークンを使用する通信よりも有利である。 これらの仮説を検証すべく,話者と聞き手間の各種情報伝達手法を用いてコミュニケーション効率を評価するマルチエージェント機械学習実験を考案した。 実験結果から,エージェントが異なるデータに晒される場合,離散トークンからなる文によるコミュニケーションが最適なエージェント間通信効率をもたらすことが示唆された。 我々の発見の限界は、変分オートエンコーダのようなより洗練されたエンコーダ・デコーダモデルに対する体系的なアドバンテージの欠如と、非画像データセットへのエクルージョンの欠如である。

Individuals, despite having varied life experiences and learning processes, can communicate effectively through languages. This study aims to explore the efficiency of language as a communication medium. We put forth two specific hypotheses: First, discrete messages are more effective than continuous ones when agents have diverse personal experiences. Second, communications using multiple discrete tokens are more advantageous than those using a single token. To valdate these hypotheses, we designed multi-agent machine learning experiments to assess communication efficiency using various information transmission methods between speakers and listeners. Our empirical findings indicate that, in scenarios where agents are exposed to different data, communicating through sentences composed of discrete tokens offers the best inter-agent communication efficiency. The limitations of our finding include lack of systematic advantages over other more sophisticated encoder-decoder model such as variational autoencoder and lack of evluation on non-image dataset, which we will leave for future studies.
翻訳日:2023-12-27 15:20:04 公開日:2023-12-26
# QAOA回路におけるビットルーティングの改善

Improved Qubit Routing for QAOA Circuits ( http://arxiv.org/abs/2312.15982v1 )

ライセンス: Link先を確認
Ayse Kotil, Fedor Simkovic, Martin Leib(参考訳) 量子近似最適化アルゴリズム (qaoa) のための多項式古典実行時間を持つ量子ビットルーティングアルゴリズムを開発した。 アルゴリズムは2段階のプロセスに従う。 まず、完全に並列化された全対全連結QPU上で並列に実行できる相互作用ゲートの部分集合からなるエッジ着色問題に対するヴィジングの定理に基づく、ほぼ最適解を得る。 第2に、特定のハードウェア接続グラフ上の残りのインタラクションゲートの距離に対するネット効果に基づいて、スワップゲートの欲張りな適用を進める。 本アルゴリズムは,回路深さとSWAPゲートの総数の両方の最適化のバランスをとる。 k$-regularで定義されたqaoa回路の既存の最先端ルーティングアルゴリズムと、最大$n \leq 400$のerd\"os-renyi問題グラフを改善した。

We develop a qubit routing algorithm with polynomial classical run time for the Quantum Approximate Optimization Algorithm (QAOA). The algorithm follows a two step process. First, it obtains a near-optimal solution, based on Vizing's theorem for the edge coloring problem, consisting of subsets of the interaction gates that can be executed in parallel on a fully parallelized all-to-all connected QPU. Second, it proceeds with greedy application of SWAP gates based on their net effect on the distance of remaining interaction gates on a specific hardware connectivity graph. Our algorithm strikes a balance between optimizing for both the circuit depth and total SWAP gate count. We show that it improves upon existing state-of-the-art routing algorithms for QAOA circuits defined on $k$-regular as well as Erd\"os-Renyi problem graphs of sizes up to $N \leq 400$.
翻訳日:2023-12-27 15:19:47 公開日:2023-12-26
# HarmonyView: 一画像から3Dへの一貫性と多様性の調和

HarmonyView: Harmonizing Consistency and Diversity in One-Image-to-3D ( http://arxiv.org/abs/2312.15980v1 )

ライセンス: Link先を確認
Sangmin Woo, Byeongjun Park, Hyojun Go, Jin-Young Kim, Changick Kim(参考訳) 単一画像3d生成の最近の進歩は、インターネット上の画像に事前学習された大規模拡散モデルからの3dプリミティブを活用して、マルチビューコヒーレンシの重要性を強調している。 しかし、2D画像を3Dコンテンツに変換するという曖昧さにより、新しい視点の多様性の側面は研究現場でまだ過小評価されていない。 ここでは、一貫性と多様性の両方を同時に取り組むことにより、この研究のギャップに対処することを目指している。 しかし、これらの2つの側面のバランスを取ることは、その固有のトレードオフのためにかなりの課題となる。 この研究は、単一画像3d生成における2つの複雑な側面、一貫性と多様性を分解する、単純かつ効果的な拡散サンプリング技術であるharmonyviewを紹介している。 このアプローチはサンプリングプロセス内の2つの重要な次元のより微妙な探索の道を開く。 さらに,クリップ画像とテキストエンコーダに基づく新たな評価基準を提案し,人間の評価と密接に一致する,生成されたビューの多様性を包括的に評価する。 実験では、HarmonyViewは調和の取れたバランスを達成し、一貫性と多様性の両面で勝利のシナリオを実証している。

Recent progress in single-image 3D generation highlights the importance of multi-view coherency, leveraging 3D priors from large-scale diffusion models pretrained on Internet-scale images. However, the aspect of novel-view diversity remains underexplored within the research landscape due to the ambiguity in converting a 2D image into 3D content, where numerous potential shapes can emerge. Here, we aim to address this research gap by simultaneously addressing both consistency and diversity. Yet, striking a balance between these two aspects poses a considerable challenge due to their inherent trade-offs. This work introduces HarmonyView, a simple yet effective diffusion sampling technique adept at decomposing two intricate aspects in single-image 3D generation: consistency and diversity. This approach paves the way for a more nuanced exploration of the two critical dimensions within the sampling process. Moreover, we propose a new evaluation metric based on CLIP image and text encoders to comprehensively assess the diversity of the generated views, which closely aligns with human evaluators' judgments. In experiments, HarmonyView achieves a harmonious balance, demonstrating a win-win scenario in both consistency and diversity.
翻訳日:2023-12-27 15:19:35 公開日:2023-12-26
# RNNの時間的再スケーリング、離散化、線形化に関する考察

Considerations about temporal rescaling, discretization, and linearization of RNNs ( http://arxiv.org/abs/2312.15974v1 )

ライセンス: Link先を確認
Mariano Caruso and Cecilia Jarne(参考訳) 本稿では,リカレントニューラルネットワーク(rnn)の数学的基礎と,時間的再スケーリング,離散化,線形化という3つの基本的な手順について検討する。 これらの技術は、RNNの振る舞いを特徴づける重要なツールを提供し、時間的ダイナミクス、実用的な計算実装、解析のための線形近似の洞察を可能にする。 本稿では,これらの手法の適用の柔軟な順序について論じ,計算神経科学および機械学習応用におけるRNNのモデル化と解析の意義を強調した。 これらの手順がどのような条件で交換可能かを、ここで明確に記述する。

We explore the mathematical foundations of Recurrent Neural Networks (RNNs) and three fundamental procedures: temporal rescaling, discretization, and linearization. These techniques provide essential tools for characterizing RNN behaviour, enabling insights into temporal dynamics, practical computational implementation, and linear approximations for analysis. We discuss the flexible order of application of these procedures, emphasizing their significance in modelling and analyzing RNNs for computational neuroscience and machine learning applications. We explicitly describe here under what conditions these procedures can be interchangeable.
翻訳日:2023-12-27 15:19:13 公開日:2023-12-26
# 超限定ラベルによる画像アノテーションと分類のための自己監督型スタイルGAN

A Self Supervised StyleGAN for Image Annotation and Classification with Extremely Limited Labels ( http://arxiv.org/abs/2312.15972v1 )

ライセンス: Link先を確認
Dana Cohen Hochberg and Hayit Greenspan and Raja Giryes(参考訳) 近年の学習ベースアルゴリズムの成功は、トレーニングに使用される大量の注釈付きデータに大きく影響している。 しかし、多くのデータセットはラベル付けに伴う高コストのためアノテーションを欠いているため、ディープラーニングメソッドのパフォーマンスが低下する。 ラベルのないデータを利用して関連する特徴表現を学習するため、自己教師付き学習は大量のラベル付きデータセットへの依存を軽減するために頻繁に採用されている。 本研究では,非常に小さな注釈付きデータセットに適した画像アノテーションと分類のための自己教師ありアプローチであるss-styleganを提案する。 この斬新なフレームワークは、スタイルガン潜在空間への埋め込みを学ぶエンコーダを統合することによって、スタイルガンアーキテクチャに自己スーパービジョンを追加する。 学習された潜在性空間は、データのスマートな選択を分類性能を改善するためにラベル付けすることができる。 提案手法は,50および10の小さなラベル付きデータセットを用いて,強い分類結果が得られることを示す。 本研究は, 新型ウイルスと肝腫瘍の病理診断の課題に対して, アプローチの優越性を示す。

The recent success of learning-based algorithms can be greatly attributed to the immense amount of annotated data used for training. Yet, many datasets lack annotations due to the high costs associated with labeling, resulting in degraded performances of deep learning methods. Self-supervised learning is frequently adopted to mitigate the reliance on massive labeled datasets since it exploits unlabeled data to learn relevant feature representations. In this work, we propose SS-StyleGAN, a self-supervised approach for image annotation and classification suitable for extremely small annotated datasets. This novel framework adds self-supervision to the StyleGAN architecture by integrating an encoder that learns the embedding to the StyleGAN latent space, which is well-known for its disentangled properties. The learned latent space enables the smart selection of representatives from the data to be labeled for improved classification performance. We show that the proposed method attains strong classification results using small labeled datasets of sizes 50 and even 10. We demonstrate the superiority of our approach for the tasks of COVID-19 and liver tumor pathology identification.
翻訳日:2023-12-27 15:19:03 公開日:2023-12-26
# 代数的位置符号化

Algebraic Positional Encodings ( http://arxiv.org/abs/2312.16045v1 )

ライセンス: Link先を確認
Konstantinos Kogkalidis, Jean-Philippe Bernardy, Vikas Garg(参考訳) 本稿では,既存のアドホックな手法の欠点に対処し,トランスフォーマー方式の新たな位置符号化方式を提案する。 我々のフレームワークは、ドメインの代数的仕様から直交作用素としての解釈への柔軟なマッピングを提供する。 この設計はソースドメインの代数的特性を保ち、モデルが所望の構造的特性を確実に保持する。 提案手法は, 配列, グリッド, ツリー, およびそれらの構成を含む様々な構造に対応できる。 我々は,本手法の実用性を示す一連の実験を行った。 結果は、ハイパーパラメータ最適化や‘task search’を使わずに、現在の最先端に匹敵するパフォーマンスを示唆している。 コードは \url{github.com/konstantinosKokos/UnitaryPE} で利用可能になる。

We introduce a novel positional encoding strategy for Transformer-style models, addressing the shortcomings of existing, often ad hoc, approaches. Our framework provides a flexible mapping from the algebraic specification of a domain to an interpretation as orthogonal operators. This design preserves the algebraic characteristics of the source domain, ensuring that the model upholds the desired structural properties. Our scheme can accommodate various structures, including sequences, grids and trees, as well as their compositions. We conduct a series of experiments to demonstrate the practical applicability of our approach. Results suggest performance on par with or surpassing the current state-of-the-art, without hyperparameter optimizations or ``task search'' of any kind. Code will be made available at \url{github.com/konstantinosKokos/UnitaryPE}.
翻訳日:2023-12-27 15:15:02 公開日:2023-12-26
# 交通信号制御エージェントとしての大規模言語モデル:能力と機会

Large Language Models as Traffic Signal Control Agents: Capacity and Opportunity ( http://arxiv.org/abs/2312.16044v1 )

ライセンス: Link先を確認
Siqi Lai, Zhao Xu, Weijia Zhang, Hao Liu and Hui Xiong(参考訳) 交通信号の制御は,信号位相の制御による道路網の効率の最適化に不可欠である。 既存の研究は主にヒューリスティックまたは強化学習(RL)に基づく手法に重点を置いている。 本稿では,交通信号制御タスクに大規模言語モデル(LLM)を利用する新しいアプローチ LLMLight を提案する。 LLMLightは、LLMの印象的な一般化とゼロショット推論機能を活用することで、効率的なトラフィック管理のための人間ライクな意思決定プロセスを実行する。 具体的には、タスク記述、現在のトラフィック条件、事前知識をプロンプトに構成することから始まる。 その後、LLMのチェーン・オブ・シント(CoT)推論機能を利用して、次の信号位相を識別し、道路網の最適効率を確保する。 LLMLightは、5つの現実世界のトラフィックデータセットにわたる最先端(SOTA)または競合的な結果を達成する。 特に、LLMLightは、輸送管理タスクのトレーニングなしでも、顕著な一般化、解釈可能性、ゼロショット推論能力を示す。 私たちのプロジェクトはhttps://github.com/usail-hkust/llmtscsで利用可能です。

Traffic signal control is crucial for optimizing the efficiency of road network by regulating traffic light phases. Existing research predominantly focuses on heuristic or reinforcement learning (RL)-based methods, which often lack transferability across diverse traffic scenarios and suffer from poor interpretability. This paper introduces a novel approach, LLMLight, utilizing large language models (LLMs) for traffic signal control tasks. By leveraging LLMs' impressive generalization and zero-shot reasoning capabilities, LLMLight executes a human-like decision-making process for efficient traffic management. Specifically, the framework begins by composing task descriptions, current traffic conditions, and prior knowledge into a prompt. Subsequently, we utilize LLM's chain-of-thought (CoT) reasoning ability to identify the next traffic signal phase, ensuring optimal efficiency in the road network. LLMLight achieves state-of-the-art (SOTA) or competitive results across five real-world traffic datasets. Notably, LLMLight showcases remarkable generalization, interpretability, and zero-shot reasoning abilities, even without any training for transportation management tasks. Our project is available at https://github.com/usail-hkust/LLMTSCS.
翻訳日:2023-12-27 15:14:50 公開日:2023-12-26
# 不均衡線形分類のためのパーセプトロン(SIGTRON)を用いた拡張非対称シグモノイド

An extended asymmetric sigmoid with Perceptron (SIGTRON) for imbalanced linear classification ( http://arxiv.org/abs/2312.16043v1 )

ライセンス: Link先を確認
Hyenkyun Woo(参考訳) 本稿では, パーセプトロンを持つ拡張非対称なsigtronモデルであるsigtronと呼ばれる新しい多項式パラメータ付きsigtronモデルと, 仮想sigtronによる凸損失関数を用いたsigtron-imbalanced classification(sic)モデルを提案する。 従来の$\pi$-weighted cost-sensitive learning modelとは対照的に、SICモデルは損失関数に外部の$\pi$-weightを持たず、仮想SIGTRON誘導損失関数の内部パラメータを持つ。 その結果、与えられたトレーニングデータセットがバランスの取れた状態に近い場合、提案したSICモデルは、トレーニングデータセットとテストデータセットのスケールクラス不均衡比の不整合など、データセットのバリエーションに適応することが示される。 この適応は歪曲超平面方程式を作成することによって達成される。 さらに,区間ベースの双断面探索法を開発し,仮想凸損失に対する準ニュートン最適化(l-bfgs)フレームワークを提案する。 実験結果から,提案手法は,テスト分類精度が551$ two-class と 6.7$ multi-class dataset の点で,$\pi$-weighted convex focal loss と balanced classifier liblinear (logistic regression, svm, l2svm) よりも優れていることがわかった。 トレーニングデータセットのスケールクラス不均衡比が重要でないバイナリ分類問題では、各データセットに最適なテスト精度を持つSICモデル群(TOP$1$)が、よく知られたカーネルベースの分類器であるLIBSVM(C-SVC with RBF kernel)より優れている。

This article presents a new polynomial parameterized sigmoid called SIGTRON, which is an extended asymmetric sigmoid with Perceptron, and its companion convex model called SIGTRON-imbalanced classification (SIC) model that employs a virtual SIGTRON-induced convex loss function. In contrast to the conventional $\pi$-weighted cost-sensitive learning model, the SIC model does not have an external $\pi$-weight on the loss function but has internal parameters in the virtual SIGTRON-induced loss function. As a consequence, when the given training dataset is close to the well-balanced condition, we show that the proposed SIC model is more adaptive to variations of the dataset, such as the inconsistency of the scale-class-imbalance ratio between the training and test datasets. This adaptation is achieved by creating a skewed hyperplane equation. Additionally, we present a quasi-Newton optimization(L-BFGS) framework for the virtual convex loss by developing an interval-based bisection line search. Empirically, we have observed that the proposed approach outperforms $\pi$-weighted convex focal loss and balanced classifier LIBLINEAR(logistic regression, SVM, and L2SVM) in terms of test classification accuracy with $51$ two-class and $67$ multi-class datasets. In binary classification problems, where the scale-class-imbalance ratio of the training dataset is not significant but the inconsistency exists, a group of SIC models with the best test accuracy for each dataset (TOP$1$) outperforms LIBSVM(C-SVC with RBF kernel), a well-known kernel-based classifier.
翻訳日:2023-12-27 15:14:30 公開日:2023-12-26
# 高精度NIR-RGBスペクトル領域変換のためのマルチスケールプログレッシブな特徴埋め込み

Multi-scale Progressive Feature Embedding for Accurate NIR-to-RGB Spectral Domain Translation ( http://arxiv.org/abs/2312.16040v1 )

ライセンス: Link先を確認
Xingxing Yang, Jie Chen, Zaifeng Yang(参考訳) NIR-to-RGBスペクトル領域変換は、マッピングのあいまいさのため難しい課題であり、既存の手法では学習能力が限られている。 これらの課題に対処するため,我々は,マルチスケールプログレッシブ特徴埋め込みネットワーク (mpfnet) によるnir画像のカラー化を提案する。 具体的には、まずNIRソース画像をグレースケールターゲットドメインに変換するドメイン翻訳モジュールを導入する。 プログレッシブトレーニング戦略を導入することにより、両方のタスクドメインからの統計的および意味的知識を、一連のピクセルおよび機能レベルの一貫性制約と効率的に一致させる。 さらに、学習能力を向上させるために、マルチスケールのプログレッシブ機能埋め込みネットワークが設計されている。 NIR-to-RGBスペクトル領域変換タスクにおいて、我々のMPFNetは2.55dBの性能をPSNRで上回ることを示した。

NIR-to-RGB spectral domain translation is a challenging task due to the mapping ambiguities, and existing methods show limited learning capacities. To address these challenges, we propose to colorize NIR images via a multi-scale progressive feature embedding network (MPFNet), with the guidance of grayscale image colorization. Specifically, we first introduce a domain translation module that translates NIR source images into the grayscale target domain. By incorporating a progressive training strategy, the statistical and semantic knowledge from both task domains are efficiently aligned with a series of pixel- and feature-level consistency constraints. Besides, a multi-scale progressive feature embedding network is designed to improve learning capabilities. Experiments show that our MPFNet outperforms state-of-the-art counterparts by 2.55 dB in the NIR-to-RGB spectral domain translation task in terms of PSNR.
翻訳日:2023-12-27 15:13:55 公開日:2023-12-26
# 半教師付きポリープセグメンテーションのための2段階強化・クロスジェネレーション整合学習

Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Polyp Segmentation ( http://arxiv.org/abs/2312.16039v1 )

ライセンス: Link先を確認
Yunqi Gu, Tao Zhou, Yizhe Zhang, Yi Zhou, Kelei He, Chen Gong, Huazhu Fu(参考訳) 大腸癌 (CRC) の早期診断と治療において, 自動ポリープセグメンテーションが重要な役割を担っている。 しかし、既存の手法は完全な教師付きトレーニングに大きく依存しており、大量のラベル付きデータと時間を要するピクセル単位のアノテーションを必要とする。 さらに、ポリープの正確なセグメンテーションは、形状、サイズ、位置のばらつきによる課題を引き起こす。 これらの課題に対処するため,大腸内視鏡画像からの半教師付きポリプセグメンテーション(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learningフレームワークを提案する。 まず,クロスレベル・フィーチャー・アグリゲーション(CFA, Cross-level Feature Aggregation)モジュールを提案する。 スケールのばらつきに対処するために,同じ入力画像から異なるスケールで生成されたセグメンテーションマップの一貫性を保証するスケール強調一貫性制約を提案する。 この制約はポリプサイズの変化を処理し、モデルの堅牢性を改善するのに役立つ。 さらに,平均教師モデルのロバスト性を高めるために,スケール対応摂動一貫性スキームを設計する。 さらに,クロスセグメントマップを用いて,原画像と摂動画像の再構成が可能なクロスジェネレーション整合性スキームを提案する。 この一貫性の制約により、効率的な特徴表現を抽出し、セグメンテーション性能を高めることができます。 より正確なセグメンテーションマップを作成するために、異なるスケールで動作する2つのスケール固有のデコーダの機能を統合するDCF(Dual-scale Complementary Fusion)モジュールを提案する。 5つのベンチマークデータセットの大規模な実験結果は、DEC-Segの他の最先端の半教師付きセグメンテーションアプローチに対する効果を示す。 実装コードはhttps://github.com/taozh2017/decsegでリリースされる。

Automatic polyp segmentation plays a crucial role in the early diagnosis and treatment of colorectal cancer (CRC). However, existing methods heavily rely on fully supervised training, which requires a large amount of labeled data with time-consuming pixel-wise annotations. Moreover, accurately segmenting polyps poses challenges due to variations in shape, size, and location. To address these issues, we propose a novel Dual-scale Enhanced and Cross-generative consistency learning framework for semi-supervised polyp Segmentation (DEC-Seg) from colonoscopy images. First, we propose a Cross-level Feature Aggregation (CFA) module that integrates cross-level adjacent layers to enhance the feature representation ability across different resolutions. To address scale variation, we present a scale-enhanced consistency constraint, which ensures consistency in the segmentation maps generated from the same input image at different scales. This constraint helps handle variations in polyp sizes and improves the robustness of the model. Additionally, we design a scale-aware perturbation consistency scheme to enhance the robustness of the mean teacher model. Furthermore, we propose a cross-generative consistency scheme, in which the original and perturbed images can be reconstructed using cross-segmentation maps. This consistency constraint allows us to mine effective feature representations and boost the segmentation performance. To produce more accurate segmentation maps, we propose a Dual-scale Complementary Fusion (DCF) module that integrates features from two scale-specific decoders operating at different scales. Extensive experimental results on five benchmark datasets demonstrate the effectiveness of our DEC-Seg against other state-of-the-art semi-supervised segmentation approaches. The implementation code will be released at https://github.com/taozh2017/DECSeg.
翻訳日:2023-12-27 15:13:40 公開日:2023-12-26
# 障害ドパントネットワークにおける再構成可能論理のためのホッピング輸送の臨界非線形側面

Critical nonlinear aspects of hopping transport for reconfigurable logic in disordered dopant networks ( http://arxiv.org/abs/2312.16037v1 )

ライセンス: Link先を確認
Henri Tertilt, Jonas Mensing, Marlon Becker, Wilfred G. van der Wiel, Peter A. Bobbert, Andreas Heuer(参考訳) 相互作用電荷のホッピング輸送における非線形挙動は、制御電極で印加された電圧が入力電極で印加された電圧と出力電極で測定された電流の関係を調節する、無秩序ドパントネットワークデバイスにおいて再構成可能な論理を可能にする。 速度論的モンテカルロシミュレーションから,これらのデバイスにおけるブール論理ゲートを3段階で実現するための可変レンジホッピング輸送の臨界非線形側面を解析する。 まず、制御電圧のランダムな選択のための個々のゲートの発生を定量化する。 我々は、ANDゲートやXORゲートが生じる多次元制御電圧空間内の異なる領域の数が同等であるにもかかわらず、XORゲートのような線形分離可能なゲートはANDゲートのような線形分離可能なゲートよりも発生しにくいことを発見した。 次に、主成分分析を用いて(00,10,01,11)論理入力の組み合わせに対する出力電流ベクトルの分布を固有ベクトルと出力共分散行列の固有値を用いて特徴付ける。 これにより、異なるシミュレートされたデバイスの動作をシンプルかつ直接比較し、実験装置と比較することができる。 第三に、3つの非線形性指標を導入してブール関数を実現するのに必要な出力電流ベクトルの分布の非線形性を定量化する。 この分析は、ホッピング距離と温度を変化させる効果の物理的解釈を提供し、物理デバイスでトレーニングされたディープニューラルネットワークによって生成されたデータと比較に使用される。

Nonlinear behavior in the hopping transport of interacting charges enables reconfigurable logic in disordered dopant network devices, where voltages applied at control electrodes tune the relation between voltages applied at input electrodes and the current measured at an output electrode. From kinetic Monte Carlo simulations we analyze the critical nonlinear aspects of variable-range hopping transport for realizing Boolean logic gates in these devices on three levels. First, we quantify the occurrence of individual gates for random choices of control voltages. We find that linearly inseparable gates such as the XOR gate are less likely to occur than linearly separable gates such as the AND gate, despite the fact that the number of different regions in the multidimensional control voltage space for which AND or XOR gates occur is comparable. Second, we use principal component analysis to characterize the distribution of the output current vectors for the (00,10,01,11) logic input combinations in terms of eigenvectors and eigenvalues of the output covariance matrix. This allows a simple and direct comparison of the behavior of different simulated devices and a comparison to experimental devices. Third, we quantify the nonlinearity in the distribution of the output current vectors necessary for realizing Boolean functionality by introducing three nonlinearity indicators. The analysis provides a physical interpretation of the effects of changing the hopping distance and temperature and is used in a comparison with data generated by a deep neural network trained on a physical device.
翻訳日:2023-12-27 15:13:11 公開日:2023-12-26
# 感情的体験評価のダイナミクスと生理的変化を評価するアンサンブル学習

Ensemble Learning to Assess Dynamics of Affective Experience Ratings and Physiological Change ( http://arxiv.org/abs/2312.16036v1 )

ライセンス: Link先を確認
Felix Dollack, Kiyoshi Kiyokawa, Huakun Liu, Monica Perusquia-Hernandez, Chirag Raman, Hideaki Uchiyama, Xin Wei(参考訳) 情緒経験と生理的変化の一致は、何世紀にもわたって議論されてきた話題である。 計測とデータ分析の最近の技術進歩は、この壮大な課題を解決しようとしている。 オープンサイエンスとオープンデータプラクティスは、学術コミュニティにオープンなデータ分析の課題とともに、この問題を解決するための有望なツールでもある。 本稿では,EPiC(Emotion Physiology and Experience Collaboration)の課題として,理論的仮定とデータ駆動手法を組み合わせたデータ解析ソリューションを提案する。 機能エンジニアリングとアンサンブルセレクションを使用しました。 各予測器はトレーニングデータのサブセットに基づいてトレーニングされ、トレーニングに利用可能な情報を最大化する。 後期核融合は平均的なステップで使用された。 私たちは‘群衆のウィズム’戦略を平均化することにしました。 この戦略により、テストセット全体のrmseは1.19となった。 将来の作業は、私たちの仮定が正しいかどうか、重み付け融合の可能性について慎重に検討するべきです。

The congruence between affective experiences and physiological changes has been a debated topic for centuries. Recent technological advances in measurement and data analysis provide hope to solve this epic challenge. Open science and open data practices, together with data analysis challenges open to the academic community, are also promising tools for solving this problem. In this entry to the Emotion Physiology and Experience Collaboration (EPiC) challenge, we propose a data analysis solution that combines theoretical assumptions with data-driven methodologies. We used feature engineering and ensemble selection. Each predictor was trained on subsets of the training data that would maximize the information available for training. Late fusion was used with an averaging step. We chose to average considering a ``wisdom of crowds'' strategy. This strategy yielded an overall RMSE of 1.19 in the test set. Future work should carefully explore if our assumptions are correct and the potential of weighted fusion.
翻訳日:2023-12-27 15:12:48 公開日:2023-12-26
# インテリジェント倉庫における動的AGVタスク割り当て

Dynamic AGV Task Allocation in Intelligent Warehouses ( http://arxiv.org/abs/2312.16026v1 )

ライセンス: Link先を確認
Arash Dehghan and Mucahit Cevik and Merve Bodur(参考訳) 本稿では,倉庫業務における重要かつコスト集約的な側面である倉庫注文ピッキングにおける自動誘導車(agvs)の統合について検討する。 新型コロナウイルス(COVID-19)のパンデミックで加速しているAGV業界は、倉庫の自動化における効率性、信頼性、費用効果などにより、広く普及している。 本稿では,AGVの戦略的利用を通じて,小規模・中規模の倉庫で普及するピッカー・ツー・パートシステムの向上に焦点をあてる。 本稿では, 各種倉庫業務におけるAGVのメリットと応用について論じ, 運用効率向上の変革的可能性を強調した。 本稿では,業界の主要企業によるAGVの展開について検討し,倉庫管理における各種機能を示す。 人間とagvsが共存するハイブリッド環境での運用性能の最適化に関する研究のギャップに対処し,本研究は動的ピッカー・ツー・パートの倉庫シナリオへと発展する。 本稿では,人間とagvの作業員の混合チームを協調させ,注文スループットと運用効率を最大化するための新しいアプローチであるニューラル近似動的プログラミング手法を提案する。 これは、非神秘的な意思決定、注文バッチ、バッテリー管理のための革新的なソリューションを含む。 また、自動注文処理における高度なロボティクス技術の統合についても論じる。 総合的な数値研究を通じて,雑貨倉庫における異種労働者の管理に有用な知見を提供し,倉庫の自動化とロジスティクスの分野に大きく貢献した。

This paper explores the integration of Automated Guided Vehicles (AGVs) in warehouse order picking, a crucial and cost-intensive aspect of warehouse operations. The booming AGV industry, accelerated by the COVID-19 pandemic, is witnessing widespread adoption due to its efficiency, reliability, and cost-effectiveness in automating warehouse tasks. This paper focuses on enhancing the picker-to-parts system, prevalent in small to medium-sized warehouses, through the strategic use of AGVs. We discuss the benefits and applications of AGVs in various warehouse tasks, highlighting their transformative potential in improving operational efficiency. We examine the deployment of AGVs by leading companies in the industry, showcasing their varied functionalities in warehouse management. Addressing the gap in research on optimizing operational performance in hybrid environments where humans and AGVs coexist, our study delves into a dynamic picker-to-parts warehouse scenario. We propose a novel approach Neural Approximate Dynamic Programming approach for coordinating a mixed team of human and AGV workers, aiming to maximize order throughput and operational efficiency. This involves innovative solutions for non-myopic decision making, order batching, and battery management. We also discuss the integration of advanced robotics technology in automating the complete order-picking process. Through a comprehensive numerical study, our work offers valuable insights for managing a heterogeneous workforce in a hybrid warehouse setting, contributing significantly to the field of warehouse automation and logistics.
翻訳日:2023-12-27 15:12:34 公開日:2023-12-26
# 一方向状態発生器の出力長に関する一考察

A Note on Output Length of One-Way State Generators ( http://arxiv.org/abs/2312.16025v1 )

ライセンス: Link先を確認
Minki Hhan and Tomoyuki Morimae and Takashi Yamakawa(参考訳) 単方向状態発生器(owsgs)の出力長と,その弱い変種について検討した。 -標準OWSG。 最近、Cavalar et al. (arXiv:2312.08363) は$m$-qubit出力を任意の$m=\omega(\log \lambda)$に対して与え、$\lambda$はセキュリティパラメータであり、$O(\log \log \lambda)$-qubit出力を持つOWSGは存在しないと推測する。 我々は、それらの予想をより強い方法で証明し、$O(\log \lambda)$-qubit 出力を持つ OWSG が存在しないことを示す。 これは、その構成が出力長の点で最適であることを意味する。 -定値アドバンテージOWSG。 例えば、$\epsilon$-OWSGs を OWSG のパラメータ化された変種とし、量子多項式時間反転の利点は最大$\epsilon$である。 任意の定数 $\epsilon>0$ に対して、サブ指数的に安全な OWF の存在を前提として $O(\log \log \lambda)$-qubit 出力で $\epsilon$-OWSGs を構築する。 これは、$(\log \log \lambda)/2+O(1)$-qubit出力を持つ$O(1)$-OWSGが存在しないことを証明することで、ほぼ密であることを示す。 -OWSGを弱める。 1-1/\mathsf{poly}(\lambda))$-OWSG を弱い OWSG と呼ぶ。 線形展開を伴う指数的にセキュアな射影型 OWF の存在を前提として、弱 OWSG を$m$-qubit 出力で任意の $m=\omega(1)$ に対して構成する。 我々は、$O(1)$-qubit 出力を持つ弱い OWSG が存在しないことを証明することで、これは厳密であることを示す。

We study output length of one-way state generators (OWSGs) and their weaker variants. - Standard OWSGs. Recently, Cavalar et al. (arXiv:2312.08363) give OWSGs with $m$-qubit outputs for any $m=\omega(\log \lambda)$, where $\lambda$ is the security parameter, and conjecture that there do not exist OWSGs with $O(\log \log \lambda)$-qubit outputs. We prove their conjecture in a stronger manner by showing that there do not exist OWSGs with $O(\log \lambda)$-qubit outputs. This means that their construction is optimal in terms of output length. - Constant-advantage OWSGs. Let $\epsilon$-OWSGs be a parameterized variant of OWSGs where a quantum polynomial-time adversary's advantage is at most $\epsilon$. For any constant $\epsilon>0$, we construct $\epsilon$-OWSGs with $O(\log \log \lambda)$-qubit outputs assuming the existence of subexponentially secure OWFs. We show that this is almost tight by proving that there do not exist $O(1)$-OWSGs with $(\log \log \lambda)/2+O(1)$-qubit outputs. - Weak OWSGs. We refer to $(1-1/\mathsf{poly}(\lambda))$-OWSGs as weak OWSGs. We construct weak OWSGs with $m$-qubit outputs for any $m=\omega(1)$ assuming the existence of exponentially secure injective OWFs with linear expansion. We show that this is tight by proving that there do not exist weak OWSGs with $O(1)$-qubit outputs.
翻訳日:2023-12-27 15:12:09 公開日:2023-12-26
# 3次元近接場MIMO画像の深部優先画像によるプラグ・アンド・プレイ規則化

Plug-and-Play Regularization on Magnitude with Deep Priors for 3D Near-Field MIMO Imaging ( http://arxiv.org/abs/2312.16024v1 )

ライセンス: Link先を確認
Okyanus Oral, Figen S. Oktem(参考訳) 近距離レーダーイメージングシステムは、医療診断、スルーウォールイメージング、隠蔽兵器検出、非破壊評価などの幅広い用途で最近使用されている。 本稿では, スパース多重出力多重出力(MIMO)アレイ測定から, 近接場シーンの3次元複素値反射率分布を再構成する問題を考察する。 乗算器(ADMM)フレームワークの交互方向法を用いて,複素数値反射率分布の大きさを正規化することにより,この逆問題を解く。 これに対し、そのような正規化関数に関連する近位写像の一般表現を提供する。 これは、その大きさの正則化を含む複素数値デノナイジング問題の解と等価である。 この表現を利用することで、簡単な更新ステップからなる新規で効率的なプラグアンドプレイ(PnP)再構成手法を開発した。 様々な画像問題におけるデータ適応型ディープ先行処理の成功により,MIMOイメージングのためのPnPフレームワーク内での3次元ディープデノイザの活用を訓練する。 学習に基づくPnP手法の有効性は、シミュレーションデータと実験測定の両方を用いて、様々な圧縮的、ノイズの多い観測シナリオで示される。 パフォーマンスは、sparsity priorsや、バックプロジェクションやkirchhoff migrationといった一般的な分析アプローチと比較される。 その結果,本手法は3次元実世界の目標に対して最先端の再構築性能を提供するだけでなく,高速な計算が可能となった。 提案手法は,複素数値未知量の任意の正規化を効果的に処理するための統一的な汎用フレームワークを提供し,他のレーダ画像形成問題(SARを含む)にも等しく適用可能である。

Near-field radar imaging systems are recently used in a wide range of applications, such as medical diagnosis, through-wall imaging, concealed weapon detection, and nondestructive evaluation. In this paper, we consider the problem of reconstructing the three-dimensional (3D) complex-valued reflectivity distribution of the near-field scene from sparse multiple-input multiple-output (MIMO) array measurements. Using the alternating direction method of multipliers (ADMM) framework, we solve this inverse problem by enforcing regularization on the magnitude of the complex-valued reflectivity distribution. For this, we provide a general expression for the proximal mapping associated with such regularization functionals. This equivalently corresponds to the solution of a complex-valued denoising problem which involves regularization on the magnitude. By utilizing this expression, we develop a novel and efficient plug-and-play (PnP) reconstruction method that consists of simple update steps. Due to the success of data-adaptive deep priors in various imaging problems, we also train a 3D deep denoiser to exploit within the developed PnP framework for MIMO imaging. The effectiveness of the developed learning-based PnP approach is illustrated under various compressive and noisy observation scenarios using both simulated data and experimental measurements. The performance is also compared with sparsity priors and the commonly used analytical approaches such as back-projection and Kirchhoff migration. The results demonstrate that the developed technique not only provides state-of-the-art reconstruction performance for 3D real-world targets, but also enables fast computation. Our approach provides a unified general framework to effectively handle arbitrary regularization on the magnitude of a complex-valued unknown and is equally applicable to other radar image formation problems (including SAR).
翻訳日:2023-12-27 15:11:31 公開日:2023-12-26
# DocMSU: ドキュメントレベルのマルチモーダルサーカズム理解のための総合ベンチマーク

DocMSU: A Comprehensive Benchmark for Document-level Multimodal Sarcasm Understanding ( http://arxiv.org/abs/2312.16023v1 )

ライセンス: Link先を確認
Hang Du and Guoshun Nan and Sicheng Zhang and Binzhu Xie and Junrui Xu and Hehe Fan and Qimei Cui and Xiaofeng Tao and Xudong Jiang(参考訳) マルチモーダルサルカズム理解(MSU)は、世論分析や偽造検出など、ニュース分野に幅広い応用がある。 しかし、既存のMSUベンチマークとアプローチは通常文レベルのMSUに焦点を当てている。 文書レベルのニュースでは、皮肉の手がかりはささや小さく、しばしば長いテキストで隠される。 さらに、いくつかのトレンドやホットトピック(スポーツイベントなど)のみに焦点を当てたツイートのような文レベルのコメントに比べて、ニュースの内容はかなり多様である。 文レベルのMSUのために作成されたモデルは、文書レベルのニュースで皮肉な手がかりを捉えるのに失敗する。 このギャップを埋めるために、文書レベルのマルチモーダルサルカズム理解(DocMSU)のための包括的なベンチマークを示す。 私たちのデータセットには102,588のニュースとテキストイメージペアが含まれており、健康やビジネスなど、9つのさまざまなトピックをカバーしています。 提案した大規模かつ多様なDocMSUは,実世界のシナリオにおける文書レベルのMSUの研究を著しく促進する。 DocMSUがもたらす新たな課題に対処するため,文書中の画素レベルの画像特徴と単語レベルのテキスト特徴とを適切に整合させる,きめ細かなsarcasm理解手法を提案する。 提案手法の有効性を実証し,挑戦的なdocmsuのベースライン・アプローチとして利用できることを示した。 私たちのコードとデータセットはhttps://github.com/dulpy/docmsuで利用可能です。

Multimodal Sarcasm Understanding (MSU) has a wide range of applications in the news field such as public opinion analysis and forgery detection. However, existing MSU benchmarks and approaches usually focus on sentence-level MSU. In document-level news, sarcasm clues are sparse or small and are often concealed in long text. Moreover, compared to sentence-level comments like tweets, which mainly focus on only a few trends or hot topics (e.g., sports events), content in the news is considerably diverse. Models created for sentence-level MSU may fail to capture sarcasm clues in document-level news. To fill this gap, we present a comprehensive benchmark for Document-level Multimodal Sarcasm Understanding (DocMSU). Our dataset contains 102,588 pieces of news with text-image pairs, covering 9 diverse topics such as health, business, etc. The proposed large-scale and diverse DocMSU significantly facilitates the research of document-level MSU in real-world scenarios. To take on the new challenges posed by DocMSU, we introduce a fine-grained sarcasm comprehension method to properly align the pixel-level image features with word-level textual features in documents. Experiments demonstrate the effectiveness of our method, showing that it can serve as a baseline approach to the challenging DocMSU. Our code and dataset are available at https://github.com/Dulpy/DocMSU.
翻訳日:2023-12-27 15:10:36 公開日:2023-12-26
# 勾配サンプリング最適化による残留ニューラルネットワークのロバストニューラルプルーニング

Robust Neural Pruning with Gradient Sampling Optimization for Residual Neural Networks ( http://arxiv.org/abs/2312.16020v1 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) 本研究では,StochGradAdamのプルーニングプロセスにおける勾配サンプリング手法の適用に着目し,ニューラルネットワーク最適化のための革新的なアプローチを検討する。 我々の主な目的は、資源制限シナリオにおける重要な課題である、刈り取られたモデルにおける高精度のレベルを維持することである。 実験により, 従来の最適化手法と比較して, 勾配サンプリング法により最適化されたモデルの方が, 刈り込み時の精度の維持に有効であることが判明した。 この発見は、厳密な学習を容易にし、ネットワークが複雑さを著しく減らした後でも重要な情報を維持できることにおいて、勾配サンプリングの重要性を強調している。 さまざまなデータセットやニューラルネットワークにまたがるアプローチを検証し、その適用性と有効性を示す。 この論文は、勾配サンプリング技術が刈り込み時のモデルの堅牢性にどのように寄与するかを論じる。 計算資源の制約のある環境においても,精度を損なうことなく効率の良いニューラルネットワークを構築できる可能性が示唆された。

In this study, we explore an innovative approach for neural network optimization, focusing on the application of gradient sampling techniques, similar to those in StochGradAdam, during the pruning process. Our primary objective is to maintain high accuracy levels in pruned models, a critical challenge in resource-limited scenarios. Our extensive experiments reveal that models optimized with gradient sampling techniques are more effective at preserving accuracy during pruning compared to those using traditional optimization methods. This finding underscores the significance of gradient sampling in facilitating robust learning and enabling networks to retain crucial information even after substantial reduction in their complexity. We validate our approach across various datasets and neural architectures, demonstrating its broad applicability and effectiveness. The paper also delves into the theoretical aspects, explaining how gradient sampling techniques contribute to the robustness of models during pruning. Our results suggest a promising direction for creating efficient neural networks that do not compromise on accuracy, even in environments with constrained computational resources.
翻訳日:2023-12-27 15:09:58 公開日:2023-12-26
# 逆正則化によるロバスト生存解析

Robust Survival Analysis with Adversarial Regularization ( http://arxiv.org/abs/2312.16019v1 )

ライセンス: Link先を確認
Michael Potter, Stefano Maxenti, Michael Everett(参考訳) サバイバル分析(英: Survival Analysis、SA)とは、医学、防衛、金融、航空宇宙など多くの分野において重要な応用が期待されているイベントの時間モデリングである。 最近の研究は、SAの複雑な関係を捉えるためにニューラルネットワーク(NN)を使用することの利点を実証している。 しかし、これらのモデルのトレーニングに使用されるデータセットは、しばしば不確実性(例えば、ノイズの測定、ヒューマンエラー)の対象となり、既存の技術の性能を著しく低下させる可能性がある。 この問題に対処するために、この研究は最近のNN検証の進歩を活用し、そのような不確実性に対して堅牢な完全パラメトリックサバイバルモデルを生成するための新しいアルゴリズムを提供する。 特に,モデルの学習にロバストな損失関数を導入し,crown-ipp正規化を用いてmin-max問題の解法における計算上の課題に対処する。 提案手法を評価するため,SurvSetリポジトリ内の公開データセットに関連する摂動を適用し,生存モデルといくつかのベースラインを比較した。 平均値に対する逆正規化法(sawar)を用いた生存分析の結果,負対数推定法(negll),統合ブライアスコア法(ibs),一致指数法(ci)などの指標を用いたデータセットの摂動が,逆正規化法がsaの性能を高めることを結論づけた。 コード: https://github.com/mlpotter/sawar

Survival Analysis (SA) is about modeling the time for an event of interest to occur, which has important applications in many fields, including medicine, defense, finance, and aerospace. Recent work has demonstrated the benefits of using Neural Networks (NNs) to capture complicated relationships in SA. However, the datasets used to train these models are often subject to uncertainty (e.g., noisy measurements, human error), which we show can substantially degrade the performance of existing techniques. To address this issue, this work leverages recent advances in NN verification to provide new algorithms for generating fully parametric survival models that are robust to such uncertainties. In particular, we introduce a robust loss function for training the models and use CROWN-IBP regularization to address the computational challenges with solving the resulting Min-Max problem. To evaluate the proposed approach, we apply relevant perturbations to publicly available datasets in the SurvSet repository and compare survival models against several baselines. We empirically show that Survival Analysis with Adversarial Regularization (SAWAR) method on average ranks best for dataset perturbations of varying magnitudes on metrics such as Negative Log Likelihood (NegLL), Integrated Brier Score (IBS), and Concordance Index (CI), concluding that adversarial regularization enhances performance in SA. Code: https://github.com/mlpotter/SAWAR
翻訳日:2023-12-27 15:09:07 公開日:2023-12-26
# 勧告システムの評価手法に関する総合的調査

A Comprehensive Survey of Evaluation Techniques for Recommendation Systems ( http://arxiv.org/abs/2312.16015v1 )

ライセンス: Link先を確認
Aryan Jadon and Avinash Patil(参考訳) 推薦システムの有効性は、オンラインプラットフォームにおけるユーザのエンゲージメントと満足度に大きく寄与する。 これらのレコメンデーションシステムはユーザーの選択にますます影響を与え、その評価は単なる技術的パフォーマンスを超越し、ビジネスの成功の中心となる。 本稿では,レコメンデーションシステム評価の多面的性質を,システム性能の異なる側面を捉えるために調整された総合的なメトリクススイートを導入することで解決する。 本稿では,コンテントベースおよびコラボレーティブフィルタリング機構の精度を定量化する類似度指標と,システムによる幅広い関連項目の識別精度を測定する候補生成指標について考察する。 続いて,予測された選好の正確性を評価する予測指標,レコメンデーションが提示される順序を評価する指標,システムパフォーマンスと経済目標を合わせたビジネス指標について検討した。 我々のアプローチは、これらのメトリクスとその相互依存性の文脈的適用を強調する。 本稿では,現在の評価手法の強みと限界を明らかにし,異なる指標にまたがるレコメンデーションシステムを最適化する際に生じる微妙なトレードオフを強調する。 本論文は,これらの指標の選択と解釈のためのフレームワークを提案し,システム性能の向上だけでなく,ビジネス目標の達成にも寄与する。 この研究は、研究者や実践者がレコメンデーションシステムを批判的に評価し、よりニュアンスで効果的で経済的に実行可能なパーソナライズ戦略の開発を促進することを目的としている。 私たちのコードはGitHubhttps://github.com/aryan-jadon/Evaluation-Metrics-for-Recommendation-Systemsで利用可能です。

The effectiveness of recommendation systems is pivotal to user engagement and satisfaction in online platforms. As these recommendation systems increasingly influence user choices, their evaluation transcends mere technical performance and becomes central to business success. This paper addresses the multifaceted nature of recommendation system evaluation by introducing a comprehensive suite of metrics, each tailored to capture a distinct aspect of system performance. We discuss similarity metrics that quantify the precision of content-based and collaborative filtering mechanisms, along with candidate generation metrics which measure how well the system identifies a broad yet pertinent range of items. Following this, we delve into predictive metrics that assess the accuracy of forecasted preferences, ranking metrics that evaluate the order in which recommendations are presented, and business metrics that align system performance with economic objectives. Our approach emphasizes the contextual application of these metrics and their interdependencies. In this paper, we identify the strengths and limitations of current evaluation practices and highlight the nuanced trade-offs that emerge when optimizing recommendation systems across different metrics. The paper concludes by proposing a framework for selecting and interpreting these metrics to not only improve system performance but also to advance business goals. This work is to aid researchers and practitioners in critically assessing recommendation systems and fosters the development of more nuanced, effective, and economically viable personalization strategies. Our code is available at GitHub - https://github.com/aryan-jadon/Evaluation-Metrics-for-Recommendation-Systems.
翻訳日:2023-12-27 15:08:14 公開日:2023-12-26
# 光輸送変調を用いたパッシブ非視線イメージング

Passive Non-Line-of-Sight Imaging with Light Transport Modulation ( http://arxiv.org/abs/2312.16014v1 )

ライセンス: Link先を確認
Jiarui Zhang, Ruixu Geng, Xiaolong Du, Yan Chen, Houqiang Li, Yang Hu(参考訳) パッシブ非視線画像(NLOS)は、視界外にある物体を撮影できるため、近年急速に発達している。 光輸送条件は、条件の変更が異なる撮像モデルにつながるため、このタスクにおいて重要な役割を果たす。 既存の学習ベースのnlos法は、通常、異なる光輸送条件のための独立したモデルを訓練するが、計算効率が悪く、モデルの実用性を損なう。 本研究では,複数の光輸送条件を単一のネットワークで効果的に処理する新しい受動NLOSイメージング手法であるNLOS-LTMを提案する。 我々は、投影画像から潜在光輸送表現を推測し、この表現を用いて、投影画像から隠された画像を再構成するネットワークを変調する。 我々は光輸送エンコーダをベクトル量子化器と共に訓練し、光輸送表現を得る。 この表現をさらに規制するために、トレーニング中に再構築ネットワークと再計画ネットワークの両方を共同で学習する。 光輸送変調ブロックのセットは、2つの共同訓練ネットワークをマルチスケールで変調するために使用される。 大規模受動的NLOSデータセットの大規模な実験により,提案手法の優位性を実証した。 コードはhttps://github.com/JerryOctopus/NLOS-LTMで公開されている。

Passive non-line-of-sight (NLOS) imaging has witnessed rapid development in recent years, due to its ability to image objects that are out of sight. The light transport condition plays an important role in this task since changing the conditions will lead to different imaging models. Existing learning-based NLOS methods usually train independent models for different light transport conditions, which is computationally inefficient and impairs the practicality of the models. In this work, we propose NLOS-LTM, a novel passive NLOS imaging method that effectively handles multiple light transport conditions with a single network. We achieve this by inferring a latent light transport representation from the projection image and using this representation to modulate the network that reconstructs the hidden image from the projection image. We train a light transport encoder together with a vector quantizer to obtain the light transport representation. To further regulate this representation, we jointly learn both the reconstruction network and the reprojection network during training. A set of light transport modulation blocks is used to modulate the two jointly trained networks in a multi-scale way. Extensive experiments on a large-scale passive NLOS dataset demonstrate the superiority of the proposed method. The code is available at https://github.com/JerryOctopus/NLOS-LTM.
翻訳日:2023-12-27 15:07:48 公開日:2023-12-26
# 4つの一重項量子ビットの普遍制御

Universal control of four singlet-triplet qubits ( http://arxiv.org/abs/2312.16101v1 )

ライセンス: Link先を確認
Xin Zhang, Elizaveta Morozova, Maximilian Rimbach-Russ, Daniel Jirovec, Tzu-Kan Hsiao, Pablo Cova Fari\~na, Chien-An Wang, Stefan D. Oosterhout, Amir Sammak, Giordano Scappucci, Menno Veldhorst, Lieven M. K. Vandersypen(参考訳) 半導体量子ドットにおける相互作用スピンのコヒーレント制御は、量子情報処理だけでなく、ボトムアップからの量子磁気の研究にも強い関心を持つ。 スピンスピン結合はゲート電圧によって独立に制御できるが, 非線形性やクロストークは, 過去数年で進行が鈍化している。 ここでは、近接するスピン間の完全かつ制御可能な相互作用を持つゲルマニウム量子ドットアレイについて述べる。 制御レベルを実証するため、本システムでは4つのシングルトリップキュービットを定義し、隣接する全てのキュービットペア間の全てのキュービットとSWAPスタイルの2ビットゲートの2軸シングルキュービット制御を示す。 これらの演算を組み合わせることで、配列間の絡み合いを発生・分散する回路を実験的に実装する。 これらの結果は、量子コンピューティングの競合するプラットフォームとしてのシングルトリップキュービットの可能性を強調し、拡張双線形アレイにおける量子ドットスピンの制御のスケールアップが可能であることを示す。

The coherent control of interacting spins in semiconductor quantum dots is of strong interest for quantum information processing as well as for studying quantum magnetism from the bottom up. On paper, individual spin-spin couplings can be independently controlled through gate voltages, but nonlinearities and crosstalk introduce significant complexity that has slowed down progress in past years. Here, we present a $2\times4$ germanium quantum dot array with full and controllable interactions between nearest-neighbor spins. As a demonstration of the level of control, we define four singlet-triplet qubits in this system and show two-axis single-qubit control of all qubits and SWAP-style two-qubit gates between all neighbouring qubit pairs. Combining these operations, we experimentally implement a circuit designed to generate and distribute entanglement across the array. These results highlight the potential of singlet-triplet qubits as a competing platform for quantum computing and indicate that scaling up the control of quantum dot spins in extended bilinear arrays can be feasible.
翻訳日:2023-12-27 15:00:56 公開日:2023-12-26
# LangSplat: 3D言語ガウススティング

LangSplat: 3D Language Gaussian Splatting ( http://arxiv.org/abs/2312.16084v1 )

ライセンス: Link先を確認
Minghan Qin, Wanhua Li, Jiawei Zhou, Haoqian Wang, Hanspeter Pfister(参考訳) 人間は3dの世界に住んでおり、自然言語を使って3dシーンと対話する。 3dでオープンソースの言語クエリをサポートするための3d言語フィールドのモデリングが最近注目を集めている。 本稿では,3次元空間内でのオープン語彙クエリを高精度かつ効率的に行える3次元言語フィールドを構築するLangSplatを紹介する。 NeRFモデルにCLIP言語を埋め込む既存の方法とは異なり、LangSplatは言語分野を表現するためにCLIPから蒸留された3Dガウシアン(英語版)のコレクションを利用して、フィールドを前進させる。 タイルベースのスプラッティング技術を用いて言語特徴をレンダリングすることで、NeRF固有のコストのかかるレンダリングプロセスを回避できる。 CLIPの埋め込みを直接学習する代わりに、LangSplatはまずシーンワイドな言語オートエンコーダをトレーニングし、次にシーン固有の潜在空間で言語機能を学ぶ。 既存のメソッドは不正確で曖昧な3D言語フィールドに苦しむため、オブジェクト間の明確な境界を識別できない。 この問題を掘り下げ,SAMを用いて階層的意味論を学習することを提案する。これにより,さまざまなスケールで言語フィールドを広範囲に問い合わせる必要がなくなり,DINO機能の正規化も不要になる。 オープンボキャブラリ3Dオブジェクトの局所化とセマンティックセグメンテーションに関する大規模な実験により、LangSplatは従来の最先端手法LERFよりも大きなマージンで優れていることが示された。 特に、LangSplatは非常に効率的で、LERFに比べて1440$\times$1080の解像度で$\times$スピードアップを達成する。 ビデオの結果はhttps://langsplat.github.ioで確認することを強く推奨します。

Human lives in a 3D world and commonly uses natural language to interact with a 3D scene. Modeling a 3D language field to support open-ended language queries in 3D has gained increasing attention recently. This paper introduces LangSplat, which constructs a 3D language field that enables precise and efficient open-vocabulary querying within 3D spaces. Unlike existing methods that ground CLIP language embeddings in a NeRF model, LangSplat advances the field by utilizing a collection of 3D Gaussians, each encoding language features distilled from CLIP, to represent the language field. By employing a tile-based splatting technique for rendering language features, we circumvent the costly rendering process inherent in NeRF. Instead of directly learning CLIP embeddings, LangSplat first trains a scene-wise language autoencoder and then learns language features on the scene-specific latent space, thereby alleviating substantial memory demands imposed by explicit modeling. Existing methods struggle with imprecise and vague 3D language fields, which fail to discern clear boundaries between objects. We delve into this issue and propose to learn hierarchical semantics using SAM, thereby eliminating the need for extensively querying the language field across various scales and the regularization of DINO features. Extensive experiments on open-vocabulary 3D object localization and semantic segmentation demonstrate that LangSplat significantly outperforms the previous state-of-the-art method LERF by a large margin. Notably, LangSplat is extremely efficient, achieving a {\speed} $\times$ speedup compared to LERF at the resolution of 1440 $\times$ 1080. We strongly recommend readers to check out our video results at https://langsplat.github.io
翻訳日:2023-12-27 15:00:37 公開日:2023-12-26
# 動的遅延グラフ誘導ニューラルテンポラルポイントプロセス

Dynamic Latent Graph-Guided Neural Temporal Point Processes ( http://arxiv.org/abs/2312.16083v1 )

ライセンス: Link先を確認
Sikun Yang, Hongyuan Zha(参考訳) 連続的に観測された事象の発生は、しばしば自己および相互に興奮する効果を示し、時間的ポイントプロセスを使ってうまくモデル化できる。 さらに、これらのイベントのダイナミクスは、周期的なトレンドとともに、時間とともに変化する可能性がある。 このような時間的ダイナミクスの混合を捕捉する新しい変分自動エンコーダを提案する。 より具体的には、入力シーケンスの全時間間隔を一連のサブインターバルに分割する。 イベントダイナミクスは各サブインターバル内で静止していると仮定されるが、サブインターバル間で変更される可能性がある。 特に、逐次潜在変数モデルを用いて、観測された次元間の依存グラフを各サブインターバル毎に学習する。 このモデルは、学習された依存関係グラフを使用して過去のイベントの非帰結的影響を取り除くことで、将来のイベントタイムを予測する。 提案手法では,実世界のイベントシーケンスにおけるイベント時間とイベントタイプを予測する際の精度を,既存のニューラルポイントプロセスと比較して高い精度で示している。

Continuously-observed event occurrences, often exhibit self- and mutually-exciting effects, which can be well modeled using temporal point processes. Beyond that, these event dynamics may also change over time, with certain periodic trends. We propose a novel variational auto-encoder to capture such a mixture of temporal dynamics. More specifically, the whole time interval of the input sequence is partitioned into a set of sub-intervals. The event dynamics are assumed to be stationary within each sub-interval, but could be changing across those sub-intervals. In particular, we use a sequential latent variable model to learn a dependency graph between the observed dimensions, for each sub-interval. The model predicts the future event times, by using the learned dependency graph to remove the noncontributing influences of past events. By doing so, the proposed model demonstrates its higher accuracy in predicting inter-event times and event types for several real-world event sequences, compared with existing state of the art neural point processes.
翻訳日:2023-12-27 15:00:03 公開日:2023-12-26
# 量子カルマン分解:グラミアン行列のアプローチ

The Quantum Kalman Decomposition: A Gramian Matrix Approach ( http://arxiv.org/abs/2312.16082v1 )

ライセンス: Link先を確認
Guofeng Zhang and Jinghao Li and Zhiyuan Dong and Ian R. Petersen(参考訳) 量子線形系のカルマン正準形式は \cite{zgpg18} で導かれる。 本論文の目的は,グラミアン行列を用いた代替微分法を提案することである。 可制御性と可観測性 グラミアン行列は、様々な部分空間を特徴づけるために用いられる線形量子系に対して定義される。 これらの特徴に基づいて、実直交およびブロックシンプレクティック座標変換行列を構築し、与えられた量子線型系をカルマン標準形式に変換する。 主な結果を説明するのに例を挙げる。

The Kalman canonical form for quantum linear systems was derived in \cite{ZGPG18}. The purpose of this paper is to present an alternative derivation by means of a Gramian matrix approach. Controllability and observability Gramian matrices are defined for linear quantum systems, which are used to characterize various subspaces. Based on these characterizations, real orthogonal and block symplectic coordinate transformation matrices are constructed to transform a given quantum linear system to the Kalman canonical form. An example is used to illustrate the main results.
翻訳日:2023-12-27 14:59:48 公開日:2023-12-26
# 2次元量子ウォークにおける障害に対する1次元よりも強いレジリエンス

Stronger resilience to disorder in 2D quantum walks than in 1D ( http://arxiv.org/abs/2312.16076v1 )

ライセンス: Link先を確認
Amrita Mandal and Ujjwal Sen(参考訳) 本研究では2次元離散時間量子ウォークの拡散挙動とジャンプ長のガラス性障害について検討した。 我々は、障害を模倣する異なる離散確率分布と、3種類のコイン演算子(viz., Grover, Fourier, Hadamard)について、障害平均拡散のスケール指数を分析する。 クリーンウォークの弾道的拡散は障害の存在下で抑制され, ウォークはサブボール的になるが, 超拡散的のままである。 障害による抑制に対する弾力性は、コイン操作が考慮される2次元歩行において、1次元において同じものに比べて強い。 したがって、量子ウォークの量子長所は1よりも2次元においてより安全である。

We study the response of spreading behavior, of two-dimensional discrete-time quantum walks, to glassy disorder in the jump length. We consider different discrete probability distributions to mimic the disorder, and three types of coin operators, viz., Grover, Fourier, and Hadamard, to analyze the scale exponent of the disorder-averaged spreading. We find that the ballistic spreading of the clean walk is inhibited in presence of disorder, and the walk becomes sub-ballistic but remains super-diffusive. The resilience to disorder-induced inhibition is stronger in two-dimensional walks, for all the considered coin operations, in comparison to the same in one dimension. The quantum advantage of quantum walks is therefore more secure in two dimensions than in one.
翻訳日:2023-12-27 14:59:38 公開日:2023-12-26
# スプリットウェイト埋め込みによる系統樹の教師なし学習

Unsupervised Learning of Phylogenetic Trees via Split-Weight Embedding ( http://arxiv.org/abs/2312.16074v1 )

ライセンス: Link先を確認
Yibo Kong, George P. Tiley, Claudia Solis-Lemus(参考訳) 教師なし学習は、広範囲のドメインアプリケーションにわたるデータのクラスタリングパターンの識別に成功し、古典的な機械学習の基盤となっている。 驚くべきことに、その正確さとエレガントさにもかかわらず、系統樹推定の領域では教師なし学習が十分に活用されていない。 系統学における教師なし学習の導入が遅れた主な理由は、系統樹をベクトル空間に埋め込む意味があるが単純な方法がないことである。 そこで本研究では,標準的なクラスタリングアルゴリズムを系統樹の空間に適合させる,シンプルな分割重み付き埋め込みを提案する。 シミュレーションデータと実データ(アダノニア・バオバブ)データにおいて,我々は分割重み付き組込みクラスタリングにより有意義な進化的関係を回復できることを示した。

Unsupervised learning has become a staple in classical machine learning, successfully identifying clustering patterns in data across a broad range of domain applications. Surprisingly, despite its accuracy and elegant simplicity, unsupervised learning has not been sufficiently exploited in the realm of phylogenetic tree inference. The main reason for the delay in adoption of unsupervised learning in phylogenetics is the lack of a meaningful, yet simple, way of embedding phylogenetic trees into a vector space. Here, we propose the simple yet powerful split-weight embedding which allows us to fit standard clustering algorithms to the space of phylogenetic trees. We show that our split-weight embedded clustering is able to recover meaningful evolutionary relationships in simulated and real (Adansonia baobabs) data.
翻訳日:2023-12-27 14:59:24 公開日:2023-12-26
# スパイクニューラルネットワークによる偏光からのイベントベース形状

Event-based Shape from Polarization with Spiking Neural Networks ( http://arxiv.org/abs/2312.16071v1 )

ライセンス: Link先を確認
Peng Kang, Srutarshi Banerjee, Henry Chopp, Aggelos Katsaggelos, and Oliver Cossairt(参考訳) 偏光からの事象に基づく形状決定の最近の進歩は、表面測地における速度と精度のトレードオフに取り組む変換的アプローチを提供する。 本稿では,スパイクニューラルネットワーク(snn)を用いた偏光からのイベントベース形状について検討し,単一時間ステップと複数時間ステップスパイクunetsを有効かつ効率的な表面正規推定に導入する。 具体的には、Single-Timestepモデルがイベントベースの形状を非時間的タスクとして処理し、各スパイキングニューロンの膜電位を1回だけ更新することで、計算とエネルギーの要求を減らす。 対照的に、Multi-Timestepモデルは、データ抽出の強化のために時間ダイナミクスを利用する。 合成および実世界のデータセットに対する広範囲な評価は、我々のモデルは、より優れたエネルギー効率の利点を生かして、表面の正常を推定する最先端の人工ニューラルネットワーク(ANN)の性能と一致していることを示している。 我々の研究は、イベントベースセンシングにおけるSNNの進歩に寄与するだけでなく、SNNアーキテクチャの最適化、マルチモーダルデータの統合、ニューロモーフィックハードウェア上のアプリケーションのスケーリングにおける将来の探索のステージにも貢献する。

Recent advances in event-based shape determination from polarization offer a transformative approach that tackles the trade-off between speed and accuracy in capturing surface geometries. In this paper, we investigate event-based shape from polarization using Spiking Neural Networks (SNNs), introducing the Single-Timestep and Multi-Timestep Spiking UNets for effective and efficient surface normal estimation. Specificially, the Single-Timestep model processes event-based shape as a non-temporal task, updating the membrane potential of each spiking neuron only once, thereby reducing computational and energy demands. In contrast, the Multi-Timestep model exploits temporal dynamics for enhanced data extraction. Extensive evaluations on synthetic and real-world datasets demonstrate that our models match the performance of state-of-the-art Artifical Neural Networks (ANNs) in estimating surface normals, with the added advantage of superior energy efficiency. Our work not only contributes to the advancement of SNNs in event-based sensing but also sets the stage for future explorations in optimizing SNN architectures, integrating multi-modal data, and scaling for applications on neuromorphic hardware.
翻訳日:2023-12-27 14:59:11 公開日:2023-12-26
# ChatGPTはあなたが誰だか読めるか?

Can ChatGPT Read Who You Are? ( http://arxiv.org/abs/2312.16070v1 )

ライセンス: Link先を確認
Erik Derner, Dalibor Ku\v{c}era, Nuria Oliver, Jan Zah\'alka(参考訳) 人工知能(AI)と心理学の相互作用は、特に人格評価において重要な研究分野である。 人-コンピュータインタラクションにおけるパーソナライズを高めるだけでなく、メンタルヘルスから教育まで幅広い応用のためにも、正確な性格特性推定が不可欠である。 本稿では、チャットボットChatGPTの短文から人格特性を効果的に推測する能力について分析する。 チェコ語で書かれたテキストを代表とする総合的なユーザスタディの結果を155人のサンプルで報告した。 The Big Five Inventory (BFI) のアンケートに基づく自己評価が根拠となる。 本研究は,ChatGPTによる性格特性推定と人間による評価とを比較し,テキストから人格特性を推定する際のChatGPTの競争性能を報告する。 また,ChatGPTの評価における「肯定的バイアス」をすべての個性次元にわたって発見し,素早い構成が正確性に与える影響を探る。 この研究は、心理評価におけるAI能力の理解に寄与し、人格推論に大規模言語モデルを使用することの可能性と限界の両方を強調している。 我々の研究は、プライバシ、同意、自律性、AIアプリケーションにおけるバイアスといった倫理的意味を考慮し、責任あるAI開発の重要性を強調しています。

The interplay between artificial intelligence (AI) and psychology, particularly in personality assessment, represents an important emerging area of research. Accurate personality trait estimation is crucial not only for enhancing personalization in human-computer interaction but also for a wide variety of applications ranging from mental health to education. This paper analyzes the capability of a generic chatbot, ChatGPT, to effectively infer personality traits from short texts. We report the results of a comprehensive user study featuring texts written in Czech by a representative population sample of 155 participants. Their self-assessments based on the Big Five Inventory (BFI) questionnaire serve as the ground truth. We compare the personality trait estimations made by ChatGPT against those by human raters and report ChatGPT's competitive performance in inferring personality traits from text. We also uncover a 'positivity bias' in ChatGPT's assessments across all personality dimensions and explore the impact of prompt composition on accuracy. This work contributes to the understanding of AI capabilities in psychological assessment, highlighting both the potential and limitations of using large language models for personality inference. Our research underscores the importance of responsible AI development, considering ethical implications such as privacy, consent, autonomy, and bias in AI applications.
翻訳日:2023-12-27 14:58:50 公開日:2023-12-26
# ソースコード要約のためのプロンプト学習フレームワーク

A Prompt Learning Framework for Source Code Summarization ( http://arxiv.org/abs/2312.16066v1 )

ライセンス: Link先を確認
Weisong Sun and Chunrong Fang and Yudu You and Yuchen Chen and Yi Liu and Chong Wang and Jian Zhang and Quanjun Zhang and Hanwei Qian and Wei Zhao and Yang Liu and Zhenyu Chen(参考訳) ソース) コード要約は、与えられたコードスニペットの自然言語要約を自動的に生成するタスクです。 このような要約は、開発者がソースコードを理解し維持するのを手助けする上で重要な役割を果たす。 近年,大規模言語モデル (LLM) の多くの分野への応用が成功し,ソフトウェア工学研究者はLLMをコード要約タスクに適応させようと試みている。 主な適応方式は命令プロンプトとタスク指向の微調整である。 しかし、命令プロンプトはゼロショット学習のための巧妙なプロンプトを設計したり、数ショット学習のための適切なサンプルを選択することを含み、ユーザーはプロのドメイン知識を必要とする。 本稿では,PromptCSと呼ばれるコード要約のための新しいプロンプト学習フレームワークを提案する。 PromptCSは、コード要約においてLLMのポテンシャルを解放するために連続的なプロンプトを生成するプロンプトエージェントを訓練する。 人間によって書かれた離散的なプロンプトと比較して、連続的なプロンプトはLLMの指導の下で生成され、LLMによって理解しやすい。 PromptCSは、プロンプトエージェントのトレーニング時にLCMのパラメータを凍結する。 複数のプログラミング言語を含むCodeSearchNetデータセット上でPromptCSを評価する。 その結果、PromptCSは4つの広く使用されている指標の全てにおいて、命令のプロンプトスキームを著しく上回っていることがわかった。 例えば CodeGen-Multi-2B や StarCoderBase-1B や -3B といった基本的な LLM では、PromptCS はタスク指向の微調整方式よりも優れています。 さらに重要なことに、PromptCSのトレーニング効率はタスク指向の微調整方式よりも高速であり、より大きなLLMに対してより顕著な利点がある。 人的評価の結果,プロンプトクチャはベースラインよりも優れた要約を生成できることが示されている。

(Source) code summarization is the task of automatically generating natural language summaries for given code snippets. Such summaries play a key role in helping developers understand and maintain source code. Recently, with the successful application of large language models (LLMs) in numerous fields, software engineering researchers have also attempted to adapt LLMs to solve code summarization tasks. The main adaptation schemes include instruction prompting and task-oriented fine-tuning. However, instruction prompting involves designing crafted prompts for zero-shot learning or selecting appropriate samples for few-shot learning and requires users to have professional domain knowledge, while task-oriented fine-tuning requires high training costs. In this paper, we propose a novel prompt learning framework for code summarization called PromptCS. PromptCS trains a prompt agent that can generate continuous prompts to unleash the potential for LLMs in code summarization. Compared to the human-written discrete prompt, the continuous prompts are produced under the guidance of LLMs and are therefore easier to understand by LLMs. PromptCS freezes the parameters of LLMs when training the prompt agent, which can greatly reduce the requirements for training resources. We evaluate PromptCS on the CodeSearchNet dataset involving multiple programming languages. The results show that PromptCS significantly outperforms instruction prompting schemes on all four widely used metrics. In some base LLMs, e.g., CodeGen-Multi-2B and StarCoderBase-1B and -3B, PromptCS even outperforms the task-oriented fine-tuning scheme. More importantly, the training efficiency of PromptCS is faster than the task-oriented fine-tuning scheme, with a more pronounced advantage on larger LLMs. The results of the human evaluation demonstrate that PromptCS can generate more good summaries compared to baselines.
翻訳日:2023-12-27 14:58:29 公開日:2023-12-26
# ニューラルネットワークのエラーのないトレーニング

Error-free Training for Artificial Neural Network ( http://arxiv.org/abs/2312.16060v1 )

ライセンス: Link先を確認
Bo Deng(参考訳) ニューラルネットワーク(ANN)モデルの従来のトレーニング方法は、大規模データに対して体系的にゼロエラー率を達成できない。 A new training method consists of three steps: first create an auxiliary data from conventionally trained parameters which correspond exactly to a global minimum for the loss function of the cloned data; second create a one-parameter homotopy (hybrid) of the auxiliary data and the original data; and third train the model for the hybrid data iteratively from the auxiliary data end of the homotopy parameter to the original data end while maintaining the zero-error training rate at every iteration. この継続法は、ANNのトレーニング問題を力学系から一様収縮写像定理を適用する訓練パラメータ空間におけるパラメータ化変換の固定点に対する継続問題に変換する定理により数値的に収束することが保証される。

Conventional training methods for artificial neural network (ANN) models never achieve zero error rate systematically for large data. A new training method consists of three steps: first create an auxiliary data from conventionally trained parameters which correspond exactly to a global minimum for the loss function of the cloned data; second create a one-parameter homotopy (hybrid) of the auxiliary data and the original data; and third train the model for the hybrid data iteratively from the auxiliary data end of the homotopy parameter to the original data end while maintaining the zero-error training rate at every iteration. This continuationmethod is guaranteed to converge numerically by a theorem which converts the ANN training problem into a continuation problem for fixed points of a parameterized transformation in the training parameter space to which the Uniform Contraction Mapping Theorem from dynamical systems applies.
翻訳日:2023-12-27 14:57:56 公開日:2023-12-26
# 準分布表現における非古典性の深層学習

Deep learning the nonclassicality within quasi-distribution representations from marginals ( http://arxiv.org/abs/2312.16055v1 )

ライセンス: Link先を確認
Hong-Bin Chen, Cheng-Hua Liu, Kuan-Lun Lai, Bor-Yann Tseng, Ping-Yuan Lo, Yueh-Nan Chen, Chi-Hua Yu(参考訳) 真の量子性と古典性を明確に区別するために、広く採用されているアプローチは、結合準分布表現における負性に対して、非古典的本質の説得力のある証拠としてアピールする。 しかし、実験データから負性のある準分布を構成することは、通常非常に困難であることが証明される。 本稿では,カラーマッピングと統合された深層生成モデルを用いた計算手法を提案する。 まず, 熱雑音を受けるウィグナー関数の予測に本モデルを適用した。 我々のモデルは確率分布の3つの限界を処理し、ワイナー関数を顕著な精度で予測する。 我々はまた、力学過程の非古典性を特徴づけるために開発された標準ハミルトンアンサンブル表現(CHER)の挑戦的な問題に取り組む。 さらに,cher問題の基底欠陥を克服するためのモデル学習のための最適な合成データセットも設計した。 物理インフォームド最適化は,合成データを用いてトレーニングしながら,非古典性に対する熱ゆらぎの有害な影響を捉えることができる。 このアプローチは、量子状態のウィグナー関数を構築する実験的な努力を大幅に削減する。

To unequivocally distinguish the genuine quantumness from classicality, a widely adopted approach appeals to the negativity within a join quasi-distribution representation as a compelling evidence for the nonclassical essence. However, to construct a joint quasi-distribution with negativity from experimental data typically proves to be highly cumbersome. Here we propose a computational approach utilizing a deep generative model integrated with color mapping to construct the bivariate joint quasi-distribution functions by processing three marginals. We first apply our model to predict the Wigner functions subject to thermal noises. Our model successfully predicts the Wigner functions with a prominent accuracy by processing three marginals of probability distributions. We also tackle a challenging problem of the canonical Hamiltonian ensemble representation (CHER), which is developed for characterizing the dynamical process nonclassicality. Furthermore, we also design optimal synthetic datasets to train the model for overcoming the ground-truth deficiency of the CHER problem. While trained with synthetic data, the physics-informed optimization enables our model to capture the detrimental effect of the thermal fluctuations on nonclassicality. Our approach also provides a significant reduction of the experimental efforts of constructing the Wigner functions of quantum states.
翻訳日:2023-12-27 14:57:44 公開日:2023-12-26
# ステンス検出のための論理的に一貫性のあるチェーン・オブ・サートアプローチ

A Logically Consistent Chain-of-Thought Approach for Stance Detection ( http://arxiv.org/abs/2312.16054v1 )

ライセンス: Link先を確認
Bowen Zhang, Daijun Ding, Liwen Jing and Hu Huang(参考訳) ゼロショット姿勢検出(ZSSD)は、見えない標的に対する姿勢を検出することを目的としている。 視野と見えない対象間の伝達可能性を高めるために背景知識を組み込むことが、ZSSDの主要なアプローチである。 しかし、これらの手法は、しばしば知識とタスクの切り離しに苦労し、その予測に論理的一貫性を欠いている。 これらの問題に対処するために,ZSSDのためのLC-CoT(Logically Consistent Chain-of-Thought)という新しいアプローチを導入する。 LC-CoTは3段階のプロセスを採用している。 当初は補足的な外部知識が必要かどうかを評価する。 その後、APIコールを使用してこの知識を検索し、別個のLLMで処理できる。 最後に、手動の見習い者がLLMを誘導して姿勢カテゴリーを推論し、if-then論理構造を用いて関連性と論理コヒーレンスを維持する。 背景知識を排除するこの構造化アプローチは、従来の教師付きメソッドよりもラベル付きデータに頼ることなく、モデルの能力を高める。

Zero-shot stance detection (ZSSD) aims to detect stances toward unseen targets. Incorporating background knowledge to enhance transferability between seen and unseen targets constitutes the primary approach of ZSSD. However, these methods often struggle with a knowledge-task disconnect and lack logical consistency in their predictions. To address these issues, we introduce a novel approach named Logically Consistent Chain-of-Thought (LC-CoT) for ZSSD, which improves stance detection by ensuring relevant and logically sound knowledge extraction. LC-CoT employs a three-step process. Initially, it assesses whether supplementary external knowledge is necessary. Subsequently, it uses API calls to retrieve this knowledge, which can be processed by a separate LLM. Finally, a manual exemplar guides the LLM to infer stance categories, using an if-then logical structure to maintain relevance and logical coherence. This structured approach to eliciting background knowledge enhances the model's capability, outperforming traditional supervised methods without relying on labeled data.
翻訳日:2023-12-27 14:57:24 公開日:2023-12-26
# インターX:人間と人間の対話分析に向けて

Inter-X: Towards Versatile Human-Human Interaction Analysis ( http://arxiv.org/abs/2312.16051v1 )

ライセンス: Link先を確認
Liang Xu, Xintao Lv, Yichao Yan, Xin Jin, Shuwen Wu, Congsheng Xu, Yifan Liu, Yizhou Zhou, Fengyun Rao, Xingdong Sheng, Yunhui Liu, Wenjun Zeng, Xiaokang Yang(参考訳) ユビキタスな人間と人間の相互作用の分析は、人間を社会的存在として理解する上で重要である。 既存の人間と人間のインタラクションデータセットは通常、不正確な体の動き、手のジェスチャーの欠如、きめ細かいテキスト記述に苦しむ。 人間のインタラクションをよりよく知覚し、生成するために、現在最大の人間と人間のインタラクションデータセットであるInter-Xを提案する。 データセットは、約11Kの相互作用シーケンスと8.1Mフレームを含む。 また、inter-xには、34k以上の精細な人間の部分レベルのテキスト記述、意味的相互作用カテゴリ、相互作用順序、主題の関係と個性に関する多彩なアノテーションも装備する。 精巧なアノテーションに基づいて,認識方向と生成方向の両方から,下流タスクの4つのカテゴリからなる統一ベンチマークを提案する。 広範な実験と包括的な分析により、inter-xは多用途な人間-人間間相互作用解析の開発を促進するためのテストベッドとして機能することが示された。 私たちのデータセットとベンチマークは、研究目的で公開されます。

The analysis of the ubiquitous human-human interactions is pivotal for understanding humans as social beings. Existing human-human interaction datasets typically suffer from inaccurate body motions, lack of hand gestures and fine-grained textual descriptions. To better perceive and generate human-human interactions, we propose Inter-X, a currently largest human-human interaction dataset with accurate body movements and diverse interaction patterns, together with detailed hand gestures. The dataset includes ~11K interaction sequences and more than 8.1M frames. We also equip Inter-X with versatile annotations of more than 34K fine-grained human part-level textual descriptions, semantic interaction categories, interaction order, and the relationship and personality of the subjects. Based on the elaborate annotations, we propose a unified benchmark composed of 4 categories of downstream tasks from both the perceptual and generative directions. Extensive experiments and comprehensive analysis show that Inter-X serves as a testbed for promoting the development of versatile human-human interaction analysis. Our dataset and benchmark will be publicly available for research purposes.
翻訳日:2023-12-27 14:57:04 公開日:2023-12-26
# 2次元誘導3次元ガウスセグメンテーション

2D-Guided 3D Gaussian Segmentation ( http://arxiv.org/abs/2312.16047v1 )

ライセンス: Link先を確認
Kun Lan, Haoran Li, Haolin Shi, Wenjun Wu, Yong Liao, Lin Wang, Pengyuan Zhou(参考訳) 近年, 3D Gaussianは3D表現法として, 複雑なシーンや訓練期間の表現において, NeRF (Neural Radiance Fields) に対して強い競争力を示している。 これらの利点は、3d理解と編集における3dガウスの幅広い応用を示唆する。 一方、3dガウス人のセグメンテーションはまだ初期段階にある。 既存のセグメンテーション手法は面倒なだけでなく、短時間で複数のオブジェクトを同時にセグメンテーションすることができない。 そこで本稿では,2次元セグメント化を監督として実装した3次元ガウスセグメンテーション手法を提案する。 このアプローチは入力2次元セグメンテーションマップを用いて付加された3次元ガウス意味情報の学習を誘導する一方、近接クラスタリングと統計的フィルタリングはセグメンテーション結果を洗練する。 実験により,従来の単一対象セグメンテーション法であるマルチオブジェクトセグメンテーションに対して,miouとmaccで同等の性能が得られることを示した。

Recently, 3D Gaussian, as an explicit 3D representation method, has demonstrated strong competitiveness over NeRF (Neural Radiance Fields) in terms of expressing complex scenes and training duration. These advantages signal a wide range of applications for 3D Gaussians in 3D understanding and editing. Meanwhile, the segmentation of 3D Gaussians is still in its infancy. The existing segmentation methods are not only cumbersome but also incapable of segmenting multiple objects simultaneously in a short amount of time. In response, this paper introduces a 3D Gaussian segmentation method implemented with 2D segmentation as supervision. This approach uses input 2D segmentation maps to guide the learning of the added 3D Gaussian semantic information, while nearest neighbor clustering and statistical filtering refine the segmentation results. Experiments show that our concise method can achieve comparable performances on mIOU and mAcc for multi-object segmentation as previous single-object segmentation methods.
翻訳日:2023-12-27 14:56:46 公開日:2023-12-26
# adanas: 自己教師付きニューラルネットワークによる適応的後処理による降雨予測

AdaNAS: Adaptively Post-processing with Self-supervised Neural Architecture Search for Ensemble Rainfall Forecasts ( http://arxiv.org/abs/2312.16046v1 )

ライセンス: Link先を確認
Yingpeng Wen, Weijiang Yu, Fudan Zheng, Dan Huang, Nong Xiao(参考訳) 数値気象予報(NWP)を用いた降雨予測の過去の処理後調査では,統計に基づく側面が中心であったが,学習に基づく側面はめったに研究されていない。 手作業で設計したいくつかのモデルは精度を上げるために提案されているが、ネットワークをカスタマイズし、繰り返し試して検証する必要がある。 そこで本研究では,AdaNASと呼ばれる手作業を伴わない自己教師型ニューラルネットワーク探索手法を提案し,降雨予報を行い,高精度に降雨予測を行う。 さらに,降雨エリアの予測を大幅に改善する雨量対応検索空間を設計する。 さらに,訓練中の騒音データの影響をなくすための降雨レベル正規化関数を提案する。 TIGGEと命名された大規模な降水ベンチマーク上で, \emph{None}, \emph{Light}, \emph{Moderate}, \emph{Heavy}, \emph{Violent} の検証実験が行われた。 最後に,提案したAdaNASモデルの平均平均平均二乗誤差(MAE)と平均根平均二乗誤差(RMSE)はそれぞれ0.98mm/日である。 さらに、提案したAdaNASモデルは、他のニューラルネットワーク探索手法や過去の研究と比較される。 比較の結果,降水量予測と強度分類の観点から,提案モデルの性能と優越性が明らかとなった。 具体的には, AdaNAS モデルでは, MAE と RMSE を 80.5\% と 80.3\% に改善した。

Previous post-processing studies on rainfall forecasts using numerical weather prediction (NWP) mainly focus on statistics-based aspects, while learning-based aspects are rarely investigated. Although some manually-designed models are proposed to raise accuracy, they are customized networks, which need to be repeatedly tried and verified, at a huge cost in time and labor. Therefore, a self-supervised neural architecture search (NAS) method without significant manual efforts called AdaNAS is proposed in this study to perform rainfall forecast post-processing and predict rainfall with high accuracy. In addition, we design a rainfall-aware search space to significantly improve forecasts for high-rainfall areas. Furthermore, we propose a rainfall-level regularization function to eliminate the effect of noise data during the training. Validation experiments have been performed under the cases of \emph{None}, \emph{Light}, \emph{Moderate}, \emph{Heavy} and \emph{Violent} on a large-scale precipitation benchmark named TIGGE. Finally, the average mean-absolute error (MAE) and average root-mean-square error (RMSE) of the proposed AdaNAS model are 0.98 and 2.04 mm/day, respectively. Additionally, the proposed AdaNAS model is compared with other neural architecture search methods and previous studies. Compared results reveal the satisfactory performance and superiority of the proposed AdaNAS model in terms of precipitation amount prediction and intensity classification. Concretely, the proposed AdaNAS model outperformed previous best-performing manual methods with MAE and RMSE improving by 80.5\% and 80.3\%, respectively.
翻訳日:2023-12-27 14:56:30 公開日:2023-12-26
# jacolbert と hard negatives: 検索のための日本語ファースト組込みの改善に向けて--初期技術報告

JaColBERT and Hard Negatives, Towards Better Japanese-First Embeddings for Retrieval: Early Technical Report ( http://arxiv.org/abs/2312.16144v1 )

ライセンス: Link先を確認
Benjamin Clavi\'e(参考訳) 多くの言語における文書検索は多言語モデルに大きく依存しており、豊富な英語学習データを活用している。 日本語では、ディープラーニングに基づく検索は多言語密接な埋め込みに依存する。 本研究では,(1)日本語MMARCOデータセットの高負拡張版,(2)コルバートモデルに基づく文書検索モデルであるJaColBERTを紹介する。 jacolbertは以前のモノリンガル検索のアプローチを大きく上回っており、好ましくない評価設定(多言語モデルのドメイン外対ドメイン内)にもかかわらず、最高のマルチリンガルメソッドと競合する。 JaColBERT は 0.813 の平均 Recall@10 に達し、以前のモノリンガルの最高性能モデル (0.716) よりわずかに先行し、マルチリンガルの e5 ベース (0.820) よりわずかに遅れている。 これらの結果は,多言語埋め込みモデルよりも2桁以上小さい,限定的かつ完全に日本語の訓練セットのみを用いて達成される。 これらの結果は、広範囲のドメインで検索強化アプリケーションパイプラインをサポートすることを非常に約束していると考えています。

Document retrieval in many languages has been largely relying on multi-lingual models, and leveraging the vast wealth of English training data. In Japanese, the best performing deep-learning based retrieval approaches rely on multilingual dense embeddings. In this work, we introduce (1) a hard-negative augmented version of the Japanese MMARCO dataset and (2) JaColBERT, a document retrieval model built on the ColBERT model architecture, specifically for Japanese. JaColBERT vastly outperform all previous monolingual retrieval approaches and competes with the best multilingual methods, despite unfavourable evaluation settings (out-of-domain vs. in-domain for the multilingual models). JaColBERT reaches an average Recall@10 of 0.813, noticeably ahead of the previous monolingual best-performing model (0.716) and only slightly behind multilingual-e5-base (0.820), though more noticeably behind multilingual-e5-large (0.856). These results are achieved using only a limited, entirely Japanese, training set, more than two orders of magnitudes smaller than multilingual embedding models. We believe these results show great promise to support retrieval-enhanced application pipelines in a wide variety of domains.
翻訳日:2023-12-27 14:49:36 公開日:2023-12-26
# 交換のないSGDの軌道について

On the Trajectories of SGD Without Replacement ( http://arxiv.org/abs/2312.16143v1 )

ライセンス: Link先を確認
Pierfrancesco Beneventano(参考訳) 本稿では,SGD(Stochastic Gradient Descent)の暗黙的正則化効果について検討する。 我々は,大規模ニューラルネットワークの最適化に一般的に用いられる変種であるsgdを代替せずに検討する。 我々はこのアルゴリズムを、SGDの理論的研究で通常考慮されるよりも現実的な方法で分析し、例えば、学習率とヘッセンの積が$O(1)$であるようにした。 sgdを代替せずに最適化することは、新しい正規化子に新たなステップを加えることと局所的に等価である。 これは、置換のないsgdの軌道がノイズインジェクトgdとsgdの両方から置換(バッチをサンプリングしたi.i.d.)によって分岐することを意味する。 実際、2つのsgdは、異なる方向と異なる速度でロスランドスケープの平坦な領域を移動する。 期待では、置換のないSGDはサドルを著しく速く逃がし、分散が小さくなる可能性がある。 さらに、SGDは、小さく負のヘッセン固有値の固有方向におけるノイズ共分散のトレースを暗黙的に規則化する。 これは、フィッシャー行列とヘッセン行列の重み付きトレースをいくつかの視覚課題でペナルティ化することで一致し、それゆえ、以前の仕事からの経験的観察と一致して、ヘッセンの損失のスペクトルのスパーシティを助長する。 また、SGDが(GDとは対照的に)安定性の端で訓練されない理由についても説明する。

This article examines the implicit regularization effect of Stochastic Gradient Descent (SGD). We consider the case of SGD without replacement, the variant typically used to optimize large-scale neural networks. We analyze this algorithm in a more realistic regime than typically considered in theoretical works on SGD, as, e.g., we allow the product of the learning rate and Hessian to be $O(1)$. Our core theoretical result is that optimizing with SGD without replacement is locally equivalent to making an additional step on a novel regularizer. This implies that the trajectory of SGD without replacement diverges from both noise-injected GD and SGD with replacement (in which batches are sampled i.i.d.). Indeed, the two SGDs travel flat regions of the loss landscape in distinct directions and at different speeds. In expectation, SGD without replacement may escape saddles significantly faster and present a smaller variance. Moreover, we find that SGD implicitly regularizes the trace of the noise covariance in the eigendirections of small and negative Hessian eigenvalues. This coincides with penalizing a weighted trace of the Fisher Matrix and the Hessian on several vision tasks, thus encouraging sparsity in the spectrum of the Hessian of the loss in line with empirical observations from prior work. We also propose an explanation for why SGD does not train at the edge of stability (as opposed to GD).
翻訳日:2023-12-27 14:49:11 公開日:2023-12-26
# 統合O-RAN/MECオーケストレーションのための深部強化学習のベイズ的枠組み

A Bayesian Framework of Deep Reinforcement Learning for Joint O-RAN/MEC Orchestration ( http://arxiv.org/abs/2312.16142v1 )

ライセンス: Link先を確認
Fahri Wisnu Murti, Samad Ali, Matti Latva-aho(参考訳) マルチアクセスエッジコンピューティング(MEC)は、コモディティプラットフォーム上でOpen Radio Access Network(O-RAN)とともに実装され、低コストなデプロイメントを提供し、サービスをエンドユーザに近づける。 本稿では, ベイジアンディープ・強化学習(RL)を用いた共同O-RAN/MECオーケストレーション手法を提案し, 各O-RAN/MECデータフローにおけるO-RAN/MECサービスの機能分割, リソースの配分, ホスティング場所, および各O-RAN/MECデータフローのルーティングについて検討した。 目標は、O-RAN/MEC要求とリソース可用性に適応しつつ、ネットワーク全体の長期運用コストを最小化し、MECの性能基準を最大化することである。 このオーケストレーション問題はマルコフ決定過程(MDP)として定式化されている。 しかし、同じリソースを共有し、パラメータが非自明な関係を持つ異種要求に対処する複数のBSで構成されている。 したがって、基礎となるシステムの正確なモデルを見つけることは現実的ではなく、定式化されたMDPは多次元の離散的な作用を持つ大きな状態空間に描画する。 このようなモデリングや次元問題に対処するため,我々のソリューション・フレームワークに新しいモデルフリーなRLエージェントを提案する。 このエージェントは、大きな状態空間に取り組むdouble deep q-network (ddqn) から構築され、線形に増大する複雑性を持つ多次元離散アクションを効果的に扱うアクション・ブランチ法(action branching)に組み込まれている。 さらに, トムソンサンプリングを用いたベイズフレームワークによる効率的な探索探索戦略を提案し, 学習性能の向上と収束の促進を図る。 O-RAN準拠モデルを用いてトレース駆動シミュレーションを行う。 結果は,本手法がデータ効率(すなわち,より高速な収束)であり,返却報酬が非ベイズ版よりも32\%増加することを示す。

Multi-access Edge Computing (MEC) can be implemented together with Open Radio Access Network (O-RAN) over commodity platforms to offer low-cost deployment and bring the services closer to end-users. In this paper, a joint O-RAN/MEC orchestration using a Bayesian deep reinforcement learning (RL)-based framework is proposed that jointly controls the O-RAN functional splits, the allocated resources and hosting locations of the O-RAN/MEC services across geo-distributed platforms, and the routing for each O-RAN/MEC data flow. The goal is to minimize the long-term overall network operation cost and maximize the MEC performance criterion while adapting possibly time-varying O-RAN/MEC demands and resource availability. This orchestration problem is formulated as Markov decision process (MDP). However, the system consists of multiple BSs that share the same resources and serve heterogeneous demands, where their parameters have non-trivial relations. Consequently, finding the exact model of the underlying system is impractical, and the formulated MDP renders in a large state space with multi-dimensional discrete action. To address such modeling and dimensionality issues, a novel model-free RL agent is proposed for our solution framework. The agent is built from Double Deep Q-network (DDQN) that tackles the large state space and is then incorporated with action branching, an action decomposition method that effectively addresses the multi-dimensional discrete action with linear increase complexity. Further, an efficient exploration-exploitation strategy under a Bayesian framework using Thomson sampling is proposed to improve the learning performance and expedite its convergence. Trace-driven simulations are performed using an O-RAN-compliant model. The results show that our approach is data-efficient (i.e., converges faster) and increases the returned reward by 32\% than its non-Bayesian version.
翻訳日:2023-12-27 14:48:46 公開日:2023-12-26
# VirtualPainting:3次元物体検出のための仮想点と距離認識データ拡張による空間認識

VirtualPainting: Addressing Sparsity with Virtual Points and Distance-Aware Data Augmentation for 3D Object Detection ( http://arxiv.org/abs/2312.16141v1 )

ライセンス: Link先を確認
Sudip Dhakal, Dominic Carrillo, Deyuan Qu, Michael Nutt, Qing Yang, Song Fu(参考訳) 近年、オブジェクト検出性能を向上させるために、生のLiDAR点雲とカメラ固有の特徴を装飾するマルチモーダルアプローチが顕著に急増している。 しかし、この手法はlidar pointのクラウドデータの本質的なスパース性に依然として不満を抱いていることが分かりました。 本稿では,カメラ画像を用いた仮想ライダーポイントの生成と,画像に基づくセグメンテーションネットワークから得られる意味ラベルによる仮想ポイントの強化を行い,この問題に取り組み,分散した物体,特に遠方の物体の検出を容易にする革新的なアプローチを提案する。 さらに,dada ( distance aware data augmentation) 技術を統合し,特殊なトレーニングサンプルを生成することにより,分散オブジェクトを識別するモデルの能力を高める。 提案手法は,様々な3Dフレームワークと2Dセマンティックセマンティックセグメンテーション手法にシームレスに統合可能な汎用的ソリューションを提供する。 KITTIおよびnuScenesデータセットの評価は、3Dおよび鳥の目視(BEV)検出ベンチマークにおいて大幅に改善されていることを示す

In recent times, there has been a notable surge in multimodal approaches that decorates raw LiDAR point clouds with camera-derived features to improve object detection performance. However, we found that these methods still grapple with the inherent sparsity of LiDAR point cloud data, primarily because fewer points are enriched with camera-derived features for sparsely distributed objects. We present an innovative approach that involves the generation of virtual LiDAR points using camera images and enhancing these virtual points with semantic labels obtained from image-based segmentation networks to tackle this issue and facilitate the detection of sparsely distributed objects, particularly those that are occluded or distant. Furthermore, we integrate a distance aware data augmentation (DADA) technique to enhance the models capability to recognize these sparsely distributed objects by generating specialized training samples. Our approach offers a versatile solution that can be seamlessly integrated into various 3D frameworks and 2D semantic segmentation methods, resulting in significantly improved overall detection accuracy. Evaluation on the KITTI and nuScenes datasets demonstrates substantial enhancements in both 3D and birds eye view (BEV) detection benchmarks
翻訳日:2023-12-27 14:48:11 公開日:2023-12-26
# 異常成分分析

Anomaly component analysis ( http://arxiv.org/abs/2312.16139v1 )

ライセンス: Link先を確認
Romain Valla, Pavlo Mozharovskyi, Florence d'Alch\'e-Buc(参考訳) 機械学習とデータ分析のクロスウェイでは、異常検出は異常な振る舞いを示す観察を識別することを目的としている。 エラーの測定、病気の発生、厳しい天候、生産品質のデフォルト(イテム)、または設備の故障、金融詐欺、危機イベントなど、そのオンタイムでの識別と隔離は、産業や科学のほぼあらゆる分野において重要なタスクである。 かなりの量の文献が異常の検出に費やされているが、それらの説明にはほとんど注意が払わない。 これは、主に主成分分析(pca)のような探索的メソッドの非教師なし性と非ロバスト性によって引き起こされる。 本研究では,データ深度をスコアとして,異常観測の探索的分析を行うための新しい統計ツールを提案する。 異常成分分析(英: anomaly component analysis、略称: aca)は、異常を最も可視化し説明する低次元データ表現を検索する手法である。 この低次元表現は、芸術的状態の方法よりも優れた異常群の識別を可能にするだけでなく、変数の線形であり、したがって容易に解釈可能な異常の説明を提供する。 比較シミュレーションおよび実データ研究において、ACAは文献に存在する手法に関して異常解析に有利であることを示す。

At the crossway of machine learning and data analysis, anomaly detection aims at identifying observations that exhibit abnormal behaviour. Be it measurement errors, disease development, severe weather, production quality default(s) (items) or failed equipment, financial frauds or crisis events, their on-time identification and isolation constitute an important task in almost any area of industry and science. While a substantial body of literature is devoted to detection of anomalies, little attention is payed to their explanation. This is the case mostly due to intrinsically non-supervised nature of the task and non-robustness of the exploratory methods like principal component analysis (PCA). We introduce a new statistical tool dedicated for exploratory analysis of abnormal observations using data depth as a score. Anomaly component analysis (shortly ACA) is a method that searches a low-dimensional data representation that best visualises and explains anomalies. This low-dimensional representation not only allows to distinguish groups of anomalies better than the methods of the state of the art, but as well provides a -- linear in variables and thus easily interpretable -- explanation for anomalies. In a comparative simulation and real-data study, ACA also proves advantageous for anomaly analysis with respect to methods present in the literature.
翻訳日:2023-12-27 14:47:49 公開日:2023-12-26
# 非アベリア・アハロノフ・ボーム効果

The non-Abelian Aharonov-Bohm effect ( http://arxiv.org/abs/2312.16133v1 )

ライセンス: Link先を確認
P. A. Horvathy(参考訳) 非アベリアフラックスを含むシリンダー周りの核子ビームの散乱について検討した。 ウーとヤンのすべての前提を確認します。 ゲージ群 $SU(N)$ への一般化を考え、分類スキームを導出する。 イソスピン沈着も古典的な限界で回復する。

The scattering of a nucleon beam around a cylinder containing a non-Abelian flux is studied. We confirm all the previsions of Wu and Yang. We consider the generalization to the gauge group $SU(N)$, and derive a classification scheme. Isospin precession is recovered also at the classical limit.
翻訳日:2023-12-27 14:47:27 公開日:2023-12-26
# roleeval: 大規模言語モデルのためのバイリンガル役割評価ベンチマーク

RoleEval: A Bilingual Role Evaluation Benchmark for Large Language Models ( http://arxiv.org/abs/2312.16132v1 )

ライセンス: Link先を確認
Tianhao Shen, Sun Li, Deyi Xiong(参考訳) 大規模言語モデル(LLM)の急速な進化は、実世界とのつながりを確立し、より没入的な相互作用を提供するために不可欠な役割知識を評価するために効果的なベンチマークを必要とする。 本稿では,役割知識の記憶,利用,推論能力を評価するために設計されたバイリンガルベンチマークであるRoleEvalを紹介する。 RoleEvalはRoleEval-Global(国際的に認知されているキャラクターを含む)とRoleEval-China(中国で人気があるキャラクターを含む)で構成されており、300人の影響力のある人々や、有名人、アニメ、コミック、映画、テレビシリーズ、ゲーム、フィクションなど、様々な領域から引き出された架空のキャラクターに焦点をあてた、6000の中国語と英語のパラレルなマルチチョイスの質問がある。 これらの質問は、基本知識とマルチホップ推論能力を含み、個人情報、関係性、能力、キャラクターの経験など様々な側面を体系的に探究することを目的としている。 高水準を維持するために、我々は、自動検証と人間の検証を組み合わせたハイブリッド品質チェックプロセスを実行し、質問が多様で、挑戦的で、差別的であることを保証する。 さまざまなオープンソースおよびプロプライエタリな大規模言語モデルにおけるRoleEvalの広範な評価は、ゼロショットと少数ショットの両方で、洞察に富んだ結果を示している。 特に、GPT-4はRoleEval-Globalで他のモデルより優れているが、中国のLLMはRoleEval-Chinaより優れている。 RoleEvalは、さまざまな言語や文化的な設定において、基礎モデルのロール知識を評価することの重要性を強調します。

The rapid evolution of large language models (LLMs) necessitates effective benchmarks for evaluating their role knowledge, which is essential for establishing connections with the real world and providing more immersive interactions. This paper introduces RoleEval, a bilingual benchmark designed to assess the memorization, utilization, and reasoning capabilities of role knowledge. RoleEval comprises RoleEval-Global (including internationally recognized characters) and RoleEval-Chinese (including characters popular in China), with 6,000 Chinese-English parallel multiple-choice questions focusing on 300 influential people and fictional characters drawn from a variety of domains including celebrities, anime, comics, movies, TV series, games, and fiction. These questions cover basic knowledge and multi-hop reasoning abilities, aiming to systematically probe various aspects such as personal information, relationships, abilities, and experiences of the characters. To maintain high standards, we perform a hybrid quality check process combining automatic and human verification, ensuring that the questions are diverse, challenging, and discriminative. Our extensive evaluations of RoleEval across various open-source and proprietary large language models, under both the zero- and few-shot settings, reveal insightful findings. Notably, while GPT-4 outperforms other models on RoleEval-Global, Chinese LLMs excel on RoleEval-Chinese, highlighting significant knowledge distribution differences. We expect that RoleEval will highlight the significance of assessing role knowledge for foundation models across various languages and cultural settings.
翻訳日:2023-12-27 14:47:23 公開日:2023-12-26
# 大規模言語モデル状況認識に基づく計画

Large Language Model Situational Awareness Based Planning ( http://arxiv.org/abs/2312.16127v1 )

ライセンス: Link先を確認
Liman Wang, Hanyang Zhong(参考訳) この研究は、大規模言語モデルにおける状況認識に基づく創発的計画能力の評価の先駆者である。 貢献します (i)標準化評価のための新しいベンチマーク及び指標 (ii)進行を促すユニークなデータセット、及び (iii)状況に敏感な計画作業において,複数エージェントスキームを促し,計画性能を著しく向上させるデモンストレーション。 位置決めされたエージェントと自動計画研究に配置し、ドメインの進歩をシミュレートしながらも、世界国家を環境誘導のない行動に効率的にマッピングする、固有の信頼性の課題を強調した。 スコープ外ではあるが、バリデーション方法論とデータ可用性に関する制限は、拡張計画コーパスの微調整や高速な潜在計画のトリガの最適化など、エキサイティングな方向性を示している。 厳密な比較による現在の手法の約束と限界を決定的に示すことで、位置付けられたエージェントに対する信頼できる目標指向の推論を触媒する。

This work pioneers evaluating emergent planning capabilities based on situational awareness in large language models. We contribute (i) novel benchmarks and metrics for standardized assessment; (ii) a unique dataset to spur progress; and (iii) demonstrations that prompting and multi-agent schemes significantly enhance planning performance in context-sensitive planning tasks. Positioning this within a situated agent and automated planning research, we highlight inherent reliability challenges--efficiently mapping world states to actions without environmental guidance remains open despite simulated domain advances. Although out-of-scope, limitations around validation methodology and data availability indicate exciting directions, including fine-tuning on expanded planning corpora and optimizations for triggering fast latent planning. By conclusively demonstrating current methods' promise and limitations via rigorous comparison, we catalyze investigating reliable goal-directed reasoning for situated agents.
翻訳日:2023-12-27 14:46:50 公開日:2023-12-26
# 芳香族ケミカルペアの嗅覚ラベル予測

Olfactory Label Prediction on aroma-chemical Pairs ( http://arxiv.org/abs/2312.16124v1 )

ライセンス: Link先を確認
Laura Sisson(参考訳) 深層学習技術のアロマ化学への応用により、嗅覚の質を予測するモデルが人間の専門家より正確になった。 しかし、この領域での公衆の研究は単一分子の品質を予測することに限られており、産業用途では香水と食品科学者が多くの臭気の混合物に関心を持つことが多い。 本稿では、ラベル付き分子対からなるデータセットに対して、既存のアプローチと新しいアプローチの両方を適用する。 本稿では,アロマケミカルのブレンドによる非線形品質の正確な予測を行うことのできる公開モデルを提案する。

The application of deep learning techniques on aroma-chemicals has resulted in models more accurate than human experts at predicting olfactory qualities. However, public research in this domain has been limited to predicting the qualities of single molecules, whereas in industry applications, perfumers and food scientists are often concerned with blends of many odorants. In this paper, we apply both existing and novel approaches to a dataset we gathered consisting of labeled pairs of molecules. We present a publicly available model capable of generating accurate predictions for the non-linear qualities arising from blends of aroma-chemicals.
翻訳日:2023-12-27 14:46:35 公開日:2023-12-26
# 言語モデルアンサンブルの品質コスト最適化のための双方向$\epsilon$-Constrainedフレームワーク

A bi-objective $\epsilon$-constrained framework for quality-cost optimization in language model ensembles ( http://arxiv.org/abs/2312.16119v1 )

ライセンス: Link先を確認
Aditi Singla, Aditya Singh, Kanishk Kukreja(参考訳) 本稿では,多種多様なオープンソース大言語モデル(LLM)を用いて,コスト効率を維持しつつ高い応答品質を実現するアンサンブルフレームワークを提案する。 品質コストトレードオフを表わすために,二目的最適化問題を定式化し,0/1クナップサック問題に問題を還元する追加予算制約を導入する。 当社のフレームワークは,既存のアンサンブルアプローチよりも応答品質が優れ,コストが大幅に削減されていることを実証的に実証した。

We propose an ensembling framework that uses diverse open-sourced Large Language Models (LLMs) to achieve high response quality while maintaining cost efficiency. We formulate a bi-objective optimization problem to represent the quality-cost tradeoff and then introduce an additional budget constraint that reduces the problem to a straightforward 0/1 knapsack problem. We empirically demonstrate that our framework outperforms the existing ensembling approaches in response quality while significantly reducing costs.
翻訳日:2023-12-27 14:46:26 公開日:2023-12-26
# 非線形正則化と空間ピラミッドを用いた量子ハイブリッドステレオマッチング

Quantum-Hybrid Stereo Matching With Nonlinear Regularization and Spatial Pyramids ( http://arxiv.org/abs/2312.16118v1 )

ライセンス: Link先を確認
Cameron Braunstein (1 and 2), Eddy Ilg (1), Vladislav Golyanik (2) ((1) Saarland University, SIC, (2) MPI for Informatics, SIC)(参考訳) 量子ビジュアルコンピューティングは急速に進歩している。 本稿では,非線形正則化器と量子アニーラヤ上の空間ピラミッドとのステレオマッチングを,マルコフ確率場のエネルギーを最小化する最大後続推論問題として定式化する。 我々のアプローチはハイブリッド(量子古典的)であり、現代のD-Wave量子異方体、すなわち2次非制約バイナリ最適化(QUBO)の目的を含む。 従来のステレオマッチングの量子アニール技術は線形正則化器に限られており、組合せ最適化問題の解法において量子コンピューティングパラダイムの基本的な利点を生かしていない。 これとは対照的に,非線形正則化器はNPハードな最適化問題を生成するため,量子アニールのポテンシャルをステレオマッチングに活用する。 ミドルベリーのベンチマークでは、異なる解法を用いる場合の量子ステレオマッチングの2%と22.5%において、従来の技術よりも改良されたルート平均2乗精度を実現する。

Quantum visual computing is advancing rapidly. This paper presents a new formulation for stereo matching with nonlinear regularizers and spatial pyramids on quantum annealers as a maximum a posteriori inference problem that minimizes the energy of a Markov Random Field. Our approach is hybrid (i.e., quantum-classical) and is compatible with modern D-Wave quantum annealers, i.e., it includes a quadratic unconstrained binary optimization (QUBO) objective. Previous quantum annealing techniques for stereo matching are limited to using linear regularizers, and thus, they do not exploit the fundamental advantages of the quantum computing paradigm in solving combinatorial optimization problems. In contrast, our method utilizes the full potential of quantum annealing for stereo matching, as nonlinear regularizers create optimization problems which are NP-hard. On the Middlebury benchmark, we achieve an improved root mean squared accuracy over the previous state of the art in quantum stereo matching of 2% and 22.5% when using different solvers.
翻訳日:2023-12-27 14:46:15 公開日:2023-12-26
# fMPI: 層状シーン表現を持つ野生における高速な新しいビュー合成

fMPI: Fast Novel View Synthesis in the Wild with Layered Scene Representations ( http://arxiv.org/abs/2312.16109v1 )

ライセンス: Link先を確認
Jonas Kohler, Nicolas Griffiths Sanchez, Luca Cavalli, Catherine Herold, Albert Pumarola, Alberto Garcia Garcia, Ali Thabet(参考訳) 本研究では,階層化されたシーン表現に基づく新しいビュー合成(nvs)手法のための2つの新しい入力処理パラダイムを提案する。 提案手法は、入力カメラビューの平面再投影の高次元テンソルである、いわゆる平面スイープボリューム(PSV)の構築と処理という、従来のパイプラインの2つの最も時間を要する側面を特定し、緩和する。 特に,このテンソルを並列グループで処理することで計算効率を向上し,隣接する入力平面をスーパーサンプリングすることでより高密度なシーン表現を実現する。 提案された拡張は、大幅な柔軟性を提供し、パフォーマンスとスピードのバランスを保ち、リアルタイムアプリケーションに向けて大きな一歩を踏み出すことができる。 さらに、多面体画像、多球面画像、層状深度画像など、PSVベースの手法でも利用できるという意味では、非常に一般的なものである。 総合的な実験において,提案手法は,既存の最先端手法よりも50倍高速で,公開ベンチマーク上で最先端を実現するNVS手法の設計を可能にすることを実証した。 また、現在のforerunnerを3倍以上のスピードで上回り、レンダリングのクオリティも大幅に向上している。

In this study, we propose two novel input processing paradigms for novel view synthesis (NVS) methods based on layered scene representations that significantly improve their runtime without compromising quality. Our approach identifies and mitigates the two most time-consuming aspects of traditional pipelines: building and processing the so-called plane sweep volume (PSV), which is a high-dimensional tensor of planar re-projections of the input camera views. In particular, we propose processing this tensor in parallel groups for improved compute efficiency as well as super-sampling adjacent input planes to generate denser, and hence more accurate scene representation. The proposed enhancements offer significant flexibility, allowing for a balance between performance and speed, thus making substantial steps toward real-time applications. Furthermore, they are very general in the sense that any PSV-based method can make use of them, including methods that employ multiplane images, multisphere images, and layered depth images. In a comprehensive set of experiments, we demonstrate that our proposed paradigms enable the design of an NVS method that achieves state-of-the-art on public benchmarks while being up to $50x$ faster than existing state-of-the-art methods. It also beats the current forerunner in terms of speed by over $3x$, while achieving significantly better rendering quality.
翻訳日:2023-12-27 14:46:00 公開日:2023-12-26
# LaneSegNet: 自動運転のためのレーンセグメント認識によるマップ学習

LaneSegNet: Map Learning with Lane Segment Perception for Autonomous Driving ( http://arxiv.org/abs/2312.16108v1 )

ライセンス: Link先を確認
Tianyu Li, Peijin Jia, Bangjun Wang, Li Chen, Kun Jiang, Junchi Yan, Hongyang Li(参考訳) 地図は、自律運転システムの下流アプリケーションにとって重要な情報であり、通常車線や中央線で表現される。 しかし、地図学習に関する既存の文献は主に幾何学に基づく線線の検出や中心線のトポロジー関係の知覚に焦点を当てている。 これらの手法はどちらも、直線と中心線が中心線に結合する内在的な関係を無視している。 1つのモデルで両方のレーンを単純に予測することは学習目的において互いに除外されるが、我々はレーンセグメントを幾何学情報とトポロジ情報の両方をシームレスに組み込む新しい表現として推奨する。 そこで,道路構造の完全な表現を得るために,レーンセグメントを生成する最初のエンドツーエンドマッピングネットワークであるLaneSegNetを紹介した。 我々のアルゴリズムには2つの重要な修正がある。 ひとつはレーンアテンションモジュールで、長距離機能空間内の重要な領域の詳細をキャプチャする。 もう1つは、基準点に対する同一の初期化戦略であり、車線注意のための位置前の学習を強化する。 OpenLane-V2データセットでは、LaneSegNetは以前の3つのタスクで大幅に向上し、マップ要素検出(+4.8 mAP)、中心線知覚(+6.9 DET$_l$)、新たに定義されたレーンセグメント認識(+5.6 mAP)である。 さらに、リアルタイムの推論速度14.7 FPSを得る。 コードはhttps://github.com/OpenDriveLab/LaneSegNetでアクセスできる。

A map, as crucial information for downstream applications of an autonomous driving system, is usually represented in lanelines or centerlines. However, existing literature on map learning primarily focuses on either detecting geometry-based lanelines or perceiving topology relationships of centerlines. Both of these methods ignore the intrinsic relationship of lanelines and centerlines, that lanelines bind centerlines. While simply predicting both types of lane in one model is mutually excluded in learning objective, we advocate lane segment as a new representation that seamlessly incorporates both geometry and topology information. Thus, we introduce LaneSegNet, the first end-to-end mapping network generating lane segments to obtain a complete representation of the road structure. Our algorithm features two key modifications. One is a lane attention module to capture pivotal region details within the long-range feature space. Another is an identical initialization strategy for reference points, which enhances the learning of positional priors for lane attention. On the OpenLane-V2 dataset, LaneSegNet outperforms previous counterparts by a substantial gain across three tasks, \textit{i.e.}, map element detection (+4.8 mAP), centerline perception (+6.9 DET$_l$), and the newly defined one, lane segment perception (+5.6 mAP). Furthermore, it obtains a real-time inference speed of 14.7 FPS. Code is accessible at https://github.com/OpenDriveLab/LaneSegNet.
翻訳日:2023-12-27 14:45:38 公開日:2023-12-26
# 連続時間衝突探索における斜め解析とバイパス

Clique Analysis and Bypassing in Continuous-Time Conflict-Based Search ( http://arxiv.org/abs/2312.16106v1 )

ライセンス: Link先を確認
Thayne T. Walker, Nathan R. Sturtevant and Ariel Felner(参考訳) MAPF(Multi-Agent Pathfinding)問題の研究は広く行われているが、現実の多くの問題は、様々な動きモデルによる連続的な時間とコストを必要とする。 本稿では,連続時間MAPFの解法である連続時間競合探索(CCBS)の対称性破りの強化について検討する。 MAPFにおける競合対称性の解消には指数関数的な作業が必要である。 我々は、コスト対称性と空間的衝突対称性を解消する双角的制約を解消するバイパス(B bypassing)という、CCBSの単価ドメインからの既知の拡張に適応する。 本稿では,空間衝突対称性に対する二方向制約と解離分割の新たな組み合わせを定式化する。 最後に,これらの拡張が従来の技術に比べて統計的に有意な性能向上をもたらすことを実証的に示し,高密度グラフ上で同じ時間に最大10%または20%以上のエージェントの問題を解く。

While the study of unit-cost Multi-Agent Pathfinding (MAPF) problems has been popular, many real-world problems require continuous time and costs due to various movement models. In this context, this paper studies symmetry-breaking enhancements for Continuous-Time Conflict-Based Search (CCBS), a solver for continuous-time MAPF. Resolving conflict symmetries in MAPF can require an exponential amount of work. We adapt known enhancements from unit-cost domains for CCBS: bypassing, which resolves cost symmetries and biclique constraints which resolve spatial conflict symmetries. We formulate a novel combination of biclique constraints with disjoint splitting for spatial conflict symmetries. Finally, we show empirically that these enhancements yield a statistically significant performance improvement versus previous state of the art, solving problems for up to 10% or 20% more agents in the same amount of time on dense graphs.
翻訳日:2023-12-27 14:45:07 公開日:2023-12-26
# アラビア語テキストのドットレス表現:分析とモデリング

Dotless Representation of Arabic Text: Analysis and Modeling ( http://arxiv.org/abs/2312.16104v1 )

ライセンス: Link先を確認
Maged S. Al-Shaibani, Irfan Ahmad(参考訳) 本稿では,標準アラビア語テキスト表現の代替として,アラビア語テキストのドットレス表現を提案する。 5つの多様なコーパスと4つの異なるトークン化テクニックにわたる包括的な分析を通じて、その意味を掘り下げる。 本稿では,ドットレス表現がトークン化粒度と語彙サイズの関係に与える影響を考察し,それらを標準的なテキスト表現と比較する。 さらに,テキストエントロピー計算を用いてドットレスと標準テキストの情報密度を解析した。 ドットレス表現の意味を深く掘り下げるために、様々なテキストコーパスとトークン化技術を用いて統計的およびニューラル言語モデルを構築している。 次に、標準アラビア語のテキスト表現を用いて開発された言語モデルとの比較評価を行う。 この多面分析は、ドットレス表現に関連する潜在的な利点と課題に対する貴重な洞察を提供する。 最後に、並列コーパスを利用して、アラビア語と英語のテキスト分析の比較を行い、さらなる洞察を得る。 我々の発見は、様々なNLPタスクにおけるドットレス表現の潜在的な利点に光を当て、アラビア語の自然言語処理をさらに探求する道を開いた。

This paper presents a novel dotless representation of Arabic text as an alternative to the standard Arabic text representation. We delve into its implications through comprehensive analysis across five diverse corpora and four different tokenization techniques. We explore the impact of dotless representation on the relationships between tokenization granularity and vocabulary size and compare them with standard text representation. Moreover, we analyze the information density of dotless versus standard text using text entropy calculations. To delve deeper into the implications of the dotless representation, statistical and neural language models are constructed using the various text corpora and tokenization techniques. A comparative assessment is then made against language models developed using the standard Arabic text representation. This multifaceted analysis provides valuable insights into the potential advantages and challenges associated with the dotless representation. Last but not the least, utilizing parallel corpora, we draw comparisons between the text analysis of Arabic and English to gain further insights. Our findings shed light on the potential benefits of dotless representation for various NLP tasks, paving the way for further exploration for Arabic natural language processing.
翻訳日:2023-12-27 14:44:51 公開日:2023-12-26
# LLaMA-1/2, GPT-3.5/4の原理的インストラクション

Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 ( http://arxiv.org/abs/2312.16171v1 )

ライセンス: Link先を確認
Sondos Mahmoud Bsharat and Aidar Myrzakhan and Zhiqiang Shen(参考訳) 本稿では,大規模言語モデルのクエリと実行のプロセスを合理化する26の指導原則を提案する。 我々のゴールは、様々な規模の大規模言語モデルに対する質問の定式化、それらの能力の検証、そして異なるプロンプトに入力する際の様々な大規模言語モデルの振る舞いに対するユーザの理解を高めることにある。 LLaMA-1/2 (7B, 13B, 70B) と GPT-3.5/4 を用いて大規模な実験を行い,提案原則の有効性を検証し,設計を促す。 大規模な言語モデルの推進に取り組む研究者にとって、この研究がより良いガイドになることを願っている。 プロジェクトページはhttps://github.com/VILA-Lab/ATLASで公開されている。

This paper introduces 26 guiding principles designed to streamline the process of querying and prompting large language models. Our goal is to simplify the underlying concepts of formulating questions for various scales of large language models, examining their abilities, and enhancing user comprehension on the behaviors of different scales of large language models when feeding into different prompts. Extensive experiments are conducted on LLaMA-1/2 (7B, 13B and 70B), GPT-3.5/4 to verify the effectiveness of the proposed principles on instructions and prompts design. We hope that this work provides a better guide for researchers working on the prompting of large language models. Project page is available at https://github.com/VILA-Lab/ATLAS.
翻訳日:2023-12-27 14:37:33 公開日:2023-12-26
# EmbodiedScan:Embodied AIに向けたホロスティックなマルチモーダル3D知覚スイート

EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI ( http://arxiv.org/abs/2312.16170v1 )

ライセンス: Link先を確認
Tai Wang, Xiaohan Mao, Chenming Zhu, Runsen Xu, Ruiyuan Lyu, Peisen Li, Xiao Chen, Wenwei Zhang, Kai Chen, Tianfan Xue, Xihui Liu, Cewu Lu, Dahua Lin, Jiangmiao Pang(参考訳) コンピュータビジョンとロボット工学の分野では、エンボディエージェントが環境を探索し、人間の指示を実行することが期待されている。 これにより、ファーストパーソンの観察から3dシーンを完全に理解し、対話のための言語にコンテキスト化することができる。 しかし、伝統的な研究は、グローバルな視点からのシーンレベルの入力と出力の設定に焦点を当てている。 このギャップに対処するために,マルチモーダルなego中心の3d知覚データセットであるembodiedscanと,全体的3dシーン理解のためのベンチマークを紹介する。 1mのego中心のrgb-dビュー、1m言語プロンプト、760以上のカテゴリにまたがる160kの3d指向ボックスをカプセル化した5kスキャンで、そのうちのいくつかはlvisと部分的に一致する。 このデータベースに基づいて、Embodied Perceptronというベースラインフレームワークを導入します。 任意の数のマルチモーダル入力を処理でき、私たちが設定した2つのベンチマーク、すなわち基本的な3D知覚タスクと言語基底タスク、およびワイルドの両方において、注目すべき3D知覚能力を示す。 コード、データセット、ベンチマークはhttps://github.com/OpenRobotLab/EmbodiedScan.comから入手できる。

In the realm of computer vision and robotics, embodied agents are expected to explore their environment and carry out human instructions. This necessitates the ability to fully understand 3D scenes given their first-person observations and contextualize them into language for interaction. However, traditional research focuses more on scene-level input and output setups from a global view. To address the gap, we introduce EmbodiedScan, a multi-modal, ego-centric 3D perception dataset and benchmark for holistic 3D scene understanding. It encompasses over 5k scans encapsulating 1M ego-centric RGB-D views, 1M language prompts, 160k 3D-oriented boxes spanning over 760 categories, some of which partially align with LVIS, and dense semantic occupancy with 80 common categories. Building upon this database, we introduce a baseline framework named Embodied Perceptron. It is capable of processing an arbitrary number of multi-modal inputs and demonstrates remarkable 3D perception capabilities, both within the two series of benchmarks we set up, i.e., fundamental 3D perception tasks and language-grounded tasks, and in the wild. Codes, datasets, and benchmarks will be available at https://github.com/OpenRobotLab/EmbodiedScan.
翻訳日:2023-12-27 14:37:20 公開日:2023-12-26
# 非線形機械振動子における量子スクイーズ

Quantum squeezing in a nonlinear mechanical oscillator ( http://arxiv.org/abs/2312.16169v1 )

ライセンス: Link先を確認
Stefano Marti, Uwe von L\"upke, Om Joshi, Yu Yang, Marius Bild, Andraz Omahen, Yiwen Chu, and Matteo Fadel(参考訳) 機械的自由度は連続変数量子情報処理とボソニック量子シミュレーションの自然な候補である。 しかし、これらの応用は量子状態におけるスクイーズと非線形性の工学を必要とする。 ここでは、超伝導量子ビットに結合したギガヘルツ周波数機械共振器の基底状態スクイーズを示す。 これはキュービットをパラメトリックに駆動することで実現され、2フォノン駆動が有効となる。 さらに、共振器モードは、非共振器とキュービットとの結合から非線形性を継承し、デチューニングを制御することで調整可能であることを示す。 そこで本研究では,ウィグナー関数のネガティビティと高い量子フィッシャー情報を持つ非ガウス量子状態の合成を実証する機械スクイーズドカー発振器を実現する。 この結果は量子力学やセンシングにも応用できることを示している。

Mechanical degrees of freedom are natural candidates for continuous-variable quantum information processing and bosonic quantum simulations. These applications, however, require the engineering of squeezing and nonlinearities in the quantum regime. Here we demonstrate ground state squeezing of a gigahertz-frequency mechanical resonator coupled to a superconducting qubit. This is achieved by parametrically driving the qubit, which results in an effective two-phonon drive. In addition, we show that the resonator mode inherits a nonlinearity from the off-resonant coupling with the qubit, which can be tuned by controlling the detuning. We thus realize a mechanical squeezed Kerr oscillator, where we demonstrate the preparation of non-Gaussian quantum states of motion with Wigner function negativities and high quantum Fisher information. This shows that our results also have applications in quantum metrology and sensing.
翻訳日:2023-12-27 14:36:56 公開日:2023-12-26
# 社会的移動:迅速な人間の軌道予測

Social-Transmotion: Promptable Human Trajectory Prediction ( http://arxiv.org/abs/2312.16168v1 )

ライセンス: Link先を確認
Saeed Saadatnejad and Yang Gao and Kaouther Messaoud and Alexandre Alahi(参考訳) 正確な人間の軌道予測は、自動運転車、ロボット工学、監視システムなどの応用に不可欠である。 しかし、既存のモデルは、人間が空間をナビゲートする際に意識的にコミュニケーションする非言語的な社会的手がかりを完全に活用できないことが多い。 そこで本研究では,トランスフォーマーのパワーを利用して多様で多彩な視覚手がかりを処理し,人間の行動のマルチモーダルな性質を捉える汎用モデルであるsocial-transmotionを提案する。 我々は、自然言語処理(nlp)から人間の軌道予測のタスクにプロンプトの概念を翻訳し、プロンプトは地上のx-y座標のシーケンスであり、ボックスやボディポーズにバウンドする。 これにより、軌跡データが増大し、人間の軌跡予測が強化される。 本モデルでは,ポーズ,バウンディングボックス,コンビネーションのいずれであっても,利用可能な視覚手がかりに基づいて歩行者間の空間的相互作用を捉えることで,柔軟性と適応性を示す。 マスキング手法により,視覚情報の存在により性能はさらに向上するが,特定の視覚手がかりが使用できない場合でも,モデルの有効性を保証する。 2d対3dのポーズと、限られたポーズの組み合わせの利点を掘り下げる。 また,人間の軌道予測の最適化において,ポーズのどのキーポイントとフレームが不可欠かを特定するために,空間的および時間的注意マップを調査した。 提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。 コードは公開されています。 https://github.com/vita-epfl/social-transmotion

Accurate human trajectory prediction is crucial for applications such as autonomous vehicles, robotics, and surveillance systems. Yet, existing models often fail to fully leverage the non-verbal social cues human subconsciously communicate when navigating the space. To address this, we introduce Social-Transmotion, a generic model that exploits the power of transformers to handle diverse and numerous visual cues, capturing the multi-modal nature of human behavior. We translate the idea of a prompt from Natural Language Processing (NLP) to the task of human trajectory prediction, where a prompt can be a sequence of x-y coordinates on the ground, bounding boxes or body poses. This, in turn, augments trajectory data, leading to enhanced human trajectory prediction. Our model exhibits flexibility and adaptability by capturing spatiotemporal interactions between pedestrians based on the available visual cues, whether they are poses, bounding boxes, or a combination thereof. By the masking technique, we ensure our model's effectiveness even when certain visual cues are unavailable, although performance is further boosted with the presence of comprehensive visual data. We delve into the merits of using 2d versus 3d poses, and a limited set of poses. Additionally, we investigate the spatial and temporal attention map to identify which keypoints and frames of poses are vital for optimizing human trajectory prediction. Our approach is validated on multiple datasets, including JTA, JRDB, Pedestrians and Cyclists in Road Traffic, and ETH-UCY. The code is publicly available: https://github.com/vita-epfl/social-transmotion
翻訳日:2023-12-27 14:36:45 公開日:2023-12-26
# アナログ量子リザーバコンピュータを用いたマイクロ波信号処理

Microwave signal processing using an analog quantum reservoir computer ( http://arxiv.org/abs/2312.16166v1 )

ライセンス: Link先を確認
Alen Senanian, Sridhar Prabhu, Vladimir Kremenetski, Saswata Roy, Yingkang Cao, Jeremy Kline, Tatsuhiro Onodera, Logan G. Wright, Xiaodi Wu, Valla Fatemi, Peter L. McMahon(参考訳) 量子サーブレットコンピューティング(QRC)は、量子プロセッサで機械学習を実行するパラダイムとして提案されており、量子プロセッサの必要な実行回数でトレーニングが効率的であり、古典的なドメインで行われ、パラメータ化された回路量子ニューラルネットワークにおけるバレンプラトーの問題を回避する。 超伝導回路に基づく量子プロセッサを用いて、アナログであるマイクロ波信号を時間内に連続的に分類することは自然である。 しかし、アナログqrcの理論的な提案は存在するが、これまでqrcは回路モデル量子システムを用いて実装されてきた。 本稿では, 量子ビットに結合した発振器からなる量子超伝導回路を, 様々な分類タスクのためのアナログ量子貯水池として利用し, それらすべてに対して高い精度を実現する方法を示す。 我々の量子システムは、マイクロ波信号を直接取り込み、入力データを人工的に識別することなく動作した。 我々の研究は、qrcsが事前記録された古典的信号の分類において量子計算の利点をもたらすかどうかという問題に対処しようとはしていない。 However, beyond illustrating that sophisticated tasks can be performed with a modest-size quantum system and inexpensive training, our work opens up the possibility of achieving a different kind of advantage than a purely computational advantage: superconducting circuits can act as extremely sensitive detectors of microwave photons; our work demonstrates processing of ultra-low-power microwave signals in our superconducting circuit, and by combining sensitive detection with QRC processing within the same system, one could achieve a quantum sensing-computational advantage, i.e., an advantage in the overall analysis of microwave signals comprising just a few photons.

Quantum reservoir computing (QRC) has been proposed as a paradigm for performing machine learning with quantum processors where the training is efficient in the number of required runs of the quantum processor and takes place in the classical domain, avoiding the issue of barren plateaus in parameterized-circuit quantum neural networks. It is natural to consider using a quantum processor based on superconducting circuits to classify microwave signals that are analog -- continuous in time. However, while theoretical proposals of analog QRC exist, to date QRC has been implemented using circuit-model quantum systems -- imposing a discretization of the incoming signal in time, with each time point input by executing a gate operation. In this paper we show how a quantum superconducting circuit comprising an oscillator coupled to a qubit can be used as an analog quantum reservoir for a variety of classification tasks, achieving high accuracy on all of them. Our quantum system was operated without artificially discretizing the input data, directly taking in microwave signals. Our work does not attempt to address the question of whether QRCs could provide a quantum computational advantage in classifying pre-recorded classical signals. However, beyond illustrating that sophisticated tasks can be performed with a modest-size quantum system and inexpensive training, our work opens up the possibility of achieving a different kind of advantage than a purely computational advantage: superconducting circuits can act as extremely sensitive detectors of microwave photons; our work demonstrates processing of ultra-low-power microwave signals in our superconducting circuit, and by combining sensitive detection with QRC processing within the same system, one could achieve a quantum sensing-computational advantage, i.e., an advantage in the overall analysis of microwave signals comprising just a few photons.
翻訳日:2023-12-27 14:36:18 公開日:2023-12-26
# 時間データを用いた量子機械学習におけるコヒーレンス時間バリアの克服

Overcoming the Coherence Time Barrier in Quantum Machine Learning on Temporal Data ( http://arxiv.org/abs/2312.16165v1 )

ライセンス: Link先を確認
Fangjun Hu, Saeed A. Khan, Nicholas T. Bronn, Gerasimos Angelatos, Graham E. Rowlands, Guilhem J. Ribeill, Hakan E. T\"ureci(参考訳) 今日知られている多くの量子アルゴリズムの実践的実装は、量子ハードウェアの実行と量子サンプリングノイズのコヒーレンス時間によって制限されていると考えられている。 本稿では,構成量子ビットの有限コヒーレンス時間に制約されない継続時間における時間データの処理を可能にする,量子ビットベースの量子システムのための機械学習アルゴリズムnisqrcを提案する。 NISQRCは入力エンコーディングステップと中間回路計測のバランスを保ち、リセットすることで、ストリーミングデータ内の時間領域相関をキャプチャするために、適切な持続時間メモリを量子システムに付与する。 これにより、NISQRCは有限コヒーレンスによって課される制限だけでなく、監視回路における情報スクランブルや熱化も克服できる。 後者は、完全なコヒーレンスを持つシステムにおいても、ストリーミングデータ上で有限時間を超えて動作することを防止する既知のパラメトリック回路学習アルゴリズムであると考えられている。 力学系理論のボルテラ級数解析を量子系に拡張することにより、観測された量子回路を有限メモリ時間で保持するために必要な測定条件とリセット条件を同定する。 提案手法を検証するために, 雑音および歪みのあるチャネルを対象とする$N_{ts}$シンボルの試験信号を復元する, よく知られたチャネル等化タスクを検討する。 7量子ビット量子プロセッサの実験と数値シミュレーションにより、$N_{ts}$はコヒーレンス時間に制限されずに任意に長いことができることを示した。

The practical implementation of many quantum algorithms known today is believed to be limited by the coherence time of the executing quantum hardware and quantum sampling noise. Here we present a machine learning algorithm, NISQRC, for qubit-based quantum systems that enables processing of temporal data over durations unconstrained by the finite coherence times of constituent qubits. NISQRC strikes a balance between input encoding steps and mid-circuit measurements with reset to endow the quantum system with an appropriate-length persistent temporal memory to capture the time-domain correlations in the streaming data. This enables NISQRC to overcome not only limitations imposed by finite coherence, but also information scrambling or thermalization in monitored circuits. The latter is believed to prevent known parametric circuit learning algorithms even in systems with perfect coherence from operating beyond a finite time period on streaming data. By extending the Volterra Series analysis of dynamical systems theory to quantum systems, we identify measurement and reset conditions necessary to endow a monitored quantum circuit with a finite memory time. To validate our approach, we consider the well-known channel equalization task to recover a test signal of $N_{ts}$ symbols that is subject to a noisy and distorting channel. Through experiments on a 7-qubit quantum processor and numerical simulations we demonstrate that $N_{ts}$ can be arbitrarily long not limited by the coherence time.
翻訳日:2023-12-27 14:35:51 公開日:2023-12-26
# SymmPI: グループ対称性を持つデータの予測推論

SymmPI: Predictive Inference for Data with Group Symmetries ( http://arxiv.org/abs/2312.16160v1 )

ライセンス: Link先を確認
Edgar Dobriban, Mengxin Yu(参考訳) 予測の不確かさの定量化は、現代の統計学において核となる問題である。 予測推論の手法は様々な仮定の下で開発されており、例えば標準共形予測では、置換群のような特別な変換群の下でデータの分布の不変性に依存することが多い。 さらに,既存の予測手法の多くは,特徴出力観測の順序で観測されていない結果を予測することを目的としている。 一方、より一般的な観測モデル(例えば、部分的に観測された特徴)の下での予測推論や、より一般的な分布対称性を満たすデータ(例えば、物理学における回転不変あるいは座標非依存観察)に関心がある。 本稿では,データ分布が任意の観測モデルに一般群対称性を持つ場合の予測推論手法であるSymbPIを提案する。 本手法は,分布不変性を維持しつつデータを処理する分布同変変換の新たな概念を利用する。 symmpiは分布不変性下で有効なカバレッジを有し,分布シフト時の性能を特徴付け,最近の結果を特殊事例として回収する。 ネットワーク内の頂点に関連付けられた未観測値を予測するために,SymmPIを適用した。 2層階層モデルにおけるいくつかのシミュレーションと経験的データ分析の例では、symmpiは既存の手法と比較して好適に機能する。

Quantifying the uncertainty of predictions is a core problem in modern statistics. Methods for predictive inference have been developed under a variety of assumptions, often -- for instance, in standard conformal prediction -- relying on the invariance of the distribution of the data under special groups of transformations such as permutation groups. Moreover, many existing methods for predictive inference aim to predict unobserved outcomes in sequences of feature-outcome observations. Meanwhile, there is interest in predictive inference under more general observation models (e.g., for partially observed features) and for data satisfying more general distributional symmetries (e.g., rotationally invariant or coordinate-independent observations in physics). Here we propose SymmPI, a methodology for predictive inference when data distributions have general group symmetries in arbitrary observation models. Our methods leverage the novel notion of distributional equivariant transformations, which process the data while preserving their distributional invariances. We show that SymmPI has valid coverage under distributional invariance and characterize its performance under distribution shift, recovering recent results as special cases. We apply SymmPI to predict unobserved values associated to vertices in a network, where the distribution is unchanged under relabelings that keep the network structure unchanged. In several simulations in a two-layer hierarchical model, and in an empirical data analysis example, SymmPI performs favorably compared to existing methods.
翻訳日:2023-12-27 14:35:26 公開日:2023-12-26
# 低リソース言語のための大規模言語モデルによるゼロショット言語間リランキング

Zero-Shot Cross-Lingual Reranking with Large Language Models for Low-Resource Languages ( http://arxiv.org/abs/2312.16159v1 )

ライセンス: Link先を確認
Mofetoluwa Adeyemi, Akintunde Oladipo, Ronak Pradeep, Jimmy Lin(参考訳) 大規模言語モデル(LLM)は、様々な文書再ランクタスクにおいて印象的なゼロショット機能を示している。 実装は成功したが、低リソース言語での有効性について、既存の文献にはまだギャップがある。 このギャップに対処するために,アフリカ語における言語間情報検索(CLIR)システムにおいて,LLMがリランカーとしてどのように機能するかを検討する。 我々の実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)をカバーする。 さらに,問合せと文書翻訳の両方を用いて単言語リランキングの有効性を分析し,比較した。 また,LLMが生成した翻訳に有効であることを示す。 そこで本研究では,オープンソースモデルである RankZephyr とともに,RanGPT-4 と RankGPT-3.5 のプロプライエタリモデルに焦点を当てた。 この結果から,LLMの多言語能力によらず,言語間再位はアフリカ語の再位と競合する可能性が示唆された。

Large language models (LLMs) have shown impressive zero-shot capabilities in various document reranking tasks. Despite their successful implementations, there is still a gap in existing literature on their effectiveness in low-resource languages. To address this gap, we investigate how LLMs function as rerankers in cross-lingual information retrieval (CLIR) systems for African languages. Our implementation covers English and four African languages (Hausa, Somali, Swahili, and Yoruba) and we examine cross-lingual reranking with queries in English and passages in the African languages. Additionally, we analyze and compare the effectiveness of monolingual reranking using both query and document translations. We also evaluate the effectiveness of LLMs when leveraging their own generated translations. To get a grasp of the effectiveness of multiple LLMs, our study focuses on the proprietary models RankGPT-4 and RankGPT-3.5, along with the open-source model, RankZephyr. While reranking remains most effective in English, our results reveal that cross-lingual reranking may be competitive with reranking in African languages depending on the multilingual capability of the LLM.
翻訳日:2023-12-27 14:35:02 公開日:2023-12-26
# トゥルキエ地方から収集した地震データとルールマイニング

Association rule mining with earthquake data collected from Turkiye region ( http://arxiv.org/abs/2312.16158v1 )

ライセンス: Link先を確認
Baha Alturan, Ilker Turker(参考訳) 地震は人間にとって最も破壊的な災害として評価され、トゥルキエ地方でも経験されている。 データサイエンスは、十分な量のデータが供給された場合に隠れたパターンを発見する特性を持っている。 特定の時間窓において共起によって定義されたイベントの時間依存性は、市場ベース分析アプリケーションのような関連するルールマイニングタスクとして扱われる。 この点において,毎日の地震活動は,イベントの単一のバスケットとして想定し,これらのイベントの関連パターンを見出した。 その結果,本研究は,過去5年間にテュルクアイ地方で記録された地震に関する最も顕著な関連ルールを,それぞれ別々に提示した。 結果は、様々な距離の領域から記録された事象に関する統計的推測を示し、フィールドからの地質学的証拠によってさらに検証することができる。 その結果,本研究は,関連ルールマイニングのための機械学習アルゴリズムを用いて,今後の研究の統計的基礎を形成する可能性が示唆された。

Earthquakes are evaluated among the most destructive disasters for human beings, as also experienced for Turkiye region. Data science has the property of discovering hidden patterns in case a sufficient volume of data is supplied. Time dependency of events, specifically being defined by co-occurrence in a specific time window, may be handled as an associate rule mining task such as a market-basket analysis application. In this regard, we assumed each day's seismic activity as a single basket of events, leading to discovering the association patterns between these events. Consequently, this study presents the most prominent association rules for the earthquakes recorded in Turkiye region in the last 5 years, each year presented separately. Results indicate statistical inference with events recorded from regions of various distances, which could be further verified with geologic evidence from the field. As a result, we believe that the current study may form a statistical basis for the future works with the aid of machine learning algorithm performed for associate rule mining.
翻訳日:2023-12-27 14:34:40 公開日:2023-12-26
# テキストからマルチモーダルへ:質問応答システムにおける逆例生成の包括的調査

From Text to Multimodal: A Comprehensive Survey of Adversarial Example Generation in Question Answering Systems ( http://arxiv.org/abs/2312.16156v1 )

ライセンス: Link先を確認
Gulsum Yigit, Mehmet Fatih Amasyali(参考訳) 敵対的機械学習と質問回答システムを統合することは、これらのシステムの脆弱性と堅牢性を理解する上で重要な領域である。 本稿では,テキスト・マルチモーダル・コンテキストを含むQA分野における敵対的事例生成手法を包括的にレビューすることを目的とする。 系統分類による手法について検討し、包括的かつ構造化されたレビューを提供する。 従来のQAモデルの概要から、規則に基づく摂動と高度な生成モデルを探ることで、逆の例生成を横切る。 そして、マルチモーダルなqaシステムを含むように研究を拡張し、様々な方法で分析し、生成モデル、seq2seqアーキテクチャ、ハイブリッド方法論を調べます。 我々の研究は、異なる防衛戦略、敵のデータセット、評価指標にまで成長し、敵のQAに関する総合的な文献を示している。 最後に, 敵対的質問生成の今後の展望を考察し, 敵対的課題の文脈において, テキストおよびマルチモーダルQAシステムを前進させる潜在的研究の方向性を明らかにする。

Integrating adversarial machine learning with Question Answering (QA) systems has emerged as a critical area for understanding the vulnerabilities and robustness of these systems. This article aims to comprehensively review adversarial example-generation techniques in the QA field, including textual and multimodal contexts. We examine the techniques employed through systematic categorization, providing a comprehensive, structured review. Beginning with an overview of traditional QA models, we traverse the adversarial example generation by exploring rule-based perturbations and advanced generative models. We then extend our research to include multimodal QA systems, analyze them across various methods, and examine generative models, seq2seq architectures, and hybrid methodologies. Our research grows to different defense strategies, adversarial datasets, and evaluation metrics and illustrates the comprehensive literature on adversarial QA. Finally, the paper considers the future landscape of adversarial question generation, highlighting potential research directions that can advance textual and multimodal QA systems in the context of adversarial challenges.
翻訳日:2023-12-27 14:34:22 公開日:2023-12-26
# 部分群によるクラスター配向問題

The Clustered Orienteering Problem with Subgroups ( http://arxiv.org/abs/2312.16154v1 )

ライセンス: Link先を確認
Luciano E. Almeida and Douglas G. Macharet(参考訳) 本稿では,OP(Clustered Orienteering Problem with Subgroups, COPS)の拡張について述べる。 この変種では、ノードはサブグループに配置され、サブグループはクラスタに編成される。 報酬は各サブグループに関連付けられ、すべてのノードが訪問される場合にのみ得られるが、少なくとも1つのサブグループをクラスタごとに訪問することができる。 目的は、旅行予算を達成しながら収集した報酬を最大化することである。 我々の新しい定式化は、ここで紹介された他のシナリオに加えて、以前のよく知られた2つの変種であるクラスタ指向問題(COP)とセット指向問題(SOP)をモデル化し、解決する能力を持っていることを示す。 Integer Linear Programming (ILP) の定式化と Tabu Search に基づくヒューリスティックを提案する。 実験の結果,ILP法は時間的コストで最適解が得られるのに対し,メタヒューリスティック法はより合理的な計算コストで同等の解が得られることがわかった。

This paper introduces an extension to the Orienteering Problem (OP), called Clustered Orienteering Problem with Subgroups (COPS). In this variant, nodes are arranged into subgroups, and the subgroups are organized into clusters. A reward is associated with each subgroup and is gained only if all of its nodes are visited; however, at most one subgroup can be visited per cluster. The objective is to maximize the total collected reward while attaining a travel budget. We show that our new formulation has the ability to model and solve two previous well-known variants, the Clustered Orienteering Problem (COP) and the Set Orienteering Problem (SOP), in addition to other scenarios introduced here. An Integer Linear Programming (ILP) formulation and a Tabu Search-based heuristic are proposed to solve the problem. Experimental results indicate that the ILP method can yield optimal solutions at the cost of time, whereas the metaheuristic produces comparable solutions within a more reasonable computational cost.
翻訳日:2023-12-27 14:34:04 公開日:2023-12-26
# 放射線画像を用いた大規模長尾疾患診断

Large-scale Long-tailed Disease Diagnosis on Radiology Images ( http://arxiv.org/abs/2312.16151v1 )

ライセンス: Link先を確認
Qiaoyu Zheng, Weike Zhao, Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie(参考訳) 本研究では, マルチモーダル, マルチ解剖学, マルチラベル, ロングテール分類として定式化できる, 放射線画像の大規模大語彙分類の問題について検討する。 主な貢献は3つあります i) データセット構築において,930個のICD-10-CMコードに関連付けられた5568個の障害を含む学術的にアクセス可能な大規模診断データセットを構築し,39,026ケース(192,675スキャン)を含む。 (ii)モデル設計において,様々な画像モダリティから任意の数の入力スキャンを処理可能な新しいアーキテクチャを提案する。 (iii) 評価において, マルチモーダルマルチ解剖学的長期診断のための新しいベンチマークを初期化する。 本手法は優れた結果を示す。 さらに、最終モデルは事前訓練されたモデルとして機能し、様々な外部データセットの診断に役立てることができる。

In this study, we aim to investigate the problem of large-scale, large-vocabulary disease classification for radiologic images, which can be formulated as a multi-modal, multi-anatomy, multi-label, long-tailed classification. Our main contributions are three folds: (i), on dataset construction, we build up an academically accessible, large-scale diagnostic dataset that encompasses 5568 disorders linked with 930 unique ICD-10-CM codes, containing 39,026 cases (192,675 scans). (ii), on model design, we present a novel architecture that enables to process arbitrary number of input scans, from various imaging modalities, which is trained with knowledge enhancement to leverage the rich domain knowledge; (iii), on evaluation, we initialize a new benchmark for multi-modal multi-anatomy long-tailed diagnosis. Our method shows superior results on it. Additionally, our final model serves as a pre-trained model, and can be finetuned to benefit diagnosis on various external datasets.
翻訳日:2023-12-27 14:33:45 公開日:2023-12-26
# 構造環境における量子速度限界と非マルコビアン性

Quantum speed limit and non-Markovianity in structured environments ( http://arxiv.org/abs/2312.16150v1 )

ライセンス: Link先を確認
Maryam Hadipour, Soroush Haseli, Saeed Haddadi(参考訳) 構造環境における量子速度制限時間と原子の非マルコフ性の関係について検討する。 これは量子過程の非マルコフ的特徴がプロセスの高速化につながることを意味する。 我々の結果は、量子進化のスピードアップと環境からシステムへの情報のバックフローの関係に光を当てるかもしれない。

We investigate the relationship between quantum speed limit time and the non-Markovianity of an atom in structured environments. We show that there exists an inverse relation between them, which means that the non-Markovian feature of the quantum process leads to speedup of the process. Our results might shed light on the relationship between the speedup of quantum evolution and the backflow of information from the environment to the system.
翻訳日:2023-12-27 14:33:28 公開日:2023-12-26
# メディアバイアス分類法 : メディアバイアスの形式と自動検出に関する体系的文献レビュー

The Media Bias Taxonomy: A Systematic Literature Review on the Forms and Automated Detection of Media Bias ( http://arxiv.org/abs/2312.16148v1 )

ライセンス: Link先を確認
Timo Spinde, Smilla Hinterreiter, Fabian Haak, Terry Ruas, Helge Giese, Norman Meuschke, Bela Gipp(参考訳) メディアがイベントを提示する方法は、大衆の認識に大きく影響し、人々の信念や見解を変える可能性がある。 メディアバイアスは、トピックについて一方的あるいは偏見的な視点を記述する。 本稿は,2019年から2022年にかけて発行された3140の研究論文を体系的にレビューし,メディアバイアス検出のための計算手法に関する研究をまとめる。 研究領域間での偏見の相互理解を構築・支援するために,メディアバイアス分類法(Media Bias Taxonomy)を紹介した。 メディアバイアス検出は,近年,トランスフォーマーに基づく分類手法が著しく改善されている,非常に活発な研究分野であることを示す。 これらの改善には、より高い分類精度とよりきめ細かい偏見を検出する能力が含まれる。 しかし,既存のプロジェクトでは学際性が欠如していること,メディアバイアス検出システムの性能評価を方法論的に徹底的に支援するために,様々なメディアバイアスをより認識する必要があることが判明した。 分析の結果,近年の機械学習の進歩と,他の研究分野からの信頼性と多様なバイアス評価戦略の統合が,この分野における今後の研究貢献の最も有望な分野であることがわかった。

The way the media presents events can significantly affect public perception, which in turn can alter people's beliefs and views. Media bias describes a one-sided or polarizing perspective on a topic. This article summarizes the research on computational methods to detect media bias by systematically reviewing 3140 research papers published between 2019 and 2022. To structure our review and support a mutual understanding of bias across research domains, we introduce the Media Bias Taxonomy, which provides a coherent overview of the current state of research on media bias from different perspectives. We show that media bias detection is a highly active research field, in which transformer-based classification approaches have led to significant improvements in recent years. These improvements include higher classification accuracy and the ability to detect more fine-granular types of bias. However, we have identified a lack of interdisciplinarity in existing projects, and a need for more awareness of the various types of media bias to support methodologically thorough performance evaluations of media bias detection systems. Concluding from our analysis, we see the integration of recent machine learning advancements with reliable and diverse bias assessment strategies from other research areas as the most promising area for future research contributions in the field.
翻訳日:2023-12-27 14:33:22 公開日:2023-12-26
# すべてを制御するための1次元アダプタ:概念、拡散モデル、消去アプリケーション

One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications ( http://arxiv.org/abs/2312.16145v1 )

ライセンス: Link先を確認
Mengyao Lyu, Yuhong Yang, Haiwen Hong, Hui Chen, Xuan Jin, Yuan He, Hui Xue, Jungong Han, Guiguang Ding(参考訳) テキスト・ツー・イメージ生成における商用およびオープンソース拡散モデル(DM)の利用は、望ましくない行動を防ぐためのリスク軽減を促す。 既存の学界における概念消去手法は、すべて完全なパラメータや仕様に基づく微調整に基づいており、そこから次の課題を観察する。 1) 侵食に対する変化の発生: 標的除去時のパラメータドリフトは,すべての世代にわたって変化や潜在的な変形を引き起こし,さらに,他の概念を様々な程度に浸食する。 2) 転送不能性とデプロイメント非効率性: 以前のモデル固有の消去は、概念の柔軟な組み合わせと、他のモデルへのトレーニング不要な移行を妨げ、デプロイメントシナリオが増加するにつれて、線形コストの増大をもたらします。 非侵襲的で、精密で、カスタマイズ可能で、転送可能な除去を実現するため、我々は、一次元のアダプタ上に消去フレームワークを構築し、多くのDMから複数の概念を一度に消去する。 コンセプトセミ透過性構造を膜(SPM)として任意のDMに注入して目的の消去を学習し、一方、改質・侵食現象は、新しい遅延アンチョリング微調整戦略によって効果的に緩和される。 一度得られれば、SPMは柔軟に組み合わされ、特定の再調整なしに他のDMに対してプラグ&プレイでき、多様なシナリオにタイムリーかつ効率的に適応できる。 生成過程において,各spmの透過性を動的に制御し,異なる入力プロンプトに応答し,他の概念への影響を最小化する。 約40の概念,7つのDMおよび4つの消去応用の定量的および定性的な結果から,SPMの優れた消去効果が示された。 私たちのコードと調整済みのspmは、プロジェクトページhttps://lyumengyao.github.io/projects/spmで利用できます。

The prevalent use of commercial and open-source diffusion models (DMs) for text-to-image generation prompts risk mitigation to prevent undesired behaviors. Existing concept erasing methods in academia are all based on full parameter or specification-based fine-tuning, from which we observe the following issues: 1) Generation alternation towards erosion: Parameter drift during target elimination causes alternations and potential deformations across all generations, even eroding other concepts at varying degrees, which is more evident with multi-concept erased; 2) Transfer inability & deployment inefficiency: Previous model-specific erasure impedes the flexible combination of concepts and the training-free transfer towards other models, resulting in linear cost growth as the deployment scenarios increase. To achieve non-invasive, precise, customizable, and transferable elimination, we ground our erasing framework on one-dimensional adapters to erase multiple concepts from most DMs at once across versatile erasing applications. The concept-SemiPermeable structure is injected as a Membrane (SPM) into any DM to learn targeted erasing, and meantime the alteration and erosion phenomenon is effectively mitigated via a novel Latent Anchoring fine-tuning strategy. Once obtained, SPMs can be flexibly combined and plug-and-play for other DMs without specific re-tuning, enabling timely and efficient adaptation to diverse scenarios. During generation, our Facilitated Transport mechanism dynamically regulates the permeability of each SPM to respond to different input prompts, further minimizing the impact on other concepts. Quantitative and qualitative results across ~40 concepts, 7 DMs and 4 erasing applications have demonstrated the superior erasing of SPM. Our code and pre-tuned SPMs will be available on the project page https://lyumengyao.github.io/projects/spm.
翻訳日:2023-12-27 14:32:59 公開日:2023-12-26
# Lift-Attend-Splat:変圧器を用いたバードアイビューカメラライダー融合

Lift-Attend-Splat: Bird's-eye-view camera-lidar fusion using transformers ( http://arxiv.org/abs/2312.14919v2 )

ライセンス: Link先を確認
James Gunn, Zygmunt Lenyk, Anuj Sharma, Andrea Donati, Alexandru Buburuzan, John Redford, and Romain Mueller(参考訳) 補完的なセンサモダリティの組み合わせは、自律運転(ad)のような安全クリティカルなロボティクスアプリケーションのための堅牢な認識を提供するために不可欠である。 近年のAD用カメラとライダーの融合法は,ライダーからの深度情報を直接利用するよりも,単眼深度推定に頼っている。 ここでは,本手法が期待通り深度を生かしていないこと,また,過度に深度推定を改良しても物体検出性能は向上せず,また,絶対的に深度推定を除去しても物体検出性能は劣化しないことを示す。 これは、単眼深度に依存することは、カメラとライダーの融合において不要なアーキテクチャ上のボトルネックであることを示唆している。 そこで本研究では,単眼深度推定を完全にバイパスし,単純な注意機構を用いて鳥眼網のカメラとライダーの機能を選択・融合する新しい融合手法を提案する。 提案手法は,lidar機能の利用に基づいてカメラ機能の利用を変調し,単眼深度推定に基づくベースラインよりも,nuscenesデータセット上でより優れた3dオブジェクト検出を実現することを示す。

Combining complementary sensor modalities is crucial to providing robust perception for safety-critical robotics applications such as autonomous driving (AD). Recent state-of-the-art camera-lidar fusion methods for AD rely on monocular depth estimation which is a notoriously difficult task compared to using depth information from the lidar directly. Here, we find that this approach does not leverage depth as expected and show that naively improving depth estimation does not lead to improvements in object detection performance and that, strikingly, removing depth estimation altogether does not degrade object detection performance. This suggests that relying on monocular depth could be an unnecessary architectural bottleneck during camera-lidar fusion. In this work, we introduce a novel fusion method that bypasses monocular depth estimation altogether and instead selects and fuses camera and lidar features in a bird's-eye-view grid using a simple attention mechanism. We show that our model can modulate its use of camera features based on the availability of lidar features and that it yields better 3D object detection on the nuScenes dataset than baselines relying on monocular depth estimation.
翻訳日:2023-12-27 12:48:45 公開日:2023-12-26
# Large Language Model (LLM) Bias Index -- LLMBI

Large Language Model (LLM) Bias Index -- LLMBI ( http://arxiv.org/abs/2312.14769v2 )

ライセンス: Link先を確認
Abiodun Finbarrs Oketunji, Muhammad Anas, Deepthi Saina(参考訳) LLMBI(Large Language Model Bias Index)は、GPT-4のような大規模言語モデル(LLM)に固有のバイアスを定量化し、対処するための先駆的なアプローチである。 多様な分野におけるLSMの普及と影響を認識している。 本研究は,モデル応答を誘発する可能性のあるバイアスを系統的に測定し緩和する新しい計量 LLMBI を導入する。 年齢,性別,人種的偏見に限らず,多次元の偏見を取り入れた複合スコアリングシステムを用いたLSMBIの定式化を行った。 このメトリクスを運用するには, LLM応答の収集と注釈付け, バイアス検出のための洗練された自然言語処理(NLP)技術の適用, 特殊な数学的公式による LLMBI スコアの計算を含む多段階的なプロセスに携わる。 この公式は、様々なバイアス次元の重み付け平均値、データセットの多様性の欠陥に対するペナルティ、感情バイアスに対する補正を統合する。 OpenAIのAPIからの応答を用いた実証分析では,バイアス検出の代表的な方法として,高度な感情分析を採用している。 この研究は、LLMがテキスト生成において印象的な能力を示す一方で、異なる次元にまたがる様々なバイアスを示すことを明らかにしている。 LLMBIは、モデルと時間とともにバイアスを比較するための定量尺度を提供し、LLMの公平性と信頼性を高める上で、システムエンジニア、研究者、規制当局にとって重要なツールを提供する。 偏見のない人間のような反応を模倣するLLMの可能性を強調している。 さらに、社会規範や倫理基準の進化に合わせて、そのようなモデルを継続的に監視し、再検討する必要性を強調している。

The Large Language Model Bias Index (LLMBI) is a pioneering approach designed to quantify and address biases inherent in large language models (LLMs), such as GPT-4. We recognise the increasing prevalence and impact of LLMs across diverse sectors. This research introduces a novel metric, LLMBI, to systematically measure and mitigate biases potentially skewing model responses. We formulated LLMBI using a composite scoring system incorporating multiple dimensions of bias, including but not limited to age, gender, and racial biases. To operationalise this metric, we engaged in a multi-step process involving collecting and annotating LLM responses, applying sophisticated Natural Language Processing (NLP) techniques for bias detection, and computing the LLMBI score through a specially crafted mathematical formula. The formula integrates weighted averages of various bias dimensions, a penalty for dataset diversity deficiencies, and a correction for sentiment biases. Our empirical analysis, conducted using responses from OpenAI's API, employs advanced sentiment analysis as a representative method for bias detection. The research reveals LLMs, whilst demonstrating impressive capabilities in text generation, exhibit varying degrees of bias across different dimensions. LLMBI provides a quantifiable measure to compare biases across models and over time, offering a vital tool for systems engineers, researchers and regulators in enhancing the fairness and reliability of LLMs. It highlights the potential of LLMs in mimicking unbiased human-like responses. Additionally, it underscores the necessity of continuously monitoring and recalibrating such models to align with evolving societal norms and ethical standards.
翻訳日:2023-12-27 12:48:25 公開日:2023-12-26
# 逆転送多目的最適化

Inverse Transfer Multiobjective Optimization ( http://arxiv.org/abs/2312.14713v2 )

ライセンス: Link先を確認
Jiao Liu, Abhishek Gupta, and Yew-Soon Ong(参考訳) 転送最適化により、関連するソースタスクからの経験的事前情報を活用することで、ターゲットタスクのデータ効率の最適化が可能になる。 これは、厳密な評価予算の下で一連のトレードオフソリューションを求める多目的最適化設定において特に有用である。 本稿では,多目的最適化における逆移動の概念を紹介する。 逆伝達は、目的空間のパフォーマンスベクトルをタスク固有の決定空間における集団探索分布にマッピングするために確率的逆モデルを用いることで際立っている。 このアイデアに基づいて,InvTrEMO(Inverse Transfer Multiobjective Evolutionary Optimizer)を提案する。 invtremoの重要な特徴は、意思決定空間がタスク間で正確に一致していない場合でも、多くのアプリケーション領域で広く使われている共通の客観的関数を利用する能力である。 これにより、invTrEMOは異種ソースタスクからの情報をユニークかつ効果的に利用することができる。 さらに、invTrEMOは、高精度の逆モデルを重要な副産物として提供し、ユーザの好みに基づいて、オンデマンドで調整されたソリューションを生成する。 多目的および多目的ベンチマーク問題に関する実証研究は、実例研究と同様に、最先端の進化的およびベイズ最適化アルゴリズムと比較して、invTrEMOの高速収束率とモデリング精度を示す。 invTrEMOのソースコードはhttps://github.com/LiuJ-2023/invTrEMOで公開されている。

Transfer optimization enables data-efficient optimization of a target task by leveraging experiential priors from related source tasks. This is especially useful in multiobjective optimization settings where a set of trade-off solutions is sought under tight evaluation budgets. In this paper, we introduce a novel concept of inverse transfer in multiobjective optimization. Inverse transfer stands out by employing probabilistic inverse models to map performance vectors in the objective space to population search distributions in task-specific decision space, facilitating knowledge transfer through objective space unification. Building upon this idea, we introduce the first Inverse Transfer Multiobjective Evolutionary Optimizer (invTrEMO). A key highlight of invTrEMO is its ability to harness the common objective functions prevalent in many application areas, even when decision spaces do not precisely align between tasks. This allows invTrEMO to uniquely and effectively utilize information from heterogeneous source tasks as well. Furthermore, invTrEMO yields high-precision inverse models as a significant byproduct, enabling the generation of tailored solutions on-demand based on user preferences. Empirical studies on multi- and many-objective benchmark problems, as well as a practical case study, showcase the faster convergence rate and modelling accuracy of the invTrEMO relative to state-of-the-art evolutionary and Bayesian optimization algorithms. The source code of the invTrEMO is made available at https://github.com/LiuJ-2023/invTrEMO.
翻訳日:2023-12-27 12:47:55 公開日:2023-12-26
# bipartiete mixed separable state を用いた ancilla-assisted process tomography の検討

Ancilla-Assisted Process Tomography with Bipartiete Mixed Separable States ( http://arxiv.org/abs/2312.14901v2 )

ライセンス: Link先を確認
Zhuoran Bao, Daniel F. V. James(参考訳) apt(ancilla-assisted process tomography)の実施には,システム状態と補助状態との絡み合いが厳密な要件ではないことが示されている。 代わりに、システム・アンシラ状態は忠実であることが要求され、これは状態を表すある行列の可逆性と同値である。 しかし、小さなエラー増幅をもたらす忠実な状態と、より大きなエラー増幅をもたらす状態とを区別することは困難である。 2量子ビット系アンシラ状態に限定され,2つの量子ビットの相関を分類する可逆性問題とシナスター性の概念を結びつける理論的解析を行う。 シナスターネスを用いることで、最小の誤差増幅で2つの量子ビットの忠実な混合分離状態を構成する方法を提供する。 最大絡み合う状態は最小の誤差増幅を与える一方、分離可能なワーナー状態は最大絡み合う状態よりも大きい不均一な誤差増幅を生成することを示した。 それでも、分離可能なヴェルナー状態または等方性状態の反転による誤差増幅は、任意の混合分離可能な状態において最良である。

It has been shown that the entanglement between the system state and the ancillary state is not a strict requirement for performing ancilla-assisted process tomography(AAPT). Instead, it only requires that the system-ancilla state be faithful, which is equivalent to the invertibility of a certain matrix representing the state. However, it is difficult to distinguish between a faithful state that brings small error amplification and one that produces larger error amplification. Restricted to two-qubit system-ancilla states, we present a theoretical analysis to connect the invertibility problem to the concept of sinisterness, which classifies the correlation of two qubits. Using sinisterness, we provide a way of constructing all two qubits faithful mixed separable states with the smallest error amplification. We show that the maximally entangled states provided the smallest error amplification, while the separable Werner states produced an uneven error amplification larger than the maximally entangled state. Nevertheless, the error amplification due to inverting the separable Werner states or isotropic states is the best any mixed separable state can do.
翻訳日:2023-12-27 11:13:53 公開日:2023-12-26
# ボソニックcQEDにおける光-物質相互作用系間のオンデマンドトランスポジション

On-demand transposition across light-matter interaction regimes in bosonic cQED ( http://arxiv.org/abs/2312.14665v2 )

ライセンス: Link先を確認
Fernando Valadares, Ni-Ni Huang, Kyle Chu, Aleksandr Dorogov, Weipin Chua, Lingda Kong, Pengtao Song, Yvonne Y. Gao(参考訳) 科学とテクノロジーにおける光・物質相互作用の多様な応用は、これらの相互作用が定性的に異なる形で現れることに由来する。 ボソニックcQEDは高Q超伝導キャビティの光電場を非線形回路素子に結合させ、その相互作用のリッチなダイナミクスを量子情報処理に利用している。 しかし,キャビティコヒーレンスを損なうことなくインタラクションレジームの高速スイッチングを実現することは大きな課題である。 本研究は,トランスモンのナノ秒スケールの周波数調整性と,数百マイクロ秒の寿命の共振器を結合した最初の実験である。 提案手法は,共振相互作用を用いたキャビティフォック状態の高速生成や,定性的に異なる相互作用系での相互交換トモグラフィ技術,アイドル進化における不必要なキャビティ・トランスモンダイナミクスの抑制など,量子情報処理の新たな機能を実現する。 ボソニックcQEDツールキットにフラックスチューナビリティーを導入することで、我々の研究は単一のプラットフォーム内での光-物質相互作用のフル範囲を探索する新しいパラダイムを開拓し、堅牢で汎用的な量子情報処理への有用な新しい経路を提供する。

The diverse applications of light-matter interactions in science and technology stem from the qualitatively distinct ways these interactions manifest, prompting the development of physical platforms that can interchange between regimes on demand. Bosonic cQED employs the light field of high-Q superconducting cavities coupled to non-linear circuit elements, harnessing the rich dynamics of their interaction for quantum information processing. However, implementing fast switching of the interaction regime without deteriorating the cavity coherence is a significant challenge. We present the first experiment to achieve this feat, combining nanosecond-scale frequency tunability of a transmon coupled to a cavity with lifetime of hundreds of microseconds. Our implementation affords a range of new capabilities for quantum information processing; from fast creation of cavity Fock states using resonant interaction and interchanging tomography techniques at qualitatively distinct interaction regimes on the fly, to the suppression of unwanted cavity-transmon dynamics during idle evolution. By bringing flux tunability into the bosonic cQED toolkit, our work opens up a new paradigm to probe the full range of light-matter interaction dynamics within a single platform and provides valuable new pathways towards robust and versatile quantum information processing.
翻訳日:2023-12-27 11:11:48 公開日:2023-12-26
# 微分可能DSPとスペクトル最適輸送を用いた教師なし高調波パラメータ推定

Unsupervised Harmonic Parameter Estimation Using Differentiable DSP and Spectral Optimal Transport ( http://arxiv.org/abs/2312.14507v2 )

ライセンス: Link先を確認
Bernardo Torres (S2A, IDS, LTCI), Geoffroy Peeters (S2A, IDS, LTCI), Ga\"el Richard (S2A, IDS, LTCI)(参考訳) ニューラルオーディオ信号処理では、ピッチコンディショニングがシンセサイザーの性能向上に使われている。 しかし, 音高推定器と合成器の併用は, 標準音高再生損失を用いた場合の課題であり, 外部の音高トラッカーに依存している。 そこで本稿では,スペクトルエネルギーの変位を最小化する最適輸送理論に着想を得たスペクトル損失関数を提案する。 我々は、調和テンプレートを調和信号に適合させる教師なしの自動符号化タスクを通じて、このアプローチを検証する。 軽量エンコーダを用いて高調波の基本周波数と振幅を共同で推定し,可微分高調波合成器を用いて信号を再構成する。 提案手法は、ニューラルオーディオアプリケーションにおける教師なしパラメータ推定を改善するための有望な方向を提供する。

In neural audio signal processing, pitch conditioning has been used to enhance the performance of synthesizers. However, jointly training pitch estimators and synthesizers is a challenge when using standard audio-to-audio reconstruction loss, leading to reliance on external pitch trackers. To address this issue, we propose using a spectral loss function inspired by optimal transportation theory that minimizes the displacement of spectral energy. We validate this approach through an unsupervised autoencoding task that fits a harmonic template to harmonic signals. We jointly estimate the fundamental frequency and amplitudes of harmonics using a lightweight encoder and reconstruct the signals using a differentiable harmonic synthesizer. The proposed approach offers a promising direction for improving unsupervised parameter estimation in neural audio applications.
翻訳日:2023-12-27 11:11:22 公開日:2023-12-26
# 単一画像物体検出のためのコンテキスト拡張トランス

Context Enhanced Transformer for Single Image Object Detection ( http://arxiv.org/abs/2312.14492v2 )

ライセンス: Link先を確認
Seungjun An, Seonghoon Park, Gyeongnyeon Kim, Jeongyeol Baek, Byeongwon Lee, Seungryong Kim(参考訳) 実世界のアプリケーションにおけるビデオデータの重要性が高まっているため、時間情報を利用する効率的なオブジェクト検出手法の必要性が高まっている。 既存のビデオオブジェクト検出(VOD)技術では、この課題に対処するための様々な戦略が採用されているが、通常は、近隣のフレームやクリップ内のランダムなサンプル画像に依存する。 近年の Transformer ベースのVOD 法は有望な結果を示しているが,時間的情報を組み込むネットワークの複雑さにより,実用性は制限されている。 本稿では,新たに設計されたメモリモジュールを用いて,detrに時間的コンテキストを組み込むことにより,コンテキストエンハンストランス(cetr)と呼ばれる単一画像オブジェクト検出手法を提案する。 時間情報を効率的に保存するために,データ間で文脈情報を収集するクラスメモリを構築する。 さらに,現在の画像の関連メモリを選択的に活用するための分類に基づくサンプリング手法を提案する。 本テストでは,テスト分布を考慮し,個々のメモリ機能を更新するテスト時間メモリ適応手法を提案する。 citycamとimagenet vidデータセットを用いた実験は、様々なビデオシステムにおけるフレームワークの効率を示す。 プロジェクトページとコードは、https://ku-cvlab.github.io/cetr.com/で利用可能になる。

With the increasing importance of video data in real-world applications, there is a rising need for efficient object detection methods that utilize temporal information. While existing video object detection (VOD) techniques employ various strategies to address this challenge, they typically depend on locally adjacent frames or randomly sampled images within a clip. Although recent Transformer-based VOD methods have shown promising results, their reliance on multiple inputs and additional network complexity to incorporate temporal information limits their practical applicability. In this paper, we propose a novel approach to single image object detection, called Context Enhanced TRansformer (CETR), by incorporating temporal context into DETR using a newly designed memory module. To efficiently store temporal information, we construct a class-wise memory that collects contextual information across data. Additionally, we present a classification-based sampling technique to selectively utilize the relevant memory for the current image. In the testing, We introduce a test-time memory adaptation method that updates individual memory functions by considering the test distribution. Experiments with CityCam and ImageNet VID datasets exhibit the efficiency of the framework on various video systems. The project page and code will be made available at: https://ku-cvlab.github.io/CETR.
翻訳日:2023-12-27 11:11:09 公開日:2023-12-26