このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240621となっている論文です。

PDF登録状況(公開日: 20240621)

TitleAuthorsAbstract論文公表日・翻訳日
# メディエンコンベルゲンスに就て

KI-Bilder und die Widerständigkeit der Medienkonvergenz: Von primärer zu sekundärer Intermedialität? ( http://arxiv.org/abs/2407.18363v1 )

ライセンス: Link先を確認
Lukas R. A. Wilde, (参考訳) この記事では、メディアコンバージェンスのプロセスにおけるAI生成画像の統合に関する現在の観測(2024年4月10日現在)について述べる。 それは2つの異なるインターメディティの概念に基づいている。 新しいタイプの技術がメディア形式として社会的に関連性を持ち、社会的、政治的、文化的に重要なコミュニケーション要因となる可能性を発達させるとき、第一の中間概念は対象によって動機づけられる。 しかし、より広いメディアエコロジーにおける不確実な「測定」のため、新しい潜在的メディア形態はハイブリッドなように見える。 したがって、この最初の中間的瞬間の「間」または「間」は、疑問の余地のある「場所」と、既存の技術と文化形態の間の潜在的なメディア形態とその概念的測定の潜在的な記述を指す。 一方、中間性という二次的な概念については、メディア形式とその応用の境界はすでに描かれており、合理的に議論の余地がないと仮定できる。 これにより、他のメディアフォームや画像内のAIイメージに対する意図的および段階的な参照に関する疑問が提起される。 本稿では、AI画像を取り巻く現在の事例と論争を用いて、中間モーメントの指標について論じる。 AI画像のシームレスな「統合」が、現時点では(映画、コミックブック、ビデオゲームなどを含む)より広いメディアの世界へ(例えば、映画、コミックブック、ビデオゲームなどを含む)導入されることはあり得ず、また、AI画像の循環のメディアの「サイト」は、少なくとも、騙しの問題ではなく、むしろAIイメージとしての意識的な使用、特にソーシャルメディアのコミュニケーションやファン文化において、より一般的なメディアエコロジーやイメージ解釈への反感によって、画像がAI生成されるという疑念が「疑念のハーモニーティクス」としてますます高まっている、という論説がある。

The article presents some current observations (as of April 10, 2024) on the integration of AI-generated images within processes of media convergence. It draws on two different concepts of intermediality. Primary intermediality concepts are motivated by the object when a new type of technology develops the potential to become socially relevant as a media form and thus a socially, politically, or culturally important communicative factor. Due to their uncertain 'measurements' within the wider media ecology, however, the new, still potential media form appears hybrid. The "inter-" or "between-" of this initial intermediality moment thus refers to the questionable "site" and the questionable description of the potential media form between already existing technologies and cultural forms and their conceptual measurements. For secondary concepts of intermediality, in contrast, it can be assumed that the boundaries of media forms and their application have already been drawn and are reasonably undisputed. This then raises the question of intentional and staged references to AI imagery within other media forms and pictures. The article discusses indicators of both intermediality moments using current examples and controversies surrounding AI images. The thesis is that there can be no talk of a seamless 'integration' of AI images into the wider media landscape at the moment (within films, comic books, or video games, for example) - as one of countless other image production techniques - and that the medial 'site' of AI image circulation - at least where it is not a matter of deception, but rather their conscious use as AI images - especially in social media communication and in fan cultures, but with repercussions for the more general media ecology and image interpretation, insofar as the suspicion that an image could be AI-generated is now increasingly present as a "hermeneutics of suspicion".
翻訳日:2024-08-05 01:25:56 公開日:2024-06-21
# 深部制御畳み込みネットワークを用いた画像復元

Image Restoration Using Deep Regulated Convolutional Networks ( http://arxiv.org/abs/1910.08853v2 )

ライセンス: Link先を確認
Peng Liu, Xiaoxiao Zhou, Yangjunyi Li, El Basha Mohammad D, Ruogu Fang, (参考訳) 畳み込みニューラルネットワークの深さは、ディープラーニング研究において大きな注目を集めているが、これらのネットワークの幅は近年より注目されている。 受容野の大きさとチャネルの密度として定義されたネットワークの幅は、画像の復調や復元といった低レベルの視覚タスクにおいて重要な役割を担っている。 しかし、ネットワーク幅の増大により、限られた一般化能力により、より広いネットワークを設計する際のボトルネックが生じる。 本稿では,このボトルネックを克服するために,スキップ接続による制御サブネットワークブロックからなるディープネットワークであるDeep Regulated Convolutional Network (RC-Net)を提案する。 具体的には、大きな畳み込みフィルタと小さな畳み込みフィルタを組み合わせたRCブロック(Regulation Convolution block)は、特徴抽出の有効性とネットワークの一般化能力のバランスをとる。 RC-Netは、大きなフィルターの組み合わせによって多彩な特徴を取り入れ、曖昧な境界を緩和し、画像のデノイングや超解像問題における詳細を曖昧にし、学習プロセスを安定化するなど、いくつかの魅力的な利点がある。 提案するRC-Netsは,様々な画像復元タスクにおいて高い性能向上を達成しつつ,有望な一般化能力を示しながら,最先端の手法よりも優れていた。 コードはhttps://github.com/cswin/RC-Nets.comで公開されている。

While the depth of convolutional neural networks has attracted substantial attention in the deep learning research, the width of these networks has recently received greater interest. The width of networks, defined as the size of the receptive fields and the density of the channels, has demonstrated crucial importance in low-level vision tasks such as image denoising and restoration. However, the limited generalization ability, due to the increased width of networks, creates a bottleneck in designing wider networks. In this paper, we propose the Deep Regulated Convolutional Network (RC-Net), a deep network composed of regulated sub-network blocks cascaded by skip-connections, to overcome this bottleneck. Specifically, the Regulated Convolution block (RC-block), featured by a combination of large and small convolution filters, balances the effectiveness of prominent feature extraction and the generalization ability of the network. RC-Nets have several compelling advantages: they embrace diversified features through large-small filter combinations, alleviate the hazy boundary and blurred details in image denoising and super-resolution problems, and stabilize the learning process. Our proposed RC-Nets outperform state-of-the-art approaches with significant performance gains in various image restoration tasks while demonstrating promising generalization ability. The code is available at https://github.com/cswin/RC-Nets.
翻訳日:2024-07-23 02:37:22 公開日:2024-06-21
# AgriLLM:ファーマークエリのハーネス化トランスフォーマー

AgriLLM: Harnessing Transformers for Farmer Queries ( http://arxiv.org/abs/2407.04721v1 )

ライセンス: Link先を確認
Krish Didwania, Pratinav Seth, Aditya Kasliwal, Amit Agarwal, (参考訳) グローバルな安定のために不可欠な農業は、組織化されたドメインの専門家の欠如、特に多くの農家が貧弱で専門家のコンサルティングができない発展途上国において、革新的な解決策を必要としている。 ファーマーズ・ヘルプラインのようなイニシアチブはそのような国では重要な役割を担っているが、高い運用コストのような課題は持続している。 クエリ解決の自動化は、従来のコールセンターの負担を軽減することができ、ファーマーズに即時かつ文脈的に関連する情報を提供する。 農業と人工知能(AI)の統合は、農家と情報ギャップを橋渡しする変革的な機会を提供する。 AIのスターであるトランスフォーマーのような言語モデルは、顕著な言語理解能力を持ち、農業における情報ギャップに対処するのに理想的だ。 本研究は,農業従事者に対する問合せ解決の自動化における大規模言語モデル(LLM)の変革的可能性を探究し,自然言語の解読と理解の文脈における彼らの専門知識を活用することを目的とする。 インドで収集された実世界のファーマークェリのデータセットのサブセットを用いて、タミル・ナードゥ州からの約400万のクェリ、様々な分野、季節的作物、クェリタイプに焦点を当てた。

Agriculture, vital for global sustenance, necessitates innovative solutions due to a lack of organized domain experts, particularly in developing countries where many farmers are impoverished and cannot afford expert consulting. Initiatives like Farmers Helpline play a crucial role in such countries, yet challenges such as high operational costs persist. Automating query resolution can alleviate the burden on traditional call centers, providing farmers with immediate and contextually relevant information. The integration of Agriculture and Artificial Intelligence (AI) offers a transformative opportunity to empower farmers and bridge information gaps. Language models like transformers, the rising stars of AI, possess remarkable language understanding capabilities, making them ideal for addressing information gaps in agriculture. This work explores and demonstrates the transformative potential of Large Language Models (LLMs) in automating query resolution for agricultural farmers, leveraging their expertise in deciphering natural language and understanding context. Using a subset of a vast dataset of real-world farmer queries collected in India, our study focuses on approximately 4 million queries from the state of Tamil Nadu, spanning various sectors, seasonal crops, and query types.
翻訳日:2024-07-22 16:25:52 公開日:2024-06-21
# プログラミング学習のためのGPTに基づくコードレビューシステム

A GPT-based Code Review System for Programming Language Learning ( http://arxiv.org/abs/2407.04722v1 )

ライセンス: Link先を確認
Lee Dong-Kyu, (参考訳) プログラミング言語教育とクラスサイズの増大に対する需要の増加は、即時かつパーソナライズされたフィードバックを必要とする。 しかし、従来のコードレビュー手法には、このレベルのフィードバックの提供に制限がある。 GPTのような大規模言語モデル(LLM)の正確な解を生成する能力とタイムリーなコードレビューが検証されるため、GPT-4を用いて学習者フレンドリなコードレビューを提供し、AIアシスト不正行為のリスクを最小限に抑えるシステムを提案する。 学習者フレンドリなコードレビューを提供するため、オンライン判断システムからデータセットを収集し、このデータセットを使用してシステムのプロンプトの開発と強化を行った。 さらに、AIアシスタントの不正行為を最小限に抑えるため、システムフローは学習者が提出したコードにのみコードレビューを提供するように設計されており、修正するコード行をハイライトする機能も追加された。 最初のシステムがWeb上にデプロイされた後、ソフトウェア教育の専門家はユーザビリティテストを実施した。 結果から,コードレビューとコード正当性チェックモジュールの改善策が開発され,システムの向上が図られた。 改良されたシステムは、厳格なコード正当性チェック、応答時間、API呼び出しコストの低減、コードレビューの品質の4つの基準に基づいて、ソフトウェア教育の専門家による評価を受けた。 その結果、エラータイプを正確に識別し、応答時間を短縮し、API呼び出しコストを低減し、重大な問題なく高品質なコードレビューを維持する性能が示された。 参加者からのフィードバックは、小学生や中学生にプログラミングを教えるためのツールの適性を確認した。 これらの利点を踏まえると、このシステムは教育環境のためのプログラム言語学習における効率的な学習ツールとして期待されている。

The increasing demand for programming language education and growing class sizes require immediate and personalized feedback. However, traditional code review methods have limitations in providing this level of feedback. As the capabilities of Large Language Models (LLMs) like GPT for generating accurate solutions and timely code reviews are verified, this research proposes a system that employs GPT-4 to offer learner-friendly code reviews and minimize the risk of AI-assist cheating. To provide learner-friendly code reviews, a dataset was collected from an online judge system, and this dataset was utilized to develop and enhance the system's prompts. In addition, to minimize AI-assist cheating, the system flow was designed to provide code reviews only for code submitted by a learner, and a feature that highlights code lines to fix was added. After the initial system was deployed on the web, software education experts conducted usability test. Based on the results, improvement strategies were developed to improve code review and code correctness check module, thereby enhancing the system. The improved system underwent evaluation by software education experts based on four criteria: strict code correctness checks, response time, lower API call costs, and the quality of code reviews. The results demonstrated a performance to accurately identify error types, shorten response times, lower API call costs, and maintain high-quality code reviews without major issues. Feedback from participants affirmed the tool's suitability for teaching programming to primary and secondary school students. Given these benefits, the system is anticipated to be a efficient learning tool in programming language learning for educational settings.
翻訳日:2024-07-22 16:25:52 公開日:2024-06-21
# 自己教師付き事前学習における回転角の影響

Effect of Rotation Angle in Self-Supervised Pre-training is Dataset-Dependent ( http://arxiv.org/abs/2407.05218v1 )

ライセンス: Link先を確認
Amy Saranchuk, Michael Guerzhoy, (参考訳) 事前学習のための自己教師付き学習(SSP)は、特にトレーニングセットのサイズが小さい場合、ネットワークがより低レベルな機能を学ぶのに役立つ。 対照的に事前学習では、ネットワークは入力の異なるバージョンを区別するために事前訓練される。 例えば、ネットワークは、回転した画像を角度$\theta$と他の画像対で回転させた画像のペア(元々は回転した)を区別することを学ぶ。 本研究では,コントラッシブ事前学習を用いたトレーニングでは,角度$\theta$とデータセットが興味深い方法で相互作用することを示す。 いくつかのデータセットでは、入力の勾配方向の分布に基づいて、ネットワークが特定の回転角に対して「ショートカット」($\theta$)を取ることができると仮定し、いくつかの証拠を与えるが、我々の実験は、その仮説を支持していないように思われる。 3つの放射線学データセットについて実験を行った。 我々は,SSPプロセスにおいてどのピクセルが重要かを示すサリエンシマップを計算し,サリエンシマップと地上の真理/背景のセグメンテーションを比較した。 可視化の結果,SSPにおける回転角の影響はデータセット依存であることが示唆された。 我々は、勾配の配向の分布がこれに関与すると信じているが、これまでの実験は決定的ではない。

Self-supervised learning for pre-training (SSP) can help the network learn better low-level features, especially when the size of the training set is small. In contrastive pre-training, the network is pre-trained to distinguish between different versions of the input. For example, the network learns to distinguish pairs (original, rotated) of images where the rotated image was rotated by angle $\theta$ vs. other pairs of images. In this work, we show that, when training using contrastive pre-training in this way, the angle $\theta$ and the dataset interact in interesting ways. We hypothesize, and give some evidence, that, for some datasets, the network can take "shortcuts" for particular rotation angles $\theta$ based on the distribution of the gradient directions in the input, possibly avoiding learning features other than edges, but our experiments do not seem to support that hypothesis. We demonstrate experiments on three radiology datasets. We compute the saliency map indicating which pixels were important in the SSP process, and compare the saliency map to the ground truth foreground/background segmentation. Our visualizations indicate that the effects of rotation angles in SSP are dataset-dependent. We believe the distribution of gradient orientations may play a role in this, but our experiments so far are inconclusive.
翻訳日:2024-07-22 14:29:03 公開日:2024-06-21
# ダイナミック医療決定木を用いたCDSS(Orient-COVID)の臨床ガイドラインの適合性に及ぼす影響 : ランダム化シミュレーションによる検討

Impact on clinical guideline adherence of Orient-COVID, a CDSS based on dynamic medical decision trees for COVID19 management: a randomized simulation trial ( http://arxiv.org/abs/2407.11205v1 )

ライセンス: Link先を確認
Mouin Jammal, Antoine Saab, Cynthia Abi Khalil, Charbel Mourad, Rosy Tsopra, Melody Saikali, Jean-Baptiste Lamy, (参考訳) 背景: 臨床実習ガイドラインへの臨床医の順守は, 医療現場での使いづらいことや, 複雑さから, 新型コロナウイルスの対策を含め, 低いことが知られている。 臨床診断支援システムは, ガイドラインを策定し, 順応性を改善するために提案されている。 ひとつのアプローチは、決定木として提示されたレコメンデーション内のナビゲーションを許可することであるが、ツリーのサイズがこのアプローチを制限し、特に単一の画面に収まらない場合に誤ったナビゲーションを引き起こす可能性がある。 方法: 臨床医が意思決定木内をナビゲートしやすくするための, 革新的なビジュアルインターフェースを提案する。 マルチパスツリーモデルと魚眼視覚技術の使用を関連付け、単一の画面で大きな決定木を視覚化する。 本ツールがガイドラインの適合性に及ぼす影響を評価するため, ほぼ現実的なシミュレーション環境でランダム化対照試験を行い, 紙ガイドラインや指導無しで実施した6症例との比較を行った。 結果: 紙のガイドラインに効果は認められなかった(p=0.97)。 オリエント・新型コロナウイルスは、トロポニン検査の発注、抗凝固剤の処方、酸素療法など、COVID-19の管理においていくつかの重要な点に重要な影響が認められた。 多因子分析では男女差は認められなかった。 結論: 新型コロナウイルス対策における対話型意思決定木の使用は, 診療ガイドラインの遵守を著しく改善した。 今後の研究は、電子的な健康記録へのシステムの統合と、他の臨床条件へのシステムの適応に焦点を当てる。

Background: The adherence of clinicians to clinical practice guidelines is known to be low, including for the management of COVID-19, due to their difficult use at the point of care and their complexity. Clinical decision support systems have been proposed to implement guidelines and improve adherence. One approach is to permit the navigation inside the recommendations, presented as a decision tree, but the size of the tree often limits this approach and may cause erroneous navigation, especially when it does not fit in a single screen. Methods: We proposed an innovative visual interface to allow clinicians easily navigating inside decision trees for the management of COVID-19 patients. It associates a multi-path tree model with the use of the fisheye visual technique, allowing the visualization of large decision trees in a single screen. To evaluate the impact of this tool on guideline adherence, we conducted a randomized controlled trial in a near-real simulation setting, comparing the decisions taken by medical students using Orient-COVID with those taken with paper guidelines or without guidance, when performing on six realistic clinical cases. Results: The results show that paper guidelines had no impact (p=0.97), while Orient-COVID significantly improved the guideline adherence compared to both other groups (p<0.0003). A significant impact of Orient-COVID was identified on several key points during the management of COVID-19: ordering troponin lab tests, prescribing anticoagulant and oxygen therapy. A multifactor analysis showed no difference between male and female participants. Conclusions: The use of an interactive decision tree for the management of COVID-19 significantly improved the clinician adherence to guidelines. Future works will focus on the integration of the system to electronic health records and on the adaptation of the system to other clinical conditions.
翻訳日:2024-07-22 12:00:08 公開日:2024-06-21
# テキストビデオ検索のためのマルチグラニュリティとマルチモーダル特徴相互作用アプローチ

Multi-Granularity and Multi-modal Feature Interaction Approach for Text Video Retrieval ( http://arxiv.org/abs/2407.12798v1 )

ライセンス: Link先を確認
Wenjun Li, Shudong Wang, Dong Zhao, Shenghui Xu, Zhaoming Pan, Zhimin Zhang, (参考訳) テキスト・トゥ・ビデオ検索(TVR)タスクの鍵は、各テキスト(単語からなる)とビデオ(音声と画像のフレームを構成する)のそれぞれに固有の類似性を学ぶことである。 しかし、ビデオフレームでは、テキストなど、ビデオとテキストのアライメントにいくつかの問題がある。 さらに、オーディオは通常、フレームが有効な情報をほとんど持っていない場合、TVRに追加または重要な情報を運ぶ。 したがって、TVRタスクでは、全文と全単語を含むテキストの多言語表現と音声のモーダルは、既存のほとんどの作品では未使用である。 そこで本研究では,ビデオテキストのアライメントのためのテキストフレームとワードフレームで構成されるMGFIと呼ばれる新しい多言語機能対話モジュールを提案する。 さらに,ビデオ中のフレームの表現が不十分な問題を解決するため,CMFIと呼ばれる音声とテキストのクロスモーダル・フィーチャ・インタラクション・モジュールを導入する。 MSR-VTT, MSVD, DiDeMo などのベンチマークデータセットの実験では,提案手法が既存の最先端手法よりも優れていることが示された。

The key of the text-to-video retrieval (TVR) task lies in learning the unique similarity between each pair of text (consisting of words) and video (consisting of audio and image frames) representations. However, some problems exist in the representation alignment of video and text, such as a text, and further each word, are of different importance for video frames. Besides, audio usually carries additional or critical information for TVR in the case that frames carry little valid information. Therefore, in TVR task, multi-granularity representation of text, including whole sentence and every word, and the modal of audio are salutary which are underutilized in most existing works. To address this, we propose a novel multi-granularity feature interaction module called MGFI, consisting of text-frame and word-frame, for video-text representations alignment. Moreover, we introduce a cross-modal feature interaction module of audio and text called CMFI to solve the problem of insufficient expression of frames in the video. Experiments on benchmark datasets such as MSR-VTT, MSVD, DiDeMo show that the proposed method outperforms the existing state-of-the-art methods.
翻訳日:2024-07-22 08:57:39 公開日:2024-06-21
# 低品質ネットワークシナリオにおけるグループ指向アプリケーションのためのおそらく安全な非対話鍵交換プロトコル

Provably Secure Non-interactive Key Exchange Protocol for Group-Oriented Applications in Scenarios with Low-Quality Networks ( http://arxiv.org/abs/2407.00073v1 )

ライセンス: Link先を確認
Rui Zhang, Lei Zhang, (参考訳) 非インタラクティブキー交換(NIKE)は、2つまたは複数のパーティ(公開システムのパラメータと互いの公開鍵を単に知っているだけ)が、相互作用を必要とせずに(グループ)セッションキーを導出することを可能にする。 近年、NIKEが重要視されている。 しかし、既存のNIKEプロトコルの多くは、コストのかかる暗号技術(例えば、マルチリニアマップと識別不能な難読化)を基盤としており、実際に使われた場合の計算コストが高いことに留意する。 したがって、より実用的な暗号プリミティブを使用することで、マルチパーティのNIKEプロトコルを実現することは難しい課題である。 本稿では,動的グループにおけるセキュアな通信のためのセキュアかつ効率的なNIKEプロトコルを提案する。 このプロトコルにより、複数のパーティが非対称なグループキー(公開グループ暗号化キーと各パーティの復号鍵)を相互にやりとりすることなく交渉することができる。 さらに、このプロトコルは、グループ外のパーティやグループメンバーがグループに参加または離脱した場合、効率的で非インタラクティブな方法でグループキーの更新をサポートする。 さらに、グループ内の受信者と呼ばれるグループメンバーの一部または全部と接続しようとする送信者(グループ外であっても)と呼ばれる当事者は、公開グループ暗号化キーの下で一定の大きさの暗号文を生成する必要があり、実際の受信者であるグループメンバーのみが暗号文を復号してセッションキーを取得することができる。 我々は,k-Bilinear Diffie-Hellman exponent (k-BDHE) の仮定により,セッションキーの正当性と不明瞭性を証明した。 効率評価は、我々のプロトコルの効率を示す。

Non-interactive key exchange (NIKE) enables two or multiple parties (just knowing the public system parameters and each other's public key) to derive a (group) session key without the need for interaction. Recently, NIKE in multi-party settings has been attached importance. However, we note that most existing multi-party NIKE protocols, underlying costly cryptographic techniques (i.e., multilinear maps and indistinguishability obfuscation), lead to high computational costs once employed in practice. Therefore, it is a challenging task to achieve multi-party NIKE protocols by using more practical cryptographic primitives. In this paper, we propose a secure and efficient NIKE protocol for secure communications in dynamic groups, whose construction only bases on bilinear maps. This protocol allows multiple parties to negotiate asymmetric group keys (a public group encryption key and each party's decryption key) without any interaction among one another. Additionally, the protocol supports updating of group keys in an efficient and non-interactive way once any party outside a group or any group member joins or leaves the group. Further, any party called a sender (even outside a group) intending to connect with some or all of group members called receivers in a group, just needs to generate a ciphertext with constant size under the public group encryption key, and only the group member who is the real receiver can decrypt the ciphertext to obtain the session key. We prove our protocol captures the correctness and indistinguishability of session key under k-Bilinear Diffie-Hellman exponent (k-BDHE) assumption. Efficiency evaluation shows the efficiency of our protocol.
翻訳日:2024-07-07 13:34:23 公開日:2024-06-21
# Logicbreaks: ルールベースの推論の変換を理解するフレームワーク

Logicbreaks: A Framework for Understanding Subversion of Rule-based Inference ( http://arxiv.org/abs/2407.00075v1 )

ライセンス: Link先を確認
Anton Xue, Avishree Khare, Rajeev Alur, Surbhi Goel, Eric Wong, (参考訳) ルールに従うことを避けるために、言語モデルを修正する方法について研究する。 我々は命題Hhorn論理の推論としてルール追従をモデル化し、いくつかの命題に対して "if $P$, $Q$, then $R$", $R$" という形式を持つ数学的体系をモデル化する。 我々は、トランスフォーマーはそのような規則を忠実に遵守できるが、悪意のあるプロンプトは理論的に構築されたモデルでさえ誤解を招く可能性があることを証明した。 経験的に、我々の理論モデルに対する攻撃は、大きな言語モデルに対する一般的な攻撃を反映している。 我々の研究は、論理的推論やジェイルブレイク攻撃のようなルールベースの設定において、より小さな理論モデルを研究することが、大きな言語モデルの振る舞いを理解するのに役立つことを示唆している。

We study how to subvert language models from following the rules. We model rule-following as inference in propositional Horn logic, a mathematical system in which rules have the form "if $P$ and $Q$, then $R$" for some propositions $P$, $Q$, and $R$. We prove that although transformers can faithfully abide by such rules, maliciously crafted prompts can nevertheless mislead even theoretically constructed models. Empirically, we find that attacks on our theoretical models mirror popular attacks on large language models. Our work suggests that studying smaller theoretical models can help understand the behavior of large language models in rule-based settings like logical reasoning and jailbreak attacks.
翻訳日:2024-07-07 13:34:23 公開日:2024-06-21
# 単一光子ステアリングと量子力学的自由相互作用測定は同じ現象である

The single-photon steering and the quantum mechanical free-interaction measurement are identical phenomena ( http://arxiv.org/abs/2407.01587v1 )

ライセンス: Link先を確認
LM Arévalo Aguilar, Rolando Velázquez García, (参考訳) 本稿では,まず,単一光子ステアリング現象を簡単な方法で実験的に示す方法を提案する。 量子ステアリング現象は、Erwin Schrodingerによって発見され、量子力学の法則が、2つの絡み合った系の1つで適切な測定を行うことで、他の系の状態が決定され、ステアリングされることを認めなければならない。 一方、単光子の非局所性に関する最初の提案は、単光子経路の絡み合いを用いてベル非局所性を示すことに焦点を当てている。 本稿では、光子の内部自由度(IDF)を組み込んで操作することにより、単光子状態の非局所的ステアリング現象を簡易に示す新しい実験手法を提案する。 提案する実験的なセットアップは、量子光学の文献で発表されたものと異なり、一般に光子とホモダインの測定の経路の絡み合いを用いる単一の光子非局所性を示す。 第二に、IDFを組み込むことにより、単一光子ステアリングと量子力学的相互作用のない測定(QM-IFM)が同一の現象であることが示され、QM-IFMは単光子ステアリングの特定の例に過ぎないと論じる。 要するに、単一の光子ステアリングとQM-IFM(同一の現象である)は、波動関数の非局所性という共通の原因を持つ。 結論として、単一光子内部自由度を操作することにより、非局所現象を生成できることが証明された。 一方、このステアリングとQM-IFMの融合は、反現実的な量子通信と計算の強力な支援となる可能性がある。

In this work, firstly, we propose how to experimentally demonstrate the single photon steering phenomenon in a simple way. The quantum steering phenomenon was discovered by Erwin Schrodinger, who reason that the laws of quantum mechanics obliges us to admit that by suitable measurements taken on one of two entangled system, then the state of the other system can be determined and steered. On the other hand, the first proposal about the nonlocal property of a single photon focus on showing the Bell nonlocality by using the single-photon path entanglement. Here, we propose a new experimental scheme that, by incorporating and manipulating the internal degree of freedom (IDF) of the photon, easily demonstrate the nonlocal steering phenomenon of single-photon's states. The experimental set-up that we propose differs from those published in the quantum optics' literature to shown the single photon nonlocality, which generally use the path entanglement of photons and homodyne measurements. Secondly, by incorporating its IDF, we show that the single photon steering and the quantum mechanical interaction-free measurement (QM-IFM) are identical phenomena; we will argue that QM-IFM is just a particular instance of the single-photon steering. In short, both the single photon steering and QM-IFM (being identical phenomena) have a common cause: the nonlocality of the wave function. In conclusion, we have demonstrated that it is possible to produce a nonlocal phenomena by manipulating the single photon internal degree of freedom. On the other hand, this unification between steering and QM-IFM could establish a strong support to counterfactual quantum communication and computation.
翻訳日:2024-07-07 13:24:39 公開日:2024-06-21
# 広告・コンテンツ推薦システムにおける検索アルゴリズムの検討

A Survey of Retrieval Algorithms in Ad and Content Recommendation Systems ( http://arxiv.org/abs/2407.01712v1 )

ライセンス: Link先を確認
Yu Zhao, (参考訳) 本稿では,広告レコメンデーションやコンテンツレコメンデーションシステムにおいて最も有効な検索アルゴリズムについて検討する。 広告ターゲティングアルゴリズムは、パーソナライズされた広告を提供するために、詳細なユーザープロファイルと行動データに依存している。 逆に,オーガニック検索システムは,ユーザの好みに合ったコンテンツを推薦することで,ユーザエクスペリエンスの向上を目指している。 本稿では、これらの2つのアプリケーションを比較し、それぞれに最も効果的な方法を説明します。

This survey examines the most effective retrieval algorithms utilized in ad recommendation and content recommendation systems. Ad targeting algorithms rely on detailed user profiles and behavioral data to deliver personalized advertisements, thereby driving revenue through targeted placements. Conversely, organic retrieval systems aim to improve user experience by recommending content that matches user preferences. This paper compares these two applications and explains the most effective methods employed in each.
翻訳日:2024-07-07 13:24:39 公開日:2024-06-21
# エンティティアクセスに基づくモノリス候補分解のドメイン駆動設計表現

Domain-Driven Design Representation of Monolith Candidate Decompositions Based on Entity Accesses ( http://arxiv.org/abs/2407.02512v1 )

ライセンス: Link先を確認
Miguel Levezinho, Stefan Kapferer, Olaf Zimmermann, António Rito Silva, (参考訳) マイクロサービスアーキテクチャは、モノリスアーキテクチャのアプローチに取って代わって、大規模システムを開発する上で好まれるアーキテクチャアプローチの1つとして人気を集めている。 同様に、戦略的ドメイン駆動設計(DDD)もマイクロサービス開発において好まれるアーキテクチャ設計アプローチとして注目を集めた。 しかし、DDDとその戦略的パターンは設計によってオープンにされ、DDDの概念とマイクロサービスの設計の間にギャップが生じる。 このギャップは、マイクロサービスをモノリスから識別する移行ツールにおいて特に顕著で、マイクロサービスへの候補分解はDDDのリファクタリングと視覚化の点でほとんど役に立たない。 本稿では、最も関連するDDD概念を形式化するための、Context Mapper DSL(CML)と呼ばれる言語を提供するDDDモデリングツールを用いて、Mono2Microと呼ばれるマルチストラテジーマイクロサービス識別ツールの運用パイプラインを拡張して、この問題に対する解決策を提案する。 この拡張は、クラスタ、エンティティ、機能を含む候補分解の内容と、コンテキスト境界、アグリゲート、エンティティ、サービスといったDDDの概念を表すCML構造をマッピングする。 実世界のモノリスアプリケーションから得られた候補分解とCML翻訳の有無を比較したケーススタディで検証した。

Microservice architectures have gained popularity as one of the preferred architectural approaches to develop large-scale systems, replacing the monolith architecture approach. Similarly, strategic Domain-Driven Design (DDD) gained traction as the preferred architectural design approach for the development of microservices. However, DDD and its strategic patterns are open-ended by design, leading to a gap between the concepts of DDD and the design of microservices. This gap is especially evident in migration tools that identify microservices from monoliths, where candidate decompositions into microservices provide little in terms of DDD refactoring and visualization. This paper proposes a solution to this problem by extending the operational pipeline of a multi-strategy microservice identification tool, called Mono2Micro, with a DDD modeling tool that provides a language, called Context Mapper DSL (CML), for formalizing the most relevant DDD concepts. The extension maps the content of the candidate decompositions, which include clusters, entities, and functionalities, to CML constructs that represent DDD concepts such as Bounded Context, Aggregate, Entity, and Service, among others. The results are validated with a case study by comparing the candidate decompositions resulting from a real-world monolith application with and without CML translation.
翻訳日:2024-07-07 13:14:55 公開日:2024-06-21
# 付加ノード上のインクリメンタルブロードラーニングシステムのための2つのリッジ解法

Two Ridge Solutions for the Incremental Broad Learning System on Added Nodes ( http://arxiv.org/abs/1911.04872v5 )

ライセンス: Link先を確認
Hufei Zhu, (参考訳) 新たに追加されたノード上の元のBroad Learning System (BLS) と、その既存の効率的な実装は、一般化された逆の近似のためにリッジの逆のリッジパラメータ lambda -> 0 を仮定し、出力重みに対する一般化された逆解を計算する。 本稿では, ラムダ-> 0 がもはや仮定されず, ラムダが任意の正の実数となるような, 付加ノード上での BLS の出力重みに対する2つのリッジ解を提案する。 提案したリッジ解の1つは、既存の逆コレスキー分解を拡張して効率的に更新される逆コレスキー因子の出力重みを計算する。 もう1つの提案されたリッジ解は、尾根逆から出力の重みを計算し、分割行列の一般化逆を計算する古典的なツールであるグレヴィル法を拡張して、尾根逆を更新する。 逆コレスキー係数に基づく効率的なリッジ解を提案するため、リッジパラメータラムダが非常に小さい場合、数値的により安定な別の実装も開発する。 提案手法は,尾根逆数と数値的により安定した有効尾根解の実装に基づいて,それぞれ元のBLSと既存のBLSと同じ複雑さを必要とする。 さらに、元のBLSと既存のBLSに対する効率的なリッジ解の高速化は、各更新の計算複雑度を比較するとそれぞれ3と1.67であり、総トレーニング時間を数値実験で比較すると、スピードアップは1.99 - 2.52と1.31 - 1.58である。 一方, 提案手法は, 従来のBLSや既存のBLSよりも優れた試験精度が得られることを示す数値実験を行った。

The original Broad Learning System (BLS) on new added nodes and its existing efficient implementation both assume the ridge parameter lambda -> 0 in the ridge inverse to approximate the generalized inverse, and compute the generalized inverse solution for the output weights. In this paper, we propose two ridge solutions for the output weights in the BLS on added nodes, where lambda -> 0 is no longer assumed, and lambda can be any positive real number. One of the proposed ridge solutions computes the output weights from the inverse Cholesky factor, which is updated efficiently by extending the existing inverse Cholesky factorization. The other proposed ridge solution computes the output weights from the ridge inverse, and updates the ridge inverse by extending the Greville's method that is a classical tool to compute the generalized inverse of partitioned matrices. For the proposed efficient ridge solution based on the inverse Cholesky factor, we also develop another implementation that is numerically more stable when the ridge parameter lambda is very small. The proposed ridge solution based on the ridge inverse and the numerically more stable implementation of the proposed efficient ridge solution require the same complexity as the original BLS and the existing efficient BLS, respectively. Moreover, the speedups of the proposed efficient ridge solution to the original BLS and the existing efficient BLS are 3 and more than 1.67 respectively, when the computational complexities for each update are compared, and the speedups are 1.99 - 2.52 and 1.31 - 1.58, respectively, when the total training time is compared by numerical experiments. On the other hand, our numerical experiments show that both the proposed ridge solutions for BLS achieve better testing accuracies than the original BLS and the existing efficient BLS.
翻訳日:2024-06-26 23:34:57 公開日:2024-06-21
# 時間的データ分析のための連続確率的構成ネットワーク

Recurrent Stochastic Configuration Networks for Temporal Data Analytics ( http://arxiv.org/abs/2406.16959v1 )

ライセンス: Link先を確認
Dianhui Wang, Gang Dang, (参考訳) ニューラルネットワークを用いた時間データモデリング技術は、時系列予測や制御工学を含む多くのドメインアプリケーションで有用である。 本稿では,確率的構成ネットワーク (RSCN) の逐次バージョンを開発することを目的としており,入力変数の動的順序に対する基礎的な仮定は存在しない。 歴史的データの収集を前提として,まず監視機構に照らして初期RCCNモデルを構築し,続いてプロジェクションアルゴリズムを用いて出力重みのオンライン更新を行った。 エコー状態特性、オフライン・オンライン両方の学習におけるRCCNの普遍近似特性、出力重みの収束など、いくつかの理論的結果が確立されている。 提案したRCCNモデルは、入力されたランダム重み行列とランダムフィードバック行列の特別な構造を割り当てる方法の観点から、よく知られたエコー状態ネットワーク(ESN)と著しく区別されている。 長い短期記憶(LSTM)ネットワーク、元のESN、および単純サイクル貯水池(SCR)、多項式ESN(PESN)、漏洩積分器ESN(LIESN)、RCCNなどの最先端ESN手法の総合的な比較研究を行う。 数値的な結果は,提案したRCCNが全データセットに対して良好に動作することを示す。

Temporal data modelling techniques with neural networks are useful in many domain applications, including time-series forecasting and control engineering. This paper aims at developing a recurrent version of stochastic configuration networks (RSCNs) for problem solving, where we have no underlying assumption on the dynamic orders of the input variables. Given a collection of historical data, we first build an initial RSCN model in the light of a supervisory mechanism, followed by an online update of the output weights by using a projection algorithm. Some theoretical results are established, including the echo state property, the universal approximation property of RSCNs for both the offline and online learnings, and the convergence of the output weights. The proposed RSCN model is remarkably distinguished from the well-known echo state networks (ESNs) in terms of the way of assigning the input random weight matrix and a special structure of the random feedback matrix. A comprehensive comparison study among the long short-term memory (LSTM) network, the original ESN, and several state-of-the-art ESN methods such as the simple cycle reservoir (SCR), the polynomial ESN (PESN), the leaky-integrator ESN (LIESN) and RSCN is carried out. Numerical results clearly indicate that the proposed RSCN performs favourably over all of the datasets.
翻訳日:2024-06-26 19:10:10 公開日:2024-06-21
# 大規模投資前のアニメ人気予測 : ディープラーニングを用いたマルチモーダルアプローチ

Anime Popularity Prediction Before Huge Investments: a Multimodal Approach Using Deep Learning ( http://arxiv.org/abs/2406.16961v1 )

ライセンス: Link先を確認
Jesús Armenta-Segura, Grigori Sidorov, (参考訳) 日本アニメ業界では、今後の製品が普及するかどうかを予測することが重要である。 本稿では,インターネットソースからのみ構築されたマルチモーダルテキスト画像データセットを用いて,アニメの人気を予測するためのデータセットと手法を提案する。 データセットは、実生活の投資経験に基づいた厳格な基準に従って構築された。 GPT-2とResNet-50を利用してデータを埋め込んだディープニューラルネットワークアーキテクチャを用いて、マルチモーダルテキスト画像入力と人気スコアの相関関係を調査し、データセットの関連する長所と短所を発見する。 モデルの精度を測定するために平均二乗誤差(MSE)を用い、従来のTF-IDFとPILtotensorベクター化で得られたベンチマークMSE 0.412と比較して、全ての入力とディープニューラルネットワークのフルバージョンを考慮した場合、0.011の最良の結果を得た。 これは、比較的小さなモデル(ResNet-50)を組み込んでも、画像情報を組み込むことの実質的なメリットを明らかにする、マルチモーダルデータセットでそのようなタスクに対処する最初の提案である。

In the japanese anime industry, predicting whether an upcoming product will be popular is crucial. This paper presents a dataset and methods on predicting anime popularity using a multimodal textimage dataset constructed exclusively from freely available internet sources. The dataset was built following rigorous standards based on real-life investment experiences. A deep neural network architecture leveraging GPT-2 and ResNet-50 to embed the data was employed to investigate the correlation between the multimodal text-image input and a popularity score, discovering relevant strengths and weaknesses in the dataset. To measure the accuracy of the model, mean squared error (MSE) was used, obtaining a best result of 0.011 when considering all inputs and the full version of the deep neural network, compared to the benchmark MSE 0.412 obtained with traditional TF-IDF and PILtotensor vectorizations. This is the first proposal to address such task with multimodal datasets, revealing the substantial benefit of incorporating image information, even when a relatively small model (ResNet-50) was used to embed them.
翻訳日:2024-06-26 19:10:10 公開日:2024-06-21
# 南極氷床による地域海面変動のエミュレーションのための不確実性対応機械学習

Uncertainty-enabled machine learning for emulation of regional sea-level change caused by the Antarctic Ice Sheet ( http://arxiv.org/abs/2406.17729v1 )

ライセンス: Link先を確認
Myungsoo Yoo, Giri Gopalan, Matthew J. Hoffman, Sophie Coulson, Holly Kyeore Han, Christopher K. Wikle, Trevor Hillebrand, (参考訳) 様々な気候変化のシナリオで海面の変化を予測するには、通常、氷塊の変化に対する地球の重力、回転、変形(GRD)反応の前方シミュレーションを行う。 ここでは,21世紀の南極氷床の質量変化に伴うGRDの影響により,27の沿岸部における海面変化のニューラルネットワークエミュレータを構築した。 エミュレータは、静的海面方程式の数値解法を用いて生成されたデータセットに基づいており、IPCC AR6レポートで参照されたISMIP6-2100氷床モデルシミュレーションを公表している。 ニューラルネットワークエミュレータは,ベースライン機械学習エミュレータと競合する精度を持つことを示す。 不確かさを定量化するために, 線形回帰後処理手法を用いて, 数値気候モデルにこれまで適用されてきた(非線形)機械学習モデル出力を用いて, 海面変動の予測間隔を推定した。 フィードフォワード型ニューラルネットワークエミュレータは,訓練に用いる数値海面方程式解法と比較して,100倍の速度で計算効率を向上する。

Projecting sea-level change in various climate-change scenarios typically involves running forward simulations of the Earth's gravitational, rotational and deformational (GRD) response to ice mass change, which requires high computational cost and time. Here we build neural-network emulators of sea-level change at 27 coastal locations, due to the GRD effects associated with future Antarctic Ice Sheet mass change over the 21st century. The emulators are based on datasets produced using a numerical solver for the static sea-level equation and published ISMIP6-2100 ice-sheet model simulations referenced in the IPCC AR6 report. We show that the neural-network emulators have an accuracy that is competitive with baseline machine learning emulators. In order to quantify uncertainty, we derive well-calibrated prediction intervals for simulated sea-level change via a linear regression postprocessing technique that uses (nonlinear) machine learning model outputs, a technique that has previously been applied to numerical climate models. We also demonstrate substantial gains in computational efficiency: a feedforward neural-network emulator exhibits on the order of 100 times speedup in comparison to the numerical sea-level equation solver that is used for training.
翻訳日:2024-06-26 13:31:24 公開日:2024-06-21
# 最適化バンドアルゴリズムの脆弱性

The Fragility of Optimized Bandit Algorithms ( http://arxiv.org/abs/2109.13595v7 )

ライセンス: Link先を確認
Lin Fan, Peter W. Glynn, (参考訳) 帯域幅アルゴリズムの最適設計に関する文献の多くは、期待される後悔の最小化に基づいている。 ある指数関数族に対して最適である設計は、レイ・ロビンズの下界に支配される速度で、腕の遊びの数で対数的に増加する期待された後悔を達成できることはよく知られている。 本稿では、そのような最適化された設計を用いる場合、関連するアルゴリズムの後悔の分布は、必ずしも非常に重い尾、具体的には、切り詰められたコーシー分布を持つ。 さらに、$p>1$の場合、後悔分布の$p$'th モーメントは多対数的よりもはるかに速く成長する。 最適化された UCB バンディットの設計は, 若干の誤特定が生じた場合, 従来の理論よりはるかに早く, より脆弱であることを示す。 我々の議論は、標準的な測定の考え方に基づいており、予想よりも後悔が大きくなる可能性が最も高いのは、最初の数本の腕で、最適腕が平均以下の報酬を返すときであり、その結果、アルゴリズムがアームが最適以下であると信じるようになることである。 露呈した脆弱性の問題を軽減するため,UDBアルゴリズムは,不特定性に対して所望の堅牢性を確保するために変更可能であることを示す。 また, UCB探鉱量と, 結果として生じる残存分布の重みとの間には, 急激なトレードオフを示す。

Much of the literature on optimal design of bandit algorithms is based on minimization of expected regret. It is well known that designs that are optimal over certain exponential families can achieve expected regret that grows logarithmically in the number of arm plays, at a rate governed by the Lai-Robbins lower bound. In this paper, we show that when one uses such optimized designs, the regret distribution of the associated algorithms necessarily has a very heavy tail, specifically, that of a truncated Cauchy distribution. Furthermore, for $p>1$, the $p$'th moment of the regret distribution grows much faster than poly-logarithmically, in particular as a power of the total number of arm plays. We show that optimized UCB bandit designs are also fragile in an additional sense, namely when the problem is even slightly mis-specified, the regret can grow much faster than the conventional theory suggests. Our arguments are based on standard change-of-measure ideas, and indicate that the most likely way that regret becomes larger than expected is when the optimal arm returns below-average rewards in the first few arm plays, thereby causing the algorithm to believe that the arm is sub-optimal. To alleviate the fragility issues exposed, we show that UCB algorithms can be modified so as to ensure a desired degree of robustness to mis-specification. In doing so, we also show a sharp trade-off between the amount of UCB exploration and the heaviness of the resulting regret distribution tail.
翻訳日:2024-06-26 05:34:02 公開日:2024-06-21
# 実用センサにおける位相と雑音の量子化ベイズ多パラメータ推定の最適化

Optimizing quantum-enhanced Bayesian multiparameter estimation of phase and noise in practical sensors ( http://arxiv.org/abs/2211.04747v2 )

ライセンス: Link先を確認
Federico Belliardo, Valeria Cimini, Emanuele Polino, Francesco Hoch, Bruno Piccirillo, Nicolò Spagnolo, Vittorio Giovannetti, Fabio Sciarrino, (参考訳) 未知量を測定する際には、ノイズや限られたリソースの可用性を含む実用的なシナリオに適した方法論を開発する必要がある。 本稿では,実験用フォトニックセンサにおいて,パラメータのサブセットが不可避ノイズ過程を記述するシナリオにおいて,準標準量子極限ベイズマルチパラメータ推定の最適化について報告する。 本研究では,どのパラメータが興味を持つか,あるいはニュアンスとして扱われるかによって,推定の最適化がどう変化するかを検討する。 以上の結果から,多パラメータアプローチをノイズアパラタで最適化することは,広帯域の標準量子限界を超える実用的センサの可能性を完全に活用するための重要なツールであることが示唆された。

Achieving quantum-enhanced performances when measuring unknown quantities requires developing suitable methodologies for practical scenarios, that include noise and the availability of a limited amount of resources. Here, we report on the optimization of sub-standard quantum limit Bayesian multiparameter estimation in a scenario where a subset of the parameters describes unavoidable noise processes in an experimental photonic sensor. We explore how the optimization of the estimation changes depending on which parameters are either of interest or are treated as nuisance ones. Our results show that optimizing the multiparameter approach in noisy apparata represents a significant tool to fully exploit the potential of practical sensors operating beyond the standard quantum limit for broad resources range.
翻訳日:2024-06-26 05:28:15 公開日:2024-06-21
# マルチモーダルコントラスト学習によるリンク表現

Linking Representations with Multimodal Contrastive Learning ( http://arxiv.org/abs/2304.03464v3 )

ライセンス: Link先を確認
Abhishek Arora, Xinmei Yang, Shao-Yu Jheng, Melissa Dell, (参考訳) 多くのアプリケーションは、個人、企業、あるいはデータセット間の場所をリンクする必要がある。 最も広く使われている手法、特に社会科学において、深層学習は採用されていない。 さらに、既存の手法は文書の本質的にマルチモーダルな性質を生かしていない。 歴史的記録リンクアプリケーションでは、文書は通常、光学文字認識(OCR)によってノイズに書き起こされる。 OCRのテキストのみとのリンクはノイズによって失敗することがあるが、画像のみとのリンクも失敗することがある。 マルチモーダル学習を活用するために,CLIPPINGS(Linking Pooled Pre-trained Embeddings)を開発した。 CLIPPINGSは、文書画像とそれに対応するOCRテキストのコントラスト言語イメージによる事前学習を通じて、対称視覚と言語バイエンコーダを整列する。 すると、あるインスタンスに対するプールされた画像テキストの埋め込みが同じクラス(例えば、同じ会社や場所)の埋め込みに近づき、異なるクラスの埋め込みから遠ざかる距離空間を対照的に学習する。 リンクをマルチモーダル埋め込みによる近接検索問題として扱うことにより、データをリンクする。 CLIPPINGSは、20世紀中盤の日本企業と金融文書を結びつける上で、広く使われている文字列マッチング手法よりも優れている。 純粋に自己教師付きモデル - ファーム名とそのOCRテキストのイメージクロップへの埋め込みを調整することでのみトレーニングされる - は、一般的な文字列マッチングメソッドよりも優れています。 特に、マルチモーダル事前学習されたビジョン専用エンコーダは、一様事前学習されたビジョン専用エンコーダよりも優れており、推論時に1つのモダリティしかリンクできない場合でも、マルチモーダル事前学習のパワーを発揮できる。

Many applications require linking individuals, firms, or locations across datasets. Most widely used methods, especially in social science, do not employ deep learning, with record linkage commonly approached using string matching techniques. Moreover, existing methods do not exploit the inherently multimodal nature of documents. In historical record linkage applications, documents are typically noisily transcribed by optical character recognition (OCR). Linkage with just OCR'ed texts may fail due to noise, whereas linkage with just image crops may also fail because vision models lack language understanding (e.g., of abbreviations or other different ways of writing firm names). To leverage multimodal learning, this study develops CLIPPINGS (Contrastively LInking Pooled Pre-trained Embeddings). CLIPPINGS aligns symmetric vision and language bi-encoders, through contrastive language-image pre-training on document images and their corresponding OCR'ed texts. It then contrastively learns a metric space where the pooled image-text embedding for a given instance is close to embeddings in the same class (e.g., the same firm or location) and distant from embeddings of a different class. Data are linked by treating linkage as a nearest neighbor retrieval problem with the multimodal embeddings. CLIPPINGS outperforms widely used string matching methods by a wide margin in linking mid-20th century Japanese firms across financial documents. A purely self-supervised model - trained only by aligning the embeddings for the image crop of a firm name and its corresponding OCR'ed text - also outperforms popular string matching methods. Fascinatingly, a multimodally pre-trained vision-only encoder outperforms a unimodally pre-trained vision-only encoder, illustrating the power of multimodal pre-training even if only one modality is available for linking at inference time.
翻訳日:2024-06-26 05:18:24 公開日:2024-06-21
# データ同化に先立つニューラルクープマン

Neural Koopman prior for data assimilation ( http://arxiv.org/abs/2309.05317v3 )

ライセンス: Link先を確認
Anthony Frion, Lucas Drumetz, Mauro Dalla Mura, Guillaume Tochon, Abdeldjalil Aïssa El Bey, (参考訳) 大規模データセット、計算能力、自動微分や表現型ニューラルネットワークアーキテクチャなどのツールの可用性が向上するにつれ、シーケンシャルなデータは、観測データからトレーニングされた動的モデルによって、データ駆動方式で扱われるようになった。 ニューラルネットワークは解釈不能なブラックボックスアーキテクチャと見なされることが多いが、それでもデータや数学的知識の物理的優先順位から恩恵を受けることができる。 本稿では,長年のクープマン作用素理論を応用したニューラルネットワークアーキテクチャを用いて,力学を線形に記述できる潜在空間に力学系を埋め込むことにより,多くの魅力的な特徴を実現する。 本研究では,データが不規則にサンプリングされた時系列に現れる困難な状況下であっても,このようなモデルによる長期的継続的再構成の訓練を可能にする手法を提案する。 自己教師付き学習の可能性も示されており、例えば時系列の補間や予測への応用を含む変動データ同化手法の先行として、トレーニングされた動的モデルの有望な利用が示されている。

With the increasing availability of large scale datasets, computational power and tools like automatic differentiation and expressive neural network architectures, sequential data are now often treated in a data-driven way, with a dynamical model trained from the observation data. While neural networks are often seen as uninterpretable black-box architectures, they can still benefit from physical priors on the data and from mathematical knowledge. In this paper, we use a neural network architecture which leverages the long-known Koopman operator theory to embed dynamical systems in latent spaces where their dynamics can be described linearly, enabling a number of appealing features. We introduce methods that enable to train such a model for long-term continuous reconstruction, even in difficult contexts where the data comes in irregularly-sampled time series. The potential for self-supervised learning is also demonstrated, as we show the promising use of trained dynamical models as priors for variational data assimilation techniques, with applications to e.g. time series interpolation and forecasting.
翻訳日:2024-06-26 04:58:37 公開日:2024-06-21
# LMDX:言語モデルに基づく文書情報抽出とローカライゼーション

LMDX: Language Model-based Document Information Extraction and Localization ( http://arxiv.org/abs/2309.10952v2 )

ライセンス: Link先を確認
Vincent Perot, Kai Kang, Florian Luisier, Guolong Su, Xiaoyu Sun, Ramya Sree Boppana, Zilong Wang, Zifeng Wang, Jiaqi Mu, Hao Zhang, Chen-Yu Lee, Nan Hua, (参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)に革命をもたらし、最先端を改善し、様々なタスクにまたがる創発的な能力を示す。 しかし、多くのドキュメント処理ワークフローの中核であり、半構造化文書からキーエンティティを抽出する、視覚的に豊かなドキュメントから情報を取り出すアプリケーションはまだ成功していない。 このタスクにLLMを採用する際の主な障害は、高品質な抽出に不可欠であるLLM内のレイアウトエンコーディングの欠如と、ドキュメント内の予測エンティティをローカライズする基盤機構の欠如である。 本稿では,LLMのための文書情報抽出タスクを再構成する手法であるLMDX(Language Model-based Document Information extract and Localization)を紹介する。 LMDXは、トレーニングデータと非トレーニングデータの両方を含む特異、繰り返し、階層的なエンティティの抽出を可能にし、ドキュメント内のエンティティの保証とローカライズを提供する。 最後に, LMDX を PaLM 2-S と Gemini Pro の LLM に適用し,VRDU と CORD のベンチマークで評価し, 新たな最先端技術の設定と, LMDX が高品質でデータ効率のよいパーサの作成を可能にしていることを示す。

Large Language Models (LLM) have revolutionized Natural Language Processing (NLP), improving state-of-the-art and exhibiting emergent capabilities across various tasks. However, their application in extracting information from visually rich documents, which is at the core of many document processing workflows and involving the extraction of key entities from semi-structured documents, has not yet been successful. The main obstacles to adopting LLMs for this task include the absence of layout encoding within LLMs, which is critical for high quality extraction, and the lack of a grounding mechanism to localize the predicted entities within the document. In this paper, we introduce Language Model-based Document Information Extraction and Localization (LMDX), a methodology to reframe the document information extraction task for a LLM. LMDX enables extraction of singular, repeated, and hierarchical entities, both with and without training data, while providing grounding guarantees and localizing the entities within the document. Finally, we apply LMDX to the PaLM 2-S and Gemini Pro LLMs and evaluate it on VRDU and CORD benchmarks, setting a new state-of-the-art and showing how LMDX enables the creation of high quality, data-efficient parsers.
翻訳日:2024-06-26 04:58:37 公開日:2024-06-21
# ReConcile: 異種LDM間の合意によるラウンドテイブル会議の改善

ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs ( http://arxiv.org/abs/2309.13007v3 )

ライセンス: Link先を確認
Justin Chih-Yao Chen, Swarnadeep Saha, Mohit Bansal, (参考訳) 大規模言語モデル(LLM)は、まだ自然言語推論タスクに苦戦している。 心の社会に動機づけられたReConcileは,多種多様なLDMエージェント間のラウンドテーブル会議として設計されたマルチモデルマルチエージェントフレームワークである。 ReConcileは、複数の議論を通じてLLMエージェント間の共同推論を強化し、他のエージェントを説得して回答を改善することを学び、よりコンセンサスを高めるための信頼度の高い投票メカニズムを採用する。 各ラウンドで、ReConcileはエージェント間の議論を開始する。 (a)前回ラウンドにおいて各代理人が生み出した回答及び説明 b)信頼スコア、そして (c)他のエージェントを説得するために使用される回答訂正人間の説明のデモンストレーション。 7つのベンチマークの実験では、ReConcileはLLMの推論(個人とチームの両方)を大幅に改善し、以前のシングルエージェントとマルチエージェントのベースラインを最大11.4%上回り、3つのデータセットでGPT-4を上回っている。 ReConcileには、APIベース、オープンソース、ドメイン固有モデルなど、さまざまなエージェントの組み合わせも柔軟に組み込まれており、MATHは8%改善されている。 最後に、ReConcileの個々のコンポーネントを分析し、異なるモデルから派生した多様性がその優れたパフォーマンスに重要であることを示す。 コード:https://github.com/dinobby/ReConcile

Large Language Models (LLMs) still struggle with natural language reasoning tasks. Motivated by the society of minds (Minsky, 1988), we propose ReConcile, a multi-model multi-agent framework designed as a round table conference among diverse LLM agents. ReConcile enhances collaborative reasoning between LLM agents via multiple rounds of discussion, learning to convince other agents to improve their answers, and employing a confidence-weighted voting mechanism that leads to a better consensus. In each round, ReConcile initiates discussion between agents via a 'discussion prompt' that consists of (a) grouped answers and explanations generated by each agent in the previous round, (b) their confidence scores, and (c) demonstrations of answer-rectifying human explanations, used for convincing other agents. Experiments on seven benchmarks demonstrate that ReConcile significantly improves LLMs' reasoning -- both individually and as a team -- surpassing prior single-agent and multi-agent baselines by up to 11.4% and even outperforming GPT-4 on three datasets. ReConcile also flexibly incorporates different combinations of agents, including API-based, open-source, and domain-specific models, leading to an 8% improvement on MATH. Finally, we analyze the individual components of ReConcile, demonstrating that the diversity originating from different models is critical to its superior performance. Code: https://github.com/dinobby/ReConcile
翻訳日:2024-06-26 04:58:37 公開日:2024-06-21
# VAEのトレーニング方法

How to train your VAE ( http://arxiv.org/abs/2309.13160v3 )

ライセンス: Link先を確認
Mariano Rivera, (参考訳) 変分オートエンコーダ(VAE)は、機械学習における生成モデリングと表現学習の基盤となっている。 本稿では,再編成精度と正規化のトレードオフを規定するエビデンス・ローワーバウンド(ELBO)の重要な構成要素であるKulback-Leibler (KL) Divergenceを解釈することに着目し,VAEのニュアンスな側面について考察する。 一方、KLディバージェンス(英語版)は、潜在変数分布と、全体の潜在空間に構造を課す前の配置を強制するが、個々の変数分布は拘束されない。 提案手法は, ELBOをガウスの混合体で再定義し, 分散崩壊を防止するための正規化項を導入し, テクスチャリアリズムを高めるためにPatchGAN識別器を用いる。 実装の詳細はEncoderとDecoderの両方のResNetV2アーキテクチャである。 実験は現実的な顔を生成する能力を示し、VAEベースの生成モデルを強化するための有望なソリューションを提供する。

Variational Autoencoders (VAEs) have become a cornerstone in generative modeling and representation learning within machine learning. This paper explores a nuanced aspect of VAEs, focusing on interpreting the Kullback-Leibler (KL) Divergence, a critical component within the Evidence Lower Bound (ELBO) that governs the trade-off between reconstruction accuracy and regularization. Meanwhile, the KL Divergence enforces alignment between latent variable distributions and a prior imposing a structure on the overall latent space but leaves individual variable distributions unconstrained. The proposed method redefines the ELBO with a mixture of Gaussians for the posterior probability, introduces a regularization term to prevent variance collapse, and employs a PatchGAN discriminator to enhance texture realism. Implementation details involve ResNetV2 architectures for both the Encoder and Decoder. The experiments demonstrate the ability to generate realistic faces, offering a promising solution for enhancing VAE-based generative models.
翻訳日:2024-06-26 04:58:37 公開日:2024-06-21
# ニューロモルフィックハードウェアの超低消費電力画像分類

Ultra-low-power Image Classification on Neuromorphic Hardware ( http://arxiv.org/abs/2309.16795v2 )

ライセンス: Link先を確認
Gregor Lenz, Garrick Orchard, Sadique Sheik, (参考訳) スパイキングニューラルネットワーク(SNN)は、時間的および空間的間隔を利用して超低消費電力の応用を約束する。 スパイクと呼ばれるバイナリアクティベーションの数は、ニューロモルフィックハードウェア上で実行されるときに消費される電力に比例する。 空間的特徴に大きく依存する視覚タスクの時間的バックプロパゲーションを用いたSNNの訓練には,計算コストがかかる。 画像認識データセットに関しては、ステートレスな人工知能ニューラルネットワーク(ANN)をトレーニングして、ウェイトをSNNに変換するのが簡単な方法です。 ほとんどの変換法は、ANNのアクティベーションを表すためにSNNのレートコーディングに依存している。 近年、時間変換法は、ニューロン毎のスパイクを著しく少なくするが、複雑なニューロンモデルを必要とする有望な結果を示している。 本稿では、最初のスパイク時間(TTFS)に基づいて、Quartzと呼ぶ時間的ANN-to-SNN変換手法を提案する。 Quartzは高い分類精度を実現し、最小のシナプス演算とメモリアクセスを使用しながら、ニューロモルフィックハードウェアで容易に実装できる。 これは、ニューロモルフィックハードウェアで容易に利用できる以前の時間変換法と比較して、ニューロン毎に2つのシナプスのコストがかかる。 We benchmark Quartz on MNIST, CIFAR10, ImageNet in Simulation to show the benefit of our method and follow up on the implementation on Loihi, a neuromorphic chip by Intel。 我々は、時間符号化が電力消費、スループット、遅延の点で、類似の分類精度に有利であることを示す。 私たちのコードとモデルは公開されています。

Spiking neural networks (SNNs) promise ultra-low-power applications by exploiting temporal and spatial sparsity. The number of binary activations, called spikes, is proportional to the power consumed when executed on neuromorphic hardware. Training such SNNs using backpropagation through time for vision tasks that rely mainly on spatial features is computationally costly. Training a stateless artificial neural network (ANN) to then convert the weights to an SNN is a straightforward alternative when it comes to image recognition datasets. Most conversion methods rely on rate coding in the SNN to represent ANN activation, which uses enormous amounts of spikes and, therefore, energy to encode information. Recently, temporal conversion methods have shown promising results requiring significantly fewer spikes per neuron, but sometimes complex neuron models. We propose a temporal ANN-to-SNN conversion method, which we call Quartz, that is based on the time to first spike (TTFS). Quartz achieves high classification accuracy and can be easily implemented on neuromorphic hardware while using the least amount of synaptic operations and memory accesses. It incurs a cost of two additional synapses per neuron compared to previous temporal conversion methods, which are readily available on neuromorphic hardware. We benchmark Quartz on MNIST, CIFAR10, and ImageNet in simulation to show the benefits of our method and follow up with an implementation on Loihi, a neuromorphic chip by Intel. We provide evidence that temporal coding has advantages in terms of power consumption, throughput, and latency for similar classification accuracy. Our code and models are publicly available.
翻訳日:2024-06-26 04:48:52 公開日:2024-06-21
# フォトニッククーパー対からの共鳴励起光

Resonant squeezed light from photonic Cooper pairs ( http://arxiv.org/abs/2310.07139v3 )

ライセンス: Link先を確認
Sanker Timsina, Taha Hammadia, Sahar Gholami Milani, Filomeno S. de Aguiar Júnior, Alexandre Brolo, Rogério de Sousa, (参考訳) フォノンへのラマン散乱は、ストークス過程で放出されるフォノンが反ストークス散乱にコヒーレントに吸収され、クーパー対のフォトニックアナログを形成するときに、光子対が絡み合うようになる。 相互作用する光子とフォノンをハイブリッド励起として扱う光子クーパー対の時間進化に関する非摂動理論、ラマニトンについて述べる。 ラマニトンが導波路で伝播すると、光子とフォノンの占有の間の量子振動が示され、フォノンの占有が光子真空に戻ることなくゼロに等しいとき、共鳴がストクス・アンチストークス光を励起する。 この現象は、絶縁体導波路上の標準シリコンでも最大28dBの励起光を生成すると予測されている。

Raman scattering of photons into phonons gives rise to entangled photon pairs when the phonon emitted in a Stokes process is coherently absorbed in antiStokes scattering, forming the photonic analog of Cooper pairs. We present a nonperturbative theory for the time evolution of photonic Cooper pairs that treats interacting photons and phonons as a hybrid excitation, the Ramaniton. As the Ramaniton propagates in a wave guide it displays quantum oscillations between photon and phonon occupation, leading to resonant squeezed Stokes-antiStokes light when the phonon occupation becomes equal to zero without recurring back to the photon vacuum. This phenomenon is predicted to generate up to 28 dB of squeezed light even in standard silicon on insulator waveguides.
翻訳日:2024-06-26 04:48:52 公開日:2024-06-21
# カオス量子系におけるマイクロカノニカルトランケート作用素のユニタリ対称性の創発

Emergence of unitary symmetry of microcanonically truncated operators in chaotic quantum systems ( http://arxiv.org/abs/2310.20264v3 )

ライセンス: Link先を確認
Jiaozi Wang, Jonas Richter, Mats H. Lamann, Robin Steinigeweg, Jochen Gemmer, Anatoly Dymarsky, (参考訳) エネルギー固有ベイズに書き込まれた可観測物の行列要素の統計的性質について検討し, 小型マイクロカノニカルウィンドウに切り替わる。 カオス多体系における全ての少数の体演算子に対して、行列要素の集合統計的性質が創発的ユニタリ対称性を示すことを示す数値的な証拠を示す。 すなわち、あるスケール以下では、切り詰められた作用素のスペクトルが普遍的な振る舞いを示し、解析的予測と一致し、正確な対角化を超えたシステムサイズで数値的に検証可能であることを示す。 本稿では,創発的ユニタリ対称性のエネルギースケールの演算子とシステムサイズ依存性について論じるとともに,より小さなエネルギースケールでのランダム・マトリクスの挙動の出現を探求する以前の研究の文脈で考察した。

We study statistical properties of matrix elements of observables written in the energy eigenbasis and truncated to small microcanonical windows. We present numerical evidence indicating that for all few body operators in chaotic many-body systems, truncated below certain energy scale, collective statistical properties of matrix elements exhibit emergent unitary symmetry. Namely, we show that below certain scale the spectra of the truncated operators exhibit universal behavior, matching our analytic predictions, which are numerically testable for system sizes beyond exact diagonalization. We discuss operator and system-size dependence of the energy scale of emergent unitary symmetry and put our findings in context of previous works exploring emergence of random-matrix behavior at small energy scales.
翻訳日:2024-06-26 04:39:08 公開日:2024-06-21
# 導出決定を伴う量子LDPC符号の信念伝搬復号

Belief Propagation Decoding of Quantum LDPC Codes with Guided Decimation ( http://arxiv.org/abs/2312.10950v2 )

ライセンス: Link先を確認
Hanwen Yao, Waleed Abu Laban, Christian Häger, Alexandre Graell i Amat, Henry D. Pfister, (参考訳) 量子低密度パリティチェック(QLDPC)符号は、量子エラー訂正のための有望な手法として登場した。 QLDPC符号には様々なデコーダが提案されており、その多くが何らかの方法で信念伝達(BP)デコーダを使用している。 しかし、退化QLDPC符号に対するBPデコードの使用は収束に問題があることが知られている。 これらの問題は典型的には、タナーグラフとコード縮退(同じシンドロームを持つ複数のエラーパターン)の短いサイクルに起因する。 統計復号法 (BP-OSD) や安定化器不活性化法 (BP-SI) などの非収束問題を緩和する様々な手法が提案されているが、より少ない複雑さで高い性能を達成することは研究の活発な領域である。 本研究では,BPガイドデシミテーション(BPGD)に基づくQLDPC符号のデコーダを提案する。 デシメーション過程は二項および四項BPの両方に適用でき、BP収束を促進するために最も信頼性の高いキュービットの値を逐次固定する。 その単純さにもかかわらず、BPGDは非収束性によるBP故障率を著しく低減し、線形方程式の系を解くことなく、順序付き統計復号法と安定化器不活性化法でBPと同等の性能を達成する。

Quantum low-density parity-check (QLDPC) codes have emerged as a promising technique for quantum error correction. A variety of decoders have been proposed for QLDPC codes and many of them utilize belief propagation (BP) decoding in some fashion. However, the use of BP decoding for degenerate QLDPC codes is known to have issues with convergence. These issues are typically attributed to short cycles in the Tanner graph and code degeneracy (i.e. multiple error patterns with the same syndrome). Although various methods have been proposed to mitigate the non-convergence issue, such as BP with ordered statistics decoding (BP-OSD) and BP with stabilizer inactivation (BP-SI), achieving better performance with lower complexity remains an active area of research. In this work, we propose a decoder for QLDPC codes based on BP guided decimation (BPGD), which has been previously studied for constraint satisfaction and lossy compression problems. The decimation process is applicable to both binary and quaternary BP and it involves sequentially fixing the value of the most reliable qubits to encourage BP convergence. Despite its simplicity, We find that BPGD significantly reduces the BP failure rate due to non-convergence, achieving performance on par with BP with ordered statistics decoding and BP with stabilizer inactivation, without the need to solve systems of linear equations.
翻訳日:2024-06-26 02:32:50 公開日:2024-06-21
# 散逸系における絡み合った多重項、非対称性、および量子ムペンバ効果

Entangled multiplets, asymmetry, and quantum Mpemba effect in dissipative systems ( http://arxiv.org/abs/2402.02918v3 )

ライセンス: Link先を確認
Fabio Caceffo, Sara Murciano, Vincenzo Alba, (参考訳) 近年、エンタングルメント非対称性は、量子クエンチ後の平衡外量子多体系における動的対称性の復元を理解するための情報ツールとして出現した。 可積分系に対して、非対称性は、Refで指摘された準粒子図形を通して時空のスケーリング限界で理解することができる。 [1]。 しかし、一般的な初期状態からの量子クエンチの準粒子像はいまだに欠けていた。 ここでは、非対称性を構成する主成分である還元密度行列の荷電モーメントに対して、フルフローの準粒子像を予想する。 我々の公式は、任意の数の励起の絡み合った多重項を生成するクエンチに対して機能する。 結果のベンチマークを$XX$のスピンチェーンで行います。 まず、多次元定常位相近似に基づく基本的アプローチを用いて、[2]で処理されたクエンチに対する荷電モーメントの力学の厳密な導出を$\textit{ab initio}$とする。 次に, 準粒子画像において, 同じ結果が直接得られることを示す。 解析の副産物として、長い時間で消滅する絡み合う非対称性を保証する一般的な基準を得る。 次に、リンドブラッドマスター方程式を用いて、エンタングルメント非対称性に対する利得と損失散逸の影響を研究する。 具体的には、放散の存在下でのいわゆる量子Mpemba効果(QME)の運命について検討する。 単位動力学が示さない場合でも散逸はQMEを誘導できることを示すとともに,QMEの条件を準粒子ベースで解釈する。

Recently, the entanglement asymmetry emerged as an informative tool to understand dynamical symmetry restoration in out-of-equilibrium quantum many-body systems after a quantum quench. For integrable systems the asymmetry can be understood in the space-time scaling limit via the quasiparticle picture, as it was pointed out in Ref. [1]. However, a quasiparticle picture for quantum quenches from generic initial states was still lacking. Here we conjecture a full-fledged quasiparticle picture for the charged moments of the reduced density matrix, which are the main ingredients to construct the asymmetry. Our formula works for quenches producing entangled multiplets of an arbitrary number of excitations. We benchmark our results in the $XX$ spin chain. First, by using an elementary approach based on the multidimensional stationary phase approximation we provide an $\textit{ab initio}$ rigorous derivation of the dynamics of the charged moments for the quench treated in [2]. Then, we show that the same results can be straightforwardly obtained within our quasiparticle picture. As a byproduct of our analysis, we obtain a general criterion ensuring a vanishing entanglement asymmetry at long times. Next, by using the Lindblad master equation, we study the effect of gain and loss dissipation on the entanglement asymmetry. Specifically, we investigate the fate of the so-called quantum Mpemba effect (QME) in the presence of dissipation. We show that dissipation can induce QME even if unitary dynamics does not show it, and we provide a quasiparticle-based interpretation of the condition for the QME.
翻訳日:2024-06-26 02:11:02 公開日:2024-06-21
# 量子横場イジングモデルに対するリーブ・ロビンソン相関関数

Lieb-Robinson correlation function for the quantum transverse field Ising model ( http://arxiv.org/abs/2402.11080v2 )

ライセンス: Link先を確認
Brendan J. Mahoney, Craig S. Lent, (参考訳) リーブ・ロビンソン相関関数は、異なる時間に異なる部分系で作用する局所作用素の間の可換作用素のノルムである。 これは空間的に分離された量子ビット間の特定の量子相互作用を特徴づけるために有用な状態独立測度を提供する。 この相関子に対する有限伝播速度は、量子の影響の「光円錐」を定義する。 逆場イジングモデルにより記述された1次元量子ビットアレイに対するリーブ・ロビンソン相関関数を計算する。 この相関関数の直接計算は、量子ビットの数で状態空間のサイズが指数関数的に増加することで制限されている。 本稿では,計算結果をパウリウォーク上の和に変換することで,システムサイズによる線形スケーリングを実現することにより,この障壁を回避する新しい手法を提案する。 次に、数百の量子ビットの配列の伝播を探索し、系の量子相転移の影響を観察する。 位相遷移に影響される相関前速度と、そうでないリーブ・ロビンソン速度の2つの異なる伝播速度の出現を観察する。 相関前速度は、単一準粒子励起の最大群速度と等しい。 リーブ・ロビンソン速度は、相関関数自体の値がまだ非常に小さいときに、相関の極端に先行するエッジを記述する。 量子臨界点における量子ビットの半無限鎖について、相関関数の解析結果を得る。

The Lieb-Robinson correlation function is the norm of a commutator between local operators acting on separate subsystems at different times. This provides a useful state-independent measure for characterizing the specifically quantum interaction between spatially separated qubits. The finite propagation velocity for this correlator defines a "light-cone" of quantum influence. We calculate the Lieb-Robinson correlation function for one-dimensional qubit arrays described by the transverse field Ising model. Direct calculations of this correlation function have been limited by the exponential increase in the size of the state space with the number of qubits. We introduce a new technique that avoids this barrier by transforming the calculation to a sum over Pauli walks which results in linear scaling with system size. We can then explore propagation in arrays of hundreds of qubits and observe the effects of the quantum phase transition in the system. We observe the emergence of two distinct velocities of propagation: a correlation front velocity, which is affected by the phase transition, and the Lieb-Robinson velocity which is not. The correlation front velocity is equal to the maximum group velocity of single quasiparticle excitations. The Lieb-Robinson velocity describes the extreme leading edge of correlations when the value of the correlation function itself is still very small. For the semi-infinite chain of qubits at the quantum critical point, we derive an analytical result for the correlation function.
翻訳日:2024-06-26 02:01:18 公開日:2024-06-21
# 語彙データに基づく大規模言語モデル(LLM) - 予測・生成・理解-

Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding -- A Survey ( http://arxiv.org/abs/2402.17944v4 )

ライセンス: Link先を確認
Xi Fang, Weijie Xu, Fiona Anting Tan, Jiani Zhang, Ziqing Hu, Yanjun Qi, Scott Nickleach, Diego Socolinsky, Srinivasan Sengamedu, Christos Faloutsos, (参考訳) 大規模言語モデリングの最近の進歩は、予測、表型データ合成、質問応答、テーブル理解など、表型データモデリングに関連する様々なタスクにおいて、その応用を厳格に探求する上で役立っている。 各タスクは、固有の課題と機会を提供する。 しかしながら、現時点では、この研究領域における主要なテクニック、メトリクス、データセット、モデル、最適化アプローチを要約し比較する包括的なレビューが欠如しています。 この調査は、これらの領域における最近の進歩を集約し、使用するデータセット、メトリクス、方法論の詳細な調査と分類を提供することによって、このギャップに対処することを目的としている。 既存の文献の強さ、限界、未探索領域、ギャップを識別し、この重要かつ急速に発展する分野における将来の研究の方向性についていくつかの洞察を提供する。 関連するコードやデータセットの参照も提供する。 この総合的なレビューを通じて、興味のある読者に関連する参照と洞察に富んだ視点を提供し、この分野の一般的な課題を効果的にナビゲートし、対処するための必要なツールと知識を彼らに与えたいと思っています。

Recent breakthroughs in large language modeling have facilitated rigorous exploration of their application in diverse tasks related to tabular data modeling, such as prediction, tabular data synthesis, question answering, and table understanding. Each task presents unique challenges and opportunities. However, there is currently a lack of comprehensive review that summarizes and compares the key techniques, metrics, datasets, models, and optimization approaches in this research domain. This survey aims to address this gap by consolidating recent progress in these areas, offering a thorough survey and taxonomy of the datasets, metrics, and methodologies utilized. It identifies strengths, limitations, unexplored territories, and gaps in the existing literature, while providing some insights for future research directions in this vital and rapidly evolving field. It also provides relevant code and datasets references. Through this comprehensive review, we hope to provide interested readers with pertinent references and insightful perspectives, empowering them with the necessary tools and knowledge to effectively navigate and address the prevailing challenges in the field.
翻訳日:2024-06-26 01:41:44 公開日:2024-06-21
# AdvQuNN: 準進化型ニューラルネットワークの逆ロバスト性解析手法

AdvQuNN: A Methodology for Analyzing the Adversarial Robustness of Quanvolutional Neural Networks ( http://arxiv.org/abs/2403.05596v2 )

ライセンス: Link先を確認
Walid El Maouaki, Alberto Marchisio, Taoufik Said, Mohamed Bennai, Muhammad Shafique, (参考訳) 量子コンピューティングの最近の進歩は、クオン進化ニューラルネットワーク(QuNN)のような量子層と古典的な層を混合したハイブリッド量子ニューラルネットワーク(HQNN)の開発につながっている。 いくつかの研究は、敵攻撃のような古典的なニューラルネットワークのセキュリティ上の脅威を示しているが、QuNNへの影響はいまだに未解明である。 この作業は、QuNNのようなHQNNの敵攻撃に対する堅牢性を調べる特殊な方法論であるAdvQuNNを設計することで、この問題に対処する。 異なる種類のアンサツェをパラメタライズド量子回路と異なる種類の敵攻撃として採用している。 本研究の目的は、量子回路アーキテクチャがQuNNモデルのレジリエンスに与える影響を厳格に評価することであり、QuNNの堅牢性を高め、量子サイバーセキュリティの分野を前進させる新しい経路を開くことである。 この結果から,従来の畳み込みネットワークと比較して,MNISTでは最大60倍,FMNISTでは40倍のロバスト性を達成できた。

Recent advancements in quantum computing have led to the development of hybrid quantum neural networks (HQNNs) that employ a mixed set of quantum layers and classical layers, such as Quanvolutional Neural Networks (QuNNs). While several works have shown security threats of classical neural networks, such as adversarial attacks, their impact on QuNNs is still relatively unexplored. This work tackles this problem by designing AdvQuNN, a specialized methodology to investigate the robustness of HQNNs like QuNNs against adversarial attacks. It employs different types of Ansatzes as parametrized quantum circuits and different types of adversarial attacks. This study aims to rigorously assess the influence of quantum circuit architecture on the resilience of QuNN models, which opens up new pathways for enhancing the robustness of QuNNs and advancing the field of quantum cybersecurity. Our results show that, compared to classical convolutional networks, QuNNs achieve up to 60\% higher robustness for the MNIST and 40\% for FMNIST datasets.
翻訳日:2024-06-26 01:31:59 公開日:2024-06-21
# 希少なオーロラ音のマルチラベル分類のための混合音の混合

Mixture of Mixups for Multi-label Classification of Rare Anuran Sounds ( http://arxiv.org/abs/2403.09598v2 )

ライセンス: Link先を確認
Ilyass Moummad, Nicolas Farrugia, Romain Serizel, Jeremy Froidevaux, Vincent Lostanlen, (参考訳) マルチラベルの不均衡な分類は、機械学習において重要な課題となり、特に生物音響学において、動物の音がしばしば共起し、特定の音が他の音よりもはるかに少ないことが顕著である。 本稿では,クラス不均衡とマルチラベルの両方の例を含むデータセットAnuraSetを用いて,アヌラン種の音を分類する特定の事例に焦点を当てた。 これらの課題に対処するために、Mixup、Manifold Mixup、MultiMixの混合正規化手法を利用したMixture of Mixups(Mix2)を紹介する。 実験結果から,これらの手法は個別に最適以下の結果をもたらす可能性が示唆された。しかし,各トレーニングイテレーションで選択された1つをランダムに適用した場合,特に稀なクラスにおいて,上記の課題に対処する上で有効であることが示唆された。 さらに分析した結果、Mix2は様々なレベルの共起音の分類に長けていることが明らかとなった。

Multi-label imbalanced classification poses a significant challenge in machine learning, particularly evident in bioacoustics where animal sounds often co-occur, and certain sounds are much less frequent than others. This paper focuses on the specific case of classifying anuran species sounds using the dataset AnuraSet, that contains both class imbalance and multi-label examples. To address these challenges, we introduce Mixture of Mixups (Mix2), a framework that leverages mixing regularization methods Mixup, Manifold Mixup, and MultiMix. Experimental results show that these methods, individually, may lead to suboptimal results; however, when applied randomly, with one selected at each training iteration, they prove effective in addressing the mentioned challenges, particularly for rare classes with few occurrences. Further analysis reveals that Mix2 is also proficient in classifying sounds across various levels of class co-occurrences.
翻訳日:2024-06-26 01:31:59 公開日:2024-06-21
# DeblurDiNAT: 軽量で効果的な画像デブロア変換器

DeblurDiNAT: A Lightweight and Effective Transformer for Image Deblurring ( http://arxiv.org/abs/2403.13163v2 )

ライセンス: Link先を確認
Hanzhou Liu, Binghan Li, Chengkai Liu, Mi Lu, (参考訳) 近年のTransformerベースのアーキテクチャでは、従来の畳み込みニューラルネットワーク(CNN)よりも劣化が改善しているが、大きなモデルサイズと計算コストは、まだ完全に解決されていない2つの厄介な問題である。 さらに、合成データセットに基づいてトレーニングされた既存の最先端(SOTA)アプローチは、目に見えない現実世界の難解なシナリオでうまく機能しない可能性がある。 そこで本研究では,クリーンな画像をぼやけた画像から効率よく復元する,コンパクトで堅牢なエンコーダ・デコーダ変換器であるDeblurDiNATを提案する。 局所的およびグローバルなぼかしパターンを学習するために、交互に拡張因子構造を採用する。 また,従来の自己アテンション層を持つトランスフォーマーが必ずしも優れた劣化結果をもたらすとは限らないことも観察した。 この問題を解決するために,ローカルなチャンネル間学習者(LCCL)を用いてチャネル関係をキャプチャするCMSAブロックを提案する。 さらに,高速な特徴伝達が可能な分割・乗算フィードフォワードネットワーク(DMFN)を提案する。 さらに、非線形性を導入するために、軽量なデュアルステージ機能融合(LDFF)モジュールを設計する。 総合的な実験結果から,提案したDeblurDiNATは,ベースラインに対する計算コストの顕著な増大を伴わずに大幅な性能向上を実現し,メインストリームの画像劣化データセット上でのSOTA性能を実現することが示された。 最寄りの競合と比較して、我々の空間効率と省時間モデルでは、パラメーターが3%-68%減少し、地上の真実に近づいた可視画像を生成することにより、より強力な一般化能力を示す。

While recent Transformer-based architectures generate improved deblurring outcomes than prior convolutional neural networks (CNNs), the large model size and heavy computational cost are still two bothersome issues which have not been fully resolved. Besides, the existing state-of-the-art (SOTA) approach trained on synthetic datasets may not perform well on a broad range of unseen real-world deblurring scenarios. To this end, we propose DeblurDiNAT, a compact and robust encoder-decoder Transformer which efficiently restores clean images from blurred ones. We adopt an alternating dilation factor structure to learn local and global blur patterns. Also, we observe that Transformers with conventional self-attention layers do not always produce good deblurred results. To solve this problem, we propose a channel modulation self-attention (CMSA) block, where a local cross-channel learner (LCCL) is utilized to capture channel relationships. In addition, we present a divide and multiply feed-forward network (DMFN) allowing fast feature propagation. Moreover, we design a lightweight dual-stage feature fusion (LDFF) module to introduce non-linearity. Comprehensive experimental results show that the proposed DeblurDiNAT provides a significant performance boost without a noticeable increase in computational cost over the baseline, and achieves SOTA performance on mainstream image deblurring datasets. Compared to nearest competitors, our space-efficient and time-saving model demonstrates a stronger generalization ability with 3%-68% fewer parameters and produces deblurred images that are visually closer to the ground truth.
翻訳日:2024-06-26 01:22:15 公開日:2024-06-21
# 主観的NLP課題に対するアノテータ中心能動学習

Annotator-Centric Active Learning for Subjective NLP Tasks ( http://arxiv.org/abs/2404.15720v3 )

ライセンス: Link先を確認
Michiel van der Meer, Neele Falk, Pradeep K. Murukannaiah, Enrico Liscio, (参考訳) アクティブラーニング(AL)は、最も有益なサンプルを戦略的に注釈付けすることで、人間のアノテーションを収集するコストに対処する。 しかし、主観的NLPタスクでは、アノテーションプロセスに幅広い視点を取り入れることが人間の判断の多様性を捉える上で重要である。 本稿では,データサンプリングに続き,アノテーション選択戦略を取り入れたACAL(Annotator-Centric Active Learning)を提案する。 本研究の目的は,(1)人間の判断の多様性を効果的に近似すること,(2)アノテータ中心の指標を用いてモデル性能を評価すること,である。 従来の評価指標と人間中心評価指標の両方を用いて、7つの主観的NLPタスクにまたがる複数のアノテータ選択戦略を実験した。 以上の結果から,ACALはデータ効率を向上し,アノテータ中心の性能評価に優れることが示唆された。 しかし、その成功は、十分に大きく多様なアノテータのプールがサンプルとして利用できることに依存している。

Active Learning (AL) addresses the high costs of collecting human annotations by strategically annotating the most informative samples. However, for subjective NLP tasks, incorporating a wide range of perspectives in the annotation process is crucial to capture the variability in human judgments. We introduce Annotator-Centric Active Learning (ACAL), which incorporates an annotator selection strategy following data sampling. Our objective is two-fold: (1) to efficiently approximate the full diversity of human judgments, and (2) to assess model performance using annotator-centric metrics, which emphasize minority perspectives over a majority. We experiment with multiple annotator selection strategies across seven subjective NLP tasks, employing both traditional and novel, human-centered evaluation metrics. Our findings indicate that ACAL improves data efficiency and excels in annotator-centric performance evaluations. However, its success depends on the availability of a sufficiently large and diverse pool of annotators to sample from.
翻訳日:2024-06-26 01:02:45 公開日:2024-06-21
# 予熱期における相互作用する準周期スピン鎖

Interacting quasiperiodic spin chains in the prethermal regime ( http://arxiv.org/abs/2405.01622v2 )

ライセンス: Link先を確認
Yi-Ting Tu, David M. Long, Sankar Das Sarma, (参考訳) 強い不規則な相互作用を持つスピン鎖における多体局在(MBL)の研究の最近の進歩は、有限時間前熱的挙動と長い時間と大きな体積漸近とを区別することの重要性を強調している。 この観点から準周期ガネシャン・ピクトリー・ダスサルマモデルにおける非エルゴディック拡張(NEE)機構の再検討を行い,この機構が予熱的特徴であることを示す。 実際、NEE体制はスピンスピン自己相関関数の関数形式の変化によって特定される可能性があり、中間時間力学においてNEE体制が識別可能であることを示す。 これは、NEE則と1粒子スペクトルにおける漸近移動エッジの存在に関する既存の予想とは対照的である。 そこで本研究では,スピン鎖の漸近特性に依存しないNEE構造の形成機構を提案する。 すなわち、障害ポテンシャルの深い井戸が周期的に空間化されているため、NEE体制が出現することを提案する。 高度に劣化した部位は、システム全体のスピン輸送を抑制し、チェーンを効果的に切断し、異なる演算子の拡散の間の時間スケールの分離を生成する。 この提案を支持するために、NEE現象は、深部井戸を持つランダムモデルでも、モビリティエッジのないモデルでも発生し、モビリティエッジを持つ準周期モデルでは発生しないが、深部井戸を持たないモデルでは発生しないことを示す。 以上の結果から, 予熱期における準周期系とランダムに乱れた系の力学には, 明確な違いはないという結論が得られた。 より具体的には、一般的な相互作用準周期モデルは、その単一粒子移動エッジから生じる安定な中間動的位相を持たず、そのようなモデルにおけるNEE現象は過渡的である。

Recent progress in the study of many-body localization (MBL) in strongly disordered interacting spin chains has emphasized the importance of distinguishing finite time prethermal behavior from long time and large volume asymptotics. We re-examine a reported non-ergodic extended (NEE) regime in the interacting quasiperiodic Ganeshan-Pixley-Das Sarma model from this perspective, and propose that this regime is a prethermal feature. Indeed, we argue that the NEE regime may be identified through a change in the functional form of spin-spin autocorrelation functions, demonstrating that the NEE regime is distinguishable within intermediate-time dynamics. This is in contrast with existing conjectures relating the NEE regime to the presence of an asymptotic mobility edge in the single-particle spectrum. Thus, we propose a mechanism for the formation of an NEE regime which does not rely on asymptotic properties of the spin chain. Namely, we propose that the NEE regime emerges due to regularly spaced deep wells in the disorder potential. The highly detuned sites suppress spin transport across the system, effectively cutting the chain, and producing a separation of time scales between the spreading of different operators. To support this proposal, we show that the NEE phenomenology also occurs in random models with deep wells but with no mobility edges, and does not occur in quasiperiodic models with mobility edges but with no deep wells. Our results support the broad conclusion that there is not a sharp distinction between the dynamics of quasiperiodically and randomly disordered systems in the prethermal regime. More specifically, we find that generic interacting quasiperiodic models do not have stable intermediate dynamical phases arising from their single-particle mobility edges, and that NEE phenomenology in such models is transient.
翻訳日:2024-06-26 00:53:00 公開日:2024-06-21
# タスク指向プロンプトによる動的埋め込み

Dynamic Embeddings with Task-Oriented prompting ( http://arxiv.org/abs/2405.11117v2 )

ライセンス: Link先を確認
Allmin Balloccu, Jack Zhang, (参考訳) 本稿では、フレキシブルな埋め込み層を実装することで機械学習モデルの適応性と効率を向上させることを目的とした新しいアプローチであるDETOT(Dynamic Embeddings with Task-Oriented prompting)を紹介する。 従来の静的な埋め込み(14)とは異なり、DETOTはタスク固有の要件とパフォーマンスフィードバックに基づいて埋め込みを動的に調整し、個々のタスクに対して入力データ表現を最適化します [4]。 この方法は、各タスクのユニークなニーズを満たすように表現層を調整することで、精度と計算性能を両立させる。 DETOTの構造は詳細であり、タスク固有の適応、継続的なフィードバックループ、過度な適合を防ぐメカニズムを強調している。 経験的評価は既存の方法よりも優れていることを示す。

This paper introduces Dynamic Embeddings with Task-Oriented prompting (DETOT), a novel approach aimed at improving the adaptability and efficiency of machine learning models by implementing a flexible embedding layer. Unlike traditional static embeddings [14], DETOT dynamically adjusts embeddings based on task-specific requirements and performance feedback, optimizing input data representation for individual tasks [4]. This method enhances both accuracy and computational performance by tailoring the representation layer to meet the unique needs of each task. The structure of DETOT is detailed, highlighting its task-specific adaptation, continuous feedback loop, and mechanisms for preventing overfitting. Empirical evaluations demonstrate its superiority over existing methods.
翻訳日:2024-06-26 00:53:00 公開日:2024-06-21
# 電子商取引における大規模言語モデルの公正性に関する調査--進展、応用、挑戦

A survey on fairness of large language models in e-commerce: progress, application, and challenge ( http://arxiv.org/abs/2405.13025v2 )

ライセンス: Link先を確認
Qingyang Ren, Zilin Jiang, Jinghan Cao, Sijia Li, Chiqu Li, Yiyang Liu, Shuning Huo, Tiange He, Yuan Chen, (参考訳) 本調査では,eコマースにおける大規模言語モデル(LLM)の公正性について,その進捗状況やアプリケーション,直面している課題について検討する。 LLMは、革新的なソリューションを提供し、顧客エクスペリエンスを向上させることで、Eコマース領域において重要な存在になっています。 本研究は,電子商取引におけるLCMの応用と課題に関する総合的な調査である。 論文は、電子商取引におけるLLMの使用の基礎となる重要な原則の導入から始まり、事前トレーニング、微調整のプロセスを詳述し、これらのモデルを特定のニーズに合わせるよう促す。 次に、製品レビュー、顧客のフィードバックを合成し分析する製品レコメンデーション、消費者データを活用して関連する項目を提案する製品情報翻訳、グローバルアクセシビリティの向上、顧客サポートを自動化する製品質問と回答セクションなど、電子商取引におけるLCMのさまざまな応用について検討する。 この論文は、eコマースにおける公正性の課題を批判的に扱い、トレーニングデータやアルゴリズムのバイアスが、ステレオタイプを強化したり、特定のグループを差別したりといった不公平な結果をもたらす可能性があることを強調している。 これらの問題は消費者の信頼を損なうだけでなく、倫理的および法的懸念も引き起こす。 最後に、この研究は今後の研究の方向性を概説し、電子商取引におけるより公平で透明なLCMの必要性を強調している。 偏見を緩和し、これらのシステムの公正性を向上し、多様なグローバル市場を効果的かつ倫理的に提供するよう継続的な努力を提唱している。 この包括的な分析を通じて、この調査は、eコマースにおけるLLMの現在の状況の全体像を提供し、その可能性と限界についての洞察を提供し、より公平で包括的なeコマース環境を構築するための将来の取り組みを導く。

This survey explores the fairness of large language models (LLMs) in e-commerce, examining their progress, applications, and the challenges they face. LLMs have become pivotal in the e-commerce domain, offering innovative solutions and enhancing customer experiences. This work presents a comprehensive survey on the applications and challenges of LLMs in e-commerce. The paper begins by introducing the key principles underlying the use of LLMs in e-commerce, detailing the processes of pretraining, fine-tuning, and prompting that tailor these models to specific needs. It then explores the varied applications of LLMs in e-commerce, including product reviews, where they synthesize and analyze customer feedback; product recommendations, where they leverage consumer data to suggest relevant items; product information translation, enhancing global accessibility; and product question and answer sections, where they automate customer support. The paper critically addresses the fairness challenges in e-commerce, highlighting how biases in training data and algorithms can lead to unfair outcomes, such as reinforcing stereotypes or discriminating against certain groups. These issues not only undermine consumer trust, but also raise ethical and legal concerns. Finally, the work outlines future research directions, emphasizing the need for more equitable and transparent LLMs in e-commerce. It advocates for ongoing efforts to mitigate biases and improve the fairness of these systems, ensuring they serve diverse global markets effectively and ethically. Through this comprehensive analysis, the survey provides a holistic view of the current landscape of LLMs in e-commerce, offering insights into their potential and limitations, and guiding future endeavors in creating fairer and more inclusive e-commerce environments.
翻訳日:2024-06-26 00:43:06 公開日:2024-06-21
# コンストラクティブな熟考を促進する - 受容性のためのリフレーミング

Promoting Constructive Deliberation: Reframing for Receptiveness ( http://arxiv.org/abs/2405.15067v2 )

ライセンス: Link先を確認
Gauri Kambhatla, Matthew Lease, Ashwin Rajadesingan, (参考訳) 議論を呼んだトピックをオンラインで構築的に議論する上で,先行するコメントに対する反応に反する応答を自動的にリフレーミングする手法を提案する。 心理学、コミュニケーション、言語学の研究に基づいて、リフレーミングの6つの戦略を特定する。 Redditデータセットを使用して、各戦略に従ってコメントに対する返信を自動的に再設定します。 人間中心の実験を通して、我々のフレームワークで生成された反応は、元の反応と一般的な受容性ベースラインよりもはるかに受容性が高いと認識されていることがわかった。 社会科学の特定の構成要素である受容性(receptiveness)を計算フレームワークに変換することで、LLM世代をより人間の知覚に適合させる方法について説明する。 我々は、結果の意味を分析し、議論し、私たちのフレームワークに基づいたツールが、より教育的でクリエイティブなコンテンツモデレーションにどのように使われるかを強調します。

To promote constructive discussion of controversial topics online, we propose automatic reframing of disagreeing responses to signal receptiveness to a preceding comment. Drawing on research from psychology, communications, and linguistics, we identify six strategies for reframing. We automatically reframe replies to comments according to each strategy, using a Reddit dataset. Through human-centered experiments, we find that the replies generated with our framework are perceived to be significantly more receptive than the original replies and a generic receptiveness baseline. We illustrate how transforming receptiveness, a particular social science construct, into a computational framework, can make LLM generations more aligned with human perceptions. We analyze and discuss the implications of our results, and highlight how a tool based on our framework might be used for more teachable and creative content moderation.
翻訳日:2024-06-26 00:43:06 公開日:2024-06-21
# 連続的攻撃を伴うLDMの効率よい対人訓練

Efficient Adversarial Training in LLMs with Continuous Attacks ( http://arxiv.org/abs/2405.15589v2 )

ライセンス: Link先を確認
Sophie Xhonneux, Alessandro Sordoni, Stephan Günnemann, Gauthier Gidel, Leo Schwinn, (参考訳) 大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。 多くのドメインにおいて、このような攻撃に対する堅牢性を確実に改善する最も有望な方法の1つとして、敵の訓練が証明されている。 しかし、LLMの文脈では、各訓練イテレーションで個別の対向攻撃を行うのに必要な計算コストが高いため、現在の対向訓練方法が妨げられている。 本研究では, LLM の連続埋め込み空間における敵攻撃を計算してこの問題に対処する。 本稿では,2つの損失から成る高速対人訓練アルゴリズム(C-AdvUL)を提案する。第1に,対人行動データセット上で計算された連続的な埋め込み攻撃に対してモデルを頑健にし,第2に,実用データによる微調整による最終モデルの有用性を保証する。 C-AdvIPO(C-AdvIPO)は、対向的ロバストなアライメントのためのユーティリティデータを必要としない、対向型のIPOである。 我々は,異なる家族(Gemma,Phi3,Mistral,Zephyr)と異なるスケール(2B,3.8B,7B)の4つのモデルに対する実験的な評価を行い,両アルゴリズムが実用性を維持しつつ,離散攻撃(GCG,AutoDAN,PAIR)に対してLLMロバスト性を大幅に向上させることを示した。 この結果から, 連続摂動に対する頑健性は, 離散的な脅威モデルに当てはまることを示した。 そこで我々は,LLMを堅牢に整列させるスケーラブルな対角訓練アルゴリズムを提案する。

Large language models (LLMs) are vulnerable to adversarial attacks that can bypass their safety guardrails. In many domains, adversarial training has proven to be one of the most promising methods to reliably improve robustness against such attacks. Yet, in the context of LLMs, current methods for adversarial training are hindered by the high computational costs required to perform discrete adversarial attacks at each training iteration. We address this problem by instead calculating adversarial attacks in the continuous embedding space of the LLM, which is orders of magnitudes more efficient. We propose a fast adversarial training algorithm (C-AdvUL) composed of two losses: the first makes the model robust on continuous embedding attacks computed on an adversarial behaviour dataset; the second ensures the usefulness of the final model by fine-tuning on utility data. Moreover, we introduce C-AdvIPO, an adversarial variant of IPO that does not require utility data for adversarially robust alignment. Our empirical evaluation on four models from different families (Gemma, Phi3, Mistral, Zephyr) and at different scales (2B, 3.8B, 7B) shows that both algorithms substantially enhance LLM robustness against discrete attacks (GCG, AutoDAN, PAIR), while maintaining utility. Our results demonstrate that robustness to continuous perturbations can extrapolate to discrete threat models. Thereby, we present a path toward scalable adversarial training algorithms for robustly aligning LLMs.
翻訳日:2024-06-26 00:43:06 公開日:2024-06-21
# MindStar: 推論時間における事前学習LDMにおける数学推論の強化

MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time ( http://arxiv.org/abs/2405.16265v3 )

ライセンス: Link先を確認
Jikun Kang, Xin Zhe Li, Xi Chen, Amirreza Kazemi, Boxing Chen, Dong Li, Feng Wen, Jianye Hao, (参考訳) 大きな言語モデル(LLM)は様々なタスクで顕著なパフォーマンスを達成するが、数学的な疑問に答えるなど複雑な推論タスクに苦しむことが多い。 この問題に対処する最近の取り組みは、主に教師付き微調整技術や自己改善技術による数学的データセットの活用に焦点を当てている。 しかし、これらの手法は、しばしば準備が難しい高品質なデータセットに依存するか、あるいは微調整のためにかなりの計算資源を必要とする。 LLMが正しい答えを生成する方法を知っているが、正しい推論経路を選択するのに苦労しているという発見に触発されて、我々は純粋に推論に基づく探索手法であるMindStar (M*)を提案する。 本手法は,探索問題として推論タスクを定式化し,最適な推論経路を特定するための2つの探索アイデアを提案する。 GSM8KとMATHの両方のデータセット上でM*フレームワークを評価し,その性能を既存のオープンソースLLMと比較した。 その結果,M* は Llama-2-13B や Mistral-7B などのオープンソースモデルの推論能力を大幅に向上し,GPT-3.5 や Grok-1 に匹敵する性能が得られたが,モデルサイズや計算コストは大幅に削減された。

Although Large Language Models (LLMs) achieve remarkable performance across various tasks, they often struggle with complex reasoning tasks, such as answering mathematical questions. Recent efforts to address this issue have primarily focused on leveraging mathematical datasets through supervised fine-tuning or self-improvement techniques. However, these methods often depend on high-quality datasets that are difficult to prepare, or they require substantial computational resources for fine-tuning. Inspired by findings that LLMs know how to produce the right answer but struggle to select the correct reasoning path, we propose a purely inference-based searching method -- MindStar (M*). This method formulates reasoning tasks as searching problems and proposes two search ideas to identify the optimal reasoning paths. We evaluate the M* framework on both the GSM8K and MATH datasets, comparing its performance with existing open and closed-source LLMs. Our results demonstrate that M* significantly enhances the reasoning abilities of open-source models, such as Llama-2-13B and Mistral-7B, and achieves comparable performance to GPT-3.5 and Grok-1, but with substantially reduced model size and computational costs.
翻訳日:2024-06-26 00:43:06 公開日:2024-06-21
# 超低温1Dガスを用いた非破壊水素化ダイナマイゼーション

Unraveling hydrodynamization using ultracold 1D gases ( http://arxiv.org/abs/2405.20376v2 )

ライセンス: Link先を確認
Yicheng Zhang, Yuan Le, David S. Weiss, Marcos Rigol, (参考訳) 数種類の高エネルギークエンチの変種の後, 実験および理論的に1次元ボース気体の量子進化について検討した。 ほぼ可積分な多体系の相対的単純さによってもたらされる利点を利用して、2つの異なる、しばしば時間的に重なるプロセス、ハイドロダイナミゼーション、局所的前熱化の挙動を区別することができる。 我々の発見には普遍的な性格があり、これは突然の高エネルギークエンチの後、相互作用する多体量子系の短時間の挙動に適用できる。 具体的には、重イオン衝突との関連性について論じる。

We study the quantum evolution of 1D Bose gases immediately after several variants of high-energy quenches, both experimentally and theoretically. Using the advantages conveyed by the relative simplicity of these nearly integrable many-body systems, we are able to differentiate the behavior of two distinct but often temporally overlapping processes, hydrodynamization and local prethermalization. There is a universal character to our findings, which can be applied to the short-time behavior of any interacting many-body quantum system after a sudden high-energy quench. We specifically discuss its potential relevance to heavy-ion collisions.
翻訳日:2024-06-26 00:33:22 公開日:2024-06-21
# 言語モデルによるジェンダー・クェア方言バイアスのハーモフ音声検出

Harmful Speech Detection by Language Models Exhibits Gender-Queer Dialect Bias ( http://arxiv.org/abs/2406.00020v2 )

ライセンス: Link先を確認
Rebecca Dorn, Lee Kezar, Fred Morstatter, Kristina Lerman, (参考訳) ソーシャルメディアプラットフォーム上でのコンテンツモデレーションは、音声が増幅され、抑圧されるものに影響を与えるオンライン談話のダイナミクスを形成する。 近年の研究では、コンテンツモデレーションの実践の公正性、特にトランスジェンダーや非バイナリーの投稿を有害と積極的にフラグ付けすることへの懸念が高まっている。 本研究では,オンラインでのジェンダークェア方言の有害な音声分類におけるバイアスの存在について検討し,特に再生スラリーの治療に焦点をあてた。 LGBTQ+スラーの非退行的使用を実証する109のテンプレートに基づいて,新しいデータセットであるQueerReclaimLexを導入する。 データセットのインスタンスは、話者のアイデンティティに関する追加のコンテキストに応じて、性的なアノテータによって潜在的な害についてスコアされる。 筆者らは,これらのテキストの害評価において,5つの既成言語モデルの性能を体系的に評価し,著者のアイデンティティ・コンテキストを活用するために,大規模言語モデル(LLM)の学習を促すチェーン・オブ・思想の有効性について検討した。 ジェンダークェアの個人によって書かれたテキストを有害として不正確なフラグを立てる傾向を明らかにした。 興味深いことに、全てのLLMにおいて、特徴のあるスラー(F1 <= 0.24)をターゲットとした個人によって書かれたことの兆候を示すテキストにとって、パフォーマンスは最も貧弱である。 コンテンツモデレーションシステムにおいて、公正性とインクリシティの緊急ニーズを強調します。 これらのバイアスを明らかにすることで、より公平なコンテンツモデレーションの実践の進展を知らせ、すべてのユーザに対する包括的オンラインスペースの作成に寄与することを目的としている。

Content moderation on social media platforms shapes the dynamics of online discourse, influencing whose voices are amplified and whose are suppressed. Recent studies have raised concerns about the fairness of content moderation practices, particularly for aggressively flagging posts from transgender and non-binary individuals as toxic. In this study, we investigate the presence of bias in harmful speech classification of gender-queer dialect online, focusing specifically on the treatment of reclaimed slurs. We introduce a novel dataset, QueerReclaimLex, based on 109 curated templates exemplifying non-derogatory uses of LGBTQ+ slurs. Dataset instances are scored by gender-queer annotators for potential harm depending on additional context about speaker identity. We systematically evaluate the performance of five off-the-shelf language models in assessing the harm of these texts and explore the effectiveness of chain-of-thought prompting to teach large language models (LLMs) to leverage author identity context. We reveal a tendency for these models to inaccurately flag texts authored by gender-queer individuals as harmful. Strikingly, across all LLMs the performance is poorest for texts that show signs of being written by individuals targeted by the featured slur (F1 <= 0.24). We highlight an urgent need for fairness and inclusivity in content moderation systems. By uncovering these biases, this work aims to inform the development of more equitable content moderation practices and contribute to the creation of inclusive online spaces for all users.
翻訳日:2024-06-26 00:33:22 公開日:2024-06-21
# アドバンストトランスモデルを用いたクレジットカード不正検出

Credit Card Fraud Detection Using Advanced Transformer Model ( http://arxiv.org/abs/2406.03733v2 )

ライセンス: Link先を確認
Chang Yu, Yongshun Xu, Jin Cao, Ye Zhang, Yinxin Jin, Mengran Zhu, (参考訳) オンラインやモバイルの支払いシステムの普及に伴い、クレジットカード詐欺は金融セキュリティにとって重大な脅威となっている。 本研究は、より堅牢で正確な不正検出のための最新のTransformerモデルの革新的な応用に焦点を当てる。 データの信頼性を確保するため、データソースを慎重に処理し、データセットのバランスをとり、データの分散性の問題に対処する。 また,新しいトランスフォーマーモデルの信頼性と実用性を保証するため,SVM(Support Vector Machine),ランダムフォレスト(Random Forest),ニューラルネットワーク(Neural Network),ロジスティック回帰(Logistic Regression)など,広く採用されているモデルの性能比較を行った。 これらのモデルを、Precision、Recall、F1 Scoreといったメトリクスを使って厳格に比較した。 これらの詳細な分析と比較を通じて、読者に期待できる将来性を備えた高効率で強力なアンチフルート機構を提示する。 その結果,Transformerモデルは従来のアプリケーションに優れるだけでなく,不正検出などのニッチな分野でも大きな可能性を秘めていることがわかった。

With the proliferation of various online and mobile payment systems, credit card fraud has emerged as a significant threat to financial security. This study focuses on innovative applications of the latest Transformer models for more robust and precise fraud detection. To ensure the reliability of the data, we meticulously processed the data sources, balancing the dataset to address the issue of data sparsity significantly. We also selected highly correlated vectors to strengthen the training process.To guarantee the reliability and practicality of the new Transformer model, we conducted performance comparisons with several widely adopted models, including Support Vector Machine (SVM), Random Forest, Neural Network, and Logistic Regression. We rigorously compared these models using metrics such as Precision, Recall, and F1 Score. Through these detailed analyses and comparisons, we present to the readers a highly efficient and powerful anti-fraud mechanism with promising prospects. The results demonstrate that the Transformer model not only excels in traditional applications but also shows great potential in niche areas like fraud detection, offering a substantial advancement in the field.
翻訳日:2024-06-26 00:23:38 公開日:2024-06-21
# 撮影ガウシアン:被写界深度を持つリアルタイムHDR放射場

Cinematic Gaussians: Real-Time HDR Radiance Fields with Depth of Field ( http://arxiv.org/abs/2406.07329v2 )

ライセンス: Link先を確認
Chao Wang, Krzysztof Wolski, Bernhard Kerbl, Ana Serrano, Mojtaba Bemana, Hans-Peter Seidel, Karol Myszkowski, Thomas Leimkühler, (参考訳) 放射場法は、多視点写真から複雑なシーンを再構成する最先端の手法である。 第一に、それらは一般的に低ダイナミックレンジ(LDR)のシーンを表しており、均等に照らされた環境に制限され、没入感のある視聴体験を妨げる。 第二に、すべてのシーン要素が入力画像に集中していると仮定したピンホールカメラモデルへの依存が、現実的な課題を示し、新規視点合成において再焦点付けを複雑にする。 これらの制約に対処するために,高ダイナミックレンジ(HDR)放射場を再構成するための入力として,露光時間,開口度,焦点距離の異なるシーンの多視点LDR画像を利用する3次元ガウス散乱に基づく軽量な手法を提案する。 薄膜カメラモデルとトネマッピングモジュールをベースとしたガウシアンの解析的畳み込みを取り入れることで, フレキシブルリフォーカス機能を備えたHDRコンテンツのレンダリングを可能にする。 我々は,HDRとフィールド深度を併用することで,映像のリアルタイムレンダリングが実現し,最先端技術を上回ることを実証した。

Radiance field methods represent the state of the art in reconstructing complex scenes from multi-view photos. However, these reconstructions often suffer from one or both of the following limitations: First, they typically represent scenes in low dynamic range (LDR), which restricts their use to evenly lit environments and hinders immersive viewing experiences. Secondly, their reliance on a pinhole camera model, assuming all scene elements are in focus in the input images, presents practical challenges and complicates refocusing during novel-view synthesis. Addressing these limitations, we present a lightweight method based on 3D Gaussian Splatting that utilizes multi-view LDR images of a scene with varying exposure times, apertures, and focus distances as input to reconstruct a high-dynamic-range (HDR) radiance field. By incorporating analytical convolutions of Gaussians based on a thin-lens camera model as well as a tonemapping module, our reconstructions enable the rendering of HDR content with flexible refocusing capabilities. We demonstrate that our combined treatment of HDR and depth of field facilitates real-time cinematic rendering, outperforming the state of the art.
翻訳日:2024-06-26 00:13:51 公開日:2024-06-21
# 畳み込みニューラルネットワークによる影響力のあるテキストの発見

Discovering influential text using convolutional neural networks ( http://arxiv.org/abs/2406.10086v2 )

ライセンス: Link先を確認
Megan Ayers, Luke Sanford, Margaret Roberts, Eddie Yang, (参考訳) 人的評価に対するテキストの影響を推定するための実験的手法が社会科学で広く用いられている。 しかしながら、実験的な設定の研究者は通常、少数の特定されたテキスト処理のテストに限られる。 結果に因果的に影響を及ぼす特徴に対する非構造化テキストのマイニングは近年行われているが、これらのモデルは主に、その効果のメカニズムであるとは限らないトピックや特定のテキストの単語に焦点を当てている。 我々は、これらの取り組みをNLP解釈可能性技術と結びつけ、畳み込みニューラルネットワークを用いたテキストに対する人間の反応を予測可能な類似文句のクラスタを柔軟に発見する方法を提案する。 実験環境で使用する場合、特定の仮定の下でテキスト処理とその効果を識別することができる。 この手法を2つのデータセットに適用する。 1つ目は、モデルが結果を引き起こすことが知られているフレーズを検知する能力の直接検証を可能にすることである。 2つ目は、様々なテキスト構造を持つテキスト処理を柔軟に発見する能力を示している。 どちらの場合も、このモデルはベンチマーク手法よりも多種多様なテキスト処理を学習し、これらのテキスト機能はベンチマーク手法が結果を予測する能力を定量的に満たしたり、超えたりすることができる。

Experimental methods for estimating the impacts of text on human evaluation have been widely used in the social sciences. However, researchers in experimental settings are usually limited to testing a small number of pre-specified text treatments. While efforts to mine unstructured texts for features that causally affect outcomes have been ongoing in recent years, these models have primarily focused on the topics or specific words of text, which may not always be the mechanism of the effect. We connect these efforts with NLP interpretability techniques and present a method for flexibly discovering clusters of similar text phrases that are predictive of human reactions to texts using convolutional neural networks. When used in an experimental setting, this method can identify text treatments and their effects under certain assumptions. We apply the method to two datasets. The first enables direct validation of the model's ability to detect phrases known to cause the outcome. The second demonstrates its ability to flexibly discover text treatments with varying textual structures. In both cases, the model learns a greater variety of text treatments compared to benchmark methods, and these text features quantitatively meet or exceed the ability of benchmark methods to predict the outcome.
翻訳日:2024-06-26 00:04:06 公開日:2024-06-21
# Transcendence: 生成モデルは、トレーニングするエキスパートより優れている

Transcendence: Generative Models Can Outperform The Experts That Train Them ( http://arxiv.org/abs/2406.11741v2 )

ライセンス: Link先を確認
Edwin Zhang, Vincent Zhu, Naomi Saphra, Anat Kleiman, Benjamin L. Edelman, Milind Tambe, Sham M. Kakade, Eran Malach, (参考訳) 生成モデルは、訓練されたデータによって誘導される条件付き確率分布を模倣する単純な目的で訓練される。 したがって、人間が生成したデータに基づいてトレーニングを行う場合、人工モデルが本来の目的において人間より優れているとは期待できない。 本研究では,超越現象(生成モデルがデータを生成する専門家の能力を超える能力を達成する場合)について検討する。 我々は,自動回帰変換器をトレーニングして,ゲームスクリプティングからチェスを学習し,トレーニングされたモデルが,データセットのすべてのプレイヤーよりも優れたパフォーマンスが得られることを示す。 理論的には,超越性は低温サンプリングによって実現可能であることを証明し,この主張を実験的に評価する。 最後に,他の超越源について論じ,この現象の今後の研究の基盤をより広範に展開する。

Generative models are trained with the simple objective of imitating the conditional probability distribution induced by the data they are trained on. Therefore, when trained on data generated by humans, we may not expect the artificial model to outperform the humans on their original objectives. In this work, we study the phenomenon of transcendence: when a generative model achieves capabilities that surpass the abilities of the experts generating its data. We demonstrate transcendence by training an autoregressive transformer to play chess from game transcripts, and show that the trained model can sometimes achieve better performance than all players in the dataset. We theoretically prove that transcendence can be enabled by low-temperature sampling, and rigorously assess this claim experimentally. Finally, we discuss other sources of transcendence, laying the groundwork for future investigation of this phenomenon in a broader setting.
翻訳日:2024-06-25 23:54:21 公開日:2024-06-21
# 非保守結合によるスペクトル巻線と皮膚モードの操作

Manipulating Spectral Windings and Skin Modes through Nonconservative Couplings ( http://arxiv.org/abs/2406.15005v1 )

ライセンス: Link先を確認
Ningxin Kong, Chenghe Yu, Yilun Xu, Matteo Fadel, Xinyao Huang, Qiongyi He, (参考訳) 非エルミート皮膚効果(NHSE)の発見は、非エルミート系における波動伝播の理解に革命をもたらし、従来の理論を超える予期せぬ局所化効果を強調した。 ここでは,多型スペクトル位相を伴うNHSEが非保存結合の操作によって誘導されることを示す。 エネルギーバンドの巻線を通してスペクトルを特徴づけることで、同じ、反対、さらにはねじれた巻線を持つバンド構造が達成できることを実証する。 これらの非等価なスペクトルは、保守的結合と非保守的結合の相互作用から生じるマルチチャネル干渉に由来する。 多型スペクトル、一極性および双極性NHSEと異なる固有モードの局在が観察できる。 さらに, 本研究は, システムの非相互伝達特性を複数のスペクトル位相に関連付け, 皮膚モードとの関連性を示した。 この研究は、非エルミート的トポロジカルな効果を調査し、非相互エネルギーの流れを操作するための新しい経路を舗装する。

The discovery of the non-Hermitian skin effect (NHSE) has revolutionized our understanding of wave propagation in non-Hermitian systems, highlighting unexpected localization effects beyond conventional theories. Here, we discover that NHSE, accompanied by multi-type spectral phases, can be induced by manipulating nonconservative couplings. By characterizing the spectrum through the windings of the energy bands, we demonstrate that band structures with identical, opposite, and even twisted windings can be achieved. These inequivalent types of spectra originate from the multi-channel interference resulting from the interplay between conservative and nonconservative couplings. Associated with the multi-type spectra, unipolar and bipolar NHSE with different eigenmode localizations can be observed. Additionally, our findings link the nonreciprocal transmission properties of the system to multiple spectral phases, indicating a connection with the skin modes. This work paves new pathways for investigating non-Hermitian topological effects and manipulating nonreciprocal energy flow.
翻訳日:2024-06-25 23:44:36 公開日:2024-06-21
# 副作用のないステアリング: 言語モデルのデプロイ後制御を改善する

Steering Without Side Effects: Improving Post-Deployment Control of Language Models ( http://arxiv.org/abs/2406.15518v1 )

ライセンス: Link先を確認
Asa Cooper Stickland, Alexander Lyzhov, Jacob Pfau, Salsabila Mahdi, Samuel R. Bowman, (参考訳) 言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。 例えば、新しいジェイルブレイクは継続的に発生し、開発者による大規模なレッドチームと敵のトレーニングにもかかわらず、モデル誤用を可能にします。 ほとんどのモデルクエリは、不安定なユーザエクスペリエンスにおいて、非プロブレマ的で頻繁な再トレーニング結果であるので、最悪の振る舞いを緩和するための方法は、ターゲットにすべきである。 そのような方法の1つは、入力を潜在的な問題として分類し、次にこれらの問題のある入力にステアリングベクトルを選択的に適用することである。 しかし、ステアリングベクトルはモデルの性能にも悪影響を及ぼす可能性がある。 KL-テーンステア(KL-then-steer, KTS)は、まず、ベニグインプット上のステアリングモデルと非ステアリングモデルとの間のKLのばらつきを最小限に抑えるため、ステアリングの副作用を軽減し、その利点を維持しつつ、ステアリングの副作用を軽減する技術である。 Llama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぎつつ、元のLMとほぼ同等の良質な要求に対して(MT-Benchが測定した)有用性を維持する。 ジェイルブレイクを超えた手法の汎用性と伝達性を示すため,我々のKTSモデルはTrathfulQA上でのユーザ提案型回答に対するバイアスを軽減することができることを示す。 コードは、https://github.com/AsaCooperStickland/kl-then-steer.comで入手できる。

Language models (LMs) have been shown to behave unexpectedly post-deployment. For example, new jailbreaks continually arise, allowing model misuse, despite extensive red-teaming and adversarial training from developers. Given most model queries are unproblematic and frequent retraining results in unstable user experience, methods for mitigation of worst-case behavior should be targeted. One such method is classifying inputs as potentially problematic, then selectively applying steering vectors on these problematic inputs, i.e. adding particular vectors to model hidden states. However, steering vectors can also negatively affect model performance, which will be an issue on cases where the classifier was incorrect. We present KL-then-steer (KTS), a technique that decreases the side effects of steering while retaining its benefits, by first training a model to minimize Kullback-Leibler (KL) divergence between a steered and unsteered model on benign inputs, then steering the model that has undergone this training. Our best method prevents 44% of jailbreak attacks compared to the original Llama-2-chat-7B model while maintaining helpfulness (as measured by MT-Bench) on benign requests almost on par with the original LM. To demonstrate the generality and transferability of our method beyond jailbreaks, we show that our KTS model can be steered to reduce bias towards user-suggested answers on TruthfulQA. Code is available: https://github.com/AsaCooperStickland/kl-then-steer.
翻訳日:2024-06-25 23:34:50 公開日:2024-06-21
# 教師なしグラフレベル異常検出とアウト・オブ・ディストリビューション検出の統一:ベンチマーク

Unifying Unsupervised Graph-Level Anomaly Detection and Out-of-Distribution Detection: A Benchmark ( http://arxiv.org/abs/2406.15523v1 )

ライセンス: Link先を確認
Yili Wang, Yixin Liu, Xu Shen, Chenyu Li, Kaize Ding, Rui Miao, Ying Wang, Shirui Pan, Xin Wang, (参考訳) 近年,安全で信頼性の高いグラフ機械学習システムを構築するために,教師なしグラフレベルの異常検出(GLAD)と教師なしグラフレベルのアウト・オブ・ディストリビューション(OOD)検出(GLOD)が注目されている。 これらの2つの研究は、実際には同じ目的を共有しているが、異なる評価設定のためにコミュニティ内で独立して研究され、それぞれの方法の適用と評価を妨げるギャップを形成している。 このギャップを埋めるために、この研究では、一般化グラフレベルOOD検出の概念の下でGLADとGLODを統一する総合的な評価フレームワークである、教師なしグラフレベルOODと異常検出のための統一ベンチマーク(我々の方法)を提案する。 本ベンチマークでは,4つの実用的な異常およびOOD検出シナリオにまたがる35のデータセットを網羅し,代表的GLAD/GLOD法の比較を容易にする。 我々は,既存手法の有効性,一般化性,堅牢性,効率性について多次元解析を行い,その強度と限界に光を当てる。 さらに,再現可能な研究を促進するオープンソースコードベース(https://github.com/UB-GOLD/UB-GOLD)を提供し,今後の研究の方向性を考察した。

To build safe and reliable graph machine learning systems, unsupervised graph-level anomaly detection (GLAD) and unsupervised graph-level out-of-distribution (OOD) detection (GLOD) have received significant attention in recent years. Though those two lines of research indeed share the same objective, they have been studied independently in the community due to distinct evaluation setups, creating a gap that hinders the application and evaluation of methods from one to the other. To bridge the gap, in this work, we present a Unified Benchmark for unsupervised Graph-level OOD and anomaly Detection (our method), a comprehensive evaluation framework that unifies GLAD and GLOD under the concept of generalized graph-level OOD detection. Our benchmark encompasses 35 datasets spanning four practical anomaly and OOD detection scenarios, facilitating the comparison of 16 representative GLAD/GLOD methods. We conduct multi-dimensional analyses to explore the effectiveness, generalizability, robustness, and efficiency of existing methods, shedding light on their strengths and limitations. Furthermore, we provide an open-source codebase (https://github.com/UB-GOLD/UB-GOLD) of our method to foster reproducible research and outline potential directions for future investigations based on our insights.
翻訳日:2024-06-25 23:34:50 公開日:2024-06-21
# 大規模言語モデルの再考:再構成誤り最小化のメリットと落とし穴

Rethinking Pruning Large Language Models: Benefits and Pitfalls of Reconstruction Error Minimization ( http://arxiv.org/abs/2406.15524v1 )

ライセンス: Link先を確認
Sungbin Shin, Wonpyo Park, Jaeho Lee, Namhoon Lee, (参考訳) この研究は、大規模言語モデル(LLM)の現在の実践を根本的に再考することを示唆している。 モデルをサブモデルに分割し、逐次プーンし、小さなキャリブレーションデータに基づいて密度の高いモデルの予測を一度に再構築する。 このアプローチはメモリ制約下でのプルーニングを可能にするが、高い再構成誤差を発生させる。 本稿ではまず,この誤差を90\%以上削減できる再構成手法について述べる。 しかし, 再構成誤差の最小化は必ずしも理想的ではなく, 与えられたキャリブレーションデータに過度に適合し, 言語難易度が向上し, 下流タスクにおける性能が低下することがわかった。 キャリブレーションデータの自己生成戦略は, 再設計と一般化のトレードオフを緩和し, 再設計のメリットと落とし穴が存在することの新たな方向性を示唆する。

This work suggests fundamentally rethinking the current practice of pruning large language models (LLMs). The way it is done is by divide and conquer: split the model into submodels, sequentially prune them, and reconstruct predictions of the dense counterparts on small calibration data one at a time; the final model is obtained simply by putting the resulting sparse submodels together. While this approach enables pruning under memory constraints, it generates high reconstruction errors. In this work, we first present an array of reconstruction techniques that can significantly reduce this error by more than $90\%$. Unwittingly, however, we discover that minimizing reconstruction error is not always ideal and can overfit the given calibration data, resulting in rather increased language perplexity and poor performance at downstream tasks. We find out that a strategy of self-generating calibration data can mitigate this trade-off between reconstruction and generalization, suggesting new directions in the presence of both benefits and pitfalls of reconstruction for pruning LLMs.
翻訳日:2024-06-25 23:34:50 公開日:2024-06-21
# 適応サンプリングによる大規模言語モデルとテキスト・ツー・イメージモデルのデータ効率評価

Data Efficient Evaluation of Large Language Models and Text-to-Image Models via Adaptive Sampling ( http://arxiv.org/abs/2406.15527v1 )

ライセンス: Link先を確認
Cong Xu, Gayathri Saranathan, Mahammad Parwez Alam, Arpit Shah, James Lim, Soon Yee Wong, Foltin Martin, Suparna Bhattacharya, (参考訳) LLMとテキスト・ツー・イメージのモデルを評価することは、しばしば見過ごされる計算集約的なタスクである。 効率的な評価は、これらのモデルの多様な機能を理解し、多くの新しいモデルとベンチマークの比較を可能にするために不可欠である。 これを解決するために、クラスタリングや品質ベースの手法などの適応サンプリング技術を用いたデータ効率評価フレームワークSubLIMEを導入し、ベンチマークの代表的なサブセットを作成する。 提案手法は,Pearson相関係数が高いことにより証明された全データセットと比較して,統計的に整合したモデルランキングを保証する。 1) 品質ベースのサンプリングは、品質 SE や品質 CPD (2) のような 10 % のサンプリングレートで完全なデータセットとの強い相関(0.85 から 0.95 )を一貫して達成している。 このフレームワークを拡張して、HEIMのリーダーボードを利用して、17の異なるベンチマークで25のテキスト・ツー・イメージモデルをカバーする。 SubLIMEはベンチマーク毎に最適な手法を動的に選択し、ランキングの整合性とスコアの分布を保ちながら評価コストを大幅に削減する。 特に、最小1%のサンプリングレートは、MMLUのようなベンチマークに有効である。 さらに、より困難なベンチマークセグメントをターゲットにした難易度に基づくサンプリングを用いることで、より広範なスコア分布を持つモデルの微分が促進されることを示す。 また、セマンティック検索、ツール使用、GPT-4レビューを組み合わせることで、コーディングベンチマークなどの特定のLLMカテゴリ内のベンチマーク間の冗長性を識別する。 これにより、ターゲットのランク保存を維持するのに必要なサンプルの数をさらに減らすことができる。 全体として、SubLIMEはLLMとテキスト・ツー・イメージ・モデルの堅牢な評価のための汎用的で費用対効果の高いソリューションを提供する。

Evaluating LLMs and text-to-image models is a computationally intensive task often overlooked. Efficient evaluation is crucial for understanding the diverse capabilities of these models and enabling comparisons across a growing number of new models and benchmarks. To address this, we introduce SubLIME, a data-efficient evaluation framework that employs adaptive sampling techniques, such as clustering and quality-based methods, to create representative subsets of benchmarks. Our approach ensures statistically aligned model rankings compared to full datasets, evidenced by high Pearson correlation coefficients. Empirical analysis across six NLP benchmarks reveals that: (1) quality-based sampling consistently achieves strong correlations (0.85 to 0.95) with full datasets at a 10\% sampling rate such as Quality SE and Quality CPD (2) clustering methods excel in specific benchmarks such as MMLU (3) no single method universally outperforms others across all metrics. Extending this framework, we leverage the HEIM leaderboard to cover 25 text-to-image models on 17 different benchmarks. SubLIME dynamically selects the optimal technique for each benchmark, significantly reducing evaluation costs while preserving ranking integrity and score distribution. Notably, a minimal sampling rate of 1% proves effective for benchmarks like MMLU. Additionally, we demonstrate that employing difficulty-based sampling to target more challenging benchmark segments enhances model differentiation with broader score distributions. We also combine semantic search, tool use, and GPT-4 review to identify redundancy across benchmarks within specific LLM categories, such as coding benchmarks. This allows us to further reduce the number of samples needed to maintain targeted rank preservation. Overall, SubLIME offers a versatile and cost-effective solution for the robust evaluation of LLMs and text-to-image models.
翻訳日:2024-06-25 23:34:50 公開日:2024-06-21
# 超音速OT:高速非条件でセキュアな光伝送

Supersonic OT: Fast Unconditionally Secure Oblivious Transfer ( http://arxiv.org/abs/2406.15529v1 )

ライセンス: Link先を確認
Aydin Abadi, Yvo Desmedt, (参考訳) Oblivious Transfer (OT) は、セキュアなマルチパーティ計算、フェデレートラーニング、プライベート・セット・インターセクションに応用された基本的な暗号プロトコルである。 量子コンピューティングの出現により、OTのような無条件でセキュアなコアプリミティブを開発し、後量子時代のセキュリティを維持することが不可欠である。 OTの導入から40年以上もの間、文献は主として計算上の仮定に依存してきたが、ノイズチャネルや完全に信頼された党のような非伝統的な方法を使う場合を除いては例外である。 公開鍵ベースのプリミティブを回避する高効率かつ無条件でセキュアなOTスキームである"Supersonic OT"を導入し、従来のアプローチに代わる方法を提案する。 超音速OTは受信機がO(1)の応答を得ることを可能にする。 そのシンプルな(非自明な)設計は、簡単にセキュリティ分析と実装を容易にする。 このプロトコルには、基本的な秘密共有スキーム、コントロールされたスワップ、ワンタイムパッド、そして半正直な敵によって破壊される可能性があるサードパーティのヘルパーが使用されている。 我々の実装と実行時分析は、Supersonic OTの単一インスタンスが0.35ミリ秒で完了し、最先端のOTよりも2000倍高速であることを示している。

Oblivious Transfer (OT) is a fundamental cryptographic protocol with applications in secure Multi-Party Computation, Federated Learning, and Private Set Intersection. With the advent of quantum computing, it is crucial to develop unconditionally secure core primitives like OT to ensure their continued security in the post-quantum era. Despite over four decades since OT's introduction, the literature has predominantly relied on computational assumptions, except in cases using unconventional methods like noisy channels or a fully trusted party. Introducing "Supersonic OT", a highly efficient and unconditionally secure OT scheme that avoids public-key-based primitives, we offer an alternative to traditional approaches. Supersonic OT enables a receiver to obtain a response of size O(1). Its simple (yet non-trivial) design facilitates easy security analysis and implementation. The protocol employs a basic secret-sharing scheme, controlled swaps, the one-time pad, and a third-party helper who may be corrupted by a semi-honest adversary. Our implementation and runtime analysis indicate that a single instance of Supersonic OT completes in 0.35 milliseconds, making it up to 2000 times faster than the state-of-the-art base OT.
翻訳日:2024-06-25 23:34:50 公開日:2024-06-21
# 逆二乗ポテンシャルのシュロディンガー方程式における実用的自己共役法

Pragmatic Self-adjoint Procedure in the Schrodinger Equation for the Inverse Square Potential ( http://arxiv.org/abs/2406.15530v1 )

ライセンス: Link先を確認
Anzor Khelashvili, Teimuraz Nadareishvili, (参考訳) 自己随伴拡大(英: self-adjoint extension、SAE)過程は、座標の原点における魅力的な逆正方形として振る舞うポテンシャルに対するシュロディンガー方程式(英語版)(Schrodinger equation)において考慮される。 このアプローチは3次元のラジアルハミルトニアンの自己随伴性を保証する。 このような拡張の後、単一の境界状態が現れることが示され、これはSAEパラメータに依存する。 散乱の場合も同じパラメータが、拡張が直交性要求によってなされるときにも生じる。 閉形は、SAEパラメータに依存する余分な因子からなる改良散乱振幅に対して導出される。 これにより、散乱振幅極の形で同じ境界状態が現れることが保証される。 したがって、連続スペクトルの場合、プラグマティックな手法の一般化が示される。

The self-adjoint extension (SAE) procedure is considered in the Schrodinger equation for potentials behaving as an attractive inverse square at the origin of coordinates. This approach guarantees self-adjointness of the radial Hamiltonian in three dimensions. It is shown that the single bound state appears after such an extension, which depends on SAE parameter. The same parameter arises for the scattering case as well, when the extension is made by orthogonality requirement. The closed form is derived for the modified scattering amplitude, which consists an extra factor depended on the SAE parameter. That guarantees the appearance of the same bound state in the form of the scattering amplitude pole. So, the generalization of pragmatic method is demonstrated in case of continuous spectrum.
翻訳日:2024-06-25 23:34:50 公開日:2024-06-21
# Geneverse:genomic and Proteomic Researchのためのオープンソースのマルチモーダル大規模言語モデルのコレクション

Geneverse: A collection of Open-source Multimodal Large Language Models for Genomic and Proteomic Research ( http://arxiv.org/abs/2406.15534v1 )

ライセンス: Link先を確認
Tianyu Liu, Yijia Xiao, Xiao Luo, Hua Xu, W. Jim Zheng, Hongyu Zhao, (参考訳) 大規模言語モデル(LLM)の応用は、バイオメディカルおよび医療研究に期待されている。 幅広いバイオメディカルデータを用いて訓練されたオープンソースのLSMが利用可能であるにもかかわらず、LLMのゲノム学やプロテオミクスへの応用に関する現在の研究は限られている。 このギャップを埋めるために、ゲノム・プロテオミクス研究における3つの新しい課題に対して、Geneverseとして知られる微調整LLMとマルチモーダルLLM(MLLM)のコレクションを提案する。 提案手法は,遺伝子機能記述の生成,構造からのタンパク質機能推論,空間転写データからのマーカー遺伝子選択などのタスクに対するモデル適応を実現するために,高度なパラメータ効率の微調整技術を用いて,ドメイン固有のデータセットに基づいてトレーニングおよび評価を行う。 適応LLMとMLLMはこれらのタスクに対して良好に機能し、真さと構造的正当性の両方に焦点をあてた評価に基づいて、クローズドソースの大規模モデルよりも優れていることを示した。 私たちが使ったトレーニング戦略とベースモデルは、すべて自由にアクセスできます。

The applications of large language models (LLMs) are promising for biomedical and healthcare research. Despite the availability of open-source LLMs trained using a wide range of biomedical data, current research on the applications of LLMs to genomics and proteomics is still limited. To fill this gap, we propose a collection of finetuned LLMs and multimodal LLMs (MLLMs), known as Geneverse, for three novel tasks in genomic and proteomic research. The models in Geneverse are trained and evaluated based on domain-specific datasets, and we use advanced parameter-efficient finetuning techniques to achieve the model adaptation for tasks including the generation of descriptions for gene functions, protein function inference from its structure, and marker gene selection from spatial transcriptomic data. We demonstrate that adapted LLMs and MLLMs perform well for these tasks and may outperform closed-source large-scale models based on our evaluations focusing on both truthfulness and structural correctness. All of the training strategies and base models we used are freely accessible.
翻訳日:2024-06-25 23:34:50 公開日:2024-06-21
# R&B -- リズムと脳:人間の脳活動から音楽のクロスオブジェクトデコード

R&B -- Rhythm and Brain: Cross-subject Decoding of Music from Human Brain Activity ( http://arxiv.org/abs/2406.15537v1 )

ライセンス: Link先を確認
Matteo Ferrante, Matteo Ciferri, Nicola Toschi, (参考訳) 音楽は、文化全体にわたる人間の経験に大きな影響を及ぼす普遍的な現象である。 本研究では,音楽の知覚における機能的MRI(FMRI)を用いた人間の脳活動から,音楽の復号化が可能であるかを検討した。 広範囲なデータセットと事前学習された計算モデルの最近の進歩を活用し、ニューラルデータと音楽刺激の潜在表現のマッピングを構築する。 本手法は,fMRIデータにおける低時間分解能と信号-雑音比(SNR)による課題に対処するため,機能的および解剖学的アライメント手法を統合した。 GTZan fMRIデータセットから,5人の参加者が10種類のジャンルから540種類の音楽刺激を聴きながら脳活動を記録し,CLAP(Contrastive Language-Audio Pretraining)モデルを用いて音楽刺激の潜在表現を抽出し,これらの刺激に応答する脳領域を同定するボクセルエンコーディングモデルを開発した。 予測された脳活動と実際の脳活動の関係にしきい値を適用することで,音楽処理において重要な役割を担う特定の関心領域(ROI)を特定した。 我々のデコードパイプラインは、主に検索ベースで、対応するCLAP機能に脳活動を投影する線形マップを用いています。 これにより、fMRIデータに最もよく似た音楽刺激の予測と検索が可能となる。 提案手法は,既存の手法を著しく上回り,最先端の識別精度を実証した。 以上の結果から,ニューラルベース音楽検索システムにより,パーソナライズされたレコメンデーションと治療応用が可能であることが示唆された。 将来の研究は、高時間分解能のニューロイメージングと生成モデルを使用して、復号精度を改善し、音楽知覚と感情の神経基盤を探究することができる。

Music is a universal phenomenon that profoundly influences human experiences across cultures. This study investigates whether music can be decoded from human brain activity measured with functional MRI (fMRI) during its perception. Leveraging recent advancements in extensive datasets and pre-trained computational models, we construct mappings between neural data and latent representations of musical stimuli. Our approach integrates functional and anatomical alignment techniques to facilitate cross-subject decoding, addressing the challenges posed by the low temporal resolution and signal-to-noise ratio (SNR) in fMRI data. Starting from the GTZan fMRI dataset, where five participants listened to 540 musical stimuli from 10 different genres while their brain activity was recorded, we used the CLAP (Contrastive Language-Audio Pretraining) model to extract latent representations of the musical stimuli and developed voxel-wise encoding models to identify brain regions responsive to these stimuli. By applying a threshold to the association between predicted and actual brain activity, we identified specific regions of interest (ROIs) which can be interpreted as key players in music processing. Our decoding pipeline, primarily retrieval-based, employs a linear map to project brain activity to the corresponding CLAP features. This enables us to predict and retrieve the musical stimuli most similar to those that originated the fMRI data. Our results demonstrate state-of-the-art identification accuracy, with our methods significantly outperforming existing approaches. Our findings suggest that neural-based music retrieval systems could enable personalized recommendations and therapeutic applications. Future work could use higher temporal resolution neuroimaging and generative models to improve decoding accuracy and explore the neural underpinnings of music perception and emotion.
翻訳日:2024-06-25 23:34:50 公開日:2024-06-21
# シンボリック手法によるニューラルスペック合成の強化

Specify What? Enhancing Neural Specification Synthesis by Symbolic Methods ( http://arxiv.org/abs/2406.15540v1 )

ライセンス: Link先を確認
George Granberry, Wolfgang Ahrendt, Moa Johansson, (参考訳) 大規模言語モデル(LLM)と記号解析の組み合わせを用いて,Cプログラムの仕様を合成する方法について検討する。 LLMプロンプトは、仕様言語ACSLでCプログラムアノテーションを生成するために、Frama-Cエコシステムの2つの形式的なメソッドツールであるPathcrawlerとEVAの出力で拡張される。 Pathcrawlerのインプット/アウトプットの例に関する情報は、よりコンテキスト対応のアノテーションを生成します。 さらに,バグジィプログラムの仕様を生成し,バグに対して結果の堅牢性を観察することにより,その動作よりもプログラムの意図を推測する。

We investigate how combinations of Large Language Models (LLMs) and symbolic analyses can be used to synthesise specifications of C programs. The LLM prompts are augmented with outputs from two formal methods tools in the Frama-C ecosystem, Pathcrawler and EVA, to produce C program annotations in the specification language ACSL. We demonstrate how the addition of symbolic analysis to the workflow impacts the quality of annotations: information about input/output examples from Pathcrawler produce more context-aware annotations, while the inclusion of EVA reports yields annotations more attuned to runtime errors. In addition, we show that the method infers rather the programs intent than its behaviour, by generating specifications for buggy programs and observing robustness of the result against bugs.
翻訳日:2024-06-25 23:34:50 公開日:2024-06-21
# 変分量子アルゴリズムによるSYKモデルの温度状態生成

Thermal state preparation of the SYK model using a variational quantum algorithm ( http://arxiv.org/abs/2406.15545v1 )

ライセンス: Link先を確認
Jack Y. Araz, Raghav G. Jha, Felix Ringer, Bharath Sambasivam, (参考訳) 本研究では,SYKモデルとSachdev-Ye-Kitaevモデルの熱状態の変動量子アルゴリズムを用いて,広範囲の温度で6 \le N \le 12$Majoranaフェルミオンを合成した。 IBM の 127-qubit 量子プロセッサを用いて,N = 6$ の高密度 SYK モデルのベンチマーク計算を行い,正確な結果とよく一致していることを示す。 シミュレータと量子ハードウェアを用いた全対全結合を持つ非局所ランダムハミルトニアンの熱状態の調製は、量子多体系における熱外秩序相関器の将来の計算に向けた重要なステップである。

We study the preparation of thermal states of the dense and sparse Sachdev-Ye-Kitaev (SYK) model using a variational quantum algorithm for $6 \le N \le 12$ Majorana fermions over a wide range of temperatures. Utilizing IBM's 127-qubit quantum processor, we perform benchmark computations for the dense SYK model with $N = 6$, showing good agreement with exact results. The preparation of thermal states of a non-local random Hamiltonian with all-to-all coupling using the simulator and quantum hardware represents a significant step toward future computations of thermal out-of-time order correlators in quantum many-body systems.
翻訳日:2024-06-25 23:34:50 公開日:2024-06-21
# 複数モーダル誘導を用いたオープンボキャブラリ時間行動定位

Open-Vocabulary Temporal Action Localization using Multimodal Guidance ( http://arxiv.org/abs/2406.15556v1 )

ライセンス: Link先を確認
Akshita Gupta, Aditya Arora, Sanath Narayan, Salman Khan, Fahad Shahbaz Khan, Graham W. Taylor, (参考訳) Open-Vocabulary Temporal Action Localization (OVTAL) は、ビデオ内の任意のアクションカテゴリを、すべてのカテゴリのトレーニングデータを明示的にキュレートすることなく認識することができる。 しかし、この柔軟性は、トレーニング中に見られるアクションカテゴリだけでなく、推論で指定された新しいカテゴリも認識しなければならないため、大きな課題を引き起こす。 トレーニングとテストのカテゴリが規定される標準的な時間的行動ローカライゼーションとは異なり、OVTALは、新しいカテゴリのセマンティクスを明らかにする文脈的手がかりを理解する必要がある。 これらの課題に対処するために,ActionFormerを3つの重要なコントリビューションで拡張する,新しいオープン語彙フレームワークであるOVFormerを紹介します。 まず,大規模言語モデルへの入力としてタスク固有のプロンプトを用いて,アクションカテゴリに対するリッチなクラス固有の記述を得る。 第2に,クラス表現とフレームレベルの映像特徴のアライメントを学習するクロスアテンション機構を導入し,マルチモーダルガイド機能を実現する。 第3に、より大規模な語彙データセットによるトレーニングと、新たなカテゴリに一般化するための下流データへの微調整を含む、2段階のトレーニング戦略を提案する。 OVFormerは既存のTALメソッドをオープン語彙設定に拡張する。 THUMOS14とActivityNet-1.3ベンチマークの総合評価により,本手法の有効性が示された。 コードと事前訓練されたモデルは公開される。

Open-Vocabulary Temporal Action Localization (OVTAL) enables a model to recognize any desired action category in videos without the need to explicitly curate training data for all categories. However, this flexibility poses significant challenges, as the model must recognize not only the action categories seen during training but also novel categories specified at inference. Unlike standard temporal action localization, where training and test categories are predetermined, OVTAL requires understanding contextual cues that reveal the semantics of novel categories. To address these challenges, we introduce OVFormer, a novel open-vocabulary framework extending ActionFormer with three key contributions. First, we employ task-specific prompts as input to a large language model to obtain rich class-specific descriptions for action categories. Second, we introduce a cross-attention mechanism to learn the alignment between class representations and frame-level video features, facilitating the multimodal guided features. Third, we propose a two-stage training strategy which includes training with a larger vocabulary dataset and finetuning to downstream data to generalize to novel categories. OVFormer extends existing TAL methods to open-vocabulary settings. Comprehensive evaluations on the THUMOS14 and ActivityNet-1.3 benchmarks demonstrate the effectiveness of our method. Code and pretrained models will be publicly released.
翻訳日:2024-06-25 23:34:50 公開日:2024-06-21
# 非エルミート超音速モードの観測

Observation of a non-Hermitian supersonic mode ( http://arxiv.org/abs/2406.15557v1 )

ライセンス: Link先を確認
Yuxuan Zhang, Juan Carrasquilla, Yong Baek Kim, (参考訳) 量子コンピュータは長い間、量子多体物理学のシミュレーションに優れていると期待されてきた。 これまでのほとんどの研究はエルミート物理学に焦点を合わせてきたが、非エルミート系の力学と平衡物理学の資源効率のシミュレーションのための変分量子回路のパワーを実証し、標準エルミート量子マシン以外の新しい現象を明らかにした。 フェルミオン系に対する変分量子コンパイル方式を用いることで、ゲート数を削減し、キュービットを節約し、ポストセレクションの必要性を排除し、標準トロッター化による非エルミチアン力学をシミュレートする大きな課題である。 実験により, 非エルミート的局所相互作用クエンチの後, n = 18$フェルミオン鎖上の連結密度密度相関関数の超音速モードが観察された。 さらに, 基底状態生成のためのテンソルネットワークによって生成される逐次量子回路について検討し, 分散最小化方式を用いて, 最小実部固有値を持つ固有状態として定義される。 量子H1量子プロセッサ上でのイオンの捕捉実装により、3量子ビットのみを用いて、散逸スピンチェーン上の例外点における相関関数とエネルギーを正確にキャプチャする。 これらの進歩に触発されて、ある初期状態からの時間は、量子コンピュータ上で指数関数的に困難であり、非エルミート物理学をシミュレートするために量子計算を使うことの機会と限界についての洞察を提供する、単量子非エルミート力学を$\Theta(\log(n))$でシミュレートする分析例を提供する。

Quantum computers have long been anticipated to excel in simulating quantum many-body physics. While most previous work has focused on Hermitian physics, we demonstrate the power of variational quantum circuits for resource-efficient simulations of dynamical and equilibrium physics in non-Hermitian systems, revealing new phenomena beyond standard Hermitian quantum machines. Using a variational quantum compilation scheme for fermionic systems, we reduce gate count, save qubits, and eliminate the need for postselection, a major challenge in simulating non-Hermitian dynamics via standard Trotterization. Experimentally, we observed a supersonic mode in the connected density-density correlation function on an $ n = 18 $ fermionic chain after a non-Hermitian, locally interacting quench, which would otherwise be forbidden by the Lieb-Robinson bound in a Hermitian system. Additionally, we investigate sequential quantum circuits generated by tensor networks for ground state preparation, here defined as the eigenstate with the lowest real part eigenvalue, using a variance minimization scheme. Through a trapped-ion implementation on the Quantinuum H1 quantum processor, we accurately capture correlation functions and energies across an exceptional point on a dissipative spin chain up to length $ n = 20 $ using only 3 qubits. Motivated by these advancements, we provide an analytical example demonstrating that simulating single-qubit non-Hermitian dynamics for $\Theta(\log(n))$ time from certain initial states is exponentially hard on a quantum computer, offering insights into the opportunities and limitations of using quantum computation for simulating non-Hermitian physics.
翻訳日:2024-06-25 21:34:03 公開日:2024-06-21
# Momentの紹介: モーメント行列を用いた半定値プログラミングのためのツールキット

Introducing Moment: A toolkit for semi-definite programming with moment matrices ( http://arxiv.org/abs/2406.15559v1 )

ライセンス: Link先を確認
Andrew J. P. Garner, Mateus Araújo, (参考訳) 非可換多項式最適化は、量子非局所性、量子鍵分布、因果推論、多体物理学などの多くの応用を持つ強力な手法である。 標準的なアプローチは、そのような最適化を半定値プログラムの階層に還元することであり、よく理解されたインテリアポイント法を用いて数値的に解ける。 重要な、しかし計算に費用がかかるステップはモーメント行列の定式化であり、その大きさ(したがってコスト)は階層の深さとともに指数関数的に増加する。 したがって、モーメント行列を構築するために高度に最適化されたソフトウェアを持つことが不可欠である。 本稿では,非可換最適化問題の仕様からモーメント行列緩和を生成するツールキットについて紹介する。 絶対的な最高のパフォーマンスを得るために、MomentはC++で書かれており、使いやすさのためにMATLAB経由でインターフェイスを提供する。 私たちはMomentのパフォーマンスをベンチマークし、同様の機能を持つ現在のソフトウェアよりも最大4桁高速であることを示す。

Non-commutative polynomial optimization is a powerful technique with numerous applications in quantum nonlocality, quantum key distribution, causal inference, many-body physics, amongst others. The standard approach is to reduce such optimizations to a hierarchy of semi-definite programs, which can be solved numerically using well-understood interior-point methods. A key, but computationally costly, step is the formulation of moment matrices, whose size (and hence cost) grows exponentially with the depth of the hierarchy. It is therefore essential to have highly-optimized software to construct moment matrices. Here, we introduce Moment: a toolkit that produces moment matrix relaxations from the specification of a non-commutative optimization problem. In order to obtain the absolute best performance, Moment is written in C++, and for convenience of use provides an interface via MATLAB. We benchmark Moment's performance, and see that it can be up to four orders of magnitude faster than current software with similar functionality.
翻訳日:2024-06-25 21:34:03 公開日:2024-06-21
# 共有外観クイズを用いた未知物体の推論

Unseen Object Reasoning with Shared Appearance Cues ( http://arxiv.org/abs/2406.15565v1 )

ライセンス: Link先を確認
Paridhi Singh, Arun Kumar, (参考訳) 本稿では、未知の物体の認識に対処するために、既知の物体から得られた知識を活用するオープンワールド認識(OWR)の革新的なアプローチを紹介する。 従来のオブジェクトモデリングの手法は厳密なクローズドセットの仮定を持つ教師あり学習に依存しており、推論中に遭遇したオブジェクトが既にトレーニング段階で知られていることを前提にしている。 しかし、この仮定は、オブジェクトの膨大な多様性を考慮に入れないことの非現実性のため、現実世界のシナリオには不十分であることが証明されている。 我々の仮説は、物体の外観は、天体のインスタンスを形成するために星座に配置された「共有可能な」中間レベルの特徴の集合として表現できるというものである。 この枠組みを採用することで、その外観的手がかりの観点から、未知の物体と未知の物体の両方を効率的に識別し、表現することができる。 本報告では,新鮮でエレガントな新奇な物体のモデリング手法を提案する。 この表現は、未知のオブジェクトの分布外オブジェクトや新しいカテゴリの検出を可能にするだけでなく、より深い推論のレベルを促進し、未知のインスタンスが属するスーパークラスの識別を促進する。 この新しいアプローチは、多様な応用において、オープンワールドの認識を前進させるという約束を持っている。

This paper introduces an innovative approach to open world recognition (OWR), where we leverage knowledge acquired from known objects to address the recognition of previously unseen objects. The traditional method of object modeling relies on supervised learning with strict closed-set assumptions, presupposing that objects encountered during inference are already known at the training phase. However, this assumption proves inadequate for real-world scenarios due to the impracticality of accounting for the immense diversity of objects. Our hypothesis posits that object appearances can be represented as collections of "shareable" mid-level features, arranged in constellations to form object instances. By adopting this framework, we can efficiently dissect and represent both known and unknown objects in terms of their appearance cues. Our paper introduces a straightforward yet elegant method for modeling novel or unseen objects, utilizing established appearance cues and accounting for inherent uncertainties. This representation not only enables the detection of out-of-distribution objects or novel categories among unseen objects but also facilitates a deeper level of reasoning, empowering the identification of the superclass to which an unknown instance belongs. This novel approach holds promise for advancing open world recognition in diverse applications.
翻訳日:2024-06-25 21:34:03 公開日:2024-06-21
# SAIL: 大規模言語モデルのオンラインアライメントの自己改善

SAIL: Self-Improving Efficient Online Alignment of Large Language Models ( http://arxiv.org/abs/2406.15567v1 )

ライセンス: Link先を確認
Mucong Ding, Souradip Chakraborty, Vibhu Agrawal, Zora Che, Alec Koppel, Mengdi Wang, Amrit Bedi, Furong Huang, (参考訳) RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデル(LLM)を人間の好みに合わせるための重要な手法である。 しかし、DPO、IPO、SLiCといった現在のオフラインアライメントアプローチは、固定された好みデータセットに大きく依存しているため、サブ最適パフォーマンスにつながる可能性がある。 一方、近年の文献ではオンラインRLHF法の設計に焦点が当てられているが、統一的な概念の定式化が欠けており、分散シフトの問題に悩まされている。 これを解決するために、オンラインLLMアライメントはバイレベル最適化によって支えられていることを確かめる。 この定式化を効率的な一階一階法(報奨政治同値法)に還元することにより、新しいサンプルを生成し、応答を探索し、選好ラベルを規制することによってモデルアライメントを反復的に洗練する。 そこで我々は、オンラインかつ自己改善的な方法でアライメント手法の運用を許可し、オンラインRLHF手法を特別事例として一般化する。 本手法は,最先端反復RLHF法と比較して,計算オーバーヘッドが最小限であるオープンソースデータセットのアライメント性能を著しく向上する。

Reinforcement Learning from Human Feedback (RLHF) is a key method for aligning large language models (LLMs) with human preferences. However, current offline alignment approaches like DPO, IPO, and SLiC rely heavily on fixed preference datasets, which can lead to sub-optimal performance. On the other hand, recent literature has focused on designing online RLHF methods but still lacks a unified conceptual formulation and suffers from distribution shift issues. To address this, we establish that online LLM alignment is underpinned by bilevel optimization. By reducing this formulation to an efficient single-level first-order method (using the reward-policy equivalence), our approach generates new samples and iteratively refines model alignment by exploring responses and regulating preference labels. In doing so, we permit alignment methods to operate in an online and self-improving manner, as well as generalize prior online RLHF methods as special cases. Compared to state-of-the-art iterative RLHF methods, our approach significantly improves alignment performance on open-sourced datasets with minimal computational overhead.
翻訳日:2024-06-25 21:34:03 公開日:2024-06-21
# 破損した人間のフィードバックからのロバスト強化学習

Robust Reinforcement Learning from Corrupted Human Feedback ( http://arxiv.org/abs/2406.15568v1 )

ライセンス: Link先を確認
Alexander Bukharin, Ilgee Hong, Haoming Jiang, Qingru Zhang, Zixuan Zhang, Tuo Zhao, (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。 例えば、個人の偏見、文脈のあいまいさ、トレーニングの欠如など、さまざまな理由から、人間のアノテーションは誤った、あるいは一貫性のない選好ラベルを与えることがある。 この課題に対処するために、ロバストなRLHFアプローチ-$R^3M$を提案する。 したがって、ロバスト報酬学習を$\ell_1$-regularized maximum max estimation problemとして定式化する。 計算学的には,従来のRLHF手法に比べて計算オーバーヘッドが無視できるような,効率的な交互最適化アルゴリズムを開発した。 理論的には、適切な正則性条件下では、$R^3M$ が必ず基礎となる報酬を学習し、アウトリーチを識別できることが証明される。 さらに、$R^3M$は汎用的であり、直接選好最適化(DPO)を含む様々な選好最適化手法に拡張できる。 大規模言語モデル(LLMs)を用いたロボット制御と自然言語生成の実験により、R^3M$は好みデータに対する様々な摂動に対する報酬の堅牢性を向上させることが示された。

Reinforcement learning from human feedback (RLHF) provides a principled framework for aligning AI systems with human preference data. For various reasons, e.g., personal bias, context ambiguity, lack of training, etc, human annotators may give incorrect or inconsistent preference labels. To tackle this challenge, we propose a robust RLHF approach -- $R^3M$, which models the potentially corrupted preference label as sparse outliers. Accordingly, we formulate the robust reward learning as an $\ell_1$-regularized maximum likelihood estimation problem. Computationally, we develop an efficient alternating optimization algorithm, which only incurs negligible computational overhead compared with the standard RLHF approach. Theoretically, we prove that under proper regularity conditions, $R^3M$ can consistently learn the underlying reward and identify outliers, provided that the number of outlier labels scales sublinearly with the preference sample size. Furthermore, we remark that $R^3M$ is versatile and can be extended to various preference optimization methods, including direct preference optimization (DPO). Our experiments on robotic control and natural language generation with large language models (LLMs) show that $R^3M$ improves robustness of the reward against several types of perturbations to the preference data.
翻訳日:2024-06-25 21:34:03 公開日:2024-06-21
# DEM:混合データを用いた学習のための分布編集モデル

DEM: Distribution Edited Model for Training with Mixed Data Distributions ( http://arxiv.org/abs/2406.15570v1 )

ライセンス: Link先を確認
Dhananjay Ram, Aditya Rawal, Momchil Hardalov, Nikolaos Pappas, Sheng Zha, (参考訳) 混合データ分散を用いたトレーニングは、マルチタスクと命令追従モデルを作成する上で、一般的かつ重要な部分である。 データ分布の多様性とジョイントトレーニングのコストは、最適化手順を極めて困難にしている。 データミキシング手法はこの問題に部分的に対処するが、データソースにまたがる準最適性能を持ち、複数の高価なトレーニングを実行する必要がある。 本稿では,各データソース上で個別に訓練されたモデルと基本要素ベクトル演算を用いたベースモデルを組み合わせることで,データソースの最適化を簡便かつ効率的に行う方法を提案する。 結果として得られたモデルであるDistributed Edited Model (DEM) は標準データ混合よりも11倍安く、MMLUでは6.2%、BBHでは11.5%、DROPでは16.1%、HELMでは3Bから13Bのモデルで9.3%向上した。 特に、DEMは単一のデータソースを変更する際に完全な再トレーニングを必要としないため、多様なデータソースでトレーニングするために非常に柔軟でスケーラブルである。

Training with mixed data distributions is a common and important part of creating multi-task and instruction-following models. The diversity of the data distributions and cost of joint training makes the optimization procedure extremely challenging. Data mixing methods partially address this problem, albeit having a sub-optimal performance across data sources and require multiple expensive training runs. In this paper, we propose a simple and efficient alternative for better optimization of the data sources by combining models individually trained on each data source with the base model using basic element-wise vector operations. The resulting model, namely Distribution Edited Model (DEM), is 11x cheaper than standard data mixing and outperforms strong baselines on a variety of benchmarks, yielding up to 6.2% improvement on MMLU, 11.5% on BBH, 16.1% on DROP, and 9.3% on HELM with models of size 3B to 13B. Notably, DEM does not require full re-training when modifying a single data-source, thus making it very flexible and scalable for training with diverse data sources.
翻訳日:2024-06-25 21:34:03 公開日:2024-06-21
# mpMRIにおける早期前立腺癌の分類のための集合組織の特徴解析

Texture Feature Analysis for Classification of Early-Stage Prostate Cancer in mpMRI ( http://arxiv.org/abs/2406.15571v1 )

ライセンス: Link先を確認
Asmail Muftah, S M Schirmer, Frank C Langbein, (参考訳) 前立腺癌の診断・転移にはMRIが重要なツールとなっている。 しかし、それはまた、訓練された専門家によって評価されなければならない大量のデータを生成します。 これにより、複数のMRIモダリティ(T2W、ADC、高b値DWI)に基づいた前立腺癌(PCa)リスク分類の自動化のための機械学習ツールの開発が進められている。 しかし、モデルによる予測を理解し、解釈することは依然として困難である。 我々は、パブリックなProstate-Xデータセットと、主にアーリーステージのPCaデータセットの2つの補完的なデータセットに対して、ランダムフォレスト(RF)とサポートベクトルマシン(SVM)を分析し、その分類に対する一階統計特徴、ハラリックテクスチャの特徴、およびローカルバイナリパターンによる貢献を明らかにする。 相関分析とシェープ効果スコアを用いて、典型的に使用される特徴の多くは強い相関関係にあり、ほとんどの特徴が分類に無視できる影響があることが判明した。 我々は、分類結果を決定する少数の特徴を特定し、説明可能なAIアプローチの開発に役立つかもしれない。

Magnetic resonance imaging (MRI) has become a crucial tool in the diagnosis and staging of prostate cancer, owing to its superior tissue contrast. However, it also creates large volumes of data that must be assessed by trained experts, a time-consuming and laborious task. This has prompted the development of machine learning tools for the automation of Prostate cancer (PCa) risk classification based on multiple MRI modalities (T2W, ADC, and high-b-value DWI). Understanding and interpreting the predictions made by the models, however, remains a challenge. We analyze Random Forests (RF) and Support Vector Machines (SVM), for two complementary datasets, the public Prostate-X dataset, and an in-house, mostly early-stage PCa dataset to elucidate the contributions made by first-order statistical features, Haralick texture features, and local binary patterns to the classification. Using correlation analysis and Shapley impact scores, we find that many of the features typically used are strongly correlated, and that the majority of features have negligible impact on the classification. We identify a small set of features that determine the classification outcome, which may aid the development of explainable AI approaches.
翻訳日:2024-06-25 21:34:03 公開日:2024-06-21
# Sketch-GNN: サブ線形訓練複雑性を備えたスケーラブルグラフニューラルネットワーク

Sketch-GNN: Scalable Graph Neural Networks with Sublinear Training Complexity ( http://arxiv.org/abs/2406.15575v1 )

ライセンス: Link先を確認
Mucong Ding, Tahseen Rabbani, Bang An, Evan Z Wang, Furong Huang, (参考訳) グラフニューラルネットワーク(GNN)は,ノード分類などのグラフ学習問題に広く適用されている。 GNNの基盤となるグラフをより大きなサイズにスケールアップする場合、私たちは完全なグラフをトレーニングし、完全なグラフの隣接性とノードの埋め込み(しばしば実現不可能)を維持するか、グラフのミニバッチサンプル(GNN層数に関して計算複雑性が指数関数的に増大する結果になる)を強制されます。 この指数関数的な複雑性の増大を避けるため、サンプリングベースおよび履歴埋め込みに基づく様々な手法が提案されている。 しかし、これらの解のどれもグラフサイズへの線形依存を排除しない。 本稿では,グラフの隣接性やノード埋め込みのコンパクトなスケッチの上にGNNをトレーニングすることにより,学習時間とメモリがグラフサイズに対してサブ線形に成長するスケッチベースアルゴリズムを提案する。 我々のフレームワークは多項式テンソルスケッチ(PTS)理論に基づいて、ニューラルネットワークの線形重みや勾配をスケッチする既存の手法とは対照的に、GNNにおける非線形アクティベーションとグラフ畳み込み行列をスケッチするための新しいプロトコルを提供する。 さらに,スケッチの質を向上させるために,局所性に敏感なハッシュ(LSH)技術を開発した。 大規模ベンチマークの実験では、Sketch-GNNとフルサイズのGNNのスケーラビリティと競合性能が示されている。

Graph Neural Networks (GNNs) are widely applied to graph learning problems such as node classification. When scaling up the underlying graphs of GNNs to a larger size, we are forced to either train on the complete graph and keep the full graph adjacency and node embeddings in memory (which is often infeasible) or mini-batch sample the graph (which results in exponentially growing computational complexities with respect to the number of GNN layers). Various sampling-based and historical-embedding-based methods are proposed to avoid this exponential growth of complexities. However, none of these solutions eliminates the linear dependence on graph size. This paper proposes a sketch-based algorithm whose training time and memory grow sublinearly with respect to graph size by training GNNs atop a few compact sketches of graph adjacency and node embeddings. Based on polynomial tensor-sketch (PTS) theory, our framework provides a novel protocol for sketching non-linear activations and graph convolution matrices in GNNs, as opposed to existing methods that sketch linear weights or gradients in neural networks. In addition, we develop a locality-sensitive hashing (LSH) technique that can be trained to improve the quality of sketches. Experiments on large-graph benchmarks demonstrate the scalability and competitive performance of our Sketch-GNNs versus their full-size GNN counterparts.
翻訳日:2024-06-25 21:34:03 公開日:2024-06-21
# コントラスト的エンティティの一貫性と歴史的テキストの曖昧さ

Contrastive Entity Coreference and Disambiguation for Historical Texts ( http://arxiv.org/abs/2406.15576v1 )

ライセンス: Link先を確認
Abhishek Arora, Emily Silcock, Leander Heldring, Melissa Dell, (参考訳) 大規模な史料収集は社会科学研究に不可欠である。 デジタル化の増大にもかかわらず、これらの文書は典型的にはウィキペディアやウィキデータのような外部の知識ベースからの個人識別子だけでなく、テキスト内で言及された個人に対して独自の文書の識別子を欠いている。 既存のエンティティの曖昧さの方法はしばしば、現代の知識ベースに記憶されていない個人に欠かせない歴史文書の正確さに欠ける。 大規模なトレーニングデータセットは、ウィキペディアのコンテキストと曖昧なページから1億9000万以上のエンティティペア、手書きの歴史的ニュースワイヤー記事からの高品質な評価データ、この履歴ベンチマークで評価されたトレーニングモデルである。 両エンコーダモデルを用いて、歴史的テキスト中の個人をコア参照し、曖昧にするための訓練を行い、知識のない個人を識別する正確でスケーラブルなパフォーマンスを実現した。 我々のアプローチは、過去のニュースワイヤベンチマークにおける他のエンティティの曖昧さモデルを大きく上回っている。 我々のモデルは、現代のエンティティの曖昧さのベンチマーク、特に特定のニュースの曖昧さのデータセット上での競合性能も示しています。

Massive-scale historical document collections are crucial for social science research. Despite increasing digitization, these documents typically lack unique cross-document identifiers for individuals mentioned within the texts, as well as individual identifiers from external knowledgebases like Wikipedia/Wikidata. Existing entity disambiguation methods often fall short in accuracy for historical documents, which are replete with individuals not remembered in contemporary knowledgebases. This study makes three key contributions to improve cross-document coreference resolution and disambiguation in historical texts: a massive-scale training dataset replete with hard negatives - that sources over 190 million entity pairs from Wikipedia contexts and disambiguation pages - high-quality evaluation data from hand-labeled historical newswire articles, and trained models evaluated on this historical benchmark. We contrastively train bi-encoder models for coreferencing and disambiguating individuals in historical texts, achieving accurate, scalable performance that identifies out-of-knowledgebase individuals. Our approach significantly surpasses other entity disambiguation models on our historical newswire benchmark. Our models also demonstrate competitive performance on modern entity disambiguation benchmarks, particularly certain news disambiguation datasets.
翻訳日:2024-06-25 21:34:03 公開日:2024-06-21
# 歴史のデコヒーレンス:カオス的対数可積分系

Decoherence of Histories: Chaotic Versus Integrable Systems ( http://arxiv.org/abs/2406.15577v1 )

ライセンス: Link先を確認
Jiaozi Wang, Philipp Strasberg, (参考訳) ハイゼンベルク連鎖に対するシュリンガー方程式の正確な数値積分に基づいて, 孤立系におけるデコヒーレントヒストリーの出現について検討する。 システムの性質が,システムから切り換えられることを明らかにする。 chaotic (複数形 chaotics) (ii) 可積分体との相互作用 三 非相互作用可積分で、デコヒーレンスに強い影響を及ぼす。 有限サイズのスケーリング法則から、コヒーレンスの強い指数的抑制を推測する。 (i)弱い指数的な抑制 (ii)指数的抑制がないこと (iii) 関連する短い(非平衡)時間スケールで。 さらに、長い時間の間、より強いデコヒーレンスを見つけます。 (i)対訳 (二)パワー・ローの崩壊の可能性さえも示唆する (ii) 平衡時間スケールで。 この振る舞いは、量子ヒストリーのマルチタイム特性に符号化されており、環境によって引き起こされたデコヒーレンスによって説明できない。 以上の結果から, カオス性は, 有限サイズシステムにおける古典性の出現において重要な役割を担っていることが示唆された。

We study the emergence of decoherent histories in isolated systems based on exact numerical integration of the Schr\"odinger equation for a Heisenberg chain. We reveal that the nature of the system, which we switch from (i) chaotic to (ii) interacting integrable to (iii) non-interacting integrable, strongly impacts decoherence. From a finite size scaling law we infer a strong exponential suppression of coherences for (i), a weak exponential suppression for (ii) and no exponential suppression for (iii) on a relevant short (nonequilibrium) time scale. Moreover, for longer times we find stronger decoherence for (i) but the opposite for (ii), hinting even at a possible power-law decay for (ii) at equilibrium time scales. This behaviour is encoded in the multi-time properties of the quantum histories and it can not be explained by environmentally induced decoherence. Our results suggest that chaoticity plays a crucial role in the emergence of classicality in finite size systems.
翻訳日:2024-06-25 21:34:03 公開日:2024-06-21
# AI生成テキストの検出:現在の方法による検出可能性に影響を与える要因

Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods ( http://arxiv.org/abs/2406.15583v1 )

ライセンス: Link先を確認
Kathleen C. Fraser, Hillary Dawkins, Svetlana Kiritchenko, (参考訳) 大規模言語モデル(LLM)は、人間でさえ、あるテキストが別の人間によって、あるいはコンピュータによって生成されたかどうかを識別することが困難である点まで進歩している。 しかし、人間や人工知能(AI)がテキストを作成したかどうかを知ることは、その信頼性を判断する上で重要であり、不正や学業上の不正を検知したり、誤報や政治宣伝の拡散と戦うなど、多くの分野で応用されている。 AI生成テキスト(AIGT)検出の課題は、非常に困難であり、非常に重要なものである。 本調査では,透かし,統計的およびスタイリスティック分析,機械学習分類など,AIGT検出に対する最先端技術アプローチについて要約する。 このタスクのために既存のデータセットに関する情報も提供します。 研究成果を合成し,AIGTテキストの「検出可能な」状況と,この重要な技術的・社会的な課題に対する今後の研究の実践的推奨を組み合わせた健全な要因について考察することを目的とする。

Large language models (LLMs) have advanced to a point that even humans have difficulty discerning whether a text was generated by another human, or by a computer. However, knowing whether a text was produced by human or artificial intelligence (AI) is important to determining its trustworthiness, and has applications in many domains including detecting fraud and academic dishonesty, as well as combating the spread of misinformation and political propaganda. The task of AI-generated text (AIGT) detection is therefore both very challenging, and highly critical. In this survey, we summarize state-of-the art approaches to AIGT detection, including watermarking, statistical and stylistic analysis, and machine learning classification. We also provide information about existing datasets for this task. Synthesizing the research findings, we aim to provide insight into the salient factors that combine to determine how "detectable" AIGT text is under different scenarios, and to make practical recommendations for future work towards this significant technical and societal challenge.
翻訳日:2024-06-25 21:34:03 公開日:2024-06-21
# ZMapの10年

Ten Years of ZMap ( http://arxiv.org/abs/2406.15585v1 )

ライセンス: Link先を確認
Zakir Durumeric, David Adrian, Phillip Stephens, Eric Wustrow, J. Alex Halderman, (参考訳) 2013年にZMapがデビューして以来、ネットワークとセキュリティの研究者は、このオープンソースのスキャナを使って、インターネットの振る舞いを研究する何百もの研究論文を書いた。 さらに、ZMapは攻撃面の管理とセキュリティ評価の業界の多くを支えており、ZMap上には10以上のセキュリティ企業が製品を作っている。 裏では、ZMapの動作の大部分(擬似ランダムIP生成からパケット構成まで)が、インターネットのスキャン方法についてより深く学ぶにつれ、静かに進化しています。 本研究では、ZMapのリリースから10年にわたってのZMapの採用状況を定量化し、その現代的な振る舞い(およびそれらの変更を動機づけた測定値)を説明し、ZMapのリリースとメンテナンスから教訓を提供する。

Since ZMap's debut in 2013, networking and security researchers have used the open-source scanner to write hundreds of research papers that study Internet behavior. In addition, ZMap powers much of the attack-surface management and security ratings industries, and more than a dozen security companies have built products on top of ZMap. Behind the scenes, much of ZMap's behavior - ranging from its pseudorandom IP generation to its packet construction - has quietly evolved as we have learned more about how to scan the Internet. In this work, we quantify ZMap's adoption over the ten years since its release, describe its modern behavior (and the measurements that motivated those changes), and offer lessons from releasing and maintaining ZMap.
翻訳日:2024-06-25 21:34:03 公開日:2024-06-21
# TinyStyler: オーサリング埋め込みによるテキストスタイルの効率的な転送

TinyStyler: Efficient Few-Shot Text Style Transfer with Authorship Embeddings ( http://arxiv.org/abs/2406.15586v1 )

ライセンス: Link先を確認
Zachary Horvitz, Ajay Patel, Kanishk Singh, Chris Callison-Burch, Kathleen McKeown, Zhou Yu, (参考訳) テキストスタイル転送の目標は、本来の意味を保ちながらテキストスタイルを変換することである。 既存のスタイル転送手法は一般に、大きな言語モデルの少数ショット機能や、非効率で流用度合いの低い複雑な制御可能なテキスト生成アプローチに依存している。 我々はTinyStylerを紹介した。TinyStylerは軽量で効果的なアプローチで、小さな言語モデル(800Mparams)と事前訓練されたオーサシップ埋め込みを利用して、効率よく、少数のテキストスタイルの転送を行う。 GPT-4 のような強靭なアプローチよりも TinyStyler の方が優れていることを示す。 また、TinyStylerのテキスト属性スタイル転送機能(形式的$\leftrightarrow$official)を自動的および人為的評価で評価し、最近の制御可能なテキスト生成方法よりも優れていることを示す。 私たちのモデルはhttps://huggingface.co/tinystyler/tinystyler で公開されています。

The goal of text style transfer is to transform the style of texts while preserving their original meaning, often with only a few examples of the target style. Existing style transfer methods generally rely on the few-shot capabilities of large language models or on complex controllable text generation approaches that are inefficient and underperform on fluency metrics. We introduce TinyStyler, a lightweight but effective approach, which leverages a small language model (800M params) and pre-trained authorship embeddings to perform efficient, few-shot text style transfer. We evaluate on the challenging task of authorship style transfer and find TinyStyler outperforms strong approaches such as GPT-4. We also evaluate TinyStyler's ability to perform text attribute style transfer (formal $\leftrightarrow$ informal) with automatic and human evaluations and find that the approach outperforms recent controllable text generation methods. Our model has been made publicly available at https://huggingface.co/tinystyler/tinystyler .
翻訳日:2024-06-25 21:34:03 公開日:2024-06-21
# ネットワーク非局所性におけるベル理論の影から逃れる

Escaping the Shadow of Bell's Theorem in Network Nonlocality ( http://arxiv.org/abs/2406.15587v1 )

ライセンス: Link先を確認
Maria Ciudad-Alañón, Emanuel-Cristian Boghiu, Paolo Abiuso, Elie Wolfe, (参考訳) ベルの固有名定理とは無関係なネットワークにおける非古典性の可能性は、最近大きな関心を集めている。 ここでは「ベルの定理の影の外」である十分な条件を特定し、最小のネットワーク非古典性と呼ばれるネットワーク非古典性のインスタンスの新規性を証明できる検証可能な基準を導入する。 量子論において実現可能な最小ネットワーク非古典的相関の例と、よりエキゾチックな操作確率論の例を提供する。 特に、これらの概念を3-鎖シナリオ(例えば双局所性シナリオ)の最も単純な構成に適用し、ある相関がベルの定理の影から脱却したことを示す。 この例の中には前例がないものもあるが、ネットワークの非古典性についてより精通した例を再考し、新規性の評価に関して、我々のアプローチと以前のアプローチとの対比を強調している。

The possibility of nonclassicality in networks unrelated to Bell's original eponymous theorem has recently attracted significant interest. Here, we identify a sufficient condition for being "outside the shadow of Bell's theorem" and introduce a testable criterion capable of certifying the novelty of instances of network-nonclassicality which we call minimal network nonclassicality. We provide examples of minimally network nonclassical correlations realizable in quantum theory as well as examples coming from more exotic operational probabilistic theories. In particular, we apply these concepts to the simplest configuration of the 3-chain scenario (a.k.a. the bilocality scenario) to prove that certain correlations have escaped the shadow of Bell's theorem. While some of the examples herein are unprecedented, we also revisit more familiar examples of network nonclassicality in order to highlight the contrast between our approach versus prior approaches with respect to assessing novelty.
翻訳日:2024-06-25 21:34:03 公開日:2024-06-21
# News Deja Vu:過去と現在をセマンティック検索で結びつける

News Deja Vu: Connecting Past and Present with Semantic Search ( http://arxiv.org/abs/2406.15593v1 )

ライセンス: Link先を確認
Brevin Franklin, Emily Silcock, Abhishek Arora, Tom Bryan, Melissa Dell, (参考訳) 社会科学者や一般大衆はしばしば、歴史的テキストの広大な、騒々しく、非構造的な性質によって複雑なプロセスである過去と平行して描くことで、現代の出来事を分析する。 例えば、過去の新聞から何億ページものスキャンがノイズに書き起こされている。 これらの巨大なコーパスで関連物質を検索する伝統的なスパース法、例えばキーワードで検索すると、複雑な語彙とOCRノイズが与えられる。 本研究は,トランスフォーマー大言語モデルとバイエンコーダアプローチを利用して,現代ニュースクエリに最も近い過去のニュース記事を特定する,新しいセマンティック検索ツールであるNews Deja Vuを紹介する。 News Deja Vuは、議論されている特定の名前のエンティティではなく、より広い並列性に焦点を当てるために、エンティティを認識し、マスクする。 そして、対照的に訓練された軽量のバイエンコーダは、現代的なクエリに最もよく似た歴史的記事を取得し、現在に特有の現象が、どのように様々な歴史的前例を持つかを説明する。 ソーシャルサイエンティストを対象とし、ユーザーフレンドリーなNews Deja Vuパッケージは、ディープラーニングに精通していない人たちにアクセスできるように設計されている。 大規模なテキストデータセットで動作し、歴史的かつオープンソースなニュース記事の大規模なコーパスにどのようにデプロイできるかを示す。 人間の専門知識は深い洞察を引き出す上でも重要だが、News Deja Vuは人々が過去と現在をどう認識したかを理解するための強力なツールを提供する。

Social scientists and the general public often analyze contemporary events by drawing parallels with the past, a process complicated by the vast, noisy, and unstructured nature of historical texts. For example, hundreds of millions of page scans from historical newspapers have been noisily transcribed. Traditional sparse methods for searching for relevant material in these vast corpora, e.g., with keywords, can be brittle given complex vocabularies and OCR noise. This study introduces News Deja Vu, a novel semantic search tool that leverages transformer large language models and a bi-encoder approach to identify historical news articles that are most similar to modern news queries. News Deja Vu first recognizes and masks entities, in order to focus on broader parallels rather than the specific named entities being discussed. Then, a contrastively trained, lightweight bi-encoder retrieves historical articles that are most similar semantically to a modern query, illustrating how phenomena that might seem unique to the present have varied historical precedents. Aimed at social scientists, the user-friendly News Deja Vu package is designed to be accessible for those who lack extensive familiarity with deep learning. It works with large text datasets, and we show how it can be deployed to a massive scale corpus of historical, open-source news articles. While human expertise remains important for drawing deeper insights, News Deja Vu provides a powerful tool for exploring parallels in how people have perceived past and present.
翻訳日:2024-06-25 21:34:03 公開日:2024-06-21
# 機械学習による高分解能太陽スペクトルのフレア検出と分類

Detecting and Classifying Flares in High-Resolution Solar Spectra with Supervised Machine Learning ( http://arxiv.org/abs/2406.15594v1 )

ライセンス: Link先を確認
Nicole Hao, Laura Flagg, Ray Jayawardhana, (参考訳) フレアは太陽の磁気活動のよく研究された側面である。 太陽フレアの検出と分類は、太陽系外惑星の透過スペクトルにおける恒星フレアによる汚染の分析を知らせることができる。 本稿では,太陽フレアを教師あり機械学習の助けを借りて分類する標準化手法を提案する。 HARPS-N装置のRHESSIミッションのフレアデータと太陽スペクトルを用いて、いくつかの教師付き機械学習モデルを訓練し、最高の実行アルゴリズムは、非線形カーネル、特に放射基底関数(RBF)を備えたC-Support Vector Machine(SVC)であることが判明した。 RBFカーネルを用いた最良のトレーニングモデルであるSVCは、平均集計精度スコアが0.65で、分類精度スコアが0.70以上、非フレアクラスが弱フレアクラスである。 比較すると、ブラインド分類アルゴリズムは精度スコアが0.33である。 実験の結果、このモデルでは、太陽フレアをトレーニングセットと異なる特性と分布を持つ全く新しいデータに分類することができることがわかった。 今後の取り組みは、分類の精度の向上、代替モデル、特にディープラーニングモデルの有効性の調査、さらに多くのデータセットを導入して、太陽系外惑星をホストする恒星へのこのフレームワークの適用を拡大することに注力する。

Flares are a well-studied aspect of the Sun's magnetic activity. Detecting and classifying solar flares can inform the analysis of contamination caused by stellar flares in exoplanet transmission spectra. In this paper, we present a standardized procedure to classify solar flares with the aid of supervised machine learning. Using flare data from the RHESSI mission and solar spectra from the HARPS-N instrument, we trained several supervised machine learning models, and found that the best performing algorithm is a C-Support Vector Machine (SVC) with non-linear kernels, specifically Radial Basis Functions (RBF). The best-trained model, SVC with RBF kernels, achieves an average aggregate accuracy score of 0.65, and categorical accuracy scores of over 0.70 for the no-flare and weak-flare classes, respectively. In comparison, a blind classification algorithm would have an accuracy score of 0.33. Testing showed that the model is able to detect and classify solar flares in entirely new data with different characteristics and distributions from those of the training set. Future efforts could focus on enhancing classification accuracy, investigating the efficacy of alternative models, particularly deep learning models, and incorporating more datasets to extend the application of this framework to stars that host exoplanets.
翻訳日:2024-06-25 21:24:18 公開日:2024-06-21
# DiVerify: 次世代ソフトウェア署名におけるアイデンティティ検証の多様化

DiVerify: Diversifying Identity Verification in Next-Generation Software Signing ( http://arxiv.org/abs/2406.15596v1 )

ライセンス: Link先を確認
Chinenye L. Okafor, James C. Davis, Santiago Torres-Arias, (参考訳) コード署名は、ソフトウェア開発者が暗号化キーを使用してデジタル署名することで、コードをアイデンティティに関連付けることを可能にする。 これにより、ソフトウェアが改ざんされないように、ソフトウェアの信頼性と完全性を検証することができる。 SigstoreやOpenPubKeyといった次世代ソフトウェア署名は、署名者のIDを公開キーにリンクする合理化メカニズムを提供することで、コードの署名を単純化する。 しかし、それらの設計には脆弱性がある。IDプロバイダへの依存は単一障害点を導入し、クライアント側の最小特権の原則に従わないことは、セキュリティリスクを増大させる。 本稿では,しきい値の正当性検証とスコープ機構を活用することにより,次世代ソフトウェア署名のセキュリティ保証を強化するDiverse Identity Verification(DiVerify)方式を提案する。 我々は、多様な検証範囲の一般的な定義を定式化し、それが次世代のソフトウェア署名ソリューションにどのように適用されるかを定式化し、クライアントが侵入されたIDプロバイダの影響から身を守ることができ、侵入されたクライアントの影響を最小限に抑えるのに役立つ。 概念実証として,SigstoreエコシステムにDiVerifyを実装し,セキュリティ改善を評価した。 詳細なアクセス制御機構とアカウント署名機能に対するしきい値検証を実装することで、署名ツールが不正なIDプロバイダや悪意のある署名クライアントからの脅威から身を守ることを実証する。

Code signing enables software developers to digitally sign their code using cryptographic keys, thereby associating the code to their identity. This allows users to verify the authenticity and integrity of the software, ensuring it has not been tampered with. Next-generation software signing such as Sigstore and OpenPubKey simplify code signing by providing streamlined mechanisms to verify and link signer identities to the public key. However, their designs have vulnerabilities: reliance on an identity provider introduces a single point of failure, and the failure to follow the principle of least privilege on the client side increases security risks. We introduce Diverse Identity Verification (DiVerify) scheme, which strengthens the security guarantees of next-generation software signing by leveraging threshold identity validations and scope mechanisms. We formalize a general definition of diverse verification scope and how it applies to next-generation software signing solutions, enabling clients to protect themselves from the impact of a compromised identity provider and help identity providers minimize the impact of compromised clients. As proof of concept, we implement DiVerify in the Sigstore ecosystem and evaluate the security improvements. By using fine-grained access control mechanisms and implementing threshold validations over account signing capabilities, we demonstrate that signing tools can protect themselves against threats from compromised identity providers and malicious signing clients.
翻訳日:2024-06-25 21:24:18 公開日:2024-06-21
# 隠れた文脈による嗜好からのパレート最適学習

Pareto-Optimal Learning from Preferences with Hidden Context ( http://arxiv.org/abs/2406.15599v1 )

ライセンス: Link先を確認
Ryan Boldi, Li Ding, Lee Spector, Scott Niekum, (参考訳) AIモデルを人間の価値と整合させることは、その安全性と機能にとって不可欠である。 人間のフィードバックからの強化学習(RLHF)はこのアライメントを達成するために人間の好みを使用する。 しかし、多様な集団から派生した嗜好は、特定のグループに対して最適あるいは不公平であるかもしれない人間の価値の点推定をもたらす可能性がある。 そこで本稿では,Paleto Optimal Preference Learning (POPL) を提案する。 POPLは、多様なパレート最適解を選択する反復的なプロセスであるLexicase selectionを利用する。 実験により,POPLは報酬関数の集合の学習において基本的手法を超越し,グループ番号やメンバシップラベルを使わずにグループに効果的に対応できることが確認された。 さらに、POPLはグループフェアネスの特定の概念を最適化し、包括的で公平なAIモデルのアライメントを保証する技術の基礎として機能することを示す。

Ensuring AI models align with human values is essential for their safety and functionality. Reinforcement learning from human feedback (RLHF) uses human preferences to achieve this alignment. However, preferences sourced from diverse populations can result in point estimates of human values that may be sub-optimal or unfair to specific groups. We propose Pareto Optimal Preference Learning (POPL), which frames discrepant group preferences as objectives with potential trade-offs, aiming for policies that are Pareto-optimal on the preference dataset. POPL utilizes Lexicase selection, an iterative process to select diverse and Pareto-optimal solutions. Our empirical evaluations demonstrate that POPL surpasses baseline methods in learning sets of reward functions, effectively catering to distinct groups without access to group numbers or membership labels. Furthermore, we illustrate that POPL can serve as a foundation for techniques optimizing specific notions of group fairness, ensuring inclusive and equitable AI model alignment.
翻訳日:2024-06-25 21:24:18 公開日:2024-06-21
# 量子コンピューティングの可能性の評価と向上:NASAのケーススタディ

Assessing and Advancing the Potential of Quantum Computing: A NASA Case Study ( http://arxiv.org/abs/2406.15601v1 )

ライセンス: Link先を確認
Eleanor G. Rieffel, Ata Akbari Asanjan, M. Sohaib Alam, Namit Anand, David E. Bernal Neira, Sophie Block, Lucas T. Brady, Steve Cotton, Zoe Gonzalez Izquierdo, Shon Grabbe, Erik Gustafson, Stuart Hadfield, P. Aaron Lott, Filip B. Maciejewski, Salvatore Mandrà, Jeffrey Marshall, Gianni Mossi, Humberto Munoz Bauza, Jason Saied, Nishchay Suri, Davide Venturelli, Zhihui Wang, Rupak Biswas, (参考訳) 量子コンピューティングは、未来の計算システムの様々な領域に革命をもたらす可能性を持つ最も魅力的な計算パラダイムの1つである。 量子コンピューティングのハードウェアは、小さな実験実験から量子チップまで急速に進歩し、特定の計算タスクにおいて最大規模のスーパーコンピュータでも性能を発揮できるが、これらのノイズの多い中間スケール量子(NISQ)プロセッサは、まだ小さくて、現実のアプリケーションでは直接的に有用ではない。 本稿では,量子コンピューティングのポテンシャルを評価・推し進めるNASAの取り組みについて述べる。 我々は,NISQ時代のアルゴリズム・ハードウェア共同設計のメリットを実証することを含む,近時・長期にわたるアルゴリズムの進歩と,現在のハードウェアとシミュレーションによる探索の結果について論じる。 この研究には物理にインスパイアされた古典的アルゴリズムも含まれており、今日のアプリケーションスケールで使用することができる。 本稿では、量子コンピューティングの評価と発展を支援する革新的なツールについて論じ、現実的なエラーモデルを含む高性能コンピューティングシステムにおいて、様々なタイプの量子システムをシミュレートするための改善手法について述べる。 本稿では,誤差軽減のための量子ハードウェアのベンチマーク,評価,特徴化に関する最近の手法の概要と,計算目的に活用できる基本量子物理学の知見について述べる。

Quantum computing is one of the most enticing computational paradigms with the potential to revolutionize diverse areas of future-generation computational systems. While quantum computing hardware has advanced rapidly, from tiny laboratory experiments to quantum chips that can outperform even the largest supercomputers on specialized computational tasks, these noisy-intermediate scale quantum (NISQ) processors are still too small and non-robust to be directly useful for any real-world applications. In this paper, we describe NASA's work in assessing and advancing the potential of quantum computing. We discuss advances in algorithms, both near- and longer-term, and the results of our explorations on current hardware as well as with simulations, including illustrating the benefits of algorithm-hardware co-design in the NISQ era. This work also includes physics-inspired classical algorithms that can be used at application scale today. We discuss innovative tools supporting the assessment and advancement of quantum computing and describe improved methods for simulating quantum systems of various types on high-performance computing systems that incorporate realistic error models. We provide an overview of recent methods for benchmarking, evaluating, and characterizing quantum hardware for error mitigation, as well as insights into fundamental quantum physics that can be harnessed for computational purposes.
翻訳日:2024-06-25 21:24:18 公開日:2024-06-21
# QuADTool:アタックディフェンストレーの合成、分析、検証のための橋

QuADTool: Attack-Defense-Tree Synthesis, Analysis and Bridge to Verification ( http://arxiv.org/abs/2406.15605v1 )

ライセンス: Link先を確認
Florian Dorfhuber, Julia Eisentraut, Jan Kretinsky, (参考訳) ランク付けリスクと対策は、量的セキュリティ分析の最も大きな目標の1つである。 工業的にも使われている一般的なフレームワークの1つは、攻撃防御木である。 攻撃防御木に利用可能な標準的な定量的分析は、潜在的な脆弱性と区別することができる。 私たちはこれらのモデルの簡易な合成と分析を可能にするツールを提供し、確率、コスト、時間も備えています。 さらに、既存のモデルチェッカーや分析ツールにさまざまなインターフェースを提供する。 残念ながら、現在利用可能なツールは正確な量的入力(確率、タイミング、攻撃コスト)に依存しており、ほとんど利用できない。 その代わり、統計的で不正確な情報のみが一般に利用可能であり、実際の量のほぼ正しい(PAC)推定が残されている。 ツールの一部として、標準解析手法を拡張して、PAC入力を処理し、解析の最終結果の精度と不確実性について厳密な境界が得られるようにします。

Ranking risks and countermeasures is one of the foremost goals of quantitative security analysis. One of the popular frameworks, used also in industrial practice, for this task are attack-defense trees. Standard quantitative analyses available for attack-defense trees can distinguish likely from unlikely vulnerabilities. We provide a tool that allows for easy synthesis and analysis of those models, also featuring probabilities, costs and time. Furthermore, it provides a variety of interfaces to existing model checkers and analysis tools. Unfortunately, currently available tools rely on precise quantitative inputs (probabilities, timing, or costs of attacks), which are rarely available. Instead, only statistical, imprecise information is typically available, leaving us with probably approximately correct (PAC) estimates of the real quantities. As a part of our tool, we extend the standard analysis techniques so they can handle the PAC input and yield rigorous bounds on the imprecision and uncertainty of the final result of the analysis.
翻訳日:2024-06-25 21:24:18 公開日:2024-06-21
# GPT-4 Vision による放射線治療計画の自動化

Automated radiotherapy treatment planning guided by GPT-4Vision ( http://arxiv.org/abs/2406.15609v1 )

ライセンス: Link先を確認
Sheng Liu, Oscar Pastor-Serrano, Yizheng Chen, Matthew Gopaulchan, Weixing Liang, Mark Buyyounouski, Erqi Pollom, Quynh-Thu Le, Michael Gensheimer, Peng Dong, Yong Yang, James Zou, Lei Xing, (参考訳) 放射線治療治療計画は、複数の矛盾する目標のバランスをとるために、モデルパラメータの反復的な調整を必要とする、時間を要する、潜在的に主観的なプロセスである。 大規模基盤モデルの最近の進歩は、計画と臨床意思決定の課題に対処するための有望な道を提供する。 本稿では,OpenAI の GPT-4Vision (GPT-4V) など,マルチモーダルな大規模言語モデルで符号化された先行放射線オンコロジー知識を活用する,完全に自動化された治療計画フレームワーク GPT-RadPlan を紹介する。 GPT-RadPlanは、計画プロトコルをコンテキストとして認識し、専門家のプランナーとして機能し、治療計画プロセスの導出を可能にする。 In-context learning, we include clinical protocol for various disease sites as prompts to enable GPT-4V to acquired treatment planning domain knowledge。 GPT-RadPlanエージェントはAPIを介して社内の逆処理計画システムに統合される。 前立腺癌と頭頸部癌に合併した多発性前立腺癌(GPT-RadPlan)を臨床計画と比較した。 いずれの場合も、GPT-RadPlanは臨床計画より優れていたり、適合していたりし、より優れた目標範囲と臓器-リスク間隔を示していた。 GPT-RadPlanは、放射線腫瘍治療クリニックにおけるヒトプランナーの行動を模倣し、追加の訓練を必要とせず、治療計画プロセスの自動化に顕著な成果を収めた、最初の多モーダルな大規模言語モデルエージェントである。

Radiotherapy treatment planning is a time-consuming and potentially subjective process that requires the iterative adjustment of model parameters to balance multiple conflicting objectives. Recent advancements in large foundation models offer promising avenues for addressing the challenges in planning and clinical decision-making. This study introduces GPT-RadPlan, a fully automated treatment planning framework that harnesses prior radiation oncology knowledge encoded in multi-modal large language models, such as GPT-4Vision (GPT-4V) from OpenAI. GPT-RadPlan is made aware of planning protocols as context and acts as an expert human planner, capable of guiding a treatment planning process. Via in-context learning, we incorporate clinical protocols for various disease sites as prompts to enable GPT-4V to acquire treatment planning domain knowledge. The resulting GPT-RadPlan agent is integrated into our in-house inverse treatment planning system through an API. The efficacy of the automated planning system is showcased using multiple prostate and head & neck cancer cases, where we compared GPT-RadPlan results to clinical plans. In all cases, GPT-RadPlan either outperformed or matched the clinical plans, demonstrating superior target coverage and organ-at-risk sparing. Consistently satisfying the dosimetric objectives in the clinical protocol, GPT-RadPlan represents the first multimodal large language model agent that mimics the behaviors of human planners in radiation oncology clinics, achieving remarkable results in automating the treatment planning process without the need for additional training.
翻訳日:2024-06-25 21:24:18 公開日:2024-06-21
# 極値理論に基づく政策勾配を用いたカタストロフィックリスク対応強化学習

Catastrophic-risk-aware reinforcement learning with extreme-value-theory-based policy gradients ( http://arxiv.org/abs/2406.15612v1 )

ライセンス: Link先を確認
Parisa Davar, Frédéric Godin, Jose Garrido, (参考訳) 本稿では, 逐次的意思決定プロセスの文脈において, 破滅的リスク(頻度が非常に低いが, 重大度が高いリスク)を緩和する問題に取り組む。 この問題は、累積コスト(負の報酬)の分布の極端にある観測の不足のため、特に困難である。 POTPGと呼ばれるポリシー勾配アルゴリズムが開発されている。 これは極値理論から導かれる尾のリスクの近似に基づいている。 数値実験では,経験的分布に依存する一般的なベンチマークよりも,提案手法のアウトパフォーマンスを強調した。 より正確には、金融オプションの動的ヘッジへの金融リスク管理の適用について述べる。

This paper tackles the problem of mitigating catastrophic risk (which is risk with very low frequency but very high severity) in the context of a sequential decision making process. This problem is particularly challenging due to the scarcity of observations in the far tail of the distribution of cumulative costs (negative rewards). A policy gradient algorithm is developed, that we call POTPG. It is based on approximations of the tail risk derived from extreme value theory. Numerical experiments highlight the out-performance of our method over common benchmarks, relying on the empirical distribution. An application to financial risk management, more precisely to the dynamic hedging of a financial option, is presented.
翻訳日:2024-06-25 21:24:18 公開日:2024-06-21
# MOUNTAINEER: 局所的な説明を比較するためのトポロジ駆動型ビジュアルアナリティクス

MOUNTAINEER: Topology-Driven Visual Analytics for Comparing Local Explanations ( http://arxiv.org/abs/2406.15613v1 )

ライセンス: Link先を確認
Parikshit Solunke, Vitoria Guardieiro, Joao Rulff, Peter Xenopoulos, Gromit Yeuk-Yin Chan, Brian Barr, Luis Gustavo Nonato, Claudio Silva, (参考訳) 重要なアプリケーションにおけるブラックボックス機械学習(ML)技術の利用の増加に伴い、モデルの予測に対する透明性と説明責任を提供する方法への需要が高まっている。 その結果,ブラックボックスモデルに対する多くの局所的説明可能性手法が開発され,普及している。 しかし、これらの手法の高次元性、異種表現、様々なスケール、確率的な性質のために、機械学習の説明はいまだに評価と比較が難しい。 トポロジカルデータ解析(TDA)は、属性を一様グラフ表現に変換するのに使用できるため、この領域で有効な手法であり、異なる説明法間で比較するための共通基盤を提供することができる。 我々は、新しいトポロジ駆動視覚分析ツールであるMountaineerを紹介し、トポロジグラフを元のデータ分布、モデル予測、特徴属性にリンクすることで、ML実践者がインタラクティブにこれらの表現を分析し比較できるようにする。 Mountaineerは、MLの説明を迅速かつ反復的に探究し、専門家が説明技法の深い洞察を得、基礎となるデータ分布を理解し、モデル行動に関する明確な結論に達することを可能にする。 さらに、実世界のデータを用いた2つのケーススタディを通して、Mountaineerの有用性を実証する。 第1に、MountaineerがブラックボックスMLの説明と、異なる説明間の不一致の原因の特定を可能とした点を示す。 第2に、このツールがMLモデル自体の比較や理解にどのように使えるかを実証する。 最後に、作業の評価を支援するために、3つの業界専門家とのインタビューを行った。

With the increasing use of black-box Machine Learning (ML) techniques in critical applications, there is a growing demand for methods that can provide transparency and accountability for model predictions. As a result, a large number of local explainability methods for black-box models have been developed and popularized. However, machine learning explanations are still hard to evaluate and compare due to the high dimensionality, heterogeneous representations, varying scales, and stochastic nature of some of these methods. Topological Data Analysis (TDA) can be an effective method in this domain since it can be used to transform attributions into uniform graph representations, providing a common ground for comparison across different explanation methods. We present a novel topology-driven visual analytics tool, Mountaineer, that allows ML practitioners to interactively analyze and compare these representations by linking the topological graphs back to the original data distribution, model predictions, and feature attributions. Mountaineer facilitates rapid and iterative exploration of ML explanations, enabling experts to gain deeper insights into the explanation techniques, understand the underlying data distributions, and thus reach well-founded conclusions about model behavior. Furthermore, we demonstrate the utility of Mountaineer through two case studies using real-world data. In the first, we show how Mountaineer enabled us to compare black-box ML explanations and discern regions of and causes of disagreements between different explanations. In the second, we demonstrate how the tool can be used to compare and understand ML models themselves. Finally, we conducted interviews with three industry experts to help us evaluate our work.
翻訳日:2024-06-25 21:24:18 公開日:2024-06-21
# 密度演算子の表現の多重性について

On the Multiplicity of Density Operator Representation ( http://arxiv.org/abs/2406.15615v1 )

ライセンス: Link先を確認
Gianfranco Cariolaro, Edi Ruffa, (参考訳) 密度作用素は通常、ヒルベルト空間のケットの集合と確率分布から始まる。 この定義から、与えられた密度作用素の分解(以下、密度係数(DF))を得るのは容易である。 マルチプリシティとDFの多様性について,行列解析のツールを用いて検討した。 Matrix Analysisに基づくアプローチは、他の場所では利用できないようだ。

The density operator is usually defined starting from a set of kets in the Hilbert space and a probability distribution. From this definition it is easy to obtain a factorization of a given density operator, here called density factor (DF). The multiplicity and the variety of DFs is investigated using the tools of Matrix Analysis, arriving in particular to establish the DF with minimal size. The approach based on Matrix Analysis does not seem to be available elsewhere.
翻訳日:2024-06-25 21:24:18 公開日:2024-06-21
# BrowNNe:ブラウン非局所ニューロンと活性化機能

BrowNNe: Brownian Nonlocal Neurons & Activation Functions ( http://arxiv.org/abs/2406.15617v1 )

ライセンス: Link先を確認
Sriram Nagaraj, Truman Hickok, (参考訳) 一般に、ディープラーニングアーキテクチャにおける確率的アクティベーション関数の使用は、より優れた一般化能力を持つモデルを生み出すと考えられている。 しかし、このヒューリスティックの十分な厳格な記述と理論的証明は文学に欠けている。 本稿では,この点に関して,いくつかの新たな貢献を行う。 非局所指向微分の新しい概念を定義することにより、その理論的性質(存在と収束)を分析する。 第2に,確率的再定式化を用いて,非局所微分がエプシロン-サブ勾配であることを示し,非局所微分を用いた確率的勾配降下法を収束させるサンプル複雑性を導出する。 最後に、ホルダー連続函数の非局所勾配解析を用いて、ブラウン運動のサンプル経路は非局所方向微分を許容し、ブラウン運動の非局所微分は計算可能な平均偏差と標準偏差を持つガウス過程である。 非局所方向微分の理論を用いて、画像調音多様体上のパラメータ推定の高微分可能・非凸モデル問題を解く。 バックプロパゲーション中に通常の勾配の代わりに非局所勾配を持つブラウン運動注入型ReLU活性化関数を用いて、複数のよく研究されたディープラーニングアーキテクチャの実験を行う。 我々の実験は、確率的ニューロンの使用が決定論的ReLUに勝る低トレーニングデータ構造において、ブラウン神経活性化機能の優れた一般化能力を示す。

It is generally thought that the use of stochastic activation functions in deep learning architectures yield models with superior generalization abilities. However, a sufficiently rigorous statement and theoretical proof of this heuristic is lacking in the literature. In this paper, we provide several novel contributions to the literature in this regard. Defining a new notion of nonlocal directional derivative, we analyze its theoretical properties (existence and convergence). Second, using a probabilistic reformulation, we show that nonlocal derivatives are epsilon-sub gradients, and derive sample complexity results for convergence of stochastic gradient descent-like methods using nonlocal derivatives. Finally, using our analysis of the nonlocal gradient of Holder continuous functions, we observe that sample paths of Brownian motion admit nonlocal directional derivatives, and the nonlocal derivatives of Brownian motion are seen to be Gaussian processes with computable mean and standard deviation. Using the theory of nonlocal directional derivatives, we solve a highly nondifferentiable and nonconvex model problem of parameter estimation on image articulation manifolds. Using Brownian motion infused ReLU activation functions with the nonlocal gradient in place of the usual gradient during backpropagation, we also perform experiments on multiple well-studied deep learning architectures. Our experiments indicate the superior generalization capabilities of Brownian neural activation functions in low-training data regimes, where the use of stochastic neurons beats the deterministic ReLU counterpart.
翻訳日:2024-06-25 21:24:18 公開日:2024-06-21
# 航空機エンジンの余寿命(RUL)推定のための物理インフォームド機械学習(PIML)手法

Physics Informed Machine Learning (PIML) methods for estimating the remaining useful lifetime (RUL) of aircraft engines ( http://arxiv.org/abs/2406.15619v1 )

ライセンス: Link先を確認
Sriram Nagaraj, Truman Hickok, (参考訳) 本研究の目的は、新たに開発された物理情報機械学習(PIML)を用いて、残りの実用寿命(RUL)航空機エンジンの予測モデルを開発することである。 本稿では,NASAのC-MAPSS(Commercial Modular Aero-Propulsion System Simulation, C-MAPSS)データを,様々な動作モードのセンサ出力からなる主データとみなす。 C-MAPSSは、古典的および深層学習手法でRUL予測に対処する、文献における多くの既存の研究を含む、よく研究されたデータセットである。 C-MAPSSデータを管理する実験物理法則が公表されていないため,本手法はまず確率的手法を用いて,ノイズのある時系列データから物理モデルを推定する。 提案手法では,様々なセンサ読み取りを確率微分方程式によって制御されるものとしてモデル化し,それに対応する遷移密度平均と分散関数を推定する。 次に、学習した平均値と分散関数をトレーニングおよび推論中に拡張したLSTM(long-short term memory)モデルを提案する。 PIMLに基づくアプローチは従来の手法と異なり、まずデータを使って物理を学習する。 この結果から,PIMLの探索手法と解法はこの問題に適しており,従来のデータのみの深層学習手法よりも優れていたことが示唆された。 さらに、ここで開発されたフレームワークは柔軟であり、基礎となる物理が部分的にしか観察されていない場合や知られている場合を含む、他の状況(他のセンサーモードや複合多物理環境)に適応することができる。

This paper is aimed at using the newly developing field of physics informed machine learning (PIML) to develop models for predicting the remaining useful lifetime (RUL) aircraft engines. We consider the well-known benchmark NASA Commercial Modular Aero-Propulsion System Simulation (C-MAPSS) data as the main data for this paper, which consists of sensor outputs in a variety of different operating modes. C-MAPSS is a well-studied dataset with much existing work in the literature that address RUL prediction with classical and deep learning methods. In the absence of published empirical physical laws governing the C-MAPSS data, our approach first uses stochastic methods to estimate the governing physics models from the noisy time series data. In our approach, we model the various sensor readings as being governed by stochastic differential equations, and we estimate the corresponding transition density mean and variance functions of the underlying processes. We then augment LSTM (long-short term memory) models with the learned mean and variance functions during training and inferencing. Our PIML based approach is different from previous methods, and we use the data to first learn the physics. Our results indicate that PIML discovery and solutions methods are well suited for this problem and outperform previous data-only deep learning methods for this data set and task. Moreover, the framework developed herein is flexible, and can be adapted to other situations (other sensor modalities or combined multi-physics environments), including cases where the underlying physics is only partially observed or known.
翻訳日:2024-06-25 21:24:18 公開日:2024-06-21
# マルチリング圧縮センシングと深部信号分離

Marrying Compressed Sensing and Deep Signal Separation ( http://arxiv.org/abs/2406.15623v1 )

ライセンス: Link先を確認
Truman Hickok, Sriram Nagaraj, (参考訳) ブラインド信号分離(ブラインド信号分離、BSS)は、重要かつ困難な信号処理タスクである。 未知の(隠れた/ラテントな)信号の集合の重ね合わせである観測信号が与えられたとき、BSSは観測された混合信号のみから分離された基礎的な信号を回復することを目的としている。 過度に決定された問題として、BSSは一般には解決が難しいことで知られており、現代のディープラーニングは、この問題を解決する効果的なツールセットをエンジニアに提供する。 例えば、オートエンコーダは入力データの低次元隠れ符号化を学習し、信号分離を行う。 リアルタイムシステムでは、決定を待つためにデータ(通信)を中央のコマンドに送信するのが一般的なボトルネックである。 帯域制限は送信されるデータの周波数と解像度を規定する。 これを解決するために、圧縮センシング(CS)技術は、ほぼ最適な復元保証を備えた圧縮データの直接取得を可能にする。 本稿では,圧縮的獲得とBSSの深層学習を組み合わせることで,完全獲得分離予測パイプラインを実現するか,という課題に対処する。 言い換えれば、BSSを圧縮的に取得した信号で直接実行し、信号を圧縮する必要がない。 我々は、画像データ(MNISTとE-MNIST)を考察し、圧縮的自己エンコーダアプローチが圧縮的BSSの問題を解決する方法を示す。 また、この問題に関する理論的洞察も提供します。

Blind signal separation (BSS) is an important and challenging signal processing task. Given an observed signal which is a superposition of a collection of unknown (hidden/latent) signals, BSS aims at recovering the separate, underlying signals from only the observed mixed signal. As an underdetermined problem, BSS is notoriously difficult to solve in general, and modern deep learning has provided engineers with an effective set of tools to solve this problem. For example, autoencoders learn a low-dimensional hidden encoding of the input data which can then be used to perform signal separation. In real-time systems, a common bottleneck is the transmission of data (communications) to a central command in order to await decisions. Bandwidth limits dictate the frequency and resolution of the data being transmitted. To overcome this, compressed sensing (CS) technology allows for the direct acquisition of compressed data with a near optimal reconstruction guarantee. This paper addresses the question: can compressive acquisition be combined with deep learning for BSS to provide a complete acquire-separate-predict pipeline? In other words, the aim is to perform BSS on a compressively acquired signal directly without ever having to decompress the signal. We consider image data (MNIST and E-MNIST) and show how our compressive autoencoder approach solves the problem of compressive BSS. We also provide some theoretical insights into the problem.
翻訳日:2024-06-25 21:24:18 公開日:2024-06-21
# 低リソース翻訳におけるLLMの欠点:検索と理解はどちらも問題である

Shortcomings of LLMs for Low-Resource Translation: Retrieval and Understanding are Both the Problem ( http://arxiv.org/abs/2406.15625v1 )

ライセンス: Link先を確認
Sara Court, Micha Elsner, (参考訳) 本研究では,機械翻訳パイプラインの自動化の一環として,事前学習された大言語モデル(LLM)が低リソース言語から高リソース言語への翻訳を指示する際の文脈内学習能力について検討する。 我々は南ケチュアをスペイン語に翻訳する一連の実験を行い、デジタル教育教材(辞書と文法の授業)と平行コーパスの制約付きデータベースから取得した各種情報の情報量について検討する。 本研究では,(1)文脈型(形態素翻訳,文法記述,コーパス例),(2)検索方法(手動自動),(3)モデル型(手動自動)を操作するアブレーション研究を行った。 この結果から,比較的小規模なLLMでも,最小限の言語情報を提供する場合,ゼロショットの低リソース翻訳に即時文脈を活用できることが示唆された。 しかし、プロンプト型、検索方法、モデル型、言語固有の要因の変動効果は、世界の7,000以上の言語とその話者の翻訳システムとして最高のLLMを使うことの限界を浮き彫りにしている。

This work investigates the in-context learning abilities of pretrained large language models (LLMs) when instructed to translate text from a low-resource language into a high-resource language as part of an automated machine translation pipeline. We conduct a set of experiments translating Southern Quechua to Spanish and examine the informativity of various types of information retrieved from a constrained database of digitized pedagogical materials (dictionaries and grammar lessons) and parallel corpora. Using both automatic and human evaluation of model output, we conduct ablation studies that manipulate (1) context type (morpheme translations, grammar descriptions, and corpus examples), (2) retrieval methods (automated vs. manual), and (3) model type. Our results suggest that even relatively small LLMs are capable of utilizing prompt context for zero-shot low-resource translation when provided a minimally sufficient amount of relevant linguistic information. However, the variable effects of prompt type, retrieval method, model type, and language-specific factors highlight the limitations of using even the best LLMs as translation systems for the majority of the world's 7,000+ languages and their speakers.
翻訳日:2024-06-25 21:24:18 公開日:2024-06-21
# LM-Polygraphを用いた大規模言語モデルの不確実性定量化手法のベンチマーク

Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph ( http://arxiv.org/abs/2406.15627v1 )

ライセンス: Link先を確認
Roman Vashurin, Ekaterina Fadeeva, Artem Vazhentsev, Akim Tsvigun, Daniil Vasilev, Rui Xing, Abdelrahman Boda Sadallah, Lyudmila Rvanova, Sergey Petrakov, Alexander Panchenko, Timothy Baldwin, Preslav Nakov, Maxim Panov, Artem Shelmanov, (参考訳) 不確実性定量化(UQ)は、機械学習(ML)に依存するアプリケーションの重要なコンポーネントとして、ますます認識されつつある。 大規模言語モデル(LLM)の急速な普及は、テキスト生成タスクにおけるUQに対する効率的かつ効果的なアプローチを求める研究者を刺激している。 他のMLモデルと同様に、LLMは不正確な予測をしがちで、''hallucinate' はクレームを作成したり、与えられた入力に対して単に低品質の出力を生成する。 UQはこれらの課題に対処する上で重要な要素です。 しかし,LLMのUQ手法に関するこれまでの研究は,異なる評価手法を用いて断片化されている。 本研究では,最新のUQベースラインの集合を実装した新しいベンチマークを導入し,テキスト生成タスクにおける研究者による新しいテクニックの制御と一貫した評価を行う環境を提供することにより,この問題に対処する。 また,本ベンチマークでは,信頼度正規化手法の評価を,解釈可能なスコアを提供する能力の観点から支援している。 ベンチマークを用いて、9つのタスクにわたるUQと正規化技術に関する大規模な実証調査を行い、最も有望なアプローチに光を当てた。

Uncertainty quantification (UQ) is becoming increasingly recognized as a critical component of applications that rely on machine learning (ML). The rapid proliferation of large language models (LLMs) has stimulated researchers to seek efficient and effective approaches to UQ in text generation tasks, as in addition to their emerging capabilities, these models have introduced new challenges for building safe applications. As with other ML models, LLMs are prone to make incorrect predictions, ``hallucinate'' by fabricating claims, or simply generate low-quality output for a given input. UQ is a key element in dealing with these challenges. However research to date on UQ methods for LLMs has been fragmented, with disparate evaluation methods. In this work, we tackle this issue by introducing a novel benchmark that implements a collection of state-of-the-art UQ baselines, and provides an environment for controllable and consistent evaluation of novel techniques by researchers in various text generation tasks. Our benchmark also supports the assessment of confidence normalization methods in terms of their ability to provide interpretable scores. Using our benchmark, we conduct a large-scale empirical investigation of UQ and normalization techniques across nine tasks and shed light on the most promising approaches.
翻訳日:2024-06-25 21:24:18 公開日:2024-06-21
# 良い点が3つある: 事前学習モデルによるSOポストタイトルの生成、自己改善とポストランク付け

Good things come in three: Generating SO Post Titles with Pre-Trained Models, Self Improvement and Post Ranking ( http://arxiv.org/abs/2406.15633v1 )

ライセンス: Link先を確認
Duc Anh Le, Anh M. T. Bui, Phuong T. Nguyen, Davide Di Ruscio, (参考訳) Stack Overflowは著名なQとAフォーラムであり、開発者がプログラミング関連の問題に適切なリソースを求めるのをサポートする。 高品質な質問タイトルを持つことは、開発者の注意を引き付ける効果的な手段である。 残念ながら、これはしばしば過小評価され、改善の余地を残します。 主にトレーニング済みのモデルを活用して、コードスニペットや問題記述からタイトルを生成する研究が行われている。 しかし、高品質なタイトルを取得することは依然として難しい課題であり、入力データの品質(例えば、ノイズと曖昧さを含む)とシーケンス生成モデル固有の制約の両方に起因する。 本稿では、自己改善とポストランキングを備えた微調整言語モデルを用いて、Stack Overflowポストタイトルを生成するソリューションとしてFILLERを提案する。 本研究は,Stack Overflowポストのタイトル生成のための事前学習言語モデルの強化と,これらのモデルに対するトレーニングおよびその後の微調整パラダイムの利用に焦点を当てた。 この目的のために、モデルの予測をトレーニングプロセスに統合し、エラーから学習できるようにし、露光バイアスの影響を減らす。 さらに, 各種サンプル候補の作成にポストグレード法を適用し, 続いて最も適した候補を選択する。 FILLERを評価するために、ベンチマークデータセットを用いて実験を行い、実験結果から、我々のモデルが高品質なレコメンデーションを提供することを示す。 さらに、Code2Que、SOTitle、CCBERT、M3NSCT5、GPT3.5-turboなど、すべてのベースラインを著しく上回る。 ユーザ調査によると、FILLERはSOTitleやGPT3.5-turboに関して、より関連性の高いタイトルを提供している。

Stack Overflow is a prominent Q and A forum, supporting developers in seeking suitable resources on programming-related matters. Having high-quality question titles is an effective means to attract developers' attention. Unfortunately, this is often underestimated, leaving room for improvement. Research has been conducted, predominantly leveraging pre-trained models to generate titles from code snippets and problem descriptions. Yet, getting high-quality titles is still a challenging task, attributed to both the quality of the input data (e.g., containing noise and ambiguity) and inherent constraints in sequence generation models. In this paper, we present FILLER as a solution to generating Stack Overflow post titles using a fine-tuned language model with self-improvement and post ranking. Our study focuses on enhancing pre-trained language models for generating titles for Stack Overflow posts, employing a training and subsequent fine-tuning paradigm for these models. To this end, we integrate the model's predictions into the training process, enabling it to learn from its errors, thereby lessening the effects of exposure bias. Moreover, we apply a post-ranking method to produce a variety of sample candidates, subsequently selecting the most suitable one. To evaluate FILLER, we perform experiments using benchmark datasets, and the empirical findings indicate that our model provides high-quality recommendations. Moreover, it significantly outperforms all the baselines, including Code2Que, SOTitle, CCBERT, M3NSCT5, and GPT3.5-turbo. A user study also shows that FILLER provides more relevant titles, with respect to SOTitle and GPT3.5-turbo.
翻訳日:2024-06-25 21:24:18 公開日:2024-06-21
# DataFreeShield: トレーニングデータなしで敵攻撃を防御する

DataFreeShield: Defending Adversarial Attacks without Training Data ( http://arxiv.org/abs/2406.15635v1 )

ライセンス: Link先を確認
Hyeyoon Lee, Kanghyun Choi, Dain Kwon, Sunjong Park, Mayoore Selvarasa Jaiswal, Noseong Park, Jonghyun Choi, Jinho Lee, (参考訳) 近年の対人ロバスト性の進歩は、外部または追加のデータセットを使用することが一般的な設定となっている、豊富なトレーニングデータのセットに依存している。 しかし、実生活では、トレーニングデータはセキュリティやプライバシーの問題のためにプライベートに保管されることが多い。 このようなシナリオでは、元のデータへのアクセシビリティを前提とする既存のメソッドは適用不可能になる。 そこで本研究では, 実データにアクセスすることなく, 対向ロバスト性を実現するためのデータ自由対向ロバスト性の重要課題について検討する。 予備的な研究を通じて、同じドメインデータセットであっても、元のデータセットなしでは堅牢性が達成し難いことを示すことで、問題の深刻さを強調した。 この問題に対処するために、データセット生成の代理と、生成されたデータを用いた逆トレーニングという2つの視点から問題に取り組むDataFreeShieldを提案する。 大規模な検証により,DataFreeShieldはベースラインよりも優れた性能を示し,提案手法が対向ロバスト性問題に対する最初の完全データフリーソリューションとなることを示した。

Recent advances in adversarial robustness rely on an abundant set of training data, where using external or additional datasets has become a common setting. However, in real life, the training data is often kept private for security and privacy issues, while only the pretrained weight is available to the public. In such scenarios, existing methods that assume accessibility to the original data become inapplicable. Thus we investigate the pivotal problem of data-free adversarial robustness, where we try to achieve adversarial robustness without accessing any real data. Through a preliminary study, we highlight the severity of the problem by showing that robustness without the original dataset is difficult to achieve, even with similar domain datasets. To address this issue, we propose DataFreeShield, which tackles the problem from two perspectives: surrogate dataset generation and adversarial training using the generated data. Through extensive validation, we show that DataFreeShield outperforms baselines, demonstrating that the proposed method sets the first entirely data-free solution for the adversarial robustness problem.
翻訳日:2024-06-25 21:14:22 公開日:2024-06-21
# グラフニューラルネットワークと変圧器を用いた5G RAN異常解析

Root Cause Analysis of Anomalies in 5G RAN Using Graph Neural Network and Transformer ( http://arxiv.org/abs/2406.15638v1 )

ライセンス: Link先を確認
Antor Hasan, Conrado Boeira, Khaleda Papry, Yue Ju, Zhongwen Zhu, Israat Haque, (参考訳) 5Gテクノロジーの出現は、通信ネットワークの開発において重要なマイルストーンであり、拡張現実や自動運転車といったエキサイティングな新しい応用を可能にしている。 しかし、これらの改善により、管理の複雑さが増大し、アプリケーションの5Gは高いネットワーク性能と低レイテンシに大きく依存する。 これにより、学習ベースシステムが異常を自動的に検出し、ルート原因解析(RCA)を実行することができる。 しかし、このようなインテリジェントシステムの実装には固有の課題がある。 まず、障害シナリオのラベル付きデータは珍しく、異常検出やRCAに適したデータが不足している。 第二に、現在のインテリジェントソリューションはLTEネットワークに合わせて調整されており、データに存在する時空間特性を完全に把握していない。 これを考慮し、キャリブレーションされたシミュレータSimu5Gを使用し、正常および故障シナリオのためのオープンソースデータを生成する。 このデータを用いて, 5G Radio Access Networks (RANs) における異常検出と根本原因解析のための最先端手法である Simba を提案する。 グラフニューラルネットワークを用いて空間的関係をキャプチャし、Transformerモデルを用いてデータの時間的依存関係を学習する。 Simbaのプロトタイプを実装し、複数の障害に対して評価する。 結果は、Simbaの優位性を確認するために、既存のソリューションと比較される。

The emergence of 5G technology marks a significant milestone in developing telecommunication networks, enabling exciting new applications such as augmented reality and self-driving vehicles. However, these improvements bring an increased management complexity and a special concern in dealing with failures, as the applications 5G intends to support heavily rely on high network performance and low latency. Thus, automatic self-healing solutions have become effective in dealing with this requirement, allowing a learning-based system to automatically detect anomalies and perform Root Cause Analysis (RCA). However, there are inherent challenges to the implementation of such intelligent systems. First, there is a lack of suitable data for anomaly detection and RCA, as labelled data for failure scenarios is uncommon. Secondly, current intelligent solutions are tailored to LTE networks and do not fully capture the spatio-temporal characteristics present in the data. Considering this, we utilize a calibrated simulator, Simu5G, and generate open-source data for normal and failure scenarios. Using this data, we propose Simba, a state-of-the-art approach for anomaly detection and root cause analysis in 5G Radio Access Networks (RANs). We leverage Graph Neural Networks to capture spatial relationships while a Transformer model is used to learn the temporal dependencies of the data. We implement a prototype of Simba and evaluate it over multiple failures. The outcomes are compared against existing solutions to confirm the superiority of Simba.
翻訳日:2024-06-25 21:14:22 公開日:2024-06-21
# 3DGSのテイミング:限られた資源を持つ高品質レーダランスフィールド

Taming 3DGS: High-Quality Radiance Fields with Limited Resources ( http://arxiv.org/abs/2406.15643v1 )

ライセンス: Link先を確認
Saswat Subhajyoti Mallick, Rahul Goel, Bernhard Kerbl, Francisco Vicente Carrasco, Markus Steinberger, Fernando De La Torre, (参考訳) 3D Gaussian Splatting (3DGS)は、高速で解釈可能で高忠実なレンダリングで新規ビュー合成を変換した。 しかし、そのリソース要件はユーザビリティを制限します。 特に制約のあるデバイスでは、モデルの過剰なメモリ消費のため、トレーニング性能は急速に低下し、しばしば完了しない。 この方法は、未定数のガウスアン(多くは冗長)と収束し、レンダリングが不必要に遅くなり、固定サイズの入力を期待する下流タスクでの使用が妨げられる。 これらの課題に対処するため、予算で3DGSモデルのトレーニングとレンダリングの課題に取り組む。 我々は、再建の質を高めるガウス人に対して密度化を推し進める、ガイド付き、純粋に建設的なデンシフィケーションプロセスを使用する。 モデルのサイズは、正確な予算に向けて制御された方法で継続的に増加し、その貢献を計測するトレーニング時間前のガウシアンをスコアベースで密度化します。 3DGSの元々のパイプラインを慎重に分析した結果、より高速で数値的に等価な勾配計算と属性更新のソリューションが導出され、効率的なバックプロパゲーションのための代替の並列化が実現された。 また,トレーニング時間の短縮に適した品質保存近似も提案する。 これらの拡張は、トレーニング時間を短縮し、コンピューティングとメモリの要件を低くし、高品質で堅牢でスケーラブルなソリューションを提供する。 評価の結果, モデルサイズとトレーニング時間の両方で4~5倍の縮小を実現しつつ, 3DGSを用いた競争品質指標が得られた。 より寛大な予算で、私たちの測定された品質は彼らのものを超えます。 これらの進歩は、制約のある環境、例えばモバイルデバイスにおいて、新しいビュー合成の扉を開く。

3D Gaussian Splatting (3DGS) has transformed novel-view synthesis with its fast, interpretable, and high-fidelity rendering. However, its resource requirements limit its usability. Especially on constrained devices, training performance degrades quickly and often cannot complete due to excessive memory consumption of the model. The method converges with an indefinite number of Gaussians -- many of them redundant -- making rendering unnecessarily slow and preventing its usage in downstream tasks that expect fixed-size inputs. To address these issues, we tackle the challenges of training and rendering 3DGS models on a budget. We use a guided, purely constructive densification process that steers densification toward Gaussians that raise the reconstruction quality. Model size continuously increases in a controlled manner towards an exact budget, using score-based densification of Gaussians with training-time priors that measure their contribution. We further address training speed obstacles: following a careful analysis of 3DGS' original pipeline, we derive faster, numerically equivalent solutions for gradient computation and attribute updates, including an alternative parallelization for efficient backpropagation. We also propose quality-preserving approximations where suitable to reduce training time even further. Taken together, these enhancements yield a robust, scalable solution with reduced training times, lower compute and memory requirements, and high quality. Our evaluation shows that in a budgeted setting, we obtain competitive quality metrics with 3DGS while achieving a 4--5x reduction in both model size and training time. With more generous budgets, our measured quality surpasses theirs. These advances open the door for novel-view synthesis in constrained environments, e.g., mobile devices.
翻訳日:2024-06-25 21:14:22 公開日:2024-06-21
# VigilEye -- 人工知能に基づくリアルタイムドライバの眠気検出

VigilEye -- Artificial Intelligence-based Real-time Driver Drowsiness Detection ( http://arxiv.org/abs/2406.15646v1 )

ライセンス: Link先を確認
Sandeep Singh Sengar, Aswin Kumar, Owen Singh, (参考訳) 本研究では,深層学習技術とOpenCVフレームワークを併用したドライバの眠気検知システムを提案する。 このシステムは、運転者の顔から抽出された顔のランドマークを、眠気パターンを認識するために訓練された畳み込みニューラルネットワークに入力する。 OpenCVの統合により、リアルタイムのビデオ処理が可能となり、実際の実装に適したシステムとなった。 多様なデータセットに対する大規模な実験は、眠気の検出において高い精度、感度、特異性を示す。 提案システムは,運転者の疲労による事故を防止するため,タイムリーな警報を提供することで,道路安全を高めることができる。 本研究は、リアルタイム運転監視システムの発展に寄与し、自動車の安全性とインテリジェント交通システムに影響を及ぼす。 この文脈でのディープラーニング技術の適用が成功すれば、ドライバーの監視と車両の安全性に関する将来の研究のための新たな道が開かれる。 論文の実装コードはhttps://github.com/LUFFY7001/Driver-s-Drowsiness-Detectionで公開されている。

This study presents a novel driver drowsiness detection system that combines deep learning techniques with the OpenCV framework. The system utilises facial landmarks extracted from the driver's face as input to Convolutional Neural Networks trained to recognise drowsiness patterns. The integration of OpenCV enables real-time video processing, making the system suitable for practical implementation. Extensive experiments on a diverse dataset demonstrate high accuracy, sensitivity, and specificity in detecting drowsiness. The proposed system has the potential to enhance road safety by providing timely alerts to prevent accidents caused by driver fatigue. This research contributes to advancing real-time driver monitoring systems and has implications for automotive safety and intelligent transportation systems. The successful application of deep learning techniques in this context opens up new avenues for future research in driver monitoring and vehicle safety. The implementation code for the paper is available at https://github.com/LUFFY7001/Driver-s-Drowsiness-Detection.
翻訳日:2024-06-25 21:14:22 公開日:2024-06-21
# 自己相似性に着目した構造による音楽生成

Generating Music with Structure Using Self-Similarity as Attention ( http://arxiv.org/abs/2406.15647v1 )

ライセンス: Link先を確認
Sophia Hager, Kathleen Hablutzel, Katherine Kinnaird, (参考訳) 深層学習と生成AIの革新にもかかわらず、音楽作品に共通する構造と長期構造を作り出すことは、音楽生成においてオープンな課題である。 本稿では,ユーザが提供する自己相似行列を従来の時間ステップに適用した新しいアプローチを用いた注目層を提案し,これを2つの階層を持つディープラーニング自律音楽生成システムである類似性インセンティブニューラルジェネレータ(SING)システムで実証する。 1つはバニラのLong Short Term Memory層で、2つ目は提案されたアテンション層である。 生成中、このアテンション機構は、生成された音楽のテンプレートピースから提案される構造を強制する。 我々は,MAESTROデータセット上で新しい変数バッチ法を用いてSINGを訓練し,その性能を注意機構を使わずに同じモデルと比較する。 提案するアテンション機構の追加により、特定の構造を複製するネットワークの能力が大幅に向上し、アテンション機構のないモデルよりも、目に見えないテストセットの性能が向上する。

Despite the innovations in deep learning and generative AI, creating long term structure as well as the layers of repeated structure common in musical works remains an open challenge in music generation. We propose an attention layer that uses a novel approach applying user-supplied self-similarity matrices to previous time steps, and demonstrate it in our Similarity Incentivized Neural Generator (SING) system, a deep learning autonomous music generation system with two layers. The first is a vanilla Long Short Term Memory layer, and the second is the proposed attention layer. During generation, this attention mechanism imposes a suggested structure from a template piece on the generated music. We train SING on the MAESTRO dataset using a novel variable batching method, and compare its performance to the same model without the attention mechanism. The addition of our proposed attention mechanism significantly improves the network's ability to replicate specific structures, and it performs better on an unseen test set than a model without the attention mechanism.
翻訳日:2024-06-25 21:14:22 公開日:2024-06-21
# 帯域フィードバックを用いた線形プログラムの実現可能性の検証

Testing the Feasibility of Linear Programs with Bandit Feedback ( http://arxiv.org/abs/2406.15648v1 )

ライセンス: Link先を確認
Aditya Gangrade, Aditya Gopalan, Venkatesh Saligrama, Clayton Scott, (参考訳) 最近の文献では、制約付きバンディット問題の研究が急増しているが、これらの既存の方法は全て、根底にある問題の実現可能性を想定して始められている。 本研究では,そのような実現可能性仮定の検証を開始し,特に線形帯域設定における問題に対処し,帯域フィードバックを用いた未知の線形プログラムの実現可能性テストのコストを特徴付ける。 具体的には、$\exists x: Ax \ge 0$ for an unknown $A \in \mathbb{R}^{m \times d}$, by a sequence of action $x_t\in \mathbb{R}^d$, and observed $Ax_t + \mathrm{noise}$ in response。 仮説をミニマックスゲームの値の符号として同定することにより、低回帰アルゴリズムと反復対数の漸近法則に基づく新しいテストを構築する。 このテストは信頼性があり、任意のインスタンスに対して$\Gammaを$\widetilde{O}(d^2/\Gamma^2)$とスケーリングする平均サンプルコストを$\widetilde{O}(d^2/\Gamma^2)$とする。 我々は、信頼テストのサンプルコストに対して$\Omega(d/\Gamma^2)$のミニマックス下限を補完し、$d$への依存を捉えて、先行漸近下限を支配し、既存の文献に欠けている基本的な洞察を解明する。

While the recent literature has seen a surge in the study of constrained bandit problems, all existing methods for these begin by assuming the feasibility of the underlying problem. We initiate the study of testing such feasibility assumptions, and in particular address the problem in the linear bandit setting, thus characterising the costs of feasibility testing for an unknown linear program using bandit feedback. Concretely, we test if $\exists x: Ax \ge 0$ for an unknown $A \in \mathbb{R}^{m \times d}$, by playing a sequence of actions $x_t\in \mathbb{R}^d$, and observing $Ax_t + \mathrm{noise}$ in response. By identifying the hypothesis as determining the sign of the value of a minimax game, we construct a novel test based on low-regret algorithms and a nonasymptotic law of iterated logarithms. We prove that this test is reliable, and adapts to the `signal level,' $\Gamma,$ of any instance, with mean sample costs scaling as $\widetilde{O}(d^2/\Gamma^2)$. We complement this by a minimax lower bound of $\Omega(d/\Gamma^2)$ for sample costs of reliable tests, dominating prior asymptotic lower bounds by capturing the dependence on $d$, and thus elucidating a basic insight missing in the extant literature on such problems.
翻訳日:2024-06-25 21:14:22 公開日:2024-06-21
# 効率的なヒューマンポース推定:MediaPipeによる高度な手法の活用

Efficient Human Pose Estimation: Leveraging Advanced Techniques with MediaPipe ( http://arxiv.org/abs/2406.15649v1 )

ライセンス: Link先を確認
Sandeep Singh Sengar, Abhishek Kumar, Owen Singh, (参考訳) 本研究では,MediaPipeフレームワークを用いた人間のポーズ推定の大幅な向上について述べる。 この研究は、基礎となるアルゴリズムを網羅的に最適化することで、精度、計算効率、リアルタイム処理能力を改善することに焦点を当てている。 動的運動や部分閉塞といった難解なシナリオにまたがるポーズ推定精度を大幅に向上させる新しい修正が導入された。 改良されたフレームワークは従来のモデルに対してベンチマークされ、かなりの精度と計算速度の向上を示す。 この進歩は、拡張現実、スポーツ分析、ヘルスケアに幅広く応用されており、より没入的な体験、洗練されたパフォーマンス分析、高度な患者モニタリングを可能にしている。 この研究は、モバイルおよび組み込みシステムへのこれらの拡張の統合についても検討し、計算効率とより広範なアクセシビリティの必要性に対処する。 この研究がもたらす意味は、リアルタイムの人間のポーズ推定技術のための新しいベンチマークを設定し、この分野における将来のイノベーションの道を開くことである。 論文の実装コードはhttps://github.com/avhixd/Human_pose_estimationで公開されている。

This study presents significant enhancements in human pose estimation using the MediaPipe framework. The research focuses on improving accuracy, computational efficiency, and real-time processing capabilities by comprehensively optimising the underlying algorithms. Novel modifications are introduced that substantially enhance pose estimation accuracy across challenging scenarios, such as dynamic movements and partial occlusions. The improved framework is benchmarked against traditional models, demonstrating considerable precision and computational speed gains. The advancements have wide-ranging applications in augmented reality, sports analytics, and healthcare, enabling more immersive experiences, refined performance analysis, and advanced patient monitoring. The study also explores the integration of these enhancements within mobile and embedded systems, addressing the need for computational efficiency and broader accessibility. The implications of this research set a new benchmark for real-time human pose estimation technologies and pave the way for future innovations in the field. The implementation code for the paper is available at https://github.com/avhixd/Human_pose_estimation.
翻訳日:2024-06-25 21:14:22 公開日:2024-06-21
# 高速MRI再構成のための適応型自己監督一貫性誘導拡散モデル

Adaptive Self-Supervised Consistency-Guided Diffusion Model for Accelerated MRI Reconstruction ( http://arxiv.org/abs/2406.15656v1 )

ライセンス: Link先を確認
Mojtaba Safari, Zach Eidex, Shaoyan Pan, Richard L. J. Qiu, Xiaofeng Yang, (参考訳) 目的: 完全サンプルデータセットを必要とせずにデータ取得を高速化するために, 自己教師付き深層学習ベース圧縮センシングMRI (DL-based CS-MRI) 手法"Adaptive Self-Supervised Consistency Guided Diffusion Model (ASSCGD)"を提案する。 材料と方法:1,376例の高速MRIマルチコイル脳軸性T2-w(T2-w)データセットと2例の高速取得勾配エコー(MP2RAGE)T1マップを用いて,モデルの訓練と試験を行った。 領域シフトに対するロバスト性は,50例のマルチコイル脳軸性コントラストT1-重み付きT1cデータセットと50例の軸性T1-重み付きT1-wデータセットの2つのアウト・オブ・ディストリビューション(OOD)データセットを用いて評価した。 データは {2x, 4x, 8x} の加速速度 R で振り返ってサブサンプリングされた。 ASSCGDはランダムサンプリングパターンを2つの非結合集合に分割し、トレーニング中にデータの一貫性を確保する。 提案手法をReconFormer TransformerとSS-MRIと比較し,正規化平均二乗誤差(NMSE),ピーク信号-雑音比(PSNR),構造類似度指数(SSIM)を用いて性能評価を行った。 統計的テストには、分散の一方向分析(ANOVA)と多成分Tukey's Honesty Significant difference(HSD)テストが含まれていた。 結果: ASSCGDは, マルチコイルおよびシングルコイルデータセットのR=8倍の精度で, 微細構造と脳の異常を視覚的に保存した。 R における最低 NMSE は {4x, 8x} で達成され、PSNR と SSIM はマルチコイルデータセットの全ての加速速度で最高値となった。 単一コイルデータセットでは同様の傾向が見られたが、SSIM値は {2x, 8x} の R における ReconFormer に匹敵するものであった。 これらの結果は、ボクセルの相関散乱プロットによってさらに確認された。 OODの結果,再建後の画像品質は有意に改善した(p<<10^-5 )。

Purpose: To propose a self-supervised deep learning-based compressed sensing MRI (DL-based CS-MRI) method named "Adaptive Self-Supervised Consistency Guided Diffusion Model (ASSCGD)" to accelerate data acquisition without requiring fully sampled datasets. Materials and Methods: We used the fastMRI multi-coil brain axial T2-weighted (T2-w) dataset from 1,376 cases and single-coil brain quantitative magnetization prepared 2 rapid acquisition gradient echoes (MP2RAGE) T1 maps from 318 cases to train and test our model. Robustness against domain shift was evaluated using two out-of-distribution (OOD) datasets: multi-coil brain axial postcontrast T1 -weighted (T1c) dataset from 50 cases and axial T1-weighted (T1-w) dataset from 50 patients. Data were retrospectively subsampled at acceleration rates R in {2x, 4x, 8x}. ASSCGD partitions a random sampling pattern into two disjoint sets, ensuring data consistency during training. We compared our method with ReconFormer Transformer and SS-MRI, assessing performance using normalized mean squared error (NMSE), peak signal-to-noise ratio (PSNR), and structural similarity index (SSIM). Statistical tests included one-way analysis of variance (ANOVA) and multi-comparison Tukey's Honesty Significant Difference (HSD) tests. Results: ASSCGD preserved fine structures and brain abnormalities visually better than comparative methods at R = 8x for both multi-coil and single-coil datasets. It achieved the lowest NMSE at R in {4x, 8x}, and the highest PSNR and SSIM values at all acceleration rates for the multi-coil dataset. Similar trends were observed for the single-coil dataset, though SSIM values were comparable to ReconFormer at R in {2x, 8x}. These results were further confirmed by the voxel-wise correlation scatter plots. OOD results showed significant (p << 10^-5 ) improvements in undersampled image quality after reconstruction.
翻訳日:2024-06-25 21:14:22 公開日:2024-06-21
# TorchSpatial:空間表現学習のための位置符号化フレームワークとベンチマーク

TorchSpatial: A Location Encoding Framework and Benchmark for Spatial Representation Learning ( http://arxiv.org/abs/2406.15658v1 )

ライセンス: Link先を確認
Nemin Wu, Qian Cao, Zhangyu Wang, Zeping Liu, Yanlin Qi, Jielu Zhang, Joshua Ni, Xiaobai Yao, Hongxu Ma, Lan Mu, Stefano Ermon, Tanuja Ganu, Akshay Nambi, Ni Lao, Gengchen Mai, (参考訳) 空間表現学習(SRL)は、様々な空間データ(例えば、点、ポリライン、ポリゴン、ネットワーク、画像など)から汎用的なニューラルネットワーク表現をネイティブフォーマットで学習することを目的としている。 良質な空間表現の学習は、種分布モデリング、天気予報、軌跡生成、地理的質問応答など、下流の様々なアプリケーションにとって基本的な問題である。 SRLはほとんど全ての地理空間人工知能(GeoAI)研究の基盤となっているが、SRLモデルの開発と評価をサポートするための広範なディープラーニングフレームワークとベンチマークを開発するための大きな努力は、まだ見ていない。 このギャップを埋めるために,空間表現学習の最も基本的なデータ型の一つである位置(点)符号化のための学習フレームワークとベンチマークであるTorchSpatialを提案する。 TorchSpatialには3つの重要なコンポーネントが含まれている。 1) 一般的に認識されている15のロケーションエンコーダを統合し、実装のスケーラビリティ及び再現性を確保する統合されたロケーションエンコーダフレームワーク 2) LocBenchベンチマークタスクは、7つのジオアウェアイメージ分類と4つのジオアウェアイメージ回帰データセットを含む。 3)ジオバイアススコア(Geo-Bias Score)メトリクスを用いて,ジオバイアスモデル全体のパフォーマンスと地理的バイアスを定量化するための総合的な評価指標のセット。 最後に、異なる位置エンコーダのモデル性能と地理的バイアスに関する詳細な分析と洞察を提供する。 我々はTorchSpatialがGeoAI研究における空間表現学習と空間フェアネスの今後の進歩を促進すると信じている。 TorchSpatialモデルフレームワーク、LocBench、Geo-Bias Score評価フレームワークはhttps://github.com/seai-lab/TorchSpatial.comで公開されている。

Spatial representation learning (SRL) aims at learning general-purpose neural network representations from various types of spatial data (e.g., points, polylines, polygons, networks, images, etc.) in their native formats. Learning good spatial representations is a fundamental problem for various downstream applications such as species distribution modeling, weather forecasting, trajectory generation, geographic question answering, etc. Even though SRL has become the foundation of almost all geospatial artificial intelligence (GeoAI) research, we have not yet seen significant efforts to develop an extensive deep learning framework and benchmark to support SRL model development and evaluation. To fill this gap, we propose TorchSpatial, a learning framework and benchmark for location (point) encoding, which is one of the most fundamental data types of spatial representation learning. TorchSpatial contains three key components: 1) a unified location encoding framework that consolidates 15 commonly recognized location encoders, ensuring scalability and reproducibility of the implementations; 2) the LocBench benchmark tasks encompassing 7 geo-aware image classification and 4 geo-aware image regression datasets; 3) a comprehensive suite of evaluation metrics to quantify geo-aware models' overall performance as well as their geographic bias, with a novel Geo-Bias Score metric. Finally, we provide a detailed analysis and insights into the model performance and geographic bias of different location encoders. We believe TorchSpatial will foster future advancement of spatial representation learning and spatial fairness in GeoAI research. The TorchSpatial model framework, LocBench, and Geo-Bias Score evaluation framework are available at https://github.com/seai-lab/TorchSpatial.
翻訳日:2024-06-25 21:14:22 公開日:2024-06-21
# 深層学習に基づくサッカーにおけるコンテキストスプリント分類

Contextual Sprint Classification in Soccer Based on Deep Learning ( http://arxiv.org/abs/2406.15659v1 )

ライセンス: Link先を確認
Hyunsung Kim, Gun-Hee Joe, Jinsung Yoon, Sang-Ki Ko, (参考訳) サッカーにおける高強度ランニング(あるいはスプリント)の分析は、スポーツ科学研究者や実践家にとって長年の関心事である。 特に、最近の研究では、現代のマッチプレイの物理的な戦術的要求をよりよく理解するために、その戦術的目的に基づいてスプリントを文脈化することを提案している。 しかしながら、それらにはスケーラビリティの制限がある。人間の専門家は、マッチ毎に数百のスプリントを手動で分類しなければならないからだ。 この課題に対処するために,サッカーにおけるスプリントを自動的に文脈カテゴリーに分類するディープラーニングフレームワークを提案する。 提案モデルでは, セットトランスフォーマと双方向GRUを配置することにより, サッカーにおけるマルチエージェントトラジェクトリの置換不変性とシーケンシャル特性を網羅する。 我々は、人間のアノテーションとルールベースの分類器の協調によって作成されたカテゴリラベルを用いてモデルを訓練する。 実験結果から,テストデータセットのスプリントを77.65%の精度で15カテゴリに分類し,サッカーのスプリントを大規模に分析するためのフレームワークの可能性を示した。

The analysis of high-intensity runs (or sprints) in soccer has long been a topic of interest for sports science researchers and practitioners. In particular, recent studies suggested contextualizing sprints based on their tactical purposes to better understand the physical-tactical requirements of modern match-play. However, they have a limitation in scalability, as human experts have to manually classify hundreds of sprints for every match. To address this challenge, this paper proposes a deep learning framework for automatically classifying sprints in soccer into contextual categories. The proposed model covers the permutation-invariant and sequential nature of multi-agent trajectories in soccer by deploying Set Transformers and a bidirectional GRU. We train the model with category labels made through the collaboration of human annotators and a rule-based classifier. Experimental results show that our model classifies sprints in the test dataset into 15 categories with the accuracy of 77.65%, implying the potential of the proposed framework for facilitating the integrated analysis of soccer sprints at scale.
翻訳日:2024-06-25 21:14:22 公開日:2024-06-21
# システム同定のための確率的職業カーネル法

The Stochastic Occupation Kernel Method for System Identification ( http://arxiv.org/abs/2406.15661v1 )

ライセンス: Link先を確認
Michael Wells, Kamel Lahouel, Bruno Jedynak, (参考訳) 占有カーネルの方法は、非パラメトリックな方法でデータから通常の微分方程式を学習するために使われてきた。 本稿では,その過程のスナップショットに与えられた確率微分方程式のドリフトと拡散を学習するための2段階の手法を提案する。 最初のステップでは、プロセスの期待値に占有カーネルアルゴリズムを適用することにより、ドリフトを学習する。 第2ステップでは,半定値プログラムを用いてドリフトの拡散を学習する。 具体的には、核の平方に付随するRKHSにおいて、非負関数として二乗された拡散を学習する。 実例とシミュレーションについて述べる。

The method of occupation kernels has been used to learn ordinary differential equations from data in a non-parametric way. We propose a two-step method for learning the drift and diffusion of a stochastic differential equation given snapshots of the process. In the first step, we learn the drift by applying the occupation kernel algorithm to the expected value of the process. In the second step, we learn the diffusion given the drift using a semi-definite program. Specifically, we learn the diffusion squared as a non-negative function in a RKHS associated with the square of a kernel. We present examples and simulations.
翻訳日:2024-06-25 21:14:22 公開日:2024-06-21
# 解決策のマッチング: 機械学習問題を解決するための説明可能な方法

Matching Problems to Solutions: An Explainable Way of Solving Machine Learning Problems ( http://arxiv.org/abs/2406.15662v1 )

ライセンス: Link先を確認
Lokman Saleh, Hafedh Mili, Mounir Boukadoum, (参考訳) あらゆる分野のドメインエキスパートは、データサイエンティストと協力して、問題を解決するためのML技術の使用を探求するよう求められます。 ドメインの問題/問合せから始まるMLベースの問題解決は、一般的には、(1)データ分析問題(ソリューションドメイン)としてビジネス問題(プロブレムドメイン)を定式化すること、(2)高レベルのMLベースのソリューションパターンをスケッチすること、(2)ドメイン要件と利用可能なデータの特性を与えられたこと、(3)ソリューションパターンの異なるコンポーネントを設計および精査すること、の3つのステップを含む。 ML研究者が同意する知識と、ML実践者が日常的に最も一般的な問題を解決するために適用している知識には、かなりの量のML問題解決知識がある必要がある。 私たちの研究は、この知識を捉え、それをML問題解決ワークベンチに具体化し、MLの専門家でないドメインスペシャリストがMLソリューションスペースを探索するのに役立つようにします。 本論は以下の点に焦点をあてる。 1)ドメイン問題,ML問題,及び主要MLソリューション成果物の表現 2)ドメイン(専門)要件とトレーニングデータの特徴を考慮し,その領域問題に最も適したMLアルゴリズムファミリの同定を支援するヒューリスティックマッチング関数。 関連作業の見直しとワークベンチの検証戦略の概要

Domain experts from all fields are called upon, working with data scientists, to explore the use of ML techniques to solve their problems. Starting from a domain problem/question, ML-based problem-solving typically involves three steps: (1) formulating the business problem (problem domain) as a data analysis problem (solution domain), (2) sketching a high-level ML-based solution pattern, given the domain requirements and the properties of the available data, and (3) designing and refining the different components of the solution pattern. There has to be a substantial body of ML problem solving knowledge that ML researchers agree on, and that ML practitioners routinely apply to solve the most common problems. Our work deals with capturing this body of knowledge, and embodying it in a ML problem solving workbench to helps domain specialists who are not ML experts to explore the ML solution space. This paper focuses on: 1) the representation of domain problems, ML problems, and the main ML solution artefacts, and 2) a heuristic matching function that helps identify the ML algorithm family that is most appropriate for the domain problem at hand, given the domain (expert) requirements, and the characteristics of the training data. We review related work and outline our strategy for validating the workbench
翻訳日:2024-06-25 21:14:22 公開日:2024-06-21
# ベージアン・トランスファー・ラーニングのためのフラット・ポストプレアー

Flat Posterior Does Matter For Bayesian Transfer Learning ( http://arxiv.org/abs/2406.15664v1 )

ライセンス: Link先を確認
Sungjun Lim, Jeyoon Yeom, Sooyon Kim, Hoyoon Byun, Jinho Kang, Yohan Jung, Jiyoung Jung, Kyungwoo Song, (参考訳) 大規模な事前学習型ニューラルネットワークは、下流タスクのパフォーマンス向上に成功している。 ベイジアンニューラルネットワークは、ベイジアン手法をニューラルネットワークアーキテクチャに統合し、ベイジアンモデル平均化(BMA)や不確実量化などの利点を提供する。 これらの利点にもかかわらず、BNNの転送学習は広く研究されておらず、改善が限られている。 この問題は、一般化性能に欠かせない平坦なミニマを見つけることができないことから生じると仮定する。 そこで我々は, BNNのシャープさを様々な環境で評価し, フラットなミニマを追求する上で, フラットネスがBMA性能に与える影響を明らかにする。 そこで本研究では,ベイジアン変換学習と統合したベイジアン探索最適化器である,シャープネス対応ベイジアンモデル平均化(SA-BMA)を提案する。 SA-BMAはパラメータ空間の後方間のばらつきを計算し、BNNの性質と整合し、既存のシャープネス対応オプティマイザの一般化版として機能する。 我々は,SA-BMAが平坦性を確保することにより,数ショットの分類および分布シフトシナリオにおける一般化性能を向上させることを検証する。

The large-scale pre-trained neural network has achieved notable success in enhancing performance for downstream tasks. Another promising approach for generalization is Bayesian Neural Network (BNN), which integrates Bayesian methods into neural network architectures, offering advantages such as Bayesian Model averaging (BMA) and uncertainty quantification. Despite these benefits, transfer learning for BNNs has not been widely investigated and shows limited improvement. We hypothesize that this issue arises from the inability to find flat minima, which is crucial for generalization performance. To address this, we evaluate the sharpness of BNNs in various settings, revealing their insufficiency in seeking flat minima and the influence of flatness on BMA performance. Therefore, we propose Sharpness-aware Bayesian Model Averaging (SA-BMA), a Bayesian-fitting flat posterior seeking optimizer integrated with Bayesian transfer learning. SA-BMA calculates the divergence between posteriors in the parameter space, aligning with the nature of BNNs, and serves as a generalized version of existing sharpness-aware optimizers. We validate that SA-BMA improves generalization performance in few-shot classification and distribution shift scenarios by ensuring flatness.
翻訳日:2024-06-25 21:14:22 公開日:2024-06-21
# クラスター状態の一般化II型核融合

Generalized Type II Fusion of Cluster States ( http://arxiv.org/abs/2406.15666v1 )

ライセンス: Link先を確認
Noam Rimock, Khen Cohen, Yaron Oz, (参考訳) 測定ベースの量子計算は量子コンピューティングのパラダイムであり、クラスタ状態の形で、絡み合ったリソース状態上で実行される単一量子ビットの測定を使用する。 資源状態の構築における基本的な要素は、2つのクラスター状態を接続するタイプII融合手順である。 我々は、融合行列を一般化してタイプII融合手順を一般化し、結果として生じる最終状態を分類する。 一般化されたII型核融合が成功する確率は50%の有界であることが証明され、その有界を飽和させる可能性の全てを分類する。 本研究では, 核融合成功確率の50%以上の向上を, 核融合リンクの絡み合いエントロピーの低減により解析した。 100%の成功確率で得られる唯一の状態が製品状態であることを証明する。

Measurement based quantum computation is a quantum computing paradigm, that employs single-qubit measurements performed on an entangled resource state in the form of a cluster state. A basic ingredient in the construction of the resource state is the type II fusion procedure, which connects two cluster states. We generalize the type II fusion procedure by generalizing the fusion matrix, and classify the resulting final states, which also include cluster states up to single-qubit rotations. We prove that the probability for the success of the generalized type II fusion is bounded by fifty percent, and classify all the possibilities to saturate the bound. We analyze the enhancement of the fusion success probability above the fifty percent bound, by the reduction of the entanglement entropy of the fusion link. We prove that the only states, that can be obtained with hundred percent probability of success, are product states.
翻訳日:2024-06-25 21:14:22 公開日:2024-06-21
# PI-Whisper: 話者特性の多様性と進化のための適応的でインクリメンタルなASRフレームワーク

PI-Whisper: An Adaptive and Incremental ASR Framework for Diverse and Evolving Speaker Characteristics ( http://arxiv.org/abs/2406.15668v1 )

ライセンス: Link先を確認
Amir Nassereldine, Dancheng Liu, Chenhui Xu, Jinjun Xiong, (参考訳) エッジベース自動音声認識(ASR)技術がインテリジェントでパーソナライズされたアシスタントの開発においてますます普及するにつれて、これらのリソース制約されたASRモデル、すなわち適応性、漸進性、傾き性の3つの重要な課題に対処する必要がある。 本稿では,ASR フレームワーク PI-Whisper を提案するとともに,異なる話者の特性をリアルタイムに識別することにより,ASR の認識能力を適応的に向上させる方法,反復的再学習を伴わずに適応を段階的に行う方法,多様な話者群の公平性と公平性を改善する方法について述べる。 さらに印象的なことに、提案したPI-Whisperフレームワークは、コンピュータリソースに対する線形スケーラビリティでワードエラー率(WER)を最大13.7%削減し、最先端の精度を保ちながら、これらの優れた特性をすべて達成しています。

As edge-based automatic speech recognition (ASR) technologies become increasingly prevalent for the development of intelligent and personalized assistants, three important challenges must be addressed for these resource-constrained ASR models, i.e., adaptivity, incrementality, and inclusivity. We propose a novel ASR framework, PI-Whisper, in this work and show how it can improve an ASR's recognition capabilities adaptively by identifying different speakers' characteristics in real-time, how such an adaption can be performed incrementally without repetitive retraining, and how it can improve the equity and fairness for diverse speaker groups. More impressively, our proposed PI-Whisper framework attains all of these nice properties while still achieving state-of-the-art accuracy with up to 13.7% reduction of the word error rate (WER) with linear scalability with respect to computing resources.
翻訳日:2024-06-25 21:14:22 公開日:2024-06-21
# 局所化フレームによる連続体におけるリーブ・ロビンソン境界

Lieb-Robinson bounds in the continuum via localized frames ( http://arxiv.org/abs/2406.15670v1 )

ライセンス: Link先を確認
Sven Bachmann, Giuseppe De Nittis, (参考訳) 連続体における相互作用するフェルミオンのダイナミクスについて検討する。 我々のアプローチは格子局在化フレームの概念を用いており、ここで紹介する。 まず、局所相互作用の一般クラスに有効であるリーブ・ロビンソン境界を証明し、CAR代数のレベルでのダイナミクスの存在を示唆する。 次に、電子-電子相互作用を付加できる準自由第二量子化ランダウハミルトニアン(英語版)の量子ホール効果に関連する物理的状況に目を向ける。

We study the dynamics of interacting fermions in the continuum. Our approach uses the concept of lattice-localized frames, which we introduce here. We first prove a Lieb-Robinson bound that is valid for a general class of local interactions, which implies the existence of the dynamics at the level of the CAR algebra. We then turn to the physical situation relevant to the (fractional) quantum Hall effect, namely the quasi-free second quantized Landau Hamiltonian to which electron-electron interactions can be added.
翻訳日:2024-06-25 21:04:37 公開日:2024-06-21
# 固有自己補正能力を持つ大規模言語モデル

Large Language Models have Intrinsic Self-Correction Ability ( http://arxiv.org/abs/2406.15673v1 )

ライセンス: Link先を確認
Dancheng Liu, Amir Nassereldine, Ziming Yang, Chenhui Xu, Yuting Hu, Jiajie Li, Utkarsh Kumar, Changjae Lee, Jinjun Xiong, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおける顕著な能力に対して大きな注目を集めているが、それらは性能劣化を引き起こす幻覚に悩まされている。 LLMのパフォーマンスを改善するための有望な解決策の1つは、自己補正(self-correction)と呼ばれるテクニックである、世代別回答の修正をLSMに依頼することである。 2種類の自己補正のうち、内在的な自己補正は、外部知識を活用できないため、有望な方向と考えられる。 しかし、近年の研究は、本質的な自己補正を行うLLMの能力の妥当性を疑っている。 本稿では,LLMの内在的自己補正能力について,理論的解析と実証実験を通して考察する。 さらに, 自己補正を成功させるためには, 温度ゼロとフェアプロンプトの2つの重要な要因を同定した。 これらの要因を生かして、本態性自己補正能力は、複数の既存のLCMにまたがって発揮されていることを示す。 本研究は,LLMの自己補正行動の基礎となる基礎的理論を考察し,その可能性をフル活用するための非バイアスプロンプトとゼロ温度設定の重要性について述べる。

Large language models (LLMs) have attracted significant attention for their remarkable abilities in various natural language processing tasks, but they suffer from hallucinations that will cause performance degradation. One promising solution to improve the LLMs' performance is to ask LLMs to revise their answer after generation, a technique known as self-correction. Among the two types of self-correction, intrinsic self-correction is considered a promising direction because it does not utilize external knowledge. However, recent works doubt the validity of LLM's ability to conduct intrinsic self-correction. In this paper, we present a novel perspective on the intrinsic self-correction capabilities of LLMs through theoretical analyses and empirical experiments. In addition, we identify two critical factors for successful self-correction: zero temperature and fair prompts. Leveraging these factors, we demonstrate that intrinsic self-correction ability is exhibited across multiple existing LLMs. Our findings offer insights into the fundamental theories underlying the self-correction behavior of LLMs and remark on the importance of unbiased prompts and zero temperature settings in harnessing their full potential.
翻訳日:2024-06-25 21:04:37 公開日:2024-06-21
# 解析的リアプノフ関数発見のためのニューラルネットワークとシンボリック回帰の組み合わせ

Combining Neural Networks and Symbolic Regression for Analytical Lyapunov Function Discovery ( http://arxiv.org/abs/2406.15675v1 )

ライセンス: Link先を確認
Jie Feng, Haohan Zou, Yuanyuan Shi, (参考訳) 非線形力学系に対する解析的リアプノフ関数を構成するために,CoNSAL (Combining Neural Network and Symbolic regression for Analytical Lyapunov function)を提案する。 このフレームワークは、ニューラルネットワークを精密な分析形式に蒸留するためにシンボリックレグレッションを適用する、ニューラルリアプノフ関数とシンボリックレグレッション成分を含む。 本手法は, 記号回帰を翻訳の道具としてだけでなく, 反例を明らかにする手段としても活用する。 この手順は、解析的定式化において反例が見つからない場合に終了する。 従来の結果と比較すると,本アルゴリズムは学習過程と最終結果の両方において,解釈性が改善されたリアプノフ関数の解析形式を直接生成する。 本稿では,2次元逆振子,経路追従,Van Der Pol Oscillator,3次元トリグダイナミクス,4次元回転輪振子,6次元3バスパワーシステムに適用し,本アルゴリズムが有効なリアプノフ関数の発見に成功したことを示す。

We propose CoNSAL (Combining Neural networks and Symbolic regression for Analytical Lyapunov function) to construct analytical Lyapunov functions for nonlinear dynamic systems. This framework contains a neural Lyapunov function and a symbolic regression component, where symbolic regression is applied to distill the neural network to precise analytical forms. Our approach utilizes symbolic regression not only as a tool for translation but also as a means to uncover counterexamples. This procedure terminates when no counterexamples are found in the analytical formulation. Compared with previous results, our algorithm directly produces an analytical form of the Lyapunov function with improved interpretability in both the learning process and the final results. We apply our algorithm to 2-D inverted pendulum, path following, Van Der Pol Oscillator, 3-D trig dynamics, 4-D rotating wheel pendulum, 6-D 3-bus power system, and demonstrate that our algorithm successfully finds their valid Lyapunov functions.
翻訳日:2024-06-25 21:04:37 公開日:2024-06-21
# プラガブルな型を機械学習で推論する

Inferring Pluggable Types with Machine Learning ( http://arxiv.org/abs/2406.15676v1 )

ライセンス: Link先を確認
Kazi Amanul Islam Siddiqui, Martin Kellogg, (参考訳) プラグイン可能な型システムにより、プログラマはプログラミング言語の型システムを拡張して、プログラマによって定義されたセマンティックプロパティを強制することができる。 プラグイン可能な型システムは、プログラマが手動で型アノテーションを書く必要があるため、レガシーコードベースにデプロイするのは難しい。 本稿では,機械学習を用いて型付き修飾子を自動的に推論する方法について検討する。 本稿では,最小限のデータフローヒントを符号化した新しい表現NaP-ASTを提案する。 本稿では,グラフ変換器ネットワーク,グラフ畳み込みネットワーク,大規模言語モデルなど,型修飾器を推定するためのモデルアーキテクチャについて検討する。 我々はこれらのモデルをNullAwayプラグイン型チェッカーの事前評価から12のオープンソースプログラムに適用することでさらに検証した。 GTNは89のリコールと0.6の精度で最高のパフォーマンスを示した。 さらに、トレーニングされたモデルの優れたパフォーマンスに必要なJavaクラス数を推定する研究を行う。 実現可能性調査では,約16k級が改善し,約22k級がオーバーフィットし,性能が低下した。

Pluggable type systems allow programmers to extend the type system of a programming language to enforce semantic properties defined by the programmer. Pluggable type systems are difficult to deploy in legacy codebases because they require programmers to write type annotations manually. This paper investigates how to use machine learning to infer type qualifiers automatically. We propose a novel representation, NaP-AST, that encodes minimal dataflow hints for the effective inference of type qualifiers. We evaluate several model architectures for inferring type qualifiers, including Graph Transformer Network, Graph Convolutional Network and Large Language Model. We further validated these models by applying them to 12 open-source programs from a prior evaluation of the NullAway pluggable typechecker, lowering warnings in all but one unannotated project. We discovered that GTN shows the best performance, with a recall of .89 and precision of 0.6. Furthermore, we conduct a study to estimate the number of Java classes needed for good performance of the trained model. For our feasibility study, performance improved around 16k classes, and deteriorated due to overfitting around 22k classes.
翻訳日:2024-06-25 21:04:37 公開日:2024-06-21
# 反復型サービス学習:小さな農村組織に応用したコンピューティングベースのケーススタディ

Iterative Service-Learning: A Computing-Based Case-study Applied to Small Rural Organizations ( http://arxiv.org/abs/2406.15679v1 )

ライセンス: Link先を確認
Sherri WeitlHarms, (参考訳) 本稿では,サービス学習の反復的活用による,コンピュータによるアーティファクトの開発,レビュー,改善について述べる。 コンピューティングの学生は、コミュニティパートナーと同じように、サービス学習の経験から恩恵を受けることはよく知られている。 また、コンピューティングアーティファクトがバージョニングや更新なしで長期間にわたって機能することが滅多にないことも知られている。 サービス学習プロジェクトは、しばしば1回限りの取り組みであり、学期のコースで1つの学生チームが完了します。 これにより、プロジェクトのレビューや更新を行う専門知識やリソースを持たないコミュニティパートナの利益が制限される。 数年にわたって、キャップストーンコースの学部生のチームが、多くの小さな農村組織のためのソーシャルメディアプランを策定した。 プロジェクトは、特定された聴衆、測定可能な目標、そして、特定された目標に到達するための戦略と戦術を含む、クライアント固有のニーズを満たすように要求された。 本論文は, 数年前に実施された60件のプロジェクトについて, これまでの成果に基づいて構築した。 9つのクライアントが反復的なフォローアッププロセスに参加し、新しい学生チームがクライアントインタビューを行い、最初の計画を確認し、現在の戦略と戦術からメトリクスを分析し、更新された改善されたアーティファクトを提供する。 ABETの学習目標をベースとして、クライアントは学生チームとアーティファクトをレビューした。 この縦断的研究は、サービス学習を通じて開発されたコンピューティングアーティファクトの実装と持続的な利用率を高めるために、この介入が与える影響について論じる。 学生もクライアントも高い満足度を報告し、クライアントは反復的な改善プロセスに特に満足していた。 本研究は,小規模組織の資源制約に対処しつつ,反復的なサービス学習を通じてコンピュータアーティファクトの作成と維持を行う革新的な実践を実証するものである。

This paper describes the iterative use of service learning to develop, review, and improve computing-based artifacts. It is well-known that computing students benefit from service-learning experiences as do the community partners. It is also well-known that computing artifacts rarely function well long-term without versioning and updates. Service-learning projects are often one-time engagements, completed by single teams of students over the course of a semester course. This limits the benefit for community partners that do not have the expertise or resources to review and update a project on their own. Over several years, teams of undergraduate students in a capstone course created tailored social media plans for numerous small rural organizations. The projects were required to meet client specific needs, with identified audiences, measurable goals, and strategies and tactics to reach the identified goals. This paper builds on previously results for 60 projects conducted over several years. Nine clients were selected to participate in the iterative follow-up process, where new student teams conducted client interviews, reviewed the initial plans, and analyzed metrics from the current strategies and tactics to provide updated, improved artifacts. Using ABET learning objectives as a basis, clients reviewed the student teams and artifacts. This longitudinal study discusses the impact of this intervention to increase implementation and sustained use rates of computing artifacts developed through service learning. Both students and clients reported high satisfaction levels, and clients were particularly satisfied with the iterative improvement process. This research demonstrates an innovative practice for creating and maintaining computing artifacts through iterative service learning, while addressing the resource constraints of small organizations.
翻訳日:2024-06-25 21:04:37 公開日:2024-06-21
# PathoWAve: 病理画像における領域一般化改善のためのディープラーニングによる平均体重推定法

PathoWAve: A Deep Learning-based Weight Averaging Method for Improving Domain Generalization in Histopathology Images ( http://arxiv.org/abs/2406.15685v1 )

ライセンス: Link先を確認
Parastoo Sotoudeh Sharifi, M. Omair Ahmad, M. N. S. Swamy, (参考訳) 近年の深層学習(DL)の進歩は,医用画像解析に大きく進歩している。 医用画像処理の分野では、特に病理画像解析において、染色プロトコルのバリエーションとスキャナの違いは、重要なドメインシフトの課題を示し、未確認領域からのデータへのモデルの一般化能力を損なうとともに、診断決定における自動がん検出ツールの一貫性と信頼性を向上させるための効果的なドメイン一般化(DG)戦略の必要性を喚起する。 本稿では,病理画像解析におけるDLモデルのドメインシフト現象に対処するためのマルチソースDG戦略であるPathoWAve(PathoWAve)を紹介する。 PathoWAveは、特定の重量平均化技術と平行トレーニング軌跡を統合し、通常の増強と病理組織特異的データ拡張の戦略的組み合わせにより、ロスランドスケープ内の総合的な探索と正確な収束を可能にする。 本手法は,新しい病理組織学領域にまたがるDLモデルの一般化能力を著しく向上させる。 私たちの知る限りでは、PathoWAveは病理組織像解析において初めてDGの重量平均化法として提案されている。 キャメリオン17WILDSデータセットの定量的結果は、病理画像処理における領域シフト現象に対処するための従来の提案手法よりもPathoWAveの方が優れていることを示している。 私たちのコードは \url{https://github.com/ParastooSotoudeh/PathoWAve} で利用可能です。

Recent advancements in deep learning (DL) have significantly advanced medical image analysis. In the field of medical image processing, particularly in histopathology image analysis, the variation in staining protocols and differences in scanners present significant domain shift challenges, undermine the generalization capabilities of models to the data from unseen domains, prompting the need for effective domain generalization (DG) strategies to improve the consistency and reliability of automated cancer detection tools in diagnostic decision-making. In this paper, we introduce Pathology Weight Averaging (PathoWAve), a multi-source DG strategy for addressing domain shift phenomenon of DL models in histopathology image analysis. Integrating specific weight averaging technique with parallel training trajectories and a strategically combination of regular augmentations with histopathology-specific data augmentation methods, PathoWAve enables a comprehensive exploration and precise convergence within the loss landscape. This method significantly enhanced generalization capabilities of DL models across new, unseen histopathology domains. To the best of our knowledge, PathoWAve is the first proposed weight averaging method for DG in histopathology image analysis. Our quantitative results on Camelyon17 WILDS dataset demonstrate PathoWAve's superiority over previous proposed methods to tackle the domain shift phenomenon in histopathology image processing. Our code is available at \url{https://github.com/ParastooSotoudeh/PathoWAve}.
翻訳日:2024-06-25 21:04:37 公開日:2024-06-21
# データセンターネットワークにおけるトランスポートレベル暗号化の事例

The Case for Transport-Level Encryption in Datacenter Networks ( http://arxiv.org/abs/2406.15686v1 )

ライセンス: Link先を確認
Tianyi Gao, Xinshu Ma, Suhas Narreddy, Eugenio Luo, Steven W. D. Chien, Michio Honda, (参考訳) クラウドアプリケーションは、他のテナントから分離し、ネットワークインフラストラクチャ内の潜在的盗聴者からデータを保護するために、ネットワークデータ暗号化が必要です。 本稿では、Phost、NDP、Homaなどの新しいデータセンタートランスポートプロトコルのためのプロトコル設計であるSDPについて、TCP上でTLS用に設計された暗号操作の既存のNICオフロードを利用してデータ暗号化を統合する。 したがって、SDPはハードウェアオフロードのサポートを諦めることなく、データセンターに新しいトランスポートプロトコルを配置できる。 SDPはHomaをベースにしており、TCP上でTLSを最大29%のスループットで上回っている。 SDPは現在、2つの現実世界アプリケーション、Redisをサポートし、スループットを最大24パーセント改善し、カーネル内のNVMe-oFを使用して、P99レイテンシを最大21パーセント削減している。

Cloud applications need network data encryption to isolate from other tenants and protect their data from potential eavesdroppers in the network infrastructure. This paper presents SDP, a protocol design for emerging datacenter transport protocols, such as pHost, NDP, and Homa, to integrate data encryption with the use of existing NIC offloading of cryptographic operations designed for TLS over TCP. Therefore, SDP could enable a deployment path of new transport protocols in datacenters without giving up hardware offloading support, which would otherwise make encryption on those protocols even slower than TLS over TCP. SDP is based on Homa, and outperforms TLS over TCP by up to 29 % in throughput. SDP currently supports two real-world applications, Redis, improving throughput by up to 24 %, and in-kernel NVMe-oF, cutting P99 latency by up to 21 %.
翻訳日:2024-06-25 21:04:37 公開日:2024-06-21
# 海面のせん断破片を科学画像集合に分割する

Segmenting Dead Sea Scroll Fragments for a Scientific Image Set ( http://arxiv.org/abs/2406.15692v1 )

ライセンス: Link先を確認
Bronson Brown-deVost, Berat Kurar-Barakat, Nachum Dershowitz, (参考訳) 本稿では,イスラエル古文書庁(IAA)が収集した画像から,写本の断片を分割するパイプラインについて述べる。 これらの画像は、定規、色、プレート数バーの存在による標準セグメンテーション手法の課題と、インクと様々なバック基板に類似した黒背景を示す。 提案されたパイプラインは、4つのステップで構成されており、カスタマイズされたメソッドを使用して各困難を分離し解決することで、これらの課題に対処する。 さらに、より一般的なセグメンテーション技術を適用する際に、難解な問題に遭遇する他のイメージセグメンテーションプロジェクトの概念的な視点から、マルチステップパイプラインの使用は確実に役立つだろう。 さらに,バー検出と断片分割を基礎としたデータセットを作成し,そのパイプラインステップを質的,定量的に評価する。 このデータセットは、フィールドの開発をサポートするために公開されている。 フラグメント画像と評価指標の標準セットの欠如に対処し、研究者が信頼性と再現性のある方法で手法を評価することを目的としている。

This paper presents a customized pipeline for segmenting manuscript fragments from images curated by the Israel Antiquities Authority (IAA). The images present challenges for standard segmentation methods due to the presence of the ruler, color, and plate number bars, as well as a black background that resembles the ink and varying backing substrates. The proposed pipeline, consisting of four steps, addresses these challenges by isolating and solving each difficulty using custom tailored methods. Further, the usage of a multi-step pipeline will surely be helpful from a conceptual standpoint for other image segmentation projects that encounter problems that have proven intractable when applying any of the more commonly used segmentation techniques. In addition, we create a dataset with bar detection and fragment segmentation ground truth and evaluate the pipeline steps qualitatively and quantitatively on it. This dataset is publicly available to support the development of the field. It aims to address the lack of standard sets of fragment images and evaluation metrics and enable researchers to evaluate their methods in a reliable and reproducible manner.
翻訳日:2024-06-25 21:04:37 公開日:2024-06-21
# 動的量子制御のロバスト性:差分感度境界

Robustness of Dynamic Quantum Control: Differential Sensitivity Bound ( http://arxiv.org/abs/2401.00301v3 )

ライセンス: Link先を確認
S. P. O'Neil, C. A. Weidner, E. A. Jonckheere, F. C. Langbein, S. G. Schirmer, (参考訳) 最適化されたピースワイズ・コンスタントパルスによる動的制御は、量子ゲートを実装するためのオープンループ制御の一般的なパラダイムである。 このような制御の合成には多くの方法が存在するが、モデル不確実性が存在する場合の制御スキームの堅牢性には多くのオープンな疑問がある。 本稿では,パラメトリックな不確実性に対するゲート忠実度誤差の差分感度に基づく新しいロバストネス尺度を導入し,パラメトリックな不確実性に対する差分感度のバウンダリを用いて,様々な量子ゲートタイプ,システムサイズ,制御実装に対する最適制御器の性能保証を確立する。 具体的には、与えられた忠実度誤差を保証するハミルトンの不確かさの集合に対する最大許容摂動を確実に計算する方法を示す。 このロバスト性の尺度は、名目操作条件下で評価された忠実度誤差の差分感度の上限値に逆比例する。 以上の結果から,高信頼度制御体制においては,高信頼度と高信頼度とのトレードオフが生じるのではなく,高信頼度制御体制においては,パラメトリック不確実性の存在下での制御のロバスト性の増加と高い名目ゲート忠実度が正に相関していることが示唆された。

Dynamic control via optimized, piecewise-constant pulses is a common paradigm for open-loop control to implement quantum gates. While numerous methods exist for the synthesis of such controls, there are many open questions regarding the robustness of the resulting control schemes in the presence of model uncertainty; unlike in classical control, there are generally no analytical guarantees on the control performance with respect to inexact modeling of the system. In this paper a new robustness measure based on the differential sensitivity of the gate fidelity error to parametric (structured) uncertainties is introduced, and bounds on the differential sensitivity to parametric uncertainties are used to establish performance guarantees for optimal controllers for a variety of quantum gate types, system sizes, and control implementations. Specifically, it is shown how a maximum allowable perturbation over a set of Hamiltonian uncertainties that guarantees a given fidelity error, can be reliably computed. This measure of robustness is inversely proportional to the upper bound on the differential sensitivity of the fidelity error evaluated under nominal operating conditions. Finally, the results show that the nominal fidelity error and differential sensitivity upper bound are positively correlated across a wide range of problems and control implementations, suggesting that in the high-fidelity control regime, rather than there being a trade-off between fidelity and robustness, higher nominal gate fidelities are positively correlated with increased robustness of the controls in the presence of parametric uncertainties.
翻訳日:2024-06-25 11:16:10 公開日:2024-06-21
# トレーディング・デビル:確率的投資モデルとベイズ的アプローチによるロバストなバックドア攻撃

Trading Devil: Robust backdoor attack via Stochastic investment models and Bayesian approach ( http://arxiv.org/abs/2406.10719v3 )

ライセンス: Link先を確認
Orson Mengara, (参考訳) 音声アクティベーションシステムや音声認識技術の利用の増加に伴い、音声データに対するバックドア攻撃の危険性は大幅に増大している。 本研究では、確率的投資に基づくバックドア攻撃(MarketBack)と呼ばれる特定の種類の攻撃について検討する。 マシンラーニングモデルのセキュリティと整合性は、オーディオアプリケーションやシステムの信頼性を維持するために、バックドア攻撃によって深刻な脅威を受けています。 実験結果から,MarketBackは,トレーニングデータの1%未満を中毒した場合の7つのモデルにおいて,平均攻撃成功率を100%近く達成できることが示された。

With the growing use of voice-activated systems and speech recognition technologies, the danger of backdoor attacks on audio data has grown significantly. This research looks at a specific type of attack, known as a Stochastic investment-based backdoor attack (MarketBack), in which adversaries strategically manipulate the stylistic properties of audio to fool speech recognition systems. The security and integrity of machine learning models are seriously threatened by backdoor attacks, in order to maintain the reliability of audio applications and systems, the identification of such attacks becomes crucial in the context of audio data. Experimental results demonstrated that MarketBack is feasible to achieve an average attack success rate close to 100% in seven victim models when poisoning less than 1% of the training data.
翻訳日:2024-06-25 11:16:10 公開日:2024-06-21
# RichRAG: Retrieval-Augmented Generationにおける多面的クエリのためのリッチレスポンス作成

RichRAG: Crafting Rich Responses for Multi-faceted Queries in Retrieval-Augmented Generation ( http://arxiv.org/abs/2406.12566v2 )

ライセンス: Link先を確認
Shuting Wang, Xin Yu, Mang Wang, Weipeng Chen, Yutao Zhu, Zhicheng Dou, (参考訳) Retrieval-augmented Generation (RAG)は、大規模言語モデルにおける静的知識と幻覚の問題を効果的に解決する。 既存の研究は主に、明確なユーザ意図と簡潔な回答を持つ質問シナリオに焦点を当てている。 しかし,ユーザは多種多様なサブインテントを持つ広義のオープンエンドクエリを発行し,複数の関連する側面をカバーするリッチでロングフォームな回答を求めることが一般的である。 この重要かつ未解明の課題に対処するために、我々は新しいRAGフレームワーク、すなわちRichRAGを提案する。 これには、入力された質問の潜在的なサブアスペクトを特定するサブアスペクトエクスプローラー、これらのサブアスペクトに関連する多様な外部文書の候補プールを構築する多面検索器、および最終ジェネレータに最も価値の高いドキュメントを提供するキーモジュールである生成リストワイドローダが含まれる。 これらのランク付けされたドキュメントは、様々なクエリの側面を十分にカバーし、ジェネレータの好みを認識しているため、ユーザに対してリッチで包括的なレスポンスを生み出すインセンティブを与える。 ランサーの訓練には、文書の基本的なカバレッジを確保するための教師付き微調整段階と、下流のLLMが文書のランク付けを優先する強化学習段階が含まれる。 2つの公開データセットの実験結果から,我々のフレームワークがユーザに対して包括的かつ満足な応答を効果的に提供できることが証明された。

Retrieval-augmented generation (RAG) effectively addresses issues of static knowledge and hallucination in large language models. Existing studies mostly focus on question scenarios with clear user intents and concise answers. However, it is prevalent that users issue broad, open-ended queries with diverse sub-intents, for which they desire rich and long-form answers covering multiple relevant aspects. To tackle this important yet underexplored problem, we propose a novel RAG framework, namely RichRAG. It includes a sub-aspect explorer to identify potential sub-aspects of input questions, a multi-faceted retriever to build a candidate pool of diverse external documents related to these sub-aspects, and a generative list-wise ranker, which is a key module to provide the top-k most valuable documents for the final generator. These ranked documents sufficiently cover various query aspects and are aware of the generator's preferences, hence incentivizing it to produce rich and comprehensive responses for users. The training of our ranker involves a supervised fine-tuning stage to ensure the basic coverage of documents, and a reinforcement learning stage to align downstream LLM's preferences to the ranking of documents. Experimental results on two publicly available datasets prove that our framework effectively and efficiently provides comprehensive and satisfying responses to users.
翻訳日:2024-06-25 11:16:10 公開日:2024-06-21
# 分布的リスク受容性とロバスト性を考慮した$k$サブモジュラー関数付きスタックルバーグゲーム

Stackelberg Games with $k$-Submodular Function under Distributional Risk-Receptiveness and Robustness ( http://arxiv.org/abs/2406.13023v2 )

ライセンス: Link先を確認
Seonghun Park, Manish Bansal, (参考訳) 本研究では,不確実性や攻撃を受けやすいデータを用いた特徴選択などの機械学習問題に適用可能な,逆向き文脈における部分モジュラ最適化について検討する。 我々は、攻撃者(またはインターディクタ)とディフェンダーの間のStackelbergゲームに焦点を当て、攻撃者は$k$-submodular関数を最大化するディフェンダーの目的を最小化することを目的としている。 攻撃の成功やデータノイズに起因する不確実性を許容し、乱数パラメータの確率分布に関する不完全な知識による課題に対処する。 具体的には、DRA $k$-submodular Interdiction Problem (DRA $k$-SIP) と分散型リスク受容型 $k$-submodular Interdiction Problem (DRR $k$-SIP) と、それを解くための有限収束正確なアルゴリズムを導入する。 DRA $k$-SIPソリューションは、現実の不確実性に対する堅牢な戦略を開発するためのリスク・アバース・インターディクタを可能にする。 逆に、DRR $k$-SIPソリューションは攻撃者に対して攻撃的な戦術を提案し、最大ダメージを与える(分配的な)リスクを受け入れ、攻撃者の防御戦略に使用できる重要な脆弱なコンポーネントを特定する。 DRA $k$-SIPとDRR $k$-SIPの両方から導かれる最適値は、ディフェンダーの目的関数の期待値に対して信頼区間のような範囲を提供し、分布の曖昧さをキャプチャする。 特徴選択問題とセンサ配置問題,ウィスコンシン州乳癌データと合成データを用いて計算実験を行った。

We study submodular optimization in adversarial context, applicable to machine learning problems such as feature selection using data susceptible to uncertainties and attacks. We focus on Stackelberg games between an attacker (or interdictor) and a defender where the attacker aims to minimize the defender's objective of maximizing a $k$-submodular function. We allow uncertainties arising from the success of attacks and inherent data noise, and address challenges due to incomplete knowledge of the probability distribution of random parameters. Specifically, we introduce Distributionally Risk-Averse $k$-Submodular Interdiction Problem (DRA $k$-SIP) and Distributionally Risk-Receptive $k$-Submodular Interdiction Problem (DRR $k$-SIP) along with finitely convergent exact algorithms for solving them. The DRA $k$-SIP solution allows risk-averse interdictor to develop robust strategies for real-world uncertainties. Conversely, DRR $k$-SIP solution suggests aggressive tactics for attackers, willing to embrace (distributional) risk to inflict maximum damage, identifying critical vulnerable components, which can be used for the defender's defensive strategies. The optimal values derived from both DRA $k$-SIP and DRR $k$-SIP offer a confidence interval-like range for the expected value of the defender's objective function, capturing distributional ambiguity. We conduct computational experiments using instances of feature selection and sensor placement problems, and Wisconsin breast cancer data and synthetic data, respectively.
翻訳日:2024-06-25 11:16:10 公開日:2024-06-21
# 力学における逆問題解決のための条件付きスコアベース拡散モデル

Conditional score-based diffusion models for solving inverse problems in mechanics ( http://arxiv.org/abs/2406.13154v2 )

ライセンス: Link先を確認
Agnimitra Dasgupta, Harisankar Ramaswamy, Javier Murgoitio Esandi, Ken Foo, Runze Li, Qifa Zhou, Brendan Kennedy, Assad Oberai, (参考訳) 本研究では, 条件付きスコアベース拡散モデルを用いてベイズ推定を行い, 荷重に対する機械的応答のノイズ測定から, 試料の空間的に変化する材料特性を推定する機構の逆問題クラスを解く枠組みを提案する。 条件付きスコアベース拡散モデル(英: Conditional score-based diffusion model)は、条件付き分布のスコア関数を、共同分布からのサンプルを用いて近似する生成モデルである。 より具体的には、測定の多重実現に対応するスコア関数を、単一のニューラルネットワーク、いわゆるスコアネットワークを用いて近似し、その後、ランゲヴィン力学に基づく適切なマルコフ連鎖モンテカルロスキームを用いて後部分布をサンプリングする。 スコアネットワークをトレーニングするには、フォワードモデルをシミュレートする必要がある。 したがって、提案手法はブラックボックスフォワードモデルと複雑な測定ノイズに対応できる。 さらに、一度スコアネットワークをトレーニングすれば、測定の異なる実現のための逆問題の解決に再利用することができる。 ノイズ測定から異種材料特性を推定する力学における高次元逆問題に対して,提案手法の有効性を実証する。 合成データを含むと考える例や、実際のエラストグラフィー実験から収集したデータを含む例がある。 さらに, 提案手法は, 異なる測定モダリティ, 推定量の複雑なパターン, 非ガウス雑音モデル, 非ガウス雑音モデル, 非線形ブラックボックスフォワードモデルに対応できることを示す。 その結果,提案フレームワークは大規模物理学に基づく逆問題の解法を効率的に行うことができることがわかった。

We propose a framework to perform Bayesian inference using conditional score-based diffusion models to solve a class of inverse problems in mechanics involving the inference of a specimen's spatially varying material properties from noisy measurements of its mechanical response to loading. Conditional score-based diffusion models are generative models that learn to approximate the score function of a conditional distribution using samples from the joint distribution. More specifically, the score functions corresponding to multiple realizations of the measurement are approximated using a single neural network, the so-called score network, which is subsequently used to sample the posterior distribution using an appropriate Markov chain Monte Carlo scheme based on Langevin dynamics. Training the score network only requires simulating the forward model. Hence, the proposed approach can accommodate black-box forward models and complex measurement noise. Moreover, once the score network has been trained, it can be re-used to solve the inverse problem for different realizations of the measurements. We demonstrate the efficacy of the proposed approach on a suite of high-dimensional inverse problems in mechanics that involve inferring heterogeneous material properties from noisy measurements. Some examples we consider involve synthetic data, while others include data collected from actual elastography experiments. Further, our applications demonstrate that the proposed approach can handle different measurement modalities, complex patterns in the inferred quantities, non-Gaussian and non-additive noise models, and nonlinear black-box forward models. The results show that the proposed framework can solve large-scale physics-based inverse problems efficiently.
翻訳日:2024-06-25 11:16:10 公開日:2024-06-21
# GenAI-Bench: コンポジションテキスト・ツー・ビジュアル・ジェネレーションの評価と改善

GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation ( http://arxiv.org/abs/2406.13743v2 )

ライセンス: Link先を確認
Baiqi Li, Zhiqiu Lin, Deepak Pathak, Jiayao Li, Yixin Fei, Kewen Wu, Tiffany Ling, Xide Xia, Pengchuan Zhang, Graham Neubig, Deva Ramanan, (参考訳) テキスト・トゥ・ビジュアル・モデルは今やフォトリアリスティックな画像やビデオを生成するが、属性、関係性、論理や比較のような高次推論を含む合成テキストプロンプトに苦慮している。 本研究では,GenAI-Benchに関する広範な人間研究を行い,合成テキスト・視覚生成の様々な側面において,先行画像・映像生成モデルの性能を評価する。 また、収集した人間の評価値と自動評価指標を比較し、VQAモデルが画像をプロンプトを正確に表現しているとみなす可能性を測定するメトリクスであるVQAScoreが、CLIPScoreなどの従来の指標を大幅に上回っていることを発見した。 さらに、VQAScoreは(微調整なしで)ブラックボックス方式で生成を改善することができる。 VQAScoreのランク付けは、DALL-E 3やStable Diffusionの人間のアライメント評価を改善するために、PickScore、HPSv2、ImageRewardなどの他のスコア法よりも2倍から3倍効果的である。 我々は、同じプロンプトから生成されたランキング画像のメトリクスを評価するために、4万以上の人間格付けを備えた新しいGenAI-Rankベンチマークをリリースする。 最後に,VQAScoreの改良を期待する領域について論じる。 私たちは、生成モデルと自動メトリクスの両方の科学的ベンチマークを容易にするために、すべての人間格付け(8万以上)をリリースします。

While text-to-visual models now produce photo-realistic images and videos, they struggle with compositional text prompts involving attributes, relationships, and higher-order reasoning such as logic and comparison. In this work, we conduct an extensive human study on GenAI-Bench to evaluate the performance of leading image and video generation models in various aspects of compositional text-to-visual generation. We also compare automated evaluation metrics against our collected human ratings and find that VQAScore -- a metric measuring the likelihood that a VQA model views an image as accurately depicting the prompt -- significantly outperforms previous metrics such as CLIPScore. In addition, VQAScore can improve generation in a black-box manner (without finetuning) via simply ranking a few (3 to 9) candidate images. Ranking by VQAScore is 2x to 3x more effective than other scoring methods like PickScore, HPSv2, and ImageReward at improving human alignment ratings for DALL-E 3 and Stable Diffusion, especially on compositional prompts that require advanced visio-linguistic reasoning. We will release a new GenAI-Rank benchmark with over 40,000 human ratings to evaluate scoring metrics on ranking images generated from the same prompt. Lastly, we discuss promising areas for improvement in VQAScore, such as addressing fine-grained visual details. We will release all human ratings (over 80,000) to facilitate scientific benchmarking of both generative models and automated metrics.
翻訳日:2024-06-25 11:16:10 公開日:2024-06-21
# 空間概念に基づくトポロジカルセマンティックマッピングを用いた音声指示からの階層的経路計画

Hierarchical Path-planning from Speech Instructions with Spatial Concept-based Topometric Semantic Mapping ( http://arxiv.org/abs/2203.10820v3 )

ライセンス: Link先を確認
Akira Taniguchi, Shuya Ito, Tadahiro Taniguchi, (参考訳) 自律的な移動ロボット、特に専門知識のないユーザーによる日常的な活動を支援することは重要である。 具体的には、人間の発話指示に基づいて目的地に向かうロボットの能力が不可欠である。 ロボットは同じ目標に向かって異なる経路を取ることができるが、最短経路は必ずしもベストではない。 望ましいアプローチは、ウェイポイント仕様を柔軟に適合させ、デトゥールであっても改善された代替パスを計画することである。 さらに、ロボットはリアルタイムの推論機能を必要とする。 本研究では,幾何学的意味マップと経路計画を用いた階層的空間表現の実現を目的とした。 本稿では,空間概念に基づく階層的経路計画のためのトポロジカルセマンティックマッピング(SpCoTMHP)について述べる。 このアプローチは、新しい統合確率生成モデルと階層レベルの高速近似推論を提供する。 確率的推論による制御に基づく定式化は,提案した経路計画アルゴリズムを理論的に支持する。 本研究では,SIGVerseシミュレータ上でのToyota Human Support Robotを用いた家庭環境実験と,実ロボットAlbertを用いた実験室環境実験を行った。 ユーザーは「廊下を経由して寝室に行く」など、目的地と目標を指定する音声コマンドを発行した。 音声指示を用いたナビゲーション実験では,ロボットが最寄りの目標に到達し,正しい経路点を通過する重み付け成功率を0.590倍にすることで,ヒューリスティックパスコスト(HPP-I)を用いたベースライン階層パス計画法(HPP-I)よりもSpCoTMHPの性能改善が示された。 計算時間は、先進的なタスクではベースラインのHPP-Iと比較して、SpCoTMHPで7.14秒短縮された。

Assisting individuals in their daily activities through autonomous mobile robots, especially for users without specialized knowledge, is crucial. Specifically, the capability of robots to navigate to destinations based on human speech instructions is essential. While robots can take different paths to the same goal, the shortest path is not always the best. A preferred approach is to accommodate waypoint specifications flexibly, planning an improved alternative path, even with detours. Additionally, robots require real-time inference capabilities. This study aimed to realize a hierarchical spatial representation using a topometric semantic map and path planning with speech instructions, including waypoints. This paper presents Spatial Concept-based Topometric Semantic Mapping for Hierarchical Path Planning (SpCoTMHP), integrating place connectivity. This approach offers a novel integrated probabilistic generative model and fast approximate inference across hierarchy levels. A formulation based on control as probabilistic inference theoretically supports the proposed path planning algorithm. We conducted experiments in home environments using the Toyota Human Support Robot on the SIGVerse simulator and in a lab-office environment with the real robot, Albert. Users issued speech commands specifying the waypoint and goal, such as "Go to the bedroom via the corridor." Navigation experiments using speech instructions with a waypoint demonstrated a performance improvement of SpCoTMHP over the baseline hierarchical path planning method with heuristic path costs (HPP-I), in terms of the weighted success rate at which the robot reaches the closest target and passes the correct waypoints, by 0.590. The computation time was significantly accelerated by 7.14 seconds with SpCoTMHP compared to baseline HPP-I in advanced tasks.
翻訳日:2024-06-24 20:54:41 公開日:2024-06-21
# 量子ドットシミュレータにおけるスターク多体局在による環境からのコヒーレンス保護

Protecting coherence from the environment via Stark many-body localization in a Quantum-Dot Simulator ( http://arxiv.org/abs/2204.13354v3 )

ライセンス: Link先を確認
Subhajit Sarkar, Berislav Buča, (参考訳) 半導体プラットフォームは量子ドットスピン量子ビットに量子情報を保存し、処理するための有望なアーキテクチャとして登場しつつある。 しかし、電子間の相互作用から生じる電荷ノイズは、量子コンピュータの多くの量子ビットのスケーラビリティとともに、大きな制限要因である。 半導体量子ドットアレイに磁場勾配を実装すれば、局所量子コヒーレント力学の$\ell-$bitを誘導し、論理量子ビットとして使用可能なポテンシャルを示すことを示す。 これらの動的$\ell-$bitsは、モデルが多体ローカライズされる原因である。 電子-フォノン相互作用が非局所的でない場合、これらの動的$\ell-$bitsとそれに対応する多体局在はフォノンを含む全てのノイズから十分に長期にわたって保護されることを示す。 さらに、熱化に基づく自己補正論理ゲートの実装について述べる。 この熱化に基づく誤差補正は、デコヒーレンスフリーおよびノイズレスサブシステムの標準パラダイムを超えている。 我々の研究は、半導体ベースの量子コンピュータにおいて、受動的量子誤り訂正のための新たな場所を開く。

Semiconductor platforms are emerging as a promising architecture for storing and processing quantum information, e.g., in quantum dot spin qubits. However, charge noise coming from interactions between the electrons is a major limiting factor, along with the scalability of many qubits, for a quantum computer. We show that a magnetic field gradient can be implemented in a semiconductor quantum dot array to induce a local quantum coherent dynamical $\ell-$bit exhibiting the potential to be used as logical qubits. These dynamical $\ell-$bits are responsible for the model being many-body localized. We show that these dynamical $\ell-$bits and the corresponding many-body localization are protected from all noises, including phonons, for sufficiently long times if electron-phonon interaction is not non-local. We further show the implementation of thermalization-based self-correcting logical gates. This thermalization-based error correction goes beyond the standard paradigm of decoherence-free and noiseless subsystems. Our work thus opens a new venue for passive quantum error correction in semiconductor-based quantum computers.
翻訳日:2024-06-24 20:54:41 公開日:2024-06-21
# ジャックとすべての取引のマスター: 大規模事前学習モデルからモデルセットを1段階学習する

Jack and Masters of all Trades: One-Pass Learning Sets of Model Sets From Large Pre-Trained Models ( http://arxiv.org/abs/2205.00671v3 )

ライセンス: Link先を確認
Han Xiang Choong, Yew-Soon Ong, Abhishek Gupta, Caishun Chen, Ray Lim, (参考訳) ディープラーニングにとって、サイズは力です。 タスクの幅広いデータに基づいてトレーニングされた大量のニューラルネットは、人工知能の最前線にある。 これらの大きな事前訓練されたモデルや、下流のタスクのために微調整されたジャッキ・オブ・オール・トレード(JAT)は、ディープラーニングの進歩を促進する上で重要になっている。 しかし、リソースの制約の厳しい環境、目的や意図の変更、タスク要求の変化は、特定のJATの現実的なユーティリティを制限する可能性がある。 そこで本研究では,より大規模なJATの構築に向けた現在のトレンドと合わせて,多種多様な機械学習モデルセットの作成の基礎となる概念を最初に検討する。 多くの小型で特殊なモデルで構成され、多くのタスク設定と環境条件を同時に満たすためにセットセットが定式化されている。 神経進化的マルチタスクアルゴリズムの1パスでそのようなセットに到達可能な手段を初めて提示し、すべての取引のマスターであるモデルに近づきます。

For deep learning, size is power. Massive neural nets trained on broad data for a spectrum of tasks are at the forefront of artificial intelligence. These large pre-trained models or Jacks of All Trades (JATs), when fine-tuned for downstream tasks, are gaining importance in driving deep learning advancements. However, environments with tight resource constraints, changing objectives and intentions, or varied task requirements, could limit the real-world utility of a singular JAT. Hence, in tandem with current trends towards building increasingly large JATs, this paper conducts an initial exploration into concepts underlying the creation of a diverse set of compact machine learning model sets. Composed of many smaller and specialized models, the Set of Sets is formulated to simultaneously fulfil many task settings and environmental conditions. A means to arrive at such a set tractably in one pass of a neuroevolutionary multitasking algorithm is presented for the first time, bringing us closer to models that are collectively Masters of All Trades.
翻訳日:2024-06-24 20:54:41 公開日:2024-06-21
# 視覚に基づく自動車両の効率的な認識・計画・制御アルゴリズム

Efficient Perception, Planning, and Control Algorithm for Vision-Based Automated Vehicles ( http://arxiv.org/abs/2209.07042v6 )

ライセンス: Link先を確認
Der-Hau Lee, (参考訳) 自律走行車は計算資源が限られており、効率的な制御システムを必要とする。 センサーのコストとサイズは、自動運転車の開発を制限している。 これらの制約を克服するために,この枠組みは単眼カメラと安価なレーダーのみを必要とする,視覚に基づく自動車両の運用のための効率的な枠組みを提案する。 提案アルゴリズムは、画像の特徴を抽出するマルチタスクUTUNetネットワークと、高速な動き計画と制御のための制約付き反復線形二次制御器(CILQR)と視覚予測制御(VPC)モジュールから構成される。 MTUNetは228 x 228ピクセルのRGB入力画像に対して、車線分割、エゴ車両の方向角回帰、道路型分類、交通物体検出タスクを約40FPSで同時に解くように設計されている。 CILQRコントローラは、MTUNet出力とレーダデータを入力として、横方向および縦方向の車両誘導のための駆動コマンドをわずか1ミリ秒で生成する。 VPCアルゴリズムは、MTUNetからの道路曲率データを用いて、ルックアヘッドポイントにおける現在の操舵角度の適切な補正を推定し、回動量を調整する。 VPC-CILQRコントローラにVPCアルゴリズムを組み込むことで、CILQR単独の使用よりも曲がりくねった道路上でのパフォーマンスが向上する。 提案する自律走行システムは,高精細マップを必要としないが,現行の自律走行車に適用可能であることを実証した。

Autonomous vehicles have limited computational resources and thus require efficient control systems. The cost and size of sensors have limited the development of self-driving cars. To overcome these restrictions, this study proposes an efficient framework for the operation of vision-based automatic vehicles; the framework requires only a monocular camera and a few inexpensive radars. The proposed algorithm comprises a multi-task UNet (MTUNet) network for extracting image features and constrained iterative linear quadratic regulator (CILQR) and vision predictive control (VPC) modules for rapid motion planning and control. MTUNet is designed to simultaneously solve lane line segmentation, the ego vehicle's heading angle regression, road type classification, and traffic object detection tasks at approximately 40 FPS for 228 x 228 pixel RGB input images. The CILQR controllers then use the MTUNet outputs and radar data as inputs to produce driving commands for lateral and longitudinal vehicle guidance within only 1 ms. In particular, the VPC algorithm is included to reduce steering command latency to below actuator latency, preventing performance degradation during tight turns. The VPC algorithm uses road curvature data from MTUNet to estimate the appropriate correction for the current steering angle at a look-ahead point to adjust the turning amount. The inclusion of the VPC algorithm in a VPC-CILQR controller leads to higher performance on curvy roads than the use of CILQR alone. Our experiments demonstrate that the proposed autonomous driving system, which does not require high-definition maps, can be applied in current autonomous vehicles.
翻訳日:2024-06-24 20:54:41 公開日:2024-06-21
# 有限水平制約マルコフ決定過程に対する政策勾配法

A policy gradient approach for Finite Horizon Constrained Markov Decision Processes ( http://arxiv.org/abs/2210.04527v3 )

ライセンス: Link先を確認
Soumyajit Guin, Shalabh Bhatnagar, (参考訳) 有限地平線設定は強化学習(RL)問題に広く採用されている。 これらは常に最適な定常的な政策をもたらす。 多くの状況において、有限地平線制御問題は興味を持ち、そのような問題に対して、最適ポリシーは一般に時変である。 近年では、エージェントが報酬を最大化し、与えられた制約基準を満たすことを目指す制約強化学習(Constrained Reinforcement Learning)も人気になっている。 しかし、この設定は定常ポリシーが最適である無限地平線 MDP の文脈でのみ研究されている。 固定時間(有限時間)後に地平線が終了する有限水平設定における制約付きRLのアルゴリズムを提案する。 状態空間と行動空間が大規模あるいは連続である場合に必要となる関数近似を使い、最適ポリシーを見つけるためにポリシー勾配法を用いる。 私たちが得られる最適なポリシーは、ステージによって異なり、一般には非定常である。 我々の知る限り、制約付き有限地平線設定のための最初のポリシー勾配アルゴリズムを提案する。 制約付き最適ポリシーへのアルゴリズムの収束を示す。 また、実験を通してアルゴリズムの性能を比較し、分析し、我々のアルゴリズムが他のよく知られたアルゴリズムよりも優れていることを示す。

The infinite horizon setting is widely adopted for problems of reinforcement learning (RL). These invariably result in stationary policies that are optimal. In many situations, finite horizon control problems are of interest and for such problems, the optimal policies are time-varying in general. Another setting that has become popular in recent times is of Constrained Reinforcement Learning, where the agent maximizes its rewards while it also aims to satisfy some given constraint criteria. However, this setting has only been studied in the context of infinite horizon MDPs where stationary policies are optimal. We present an algorithm for constrained RL in the Finite Horizon Setting where the horizon terminates after a fixed (finite) time. We use function approximation in our algorithm which is essential when the state and action spaces are large or continuous and use the policy gradient method to find the optimal policy. The optimal policy that we obtain depends on the stage and so is non-stationary in general. To the best of our knowledge, our paper presents the first policy gradient algorithm for the finite horizon setting with constraints. We show the convergence of our algorithm to a constrained optimal policy. We also compare and analyze the performance of our algorithm through experiments and show that our algorithm performs better than some other well known algorithms.
翻訳日:2024-06-24 20:54:41 公開日:2024-06-21
# Data Augmentation on Graphs: A Technical Survey

Data Augmentation on Graphs: A Technical Survey ( http://arxiv.org/abs/2212.09970v3 )

ライセンス: Link先を確認
Jiajun Zhou, Chenxuan Xie, Shengbo Gong, Zhenyu Wen, Xiangyu Zhao, Qi Xuan, Xiaoniu Yang, (参考訳) 近年、グラフ表現学習は、低品質のデータ問題に悩まされ、目覚ましい成功を収めている。 コンピュータビジョンにおけるデータ品質向上のための成熟した技術として、データ拡張はグラフ領域においても注目を集めている。 この新たな方向性の研究を進めるために、この調査は既存のグラフデータ拡張(GDAug)技術に関する包括的なレビューと概要を提供する。 具体的には、まず、様々な可能な分類の概観を示し、既存のGDAug研究をマルチスケールグラフ要素に基づいて分類する。 その後、GDAugの各技術について、標準化された技術定義を定式化し、技術的詳細を議論し、図表を提供する。 調査ではまた、異種グラフ、時間グラフ、時空間グラフ、ハイパーグラフなど、ドメイン固有のグラフデータ拡張技術についてもレビューしている。 さらに、この調査は、グラフデータ拡張のための利用可能な評価指標と設計ガイドラインの要約を提供する。 最後に、GDAugの応用をデータレベルとモデルレベルの両方で概説し、この分野におけるオープンな問題について議論し、今後の方向性を楽しみにしています。 GDAugの最新の進歩はGitHubで要約されている。

In recent years, graph representation learning has achieved remarkable success while suffering from low-quality data problems. As a mature technology to improve data quality in computer vision, data augmentation has also attracted increasing attention in graph domain. To advance research in this emerging direction, this survey provides a comprehensive review and summary of existing graph data augmentation (GDAug) techniques. Specifically, this survey first provides an overview of various feasible taxonomies and categorizes existing GDAug studies based on multi-scale graph elements. Subsequently, for each type of GDAug technique, this survey formalizes standardized technical definition, discuss the technical details, and provide schematic illustration. The survey also reviews domain-specific graph data augmentation techniques, including those for heterogeneous graphs, temporal graphs, spatio-temporal graphs, and hypergraphs. In addition, this survey provides a summary of available evaluation metrics and design guidelines for graph data augmentation. Lastly, it outlines the applications of GDAug at both the data and model levels, discusses open issues in the field, and looks forward to future directions. The latest advances in GDAug are summarized in GitHub.
翻訳日:2024-06-24 20:54:41 公開日:2024-06-21
# 自己学習フレームワークによる教師なし複合テーブル推論の最適化手法

Optimization Techniques for Unsupervised Complex Table Reasoning via Self-Training Framework ( http://arxiv.org/abs/2212.10097v2 )

ライセンス: Link先を確認
Zhenyu Li, Xiuxing Li, Sunqi Fan, Jianyong Wang, (参考訳) 構造化表データは多くの分野の基本データ型であり、質問への回答や仮説の検証にはテーブル上の推論能力が不可欠である。 しかし、複雑な推論タスクのためのラベル付きデータの構築は労働集約的であり、注釈付きデータの量は、現実世界のアプリケーションの複雑な要求をサポートするには不十分である。 アノテーションの不足に対処するため,複雑な論理を用いた多種多様な合成データを生成することにより,教師なし複雑な表型推論(UCTR-ST)のための自己学習フレームワークを提案する。 具体的には、多様なプログラムを集約し、"Program-Management"コンポーネントに基づいてテーブル上で実行し、複雑な論理で自然言語文を生成する強力な"Program-Transformation"モジュールでプログラムとテキストのギャップを埋める。 さらに,「テーブルテキストマニピュレータ」を用いて,共同テーブルテキスト推論シナリオの処理を最適化する。 フレームワーク全体には,ラベルのないトレーニングデータを活用するための自己学習技術が使用されている。 実験の結果,UCTRSTはタスクやドメインの教師付きモデルの性能の90%以上を達成でき,手作業によるアノテーションへの依存を低減できることがわかった。 さらに,本手法はデータ拡張手法として機能し,低リソース領域における教師付きモデルの性能を大幅に向上させる。

Structured tabular data is a fundamental data type in numerous fields, and the capacity to reason over tables is crucial for answering questions and validating hypotheses. However, constructing labeled data for complex reasoning tasks is labor intensive, and the quantity of annotated data remains insufficient to support the intricate demands of real-world applications. To address the insufficient annotation challenge, we present a self-training framework for unsupervised complex tabular reasoning (UCTR-ST) by generating diverse synthetic data with complex logic. Specifically, UCTR-ST incorporates several essential techniques: we aggregate diverse programs and execute them on tables based on a "Program-Management" component, and we bridge the gap between programs and text with a powerful "Program-Transformation" module that generates natural language sentences with complex logic. Furthermore, we optimize the procedure using a "Table-Text Manipulator" to handle joint table-text reasoning scenarios. The entire framework utilizes self-training techniques to leverage the unlabeled training data, which results in significant performance improvements when tested on real-world data. Experimental results demonstrate that UCTRST achieves above 90% of the supervised model performance on different tasks and domains, reducing the dependence on manual annotation. Additionally, our approach can serve as a data augmentation technique, significantly boosting the performance of supervised models in low-resourced domains.
翻訳日:2024-06-24 20:54:41 公開日:2024-06-21
# ExcelFormer: DNNはタブラル予測のための確実なベットか?

ExcelFormer: Can a DNN be a Sure Bet for Tabular Prediction? ( http://arxiv.org/abs/2301.02819v6 )

ライセンス: Link先を確認
Jintai Chen, Jiahuan Yan, Qiyuan Chen, Danny Ziyi Chen, Jian Wu, Jimeng Sun, (参考訳) 表形式で整理されたデータは、現実世界のアプリケーションではユビキタスであり、ユーザーはしばしば、バイアスのある特徴定義を持つテーブルを作成し、自分の興味の予測ターゲットを柔軟に設定する。 したがって、堅牢で、効果的で、データセットに反し、ユーザフレンドリな表型予測アプローチの急速な開発が望まれている。 グラディエントブースティング決定木(GBDT)と既存のディープニューラルネットワーク(DNN)がプロのユーザによって広く利用されている一方で、彼らはカジュアルなユーザ、特にカジュアルなユーザに対していくつかの課題を提示している。 一 データセットの好みの違いによるモデル選択のジレンマ、及び (II)重度ハイパーパラメータ探索の必要性は,その性能が不十分であると考えられる。 本稿では,様々な表形式の予測タスクに対して,かつカジュアルなユーザにも親しみやすい「確実な賭け」ソリューションとして機能するディープラーニングモデルを開発することができるか,という課題を掘り下げる。 P1) 回転分散特性の欠如,(P2) 大規模データ需要,(P3) 過スムース解の3つの重要な欠点を考察した。 ExcelFormerは,DNNの回転不変性(P1の場合)を損なうような,情報の少ない特徴の影響を効果的に抑制する半透過型アテンションモジュール,表層データに適したデータ拡張アプローチ(P2),モデル適合性を高めるための注意型フィードフォワードネットワーク(P3の場合)を通じて,これらの課題に対処する。 これらの設計はExcelFormerを多種多様な表データセットの"確実な賭け"ソリューションにしている。 実世界のデータセットで実施された広範かつ階層化された実験により、我々のモデルは様々な表形式のデータ予測タスクにまたがって過去のアプローチよりも優れており、このフレームワークはカジュアルなユーザと親しみやすく、重いハイパーパラメータチューニングを使わずに使いやすくする。

Data organized in tabular format is ubiquitous in real-world applications, and users often craft tables with biased feature definitions and flexibly set prediction targets of their interests. Thus, a rapid development of a robust, effective, dataset-versatile, user-friendly tabular prediction approach is highly desired. While Gradient Boosting Decision Trees (GBDTs) and existing deep neural networks (DNNs) have been extensively utilized by professional users, they present several challenges for casual users, particularly: (i) the dilemma of model selection due to their different dataset preferences, and (ii) the need for heavy hyperparameter searching, failing which their performances are deemed inadequate. In this paper, we delve into this question: Can we develop a deep learning model that serves as a "sure bet" solution for a wide range of tabular prediction tasks, while also being user-friendly for casual users? We delve into three key drawbacks of deep tabular models, encompassing: (P1) lack of rotational variance property, (P2) large data demand, and (P3) over-smooth solution. We propose ExcelFormer, addressing these challenges through a semi-permeable attention module that effectively constrains the influence of less informative features to break the DNNs' rotational invariance property (for P1), data augmentation approaches tailored for tabular data (for P2), and attentive feedforward network to boost the model fitting capability (for P3). These designs collectively make ExcelFormer a "sure bet" solution for diverse tabular datasets. Extensive and stratified experiments conducted on real-world datasets demonstrate that our model outperforms previous approaches across diverse tabular data prediction tasks, and this framework can be friendly to casual users, offering ease of use without the heavy hyperparameter tuning.
翻訳日:2024-06-24 20:54:41 公開日:2024-06-21
# Straight-Throughがスパースリカバリを達成 - サポート探索アルゴリズム

Straight-Through meets Sparse Recovery: the Support Exploration Algorithm ( http://arxiv.org/abs/2301.13584v2 )

ライセンス: Link先を確認
Mimoun Mohamed, François Malgouyres, Valentin Emiya, Caroline Chaux, (参考訳) STEは、量子化されたニューラルネットワークの最適化に一般的に使用されるが、実効性のある性能の文脈は、経験的な成功にもかかわらず不明確であり、この理解を一歩進めるために、STEをよく理解された問題に適用する: スパースサポートリカバリ。 本稿では,空間性を促進する新しいアルゴリズムであるSEA ( {\it Support Exploration Algorithm) を導入し,その性能を回復支援問題(モデル選択)で解析する。 SEAは最先端技術よりも多くのサポートを探求し、特に$A$の列が強いコヒーレントである場合、特に実験において優れたパフォーマンスをもたらす。理論解析は、線形測定行列$A$が {\it Restricted Isometry Property} (RIP)を満たすときの回復保証を考える。 回復の十分な条件は同等だが、スパースサポートリカバリにおける最先端の条件よりも厳密である。 それらの重要性は、主にSTEのインスタンスに適用可能であることである。

The {\it straight-through estimator} (STE) is commonly used to optimize quantized neural networks, yet its contexts of effective performance are still unclear despite empirical successes.To make a step forward in this comprehension, we apply STE to a well-understood problem: {\it sparse support recovery}. We introduce the {\it Support Exploration Algorithm} (SEA), a novel algorithm promoting sparsity, and we analyze its performance in support recovery (a.k.a. model selection) problems. SEA explores more supports than the state-of-the-art, leading to superior performance in experiments, especially when the columns of $A$ are strongly coherent.The theoretical analysis considers recovery guarantees when the linear measurements matrix $A$ satisfies the {\it Restricted Isometry Property} (RIP).The sufficient conditions of recovery are comparable but more stringent than those of the state-of-the-art in sparse support recovery. Their significance lies mainly in their applicability to an instance of the STE.
翻訳日:2024-06-24 20:47:12 公開日:2024-06-21
# ノイズランダム量子回路における誤差緩和閾値

Error Mitigation Thresholds in Noisy Random Quantum Circuits ( http://arxiv.org/abs/2302.04278v4 )

ライセンス: Link先を確認
Pradeep Niroula, Sarang Gopalakrishnan, Michael J. Gullans, (参考訳) ノイズの多い短期量子シミュレーションから有用な情報を抽出するには、エラー軽減戦略が必要である。 これらの戦略の幅広いクラスは、ノイズ源の正確な評価に依存している。 ノイズが不完全である場合の確率的誤差キャンセルとテンソルネットワークの誤差軽減のロバスト性について検討する。 我々はImry-Maの議論に適応し、空間次元におけるランダムな空間的局所回路に対するこれらの誤差緩和手法のロバスト性におけるしきい値の存在を予測する。 対照的に、1次元の回路では、緩和は障害の特徴づけにおける不完全性に対して$\mathcal{O}(1)$の時間で失敗する。 その結果,誤差低減は十分な特性を有する雑音の実用的な方法であることがわかった。 我々は、量子計算の優位性、測定誘起相転移のフォールトトレラントプローブ、および短期デバイスにおける量子アルゴリズムのテストについて、さらなる含意について論じる。

Extracting useful information from noisy near-term quantum simulations requires error mitigation strategies. A broad class of these strategies rely on precise characterization of the noise source. We study the robustness of probabilistic error cancellation and tensor network error mitigation when the noise is imperfectly characterized. We adapt an Imry-Ma argument to predict the existence of a threshold in the robustness of these error mitigation methods for random spatially local circuits in spatial dimensions $D \geq 2$: noise characterization disorder below the threshold rate allows for error mitigation up to times that scale with the number of qubits. For one-dimensional circuits, by contrast, mitigation fails at an $\mathcal{O}(1)$ time for any imperfection in the characterization of disorder. As a result, error mitigation is only a practical method for sufficiently well-characterized noise. We discuss further implications for tests of quantum computational advantage, fault-tolerant probes of measurement-induced phase transitions, and quantum algorithms in near-term devices.
翻訳日:2024-06-24 20:47:12 公開日:2024-06-21
# ギャップ閉鎖問題:低照度画像強調の知覚的品質評価と最適化

Gap-closing Matters: Perceptual Quality Evaluation and Optimization of Low-Light Image Enhancement ( http://arxiv.org/abs/2302.11464v5 )

ライセンス: Link先を確認
Baoliang Chen, Lingyu Zhu, Hanwei Zhu, Wenhan Yang, Linqi Song, Shiqi Wang, (参考訳) 研究コミュニティでは,低照度画像強調アプローチの最適化は,エンドユーザーが認識する視覚的品質によって導かれるべきであるというコンセンサスが高まっている。 低照度向上アルゴリズムの設計に多大な努力を払っているにもかかわらず、主観的および客観的な品質を体系的に評価することには、比較的限定的な焦点が当てられている。 このギャップを緩和し、低照度画像強調を最適化して視覚的品質を向上させるための明確な経路を提供するために、ギャップ閉鎖フレームワークを提案する。 特に、我々のギャップ閉鎖フレームワークは、再構成された露光画像(SQUARE-LOL)の主観的QUalityアセスメントのための大規模データセットの作成から始まります。 本データベースは、拡張画像の品質を研究し、包括的主観的ユーザスタディを実施するための基盤として機能する。 次に,視覚的品質とエンハンスメントのギャップを埋める上で重要な役割を果たす客観的品質評価尺度を提案する。 最後に,提案した目標品質尺度を,知覚的最適性に向けて拡張モデルの学習を最適化するプロセスに組み込むことが実証された。 提案手法の有効性を,画質予測の精度と画像強調の知覚品質の両面から検証する。 私たちのデータベースとコードはhttps://github.com/Baoliang93/IACA_For_Lowlight_IQAで公開されています。

There is a growing consensus in the research community that the optimization of low-light image enhancement approaches should be guided by the visual quality perceived by end users. Despite the substantial efforts invested in the design of low-light enhancement algorithms, there has been comparatively limited focus on assessing subjective and objective quality systematically. To mitigate this gap and provide a clear path towards optimizing low-light image enhancement for better visual quality, we propose a gap-closing framework. In particular, our gap-closing framework starts with the creation of a large-scale dataset for Subjective QUality Assessment of REconstructed LOw-Light Images (SQUARE-LOL). This database serves as the foundation for studying the quality of enhanced images and conducting a comprehensive subjective user study. Subsequently, we propose an objective quality assessment measure that plays a critical role in bridging the gap between visual quality and enhancement. Finally, we demonstrate that our proposed objective quality measure can be incorporated into the process of optimizing the learning of the enhancement model toward perceptual optimality. We validate the effectiveness of our proposed framework through both the accuracy of quality prediction and the perceptual quality of image enhancement. Our database and codes are publicly available at https://github.com/Baoliang93/IACA_For_Lowlight_IQA.
翻訳日:2024-06-24 20:47:12 公開日:2024-06-21
# OFDMシステムにおけるチャネル推定と信号検出のためのディープラーニングと反復アルゴリズムの比較検討

A Comparative Study of Deep Learning and Iterative Algorithms for Joint Channel Estimation and Signal Detection in OFDM Systems ( http://arxiv.org/abs/2303.03678v3 )

ライセンス: Link先を確認
Haocheng Ju, Haimiao Zhang, Lin Li, Xiao Li, Bin Dong, (参考訳) 結合チャネル推定と信号検出は直交周波数分割多重化(OFDM)システムにおいて重要であるが、従来のアルゴリズムは低信号-雑音比(SNR)のシナリオでは不十分である。 深層学習 (DL) 手法は検討されているが, 計算コストや低SNR設定による検証の欠如が懸念されている。 したがって、広範囲のSNRに対して優れた性能を提供できる頑健で低複雑さのモデルの開発が極めて望ましい。 本稿では,従来のアルゴリズムとDL手法を異なるチャネルモデル,ドップラー,SNR設定で検証するベンチマークを確立することを目的とする。 特に,反復アルゴリズムの展開によりバックボーンネットワークが形成される新しいDLモデルを提案し,ハイパーネットワークによりハイパーパラメータを推定する。 さらに、軽量なDenseNetをJCESDのタスクに適用して比較する。 我々は,ビット誤り率(BER)の一般化,堅牢性,複雑性の3つの側面から異なる手法を評価する。 以上の結果から,DLは低SNR設定において従来のアルゴリズムよりも優れた性能を示し,反復アルゴリズムは高SNR設定において優れた性能を示した。 さらに、繰り返しアルゴリズムはキャリア周波数オフセットの存在下でより堅牢であり、一方、DL法は非対称ガウス雑音によって信号が破損した場合に優れる。

Joint channel estimation and signal detection (JCESD) is crucial in orthogonal frequency division multiplexing (OFDM) systems, but traditional algorithms perform poorly in low signal-to-noise ratio (SNR) scenarios. Deep learning (DL) methods have been investigated, but concerns regarding computational expense and lack of validation in low-SNR settings remain. Hence, the development of a robust and low-complexity model that can deliver excellent performance across a wide range of SNRs is highly desirable. In this paper, we aim to establish a benchmark where traditional algorithms and DL methods are validated on different channel models, Doppler, and SNR settings, particularly focusing on the semi-blind setting. In particular, we propose a new DL model where the backbone network is formed by unrolling the iterative algorithm, and the hyperparameters are estimated by hypernetworks. Additionally, we adapt a lightweight DenseNet to the task of JCESD for comparison. We evaluate different methods in three aspects: generalization in terms of bit error rate (BER), robustness, and complexity. Our results indicate that DL approaches outperform traditional algorithms in the challenging low-SNR setting, while the iterative algorithm performs better in high-SNR settings. Furthermore, the iterative algorithm is more robust in the presence of carrier frequency offset, whereas DL methods excel when signals are corrupted by asymmetric Gaussian noise.
翻訳日:2024-06-24 20:47:12 公開日:2024-06-21
# 自己量子コヒーレンス合成と多重化

Synthesizing and multiplexing autonomous quantum coherences ( http://arxiv.org/abs/2303.07795v2 )

ライセンス: Link先を確認
Artur Slobodeniuk, Tomáš Novotný, Radim Filip, (参考訳) 量子コヒーレンス(quantum coherence)は、量子技術にとって重要な前提条件である。 したがって、量子コヒーレンス(英語版)(quantum coherence)の、できるだけ自律的なロバストな生成は、この分野の発展に不可欠な問題である。 本研究では,スピン系から量子コヒーレンスを合成・多重化する手法について検討する。 この分野での以前の研究は、スピンサブシステムへの浴のバックアクションがそれを生成するために重要であることを示したが、同時に生成したコヒーレンスに重大な制限を与える。 バックアクションプロセスの破壊的影響を回避し,これらの限界を克服できるボソニック浴を用いた実用的アプローチを提案する。 このアプローチを用いて,複数ボソニック浴のスピン-ボソン結合パラメータにおいて,量子コヒーレンスを非摂動的に非摂動的に合成し,その増加と多重化を今後の実証-基本実験のために提案する。

Quantum coherence is a crucial prerequisite for quantum technologies. Therefore, the robust generation, as autonomous as possible, of quantum coherence remains the essential problem for developing this field. We consider a method of synthesizing and multiplexing quantum coherence from spin systems without any direct drives only coupled to bosonic baths. The previous studies in this field have demonstrated that a back-action of the bath to the spin subsystem is important to generate it, however, it simultaneously gives significant limits to the generated coherence. We propose a viable approach with the bosonic bath that allows overcoming these limits by avoiding the destructive effect of the back-action processes. Using this approach, we suggest an advanced synthesis of the quantum coherence non-perturbatively in the spin-boson coupling parameters of multiple bosonic baths to increase and multiplex it for upcoming proof-of-principle experiments.
翻訳日:2024-06-24 20:47:12 公開日:2024-06-21
# 熱場浴中における2レベル移動原子の絡み合った状態ダイナミクス

Entangled states dynamics of moving two-level atoms in a thermal field bath ( http://arxiv.org/abs/2303.10618v3 )

ライセンス: Link先を確認
Nikolaos Papadatos, Dimitris Moustos, (参考訳) 熱状態における無質量スカラー場と相互作用しながら、一定速度のワードラインに従う2レベル原子を考える。 (i)Unruh-DeWitt結合、及び (ii) 場の時間微分を含む結合。 我々は、原子をオープン量子系として扱い、場が環境の役割を担い、その時間進化を記述するためにマスター方程式を用いる。 本研究では, 移動原子と(二次)量子ビットの静止状態における絡み合いのダイナミクスについて検討し, 熱場から分離した。 標準のUnruh-DeWitt結合や高温の環境では、原子の動きによって絡み合いの減衰が遅れることが判明した。 代わりに、誘導体結合の場合、原子の運動は常に絡み合いの急激な死を引き起こす。

We consider a two-level atom that follows a wordline of constant velocity, while interacting with a massless scalar field in a thermal state through: (i) an Unruh-DeWitt coupling, and (ii) a coupling that involves the time derivative of the field. We treat the atom as an open quantum system, with the field playing the role of the environment, and employ a master equation to describe its time evolution. We study the dynamics of entanglement between the moving atom and a (auxiliary) qubit at rest and isolated from the thermal field. We find that in the case of the standard Unruh-DeWitt coupling and for high temperatures of the environment the decay of entanglement is delayed due to the atom's motion. Instead, in the derivative coupling case, the atom's motion always causes the rapid death of entanglement.
翻訳日:2024-06-24 20:47:12 公開日:2024-06-21
# LLIC:学習画像圧縮のための適応重み付き大規模受容野変換符号化

LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression ( http://arxiv.org/abs/2304.09571v9 )

ライセンス: Link先を確認
Wei Jiang, Peirong Ning, Jiayu Yang, Yongqi Zhai, Feng Gao, Ronggang Wang, (参考訳) 有効受容場(ERF)は変換符号化において重要な役割を担い、変換中にどの程度の冗長性を取り除き、逆変換時にテクスチャを合成するのにどれだけの空間的先行性を利用することができるかを決定する。 既存の方法は、ERFが不十分なままである小さなカーネルのスタック、あるいは高解像度画像符号化の可能性を制限する重い非局所的な注意機構に依存している。 この問題に対処するために,学習画像圧縮(LLIC)のための適応重み付きLarge Receptive Field Transform Codingを提案する。 具体的には、学習した画像圧縮コミュニティではじめて、控えめな複雑さを維持しながら冗長性を高めるために、カーネルベースの奥行きに関する大規模なコンボリューションをいくつか導入する。 画像の多様性の幅が広いことから,自己条件付き重み生成による畳み込み適応性の向上機構も提案する。 大きなカーネルは非線形埋め込みとゲート機構と協力し、表現性の向上とより軽いポイントワイド相互作用を実現する。 私たちの調査は、これらの大きなカーネルの潜在能力を最大限に活用する、洗練されたトレーニング方法にまで拡張しています。 さらに、よりダイナミックなチャネル間相互作用を促進するために、自己条件でチャネル重要因子を自律的に生成する適応的なチャネルワイドビット割り当て戦略を導入する。 提案手法の有効性を示すため,エントロピーモデルを既存の変換法と比較し,LLIC-STF,LLIC-ELIC,LLIC-TCMのモデルを求める。 実験の結果,提案したLLICモデルでは,VTM-17.0イントラよりもBD-Rateが9.49%,9.47%,10.94%向上した。 我々のLLICモデルは最先端のパフォーマンスを実現し、パフォーマンスと複雑さのトレードオフを改善する。

The effective receptive field (ERF) plays an important role in transform coding, which determines how much redundancy can be removed during transform and how many spatial priors can be utilized to synthesize textures during inverse transform. Existing methods rely on stacks of small kernels, whose ERFs remain insufficiently large, or heavy non-local attention mechanisms, which limit the potential of high-resolution image coding. To tackle this issue, we propose Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression (LLIC). Specifically, for the first time in the learned image compression community, we introduce a few large kernelbased depth-wise convolutions to reduce more redundancy while maintaining modest complexity. Due to the wide range of image diversity, we further propose a mechanism to augment convolution adaptability through the self-conditioned generation of weights. The large kernels cooperate with non-linear embedding and gate mechanisms for better expressiveness and lighter pointwise interactions. Our investigation extends to refined training methods that unlock the full potential of these large kernels. Moreover, to promote more dynamic inter-channel interactions, we introduce an adaptive channel-wise bit allocation strategy that autonomously generates channel importance factors in a self-conditioned manner. To demonstrate the effectiveness of the proposed transform coding, we align the entropy model to compare with existing transform methods and obtain models LLIC-STF, LLIC-ELIC, and LLIC-TCM. Extensive experiments demonstrate that our proposed LLIC models have significant improvements over the corresponding baselines and reduce the BD-Rate by 9.49%, 9.47%, 10.94% on Kodak over VTM-17.0 Intra, respectively. Our LLIC models achieve state-of-the-art performances and better trade-offs between performance and complexity.
翻訳日:2024-06-24 20:47:12 公開日:2024-06-21
# ピクセルデータに基づく予測:PDEと差分からの洞察

Predictions Based on Pixel Data: Insights from PDEs and Finite Differences ( http://arxiv.org/abs/2305.00723v2 )

ライセンス: Link先を確認
Elena Celledoni, James Jackaman, Davide Murari, Brynjulf Owren, (参考訳) 豊富な実験的な証拠によって支持されているように、ニューラルネットワークは高次元空間における多くの近似タスクの最先端技術である。 それでも、それらが近似できるもの、どのコスト、どの正確性について、厳密な理論的理解が欠けている。 実用的なネットワークアーキテクチャ、特に画像を含む近似タスクは、(残留的な)畳み込みネットワークである。 しかしながら、これらのネットワークに関わる線形作用素の局所性のため、その解析は完全連結ニューラルネットワークよりも複雑である。 本稿では,各観測が行列である時間列の近似を扱う。 比較的小さなネットワークでは、直線法に基づいて、PDEの数値的な離散化のクラスを正確に表現できることが示される。 離散畳み込み演算子と有限差分演算子との接続を利用して、これらの結果を構成的に導出する。 我々のネットワークアーキテクチャは、典型的に時系列の近似に採用されているものから着想を得ている。 線形対流, 熱, フィッシャー方程式をシミュレーションした数値実験により理論的結果を支持する。

As supported by abundant experimental evidence, neural networks are state-of-the-art for many approximation tasks in high-dimensional spaces. Still, there is a lack of a rigorous theoretical understanding of what they can approximate, at which cost, and at which accuracy. One network architecture of practical use, especially for approximation tasks involving images, is (residual) convolutional networks. However, due to the locality of the linear operators involved in these networks, their analysis is more complicated than that of fully connected neural networks. This paper deals with approximation of time sequences where each observation is a matrix. We show that with relatively small networks, we can represent exactly a class of numerical discretizations of PDEs based on the method of lines. We constructively derive these results by exploiting the connections between discrete convolution and finite difference operators. Our network architecture is inspired by those typically adopted in the approximation of time sequences. We support our theoretical results with numerical experiments simulating the linear advection, heat, and Fisher equations.
翻訳日:2024-06-24 20:47:12 公開日:2024-06-21
# 安定した結果が保証されたオンデマンドモビリティ・アズ・ア・サービス・プラットフォーム割り当てゲーム

On-demand Mobility-as-a-Service platform assignment games with guaranteed stable outcomes ( http://arxiv.org/abs/2305.00818v2 )

ライセンス: Link先を確認
Bingqing Liu, Joseph Y. J. Chow, (参考訳) モビリティ・アズ・ア・サービス(英語: Mobility-as-a-Service、MaaS)とは、旅行者・ユーザ・オペレーターとオペレーターの2つの排他的エージェントからなる市場であり、複数のオペレーターが競合したり協力して、統治プラットフォームプロバイダの下で顧客にサービスを提供するモビリティエコシステムを形成する。 本研究では,MaaSプラットフォーム均衡モデルを提案し,固定経路のトランジットサービスとモビリティ・オン・デマンド(MOD)サービスの両方を取り入れた多対多の割り当てゲームを提案する。 このマッチング問題は,MODサービスへのアクセスコストを抑えるために,混雑中の凸多商品フローネットワーク設計問題として定式化される。 局所的な安定性条件は、作用素の決定を含むウォードロップの原理の一般化を反映している。 渋滞が存在するため、この問題は不安定な設計をもたらす可能性があり、プラットフォームからの補助機構が局所的な安定性を保証するために提案されている。 マッチング問題の最適性を保証するため,ラグランジアン緩和と下位最適化を統合したFrank-Wolfeアルゴリズムを用いて,分岐およびバウンドフレームワークに基づいて,マッチング問題に対する新たな正確な解法を提案する。 安定条件と補助設計を統合したヒューリスティックが提案され、世界的安定を伴う最適MaaSプラットフォーム平衡解か、補助を必要とするような実現可能な局所安定解のいずれかに到達する。 ヒューリスティックでは、正確な解を得るための最悪のケース境界と条件の両方が特定される。 82ノードと748リンクによるSioux Fallsネットワークテストの拡張は、プラットフォームを共有するオペレータ間の相互依存モデル、MODサービスの混雑効果の処理、投資影響に対する局所安定性の影響、異種集団で発生する可能性のある不等式に関する一般的な洞察をもたらす。

Mobility-as-a-Service (MaaS) systems are two-sided markets, with two mutually exclusive sets of agents, i.e., travelers/users and operators, forming a mobility ecosystem in which multiple operators compete or cooperate to serve customers under a governing platform provider. This study proposes a MaaS platform equilibrium model based on many-to-many assignment games incorporating both fixed-route transit services and mobility-on-demand (MOD) services. The matching problem is formulated as a convex multicommodity flow network design problem under congestion that captures the cost of accessing MOD services. The local stability conditions reflect a generalization of Wardrop's principles that include operators' decisions. Due to the presence of congestion, the problem may result in non-stable designs, and a subsidy mechanism from the platform is proposed to guarantee local stability. A new exact solution algorithm to the matching problem is proposed based on a branch and bound framework with a Frank-Wolfe algorithm integrated with Lagrangian relaxation and subgradient optimization, which guarantees the optimality of the matching problem but not stability. A heuristic which integrates stability conditions and subsidy design is proposed, which reaches either an optimal MaaS platform equilibrium solution with global stability, or a feasible locally stable solution that may require subsidy. For the heuristic, a worst-case bound and condition for obtaining an exact solution are both identified. An expanded Sioux Falls network test with 82 nodes and 748 links derives generalizable insights about the model for coopetitive interdependencies between operators sharing the platform, handling congestion effects in MOD services, effects of local stability on investment impacts, and illustrating inequities that may arise under heterogeneous populations.
翻訳日:2024-06-24 20:47:12 公開日:2024-06-21
# CREATOR:大規模言語モデルの抽象的・具体的な推論のためのツール作成

CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models ( http://arxiv.org/abs/2305.14318v3 )

ライセンス: Link先を確認
Cheng Qian, Chi Han, Yi R. Fung, Yujia Qin, Zhiyuan Liu, Heng Ji, (参考訳) 大きな言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性と暗黙の推論の不安定性によって制限されている。 これらの制限を克服するために、私たちは、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案します。 CREATORは抽象ツール作成と具体的な決定実行を分離し、パフォーマンスが向上する。 我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。 注目すべきは、CREATORが既存のチェーン・オブ・ソート、プログラム・オブ・ソート、ツール・ユース・ベースラインを上回っていることだ。 さらに、LLMのツール作成能力の必要性とメリットを強調するために、2Kの多様な質問を特徴とするCreation Challengeデータセットも紹介する。 さらなる研究により、LLMをツール作成者として活用することで、知識伝達が促進され、LLMは様々なレベルのツール作成能力を示し、様々な状況に適応できることが示されている。 ツール作成能力はLLMの問題解決パラダイムに革命をもたらし、私たちは人工知能の次のフロンティアに近づきます。 すべてのコードとデータがリリースされます。

Large Language Models (LLMs) have made significant progress in utilizing tools, but their ability is limited by API availability and the instability of implicit reasoning, particularly when both planning and execution are involved. To overcome these limitations, we propose CREATOR, a novel framework that enables LLMs to create their own tools using documentation and code realization. CREATOR disentangles abstract tool creation and concrete decision execution, resulting in improved performance. We evaluate CREATOR on MATH and TabMWP benchmarks, respectively consisting of challenging math competition problems and diverse tabular contents. Remarkably, CREATOR outperforms existing chain-of-thought, program-of-thought, and tool-using baselines. Additionally, we introduce the Creation Challenge dataset, featuring 2K diverse questions, to emphasize the necessity and benefits of LLMs' tool creation ability. Further research demonstrates that leveraging LLMs as tool creators facilitates knowledge transfer, and LLMs exhibit varying levels of tool creation abilities, enabling them to adapt to diverse situations. The tool creation ability revolutionizes the LLM's problem-solving paradigm, driving us closer to the next frontier of artificial intelligence. All the codes and data are released.
翻訳日:2024-06-24 20:47:12 公開日:2024-06-21
# GridFormer: 逆気象条件における画像復元のためのグリッド構造を有する残差変換器

GridFormer: Residual Dense Transformer with Grid Structure for Image Restoration in Adverse Weather Conditions ( http://arxiv.org/abs/2305.17863v2 )

ライセンス: Link先を確認
Tao Wang, Kaihao Zhang, Ziqian Shao, Wenhan Luo, Bjorn Stenger, Tong Lu, Tae-Kyun Kim, Wei Liu, Hongdong Li, (参考訳) 悪天候下での画像復元はコンピュータビジョンでは難しい課題である。 本稿では,悪天候下での画像復元のバックボーンとして機能するGridFormerというトランスフォーマーベースの新しいフレームワークを提案する。 GridFormerは高密度トランスブロックを使ってグリッド構造を設計し、2つのコア設計を導入している。 まず、トランス層に強化されたアテンション機構を使用する。 この機構は、サンプリング装置のステージと、効率を向上させるためのコンパクトな自己アテンションと、ローカル情報を強化するローカルエンハンスメントステージとを含む。 次に,最後のGridFormer層として高密度変圧器ブロック(RDTB)を導入する。 この設計により、前と現在の両方のローカル特徴から効果的な特徴を学習するネットワークの能力はさらに向上する。 GridFormerフレームワークは、画像のデアライニング、デアライジング、デアライジング、デアライジング、マルチウェザー修復など、悪天候下での5つのさまざまなイメージ復元タスクに対して、最先端の成果を達成する。 ソースコードと事前訓練されたモデルはhttps://github.com/TaoWangzj/GridFormer.comで入手できる。

Image restoration in adverse weather conditions is a difficult task in computer vision. In this paper, we propose a novel transformer-based framework called GridFormer which serves as a backbone for image restoration under adverse weather conditions. GridFormer is designed in a grid structure using a residual dense transformer block, and it introduces two core designs. First, it uses an enhanced attention mechanism in the transformer layer. The mechanism includes stages of the sampler and compact self-attention to improve efficiency, and a local enhancement stage to strengthen local information. Second, we introduce a residual dense transformer block (RDTB) as the final GridFormer layer. This design further improves the network's ability to learn effective features from both preceding and current local features. The GridFormer framework achieves state-of-the-art results on five diverse image restoration tasks in adverse weather conditions, including image deraining, dehazing, deraining \& dehazing, desnowing, and multi-weather restoration. The source code and pre-trained models are available at https://github.com/TaoWangzj/GridFormer.
翻訳日:2024-06-24 20:47:12 公開日:2024-06-21
# 相関障害を有するフラットバンド系の非摂動力学

Non-perturbative dynamics of flat-band systems with correlated disorder ( http://arxiv.org/abs/2305.18759v2 )

ライセンス: Link先を確認
Qi Li, Junfeng Liu, Ke Liu, Zi-Xiang Hu, Zhou Li, (参考訳) 本研究では, 相関障害が存在する場合の平面格子上のガウス波パケットの時間発展に関する数値計算法を開発した。 そこで本研究では,所定の相関関係を持つランダムなオンサイトエネルギーを生成する手法を提案する。 本手法は, 1次元(1次元)クロススティッチモデルを用いて検証し, 乱れた進化方程式から得られた解析結果とよく一致した。 これにより、1Dフラットバンド状態が局所的に保たれたままに保たれるという過去の知見を再現することができる。 対応する障害適応進化方程式で説明されるように、そのようなモビライゼーションは分散バンドに対する非対称な障害誘発結合を必要とし、これはディラック点のような交差において、フラットバンドが分散バンドと共鳴しているときに、一般には満たされない条件である。 これを1Dリーブ格子で例示する。 解析式はその複雑さのため2次元(2D)システムでは利用できないが、数値法を2D $\alpha-T_3$モデルに拡張し、乱れや交叉によらず、初期フラットバンドウェーブパケットがその局在を保っていることを確かめる。 しかし、$\alpha\neq 0$のとき、ウェーブパケットは実空間でシフトする。 我々はこれをベリー位相制御、障害誘発波状パケットの安定化と解釈する。 さらに、候補物質の密度汎関数理論計算、具体的には$\rm Hg_{1-x}Cd_xTe$を示す。 フラットバンドはブリルアンゾーンの$Gamma$ point(\bf{k}=$0)の近くで現れる。

We develop a numerical method for the time evolution of Gaussian wave packets on flat-band lattices in the presence of correlated disorder. To achieve this, we introduce a method to generate random on-site energies with prescribed correlations. We verify this method with a one-dimensional (1D) cross-stitch model, and find good agreement with analytical results obtained from the disorder-dressed evolution equations. This allows us to reproduce previous findings, that disorder can mobilize 1D flat-band states which would otherwise remain localized. As explained by the corresponding disorder-dressed evolution equations, such mobilization requires an asymmetric disorder-induced coupling to dispersive bands, a condition that is generically not fulfilled when the flat-band is resonant with the dispersive bands at a Dirac point-like crossing. We exemplify this with the 1D Lieb lattice. While analytical expressions are not available for the two-dimensional (2D) system due to its complexity, we extend the numerical method to the 2D $\alpha-T_3$ model, and find that the initial flat-band wave packet preserves its localization when $\alpha = 0$, regardless of disorder and intersections. However, when $\alpha\neq 0$, the wave packet shifts in real space. We interpret this as a Berry phase controlled, disorder-induced wave-packet mobilization. In addition, we present density functional theory calculations of candidate materials, specifically $\rm Hg_{1-x}Cd_xTe$. The flat-band emerges near the $\Gamma$ point ($\bf{k}=$0) in the Brillouin zone.
翻訳日:2024-06-24 20:47:12 公開日:2024-06-21
# ペアワイズ学習のための非パラメトリック推定のきめ細かい解析

Fine-grained analysis of non-parametric estimation for pairwise learning ( http://arxiv.org/abs/2305.19640v2 )

ライセンス: Link先を確認
Junyu Zhou, Shuo Huang, Han Feng, Puyu Wang, Ding-Xuan Zhou, (参考訳) 本稿では,ペアワイズ学習における非パラメトリック推定の一般化性能について検討する。 既存の作業の多くは、仮説空間を凸あるいはVCクラスとし、損失を凸とする。 しかしながら、これらの制限的な仮定は、多くの一般的な方法、特にカーネルメソッドやニューラルネットワークの研究における結果の適用性を制限している。 我々はこれらの制限的仮定を著しく緩和し、リプシッツ連続対損失に対する一般仮説空間を持つ経験的最小化器の鋭いオラクル不等式を確立する。 我々の結果は、ランキング、AUCの最大化、ペアワイズ回帰、計量と類似性学習など、幅広いペアワイズ学習問題に対処するために利用できる。 応用として、この一般結果を用いて、対数最小二乗回帰を解析し、対数項まで最小二乗回帰に対して極小最小二乗回帰と一致する超一般化境界を導出する。 ここでの重要な新規性は、真の予測器の近似として構造化された深部ReLUニューラルネットワークを構築し、制御可能な複雑性を持つ構造化ネットワークからなるターゲット仮説空間を設計することである。 この成功例は、得られた一般結果が、既存のアプローチでは扱えない様々な問題における一般化性能の探索に役立つことを証明している。

In this paper, we are concerned with the generalization performance of non-parametric estimation for pairwise learning. Most of the existing work requires the hypothesis space to be convex or a VC-class, and the loss to be convex. However, these restrictive assumptions limit the applicability of the results in studying many popular methods, especially kernel methods and neural networks. We significantly relax these restrictive assumptions and establish a sharp oracle inequality of the empirical minimizer with a general hypothesis space for the Lipschitz continuous pairwise losses. Our results can be used to handle a wide range of pairwise learning problems including ranking, AUC maximization, pairwise regression, and metric and similarity learning. As an application, we apply our general results to study pairwise least squares regression and derive an excess generalization bound that matches the minimax lower bound for pointwise least squares regression up to a logrithmic term. The key novelty here is to construct a structured deep ReLU neural network as an approximation of the true predictor and design the targeted hypothesis space consisting of the structured networks with controllable complexity. This successful application demonstrates that the obtained general results indeed help us to explore the generalization performance on a variety of problems that cannot be handled by existing approaches.
翻訳日:2024-06-24 20:37:28 公開日:2024-06-21
# Hinge-Wasserstein: 回帰タスクにおけるマルチモーダルアレタリック不確かさの推定

Hinge-Wasserstein: Estimating Multimodal Aleatoric Uncertainty in Regression Tasks ( http://arxiv.org/abs/2306.00560v4 )

ライセンス: Link先を確認
Ziliang Xiong, Arvi Jonnarth, Abdelrahman Eldesokey, Joakim Johnander, Bastian Wandt, Per-Erik Forssen, (参考訳) 安全クリティカルなアプリケーションにデプロイされるコンピュータビジョンシステムは、その出力の不確実性を定量化する必要がある。 画像からパラメータ値への回帰について検討し、ここでは確率分布を予測して不確実性を検出することが一般的である。 そこで本研究では,モード数に対する事前の仮定を使わずに,マルチモーダル分布を表現可能な回帰分類パラダイムについて検討する。 特定の設計された合成データセットの実験を通して、従来の損失関数は、完全な真理分布が存在しない場合、確率分布の予測が低く、自信が強くなることを示した。 これらの問題を緩和するために、トレーニング中に弱い二次モードのペナルティを減少させる、ヒンジ・ワッサースタイン(英語版) -- Wasserstein損失の簡易な改善 -- を提案する。 これにより、複数のモードで複雑な分布を予測することができ、完全な真実分布が利用できないデータセットのトレーニングが可能になる。 広範にわたる実験において,提案した損失は,水平線検出とステレオ異方性推定という2つの課題のコンピュータビジョンタスクにおいて,かなり優れた不確実性推定をもたらすことを示した。

Computer vision systems that are deployed in safety-critical applications need to quantify their output uncertainty. We study regression from images to parameter values and here it is common to detect uncertainty by predicting probability distributions. In this context, we investigate the regression-by-classification paradigm which can represent multimodal distributions, without a prior assumption on the number of modes. Through experiments on a specifically designed synthetic dataset, we demonstrate that traditional loss functions lead to poor probability distribution estimates and severe overconfidence, in the absence of full ground truth distributions. In order to alleviate these issues, we propose hinge-Wasserstein -- a simple improvement of the Wasserstein loss that reduces the penalty for weak secondary modes during training. This enables prediction of complex distributions with multiple modes, and allows training on datasets where full ground truth distributions are not available. In extensive experiments, we show that the proposed loss leads to substantially better uncertainty estimation on two challenging computer vision tasks: horizon line detection and stereo disparity estimation.
翻訳日:2024-06-24 20:37:28 公開日:2024-06-21
# 量子ニューラルネットワークにおける有限サンプリングノイズの低減

Reduction of finite sampling noise in quantum neural networks ( http://arxiv.org/abs/2306.01639v3 )

ライセンス: Link先を確認
David A. Kreplin, Marco Roth, (参考訳) 量子ニューラルネットワーク(QNN)は、データ依存の入力を持つパラメータ化量子回路を使用し、期待値の評価を通じて出力を生成する。 これらの期待値を計算することは繰り返し回路評価を必要とするため、エラーのない量子コンピュータでも基本的な有限サンプリングノイズが生じる。 量子モデルトレーニングにおける期待値の分散を低減する手法である分散正則化を導入することにより、このノイズを低減する。 この手法は、QNNが適切に構築されている場合、追加の回路評価を必要としない。 実験により, 学習速度の低下と出力雑音の低減, および勾配回路の必要な評価回数の低減を実証した。 この正則化法は、複数の関数の回帰と水のポテンシャルエネルギー面をベンチマークする。 本例では,QNNのノイズレベルが著しく低下することを示す。 最終的に実量子デバイス上でのQNNトレーニングを実演し、エラー軽減の効果を評価する。 ここでは, ばらつきの低減による勾配評価において, 必要なショット数が少ないためのみ, 最適化が可能となる。

Quantum neural networks (QNNs) use parameterized quantum circuits with data-dependent inputs and generate outputs through the evaluation of expectation values. Calculating these expectation values necessitates repeated circuit evaluations, thus introducing fundamental finite-sampling noise even on error-free quantum computers. We reduce this noise by introducing the variance regularization, a technique for reducing the variance of the expectation value during the quantum model training. This technique requires no additional circuit evaluations if the QNN is properly constructed. Our empirical findings demonstrate the reduced variance speeds up the training and lowers the output noise as well as decreases the number of necessary evaluations of gradient circuits. This regularization method is benchmarked on the regression of multiple functions and the potential energy surface of water. We show that in our examples, it lowers the variance by an order of magnitude on average and leads to a significantly reduced noise level of the QNN. We finally demonstrate QNN training on a real quantum device and evaluate the impact of error mitigation. Here, the optimization is feasible only due to the reduced number of necessary shots in the gradient evaluation resulting from the reduced variance.
翻訳日:2024-06-24 20:37:28 公開日:2024-06-21
# FedSecurity: フェデレーション学習とフェデレーションLLMにおける攻撃と防御のベンチマーク

FedSecurity: Benchmarking Attacks and Defenses in Federated Learning and Federated LLMs ( http://arxiv.org/abs/2306.04959v5 )

ライセンス: Link先を確認
Shanshan Han, Baturalp Buyukates, Zijian Hu, Han Jin, Weizhao Jin, Lichao Sun, Xiaoyang Wang, Wenxuan Wu, Chulin Xie, Yuhang Yao, Kai Zhang, Qifan Zhang, Yuhui Zhang, Carlee Joe-Wong, Salman Avestimehr, Chaoyang He, (参考訳) 本稿では,FedSecurityについて紹介する。このベンチマークは,FedMLライブラリの補助的コンポーネントとして機能し,Federated Learning(FL)における敵攻撃とそれに対応する防御機構をシミュレートする。 FedSecurityは、基本的なFLプロシージャ、例えばFLトレーニングとデータローディングをスクラッチから実装する必要をなくし、ユーザが独自のアタックとディフェンス戦略の開発に集中できるようにする。 FLトレーニング中にさまざまな攻撃を行うFedAttackerと、これらの攻撃に対抗する防御機構を実装するFedDefenderの2つの重要なコンポーネントが含まれている。 FedSecurityには以下の機能がある。 i) 幅広い機械学習モデル(例えば、ロジスティック回帰、ResNet、GAN)とFLオプティマイザ(例えば、FedAVG、FedOPT、FedNOVA)に対応する広範なカスタマイズオプションを提供する。 二 異なるデータセット及びモデルにまたがる攻撃及び防御の有効性の探索を可能にすること。 三 構成ファイルといくつかのAPIによるフレキシブルな設定とカスタマイズをサポートすること。 我々はさらに、LLM(Large Language Models)の連合トレーニングを通じてFedSecurityの実用性と適応性を実証し、その可能性を広範囲の複雑なアプリケーションで示す。

This paper introduces FedSecurity, an end-to-end benchmark that serves as a supplementary component of the FedML library for simulating adversarial attacks and corresponding defense mechanisms in Federated Learning (FL). FedSecurity eliminates the need for implementing the fundamental FL procedures, e.g., FL training and data loading, from scratch, thus enables users to focus on developing their own attack and defense strategies. It contains two key components, including FedAttacker that conducts a variety of attacks during FL training, and FedDefender that implements defensive mechanisms to counteract these attacks. FedSecurity has the following features: i) It offers extensive customization options to accommodate a broad range of machine learning models (e.g., Logistic Regression, ResNet, and GAN) and FL optimizers (e.g., FedAVG, FedOPT, and FedNOVA); ii) it enables exploring the effectiveness of attacks and defenses across different datasets and models; and iii) it supports flexible configuration and customization through a configuration file and some APIs. We further demonstrate FedSecurity's utility and adaptability through federated training of Large Language Models (LLMs) to showcase its potential on a wide range of complex applications.
翻訳日:2024-06-24 20:37:28 公開日:2024-06-21
# オンラインレコメンダシステムにおける高品質コンテンツへのインセンティブ

Incentivizing High-Quality Content in Online Recommender Systems ( http://arxiv.org/abs/2306.07479v3 )

ライセンス: Link先を確認
Xinyan Hu, Meena Jagadeesan, Michael I. Jordan, Jacob Steinhardt, (参考訳) TikTokやYouTubeのようなコンテンツレコメンデーションシステムでは、プラットフォームのレコメンデーションアルゴリズムはコンテンツプロデューサのインセンティブを形作る。 多くのプラットフォームがオンライン学習を採用しており、今日のコンテンツは将来のコンテンツの推奨に影響を与えるため、時間的インセンティブを生み出している。 プロデューサー間のゲームについて検討し、均衡で作成されたコンテンツを分析する。 HedgeやEXP3のような標準的なオンライン学習アルゴリズムは、残念なことにプロデューサに低品質コンテンツを作る動機を与え、そこでは、典型的な学習率のスケジュールのために、プロデューサの努力は長期的にゼロに近づきます。 このネガティブな結果に動機づけられた我々は、生産者に対して高い努力と高いユーザ福祉を達成するためのインセンティブを与える学習アルゴリズムを設計する。 概念レベルでは、プラットフォームの学習アルゴリズムがコンテンツ品質に与える影響を意図せず説明し、これらの効果を緩和するためのアルゴリズム的アプローチを導入する。

In content recommender systems such as TikTok and YouTube, the platform's recommendation algorithm shapes content producer incentives. Many platforms employ online learning, which generates intertemporal incentives, since content produced today affects recommendations of future content. We study the game between producers and analyze the content created at equilibrium. We show that standard online learning algorithms, such as Hedge and EXP3, unfortunately incentivize producers to create low-quality content, where producers' effort approaches zero in the long run for typical learning rate schedules. Motivated by this negative result, we design learning algorithms that incentivize producers to invest high effort and achieve high user welfare. At a conceptual level, our work illustrates the unintended impact that a platform's learning algorithm can have on content quality and introduces algorithmic approaches to mitigating these effects.
翻訳日:2024-06-24 20:37:28 公開日:2024-06-21
# 知性理論の発展における8つの課題

Eight challenges in developing theory of intelligence ( http://arxiv.org/abs/2306.11232v2 )

ライセンス: Link先を確認
Haiping Huang, (参考訳) 数学的美の優れた理論は、物理現実の新しい予測が一貫性を持って検証できるため、現在のどの観測よりも実用的である。 この信念は、大きな言語モデルや生物学的知性を含むディープニューラルネットワークの理解の現状に当てはまる。 トイモデルは物理的な現実のメタファーを提供し、その現実(いわゆる理論)を数学的に定式化することができる。 すべての詳細をモデルに詰め込む必要はないが、より抽象的なモデルが構築されている。 このようなボトムアップ・メカニスティック・モデリングは、現代でも自然や人工知能を理解する上で有望である。 ここでは、この理論パラダイムに従って知性理論を開発する上での8つの課題について詳述する。 これらの課題は、表現的学習、一般化、敵対的堅牢性、連続的学習、因果学習、脳の内部モデル、次世代の予測、そして最後に主観的経験の力学である。

A good theory of mathematical beauty is more practical than any current observation, as new predictions of physical reality can be verified self-consistently. This belief applies to the current status of understanding deep neural networks including large language models and even the biological intelligence. Toy models provide a metaphor of physical reality, allowing mathematically formulating that reality (i.e., the so-called theory), which can be updated as more conjectures are justified or refuted. One does not need to pack all details into a model, but rather, more abstract models are constructed, as complex systems like brains or deep networks have many sloppy dimensions but much less stiff dimensions that strongly impact macroscopic observables. This kind of bottom-up mechanistic modeling is still promising in the modern era of understanding the natural or artificial intelligence. Here, we shed light on eight challenges in developing theory of intelligence following this theoretical paradigm. Theses challenges are representation learning, generalization, adversarial robustness, continual learning, causal learning, internal model of the brain, next-token prediction, and finally the mechanics of subjective experience.
翻訳日:2024-06-24 20:37:28 公開日:2024-06-21
# RoMe:メッシュ表現による大規模道路表面再構築に向けて

RoMe: Towards Large Scale Road Surface Reconstruction via Mesh Representation ( http://arxiv.org/abs/2306.11368v4 )

ライセンス: Link先を確認
Ruohong Mei, Wei Sui, Jiaxin Zhang, Xue Qin, Gang Wang, Tao Peng, Cong Yang, (参考訳) 自律運転アプリケーションでは、正確で効率的な道路表面の再構築が最重要である。 本稿では,大規模道路路面の堅牢な復元を目的とした新しいフレームワークであるRoMeを紹介する。 ユニークなメッシュ表現を活用することで、再構築された路面が正確で、セマンティックスとシームレスに整合していることを保証する。 計算効率の課題に対処するため,我々は,RoMeがサブアレーに着目し,その後にマージすることで,広大な環境を再構築できる経路点サンプリング戦略を提案する。 さらに,外因性キャリブレーションにおける不正確性に対するロバスト性を高めるために,外因性最適化モジュールを組み込んだ。 パブリックデータセットとワイルドデータの両方に対する広範な評価は、速度、正確性、堅牢性という点で、RoMeの優位性を示している。 たとえば、何千もの画像から600*600平方メートルの道路表面を回収するのに2GPU時間しかかからない。 特に、RoMeの機能は単なる再構築を超えて、自律運転アプリケーションにおける自動ラベリングタスクに重要な価値を提供する。 関連するすべてのデータとコードはhttps://github.com/DRosemei/RoMe.comで入手できる。

In autonomous driving applications, accurate and efficient road surface reconstruction is paramount. This paper introduces RoMe, a novel framework designed for the robust reconstruction of large-scale road surfaces. Leveraging a unique mesh representation, RoMe ensures that the reconstructed road surfaces are accurate and seamlessly aligned with semantics. To address challenges in computational efficiency, we propose a waypoint sampling strategy, enabling RoMe to reconstruct vast environments by focusing on sub-areas and subsequently merging them. Furthermore, we incorporate an extrinsic optimization module to enhance the robustness against inaccuracies in extrinsic calibration. Our extensive evaluations of both public datasets and wild data underscore RoMe's superiority in terms of speed, accuracy, and robustness. For instance, it costs only 2 GPU hours to recover a road surface of 600*600 square meters from thousands of images. Notably, RoMe's capability extends beyond mere reconstruction, offering significant value for autolabeling tasks in autonomous driving applications. All related data and code are available at https://github.com/DRosemei/RoMe.
翻訳日:2024-06-24 20:37:28 公開日:2024-06-21
# MRHER:スパースリワード付き逐次オブジェクト操作タスクのためのモデルベースリレーハイドサイト体験リプレイ

MRHER: Model-based Relay Hindsight Experience Replay for Sequential Object Manipulation Tasks with Sparse Rewards ( http://arxiv.org/abs/2306.16061v2 )

ライセンス: Link先を確認
Yuming Huang, Bin Ren, Ziming Xu, Lianghong Wu, (参考訳) スパース報酬は、目標条件強化学習(RL)において高いサンプル効率を達成する上で大きな課題となる。 具体的には、シーケンシャルな操作タスクでは、エージェントは操作タスク全体を完了するまで障害報酬を受け取り、それによってサンプル効率が低下する。 この問題に対処し, サンプル効率を向上させるために, モデルベースリレーハイドサイト体験再生(MRHER)と呼ばれる新しいモデルベースRLフレームワークを提案する。 MRHERは、継続的なタスクを複雑さを増してサブタスクに分解し、以前のサブタスクを使用して、その後のタスクの学習をガイドする。 各サブタスクでHindsight Experience Replay(HER)を使用する代わりに,Foresight relabeling(FR)と呼ばれる,ロバストなモデルベースレザベリング手法を設計する。 FRは、後視状態の将来の軌跡を予測し、仮想未来の軌跡上で達成された目標として期待目標を再定義する。 FRを組み込むことで、MRHERは歴史的経験からより多くの情報を効果的に取得し、特にオブジェクト操作環境においてサンプル効率を向上させる。 実験の結果、MRHERはベンチマークタスクにおける最先端のサンプル効率を示し、それぞれFetchPush-v1環境とFetchPickandPlace-v1環境でRHERを13.79%、14.29%上回った。

Sparse rewards pose a significant challenge to achieving high sample efficiency in goal-conditioned reinforcement learning (RL). Specifically, in sequential manipulation tasks, the agent receives failure rewards until it successfully completes the entire manipulation task, which leads to low sample efficiency. To tackle this issue and improve sample efficiency, we propose a novel model-based RL framework called Model-based Relay Hindsight Experience Replay (MRHER). MRHER breaks down a continuous task into subtasks with increasing complexity and utilizes the previous subtask to guide the learning of the subsequent one. Instead of using Hindsight Experience Replay (HER) in every subtask, we design a new robust model-based relabeling method called Foresight relabeling (FR). FR predicts the future trajectory of the hindsight state and relabels the expected goal as a goal achieved on the virtual future trajectory. By incorporating FR, MRHER effectively captures more information from historical experiences, leading to improved sample efficiency, particularly in object-manipulation environments. Experimental results demonstrate that MRHER exhibits state-of-the-art sample efficiency in benchmark tasks, outperforming RHER by 13.79% and 14.29% in the FetchPush-v1 environment and FetchPickandPlace-v1 environment, respectively.
翻訳日:2024-06-24 20:37:28 公開日:2024-06-21
# SRL: 分散強化学習を10万コア以上に拡張

SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores ( http://arxiv.org/abs/2306.16688v3 )

ライセンス: Link先を確認
Zhiyu Mei, Wei Fu, Jiaxuan Gao, Guangju Wang, Huanchen Zhang, Yi Wu, (参考訳) 強化学習(RL)タスクの継続的な複雑さは、分散システムに大量のデータを効率的に生成し、処理することを要求する。 しかし、既存のオープンソースライブラリは様々な制限に悩まされており、大規模なトレーニングが必要な挑戦的なシナリオでの実践を妨げている。 本稿では,多様なRLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。 この抽象化に続いて,ReaLlyScalableRLと呼ばれる,スケーラブルで効率的で拡張可能な分散RLシステムの開発を行った。 評価の結果,SRLは既存の学術図書館より優れており,分散環境ではトレーニングのスループットが21倍に向上していることがわかった。 SRLは、異なるRLアルゴリズムで一般的なRLベンチマークのパフォーマンスとスケーリングに留まらず、OpenAIが報告したように、挑戦的なシーク・アンド・シークな環境で同じソリューションを再現し、ウォールタイムで最大5倍のスピードアップを実現している。 特に、SRLは15k以上のCPUコアを持つ大規模なRL実験を学術コミュニティで初めて実施している。 SRLのソースコードは、https://github.com/openpsi-project/srl で入手できる。

The ever-growing complexity of reinforcement learning (RL) tasks demands a distributed system to efficiently generate and process a massive amount of data. However, existing open-source libraries suffer from various limitations, which impede their practical use in challenging scenarios where large-scale training is necessary. In this paper, we present a novel abstraction on the dataflows of RL training, which unifies diverse RL training applications into a general framework. Following this abstraction, we develop a scalable, efficient, and extensible distributed RL system called ReaLlyScalableRL, which allows efficient and massively parallelized training and easy development of customized algorithms. Our evaluation shows that SRL outperforms existing academic libraries, reaching at most 21x higher training throughput in a distributed setting. On learning performance, beyond performing and scaling well on common RL benchmarks with different RL algorithms, SRL can reproduce the same solution in the challenging hide-and-seek environment as reported by OpenAI with up to 5x speedup in wall-clock time. Notably, SRL is the first in the academic community to perform RL experiments at a large scale with over 15k CPU cores. SRL source code is available at: https://github.com/openpsi-project/srl .
翻訳日:2024-06-24 20:37:28 公開日:2024-06-21
# RL4CO: Combinatorial Optimization Benchmarkのための拡張強化学習

RL4CO: an Extensive Reinforcement Learning for Combinatorial Optimization Benchmark ( http://arxiv.org/abs/2306.17100v4 )

ライセンス: Link先を確認
Federico Berto, Chuanbo Hua, Junyoung Park, Laurin Luttmann, Yining Ma, Fanchen Bu, Jiarui Wang, Haoran Ye, Minsu Kim, Sanghyeok Choi, Nayeli Gast Zepeda, André Hottung, Jianan Zhou, Jieyi Bi, Yu Hu, Fei Liu, Hyeonah Kim, Jiwoo Son, Haeyeon Kim, Davide Angioni, Wouter Kool, Zhiguang Cao, Qingfu Zhang, Joungho Kim, Jie Zhang, Kijung Shin, Cathy Wu, Sungsoo Ahn, Guojie Song, Changhyun Kwon, Kevin Tierney, Lin Xie, Jinkyoo Park, (参考訳) 深部強化学習(RL)は、最近、組合せ最適化(CO)問題の解決、ドメインの専門知識への依存の軽減、計算効率の向上において、大きなメリットを示している。 しかし、この分野は様々なCO問題にまたがるアルゴリズムの簡易な開発と標準化比較のための統一されたベンチマークを欠いている。 このギャップを埋めるために、23の最先端メソッドと20以上のCO問題の詳細なライブラリカバレッジを備えた、統一的で広範なベンチマークであるRL4COを導入する。 効率的なソフトウェアライブラリと実装のベストプラクティスに基づいて構築されたRL4COは、モジュール化された実装と、多様なRLアルゴリズム、ニューラルネットワークアーキテクチャ、推論技術、環境の柔軟な構成を備えている。 RL4COは、研究者が既存の成功をシームレスにナビゲートし、独自のデザインを開発することを可能にする。 また、新たな洞察と今後の作業を促すために、広範なベンチマーク研究も行っています。 RL4COはコミュニティの多くの研究者を惹きつけ、https://github.com/ai4co/rl4coでオープンソース化されている。

Deep reinforcement learning (RL) has recently shown significant benefits in solving combinatorial optimization (CO) problems, reducing reliance on domain expertise, and improving computational efficiency. However, the field lacks a unified benchmark for easy development and standardized comparison of algorithms across diverse CO problems. To fill this gap, we introduce RL4CO, a unified and extensive benchmark with in-depth library coverage of 23 state-of-the-art methods and more than 20 CO problems. Built on efficient software libraries and best practices in implementation, RL4CO features modularized implementation and flexible configuration of diverse RL algorithms, neural network architectures, inference techniques, and environments. RL4CO allows researchers to seamlessly navigate existing successes and develop their unique designs, facilitating the entire research process by decoupling science from heavy engineering. We also provide extensive benchmark studies to inspire new insights and future work. RL4CO has attracted numerous researchers in the community and is open-sourced at https://github.com/ai4co/rl4co.
翻訳日:2024-06-24 20:37:28 公開日:2024-06-21
# ロバストと最適化コンパイラのセキュアな構成

Secure Composition of Robust and Optimising Compilers ( http://arxiv.org/abs/2307.08681v2 )

ライセンス: Link先を確認
Matthis Kruse, Michael Backes, Marco Patrignani, (参考訳) セキュアなアプリケーションが秘密を漏らさないようにするためには、空間的および時間的メモリ安全性や暗号定時といったいくつかのセキュリティ特性を守らなければならない。 既存の作業は、セキュアなコンパイラパスを使用して、それぞれのプロパティにフォーカスすることで、アーキテクチャに依存しない方法で、これらのプロパティを個別に強制する方法を示しています。 残念なことに、2つのセキュアなコンパイラパスがそれぞれ異なるセキュリティプロパティを保持することを前提としているため、それらのセキュアなコンパイラパスの構成によってどのようなセキュリティプロパティが保存されているのかは不明だ。 本論文は,異なるセキュアなコンパイラパスの構成にまたがるセキュリティ特性について,初めて検討したものである。 セキュリティ関連プロパティ(前述のものなど)のプロパティ構成の一般的な理論から始まり、セキュアコンパイラの構成の理論を定式化する。 そして、この理論を、前述のセキュリティ関連プロパティを保存するセキュアなマルチパスコンパイラとして紹介する。 本論文は,各パスが保持するセキュリティ特性の構成から,セキュリティ保護や最適化パスを含むマルチパスコンパイラのセキュリティを導出する。 エンジニアリングの観点から言えば、これはセキュアなコンパイラを構築するための望ましいアプローチです。

To ensure that secure applications do not leak their secrets, they are required to uphold several security properties such as spatial and temporal memory safety as well as cryptographic constant time. Existing work shows how to enforce these properties individually, in an architecture-independent way, by using secure compiler passes that each focus on an individual property. Unfortunately, given two secure compiler passes that each preserve a possibly different security property, it is unclear what kind of security property is preserved by the composition of those secure compiler passes. This paper is the first to study what security properties are preserved across the composition of different secure compiler passes. Starting from a general theory of property composition for security-relevant properties (such as the aforementioned ones), this paper formalises a theory of composition of secure compilers. Then, it showcases this theory a secure multi-pass compiler that preserves the aforementioned security-relevant properties. Crucially, this paper derives the security of the multi-pass compiler from the composition of the security properties preserved by its individual passes, which include security-preserving as well as optimisation passes. From an engineering perspective, this is the desirable approach to building secure compilers.
翻訳日:2024-06-24 20:37:28 公開日:2024-06-21
# 模擬制約下におけるオフラインの多様性の最大化

Offline Diversity Maximization Under Imitation Constraints ( http://arxiv.org/abs/2307.11373v3 )

ライセンス: Link先を確認
Marin Vlastelica, Jin Cheng, Georg Martius, Pavel Kolev, (参考訳) 多様な情報理論の目的を多様性の尺度として活用し、教師なしスキル発見の分野において、近年顕著な進歩を遂げている。 これらの進歩にもかかわらず、課題は残る: 現在の手法は、重要なオンラインインタラクションを必要とし、膨大な量のタスクに依存しないデータを活用することができず、典型的には、スキルユーティリティの定量的尺度を欠いている。 これらの課題に対処するために、教師なしスキル発見のための原則付きオフラインアルゴリズムを提案し、多様性の最大化に加えて、各学習スキルが州のみの専門家によるデモンストレーションをある程度模倣することを保証します。 我々の主な分析的貢献は、Fenchel双対性、強化学習、および教師なしスキル発見を結びつけて、KL分割状態占有制約に基づく相互情報目標を最大化することである。 さらに,本手法の標準オフラインベンチマークD4RLと,シミュレーションで訓練されたポリシーを実際のロボットシステムに適切に伝達する12-DoF四足歩行ロボットから収集したカスタムオフラインデータセットに対する有効性を示す。

There has been significant recent progress in the area of unsupervised skill discovery, utilizing various information-theoretic objectives as measures of diversity. Despite these advances, challenges remain: current methods require significant online interaction, fail to leverage vast amounts of available task-agnostic data and typically lack a quantitative measure of skill utility. We address these challenges by proposing a principled offline algorithm for unsupervised skill discovery that, in addition to maximizing diversity, ensures that each learned skill imitates state-only expert demonstrations to a certain degree. Our main analytical contribution is to connect Fenchel duality, reinforcement learning, and unsupervised skill discovery to maximize a mutual information objective subject to KL-divergence state occupancy constraints. Furthermore, we demonstrate the effectiveness of our method on the standard offline benchmark D4RL and on a custom offline dataset collected from a 12-DoF quadruped robot for which the policies trained in simulation transfer well to the real robotic system.
翻訳日:2024-06-24 20:37:28 公開日:2024-06-21
# グラフオンとサンプリング理論を用いたグラフニューラルネットワークの転送可能性

Transferability of Graph Neural Networks using Graphon and Sampling Theories ( http://arxiv.org/abs/2307.13206v2 )

ライセンス: Link先を確認
A. Martina Neuman, Jason J. Bramburger, (参考訳) グラフニューラルネットワーク(GNN)は、さまざまなドメインでグラフベースの情報を処理するための強力なツールとなっている。 GNNの望ましい特性は転送可能性であり、トレーニングされたネットワークは、その正確性を再トレーニングすることなく、異なるグラフから情報を交換することができる。 GNNの転送可能性を取得する最近の方法は、大きな高密度グラフの極限を表す対称な可測関数であるグラモンを使うことである。 本研究は,2層グラフトンニューラルネットワーク(WNN)アーキテクチャを明示することにより,GNNへのグラフオンの適用に寄与する。 ネットワーク重みを最小限に抑えることで、特定のエラー許容範囲内での帯域制限グラフ信号の近似が可能であることを証明した。 次に、この結果を利用して、収束列における十分大きなグラフの全てに対して、明示的な2層GNNの転送可能性を確立する。 我々の研究は、決定論的重み付きグラフと単純なランダムグラフの双方間の移動可能性に対処し、他のGNNの結果に生じる次元性の呪いに関連する問題を克服する。 提案したWNNおよびGNNアーキテクチャは、広範囲なリトレーニングなしに性能保証を維持しながら、様々なサイズのグラフデータを処理するための実用的なソリューションを提供する。

Graph neural networks (GNNs) have become powerful tools for processing graph-based information in various domains. A desirable property of GNNs is transferability, where a trained network can swap in information from a different graph without retraining and retain its accuracy. A recent method of capturing transferability of GNNs is through the use of graphons, which are symmetric, measurable functions representing the limit of large dense graphs. In this work, we contribute to the application of graphons to GNNs by presenting an explicit two-layer graphon neural network (WNN) architecture. We prove its ability to approximate bandlimited graphon signals within a specified error tolerance using a minimal number of network weights. We then leverage this result, to establish the transferability of an explicit two-layer GNN over all sufficiently large graphs in a convergent sequence. Our work addresses transferability between both deterministic weighted graphs and simple random graphs and overcomes issues related to the curse of dimensionality that arise in other GNN results. The proposed WNN and GNN architectures offer practical solutions for handling graph data of varying sizes while maintaining performance guarantees without extensive retraining.
翻訳日:2024-06-24 20:37:28 公開日:2024-06-21
# MTUncertainty: 微調整OpenAI LLMによる機械翻訳出力の後編集の必要性の評価

MTUncertainty: Assessing the Need for Post-editing of Machine Translation Outputs by Fine-tuning OpenAI LLMs ( http://arxiv.org/abs/2308.00158v6 )

ライセンス: Link先を確認
Serge Gladkoff, Lifeng Han, Gleb Erofeev, Irina Sorokina, Goran Nenadic, (参考訳) 翻訳品質評価(TQE)は、現代翻訳生産プロセスにおける重要なステップである。 TQEは機械翻訳(MT)と人間翻訳(HT)の両方の品質を基準翻訳なしで評価する上で重要である。 翻訳の質を評価したり、あるいは単純に見積りする能力は、プロセスの最適化を通じて、大幅な効率向上をもたらす可能性がある。 この目的のために,最先端の大規模言語モデル (LLM) が利用できるかを検討する。 OpenAIモデルを最先端技術として捉え、バイナリ分類タスクとしてTQEにアプローチします。 英語とイタリア語,ドイツ語,フランス語,日本語,オランダ語,ポルトガル語,トルコ語,中国語を含む8つの言語対について,微調整のgpt3.5が翻訳品質予測タスク,すなわち翻訳を編集する必要があるか否かの優れた性能を示すことを示す実験結果を得た。 LLMのサイズを単純に増やすことで、OpenAIモデルの3つのバージョン(curie、davinci、gpt3.5、13B、175B、175B)のパフォーマンスを比較することで、このタスクにおけるパフォーマンスが向上するわけではない。

Translation Quality Evaluation (TQE) is an essential step of the modern translation production process. TQE is critical in assessing both machine translation (MT) and human translation (HT) quality without reference translations. The ability to evaluate or even simply estimate the quality of translation automatically may open significant efficiency gains through process optimisation. This work examines whether the state-of-the-art large language models (LLMs) can be used for this purpose. We take OpenAI models as the best state-of-the-art technology and approach TQE as a binary classification task. On eight language pairs including English to Italian, German, French, Japanese, Dutch, Portuguese, Turkish, and Chinese, our experimental results show that fine-tuned gpt3.5 can demonstrate good performance on translation quality prediction tasks, i.e. whether the translation needs to be edited. Another finding is that simply increasing the sizes of LLMs does not lead to apparent better performances on this task by comparing the performance of three different versions of OpenAI models: curie, davinci, and gpt3.5 with 13B, 175B, and 175B parameters, respectively.
翻訳日:2024-06-24 20:37:28 公開日:2024-06-21
# 7.7km反共振ホローコアファイバによるテレコム絡み合った光子の分布

Distribution of Telecom Entangled Photons through a 7.7 km Antiresonant Hollow-Core Fiber ( http://arxiv.org/abs/2308.01337v3 )

ライセンス: Link先を確認
Michael Antesberger, Carla M. D. Richter, Francesco Poletti, Radan Slavík, Periklis Petropoulos, Hannes Hübel, Alessandro Trenti, Philip Walther, Lee A. Rozema, (参考訳) 最先端の古典的および量子的通信は、遠くに光を伝えるために固体コアを持つ標準の光ファイバに依存している。 しかし、近年の進歩により、反共振型中空コア光ファイバ(AR-HCFs)が出現し、これは新しいファイバー幾何学により、固体コアファイバのような材料特性に制限されない、顕著な光誘導特性を示す。 本稿では、1550nmの実験室環境における7.7kmのAR-HCFによる絡み合い光子の透過を探索し、長いAR-HCFによる絡み合い分布の実証に成功した最初の例を示す。 これらの新しいファイバーが長距離量子通信と互換性を持つことを示すことに加えて、時間ビンベースの量子鍵分配プロトコルにおけるセキュアな鍵レートを増大させることができるAR-HCFに固有の低レイテンシと低色分散を強調した。

State of the art classical and quantum communication rely on standard optical fibers with solid cores to transmit light over long distances. However, recent advances have led to the emergence of antiresonant hollow-core optical fibers (AR-HCFs), which due to the novel fiber geometry, show remarkable optical guiding properties, which are not as limited by the material properties as solid-core fibers. In this paper, we explore the transmission of entangled photons through a novel 7.7 km AR-HCF in a laboratory environment at 1550 nm, presenting the first successful demonstration of entanglement distribution via a long AR-HCF. In addition to showing these novel fibers are compatible with long distance quantum communication, we highlight the low latency and low chromatic dispersion intrinsic to AR-HCF, which can increase the secure key rate in time-bin based quantum key distribution protocols.
翻訳日:2024-06-24 20:27:44 公開日:2024-06-21
# XNLP:Universal Structured NLPのための対話型デモシステム

XNLP: An Interactive Demonstration System for Universal Structured NLP ( http://arxiv.org/abs/2308.01846v2 )

ライセンス: Link先を確認
Hao Fei, Meishan Zhang, Min Zhang, Tat-Seng Chua, (参考訳) 構造化自然言語処理 (Structured Natural Language Processing, XNLP) は、NLPの重要なサブセットであり、多くのダウンストリームアプリケーションにおいて基礎となる、テキストのセマンティック構造や構文構造を理解することを必要とする。 XNLPタスクの特定のカテゴリに対する普遍的な解を探求する最近の試みにもかかわらず、XNLPタスクを統一するための包括的で効果的なアプローチは、まだ開発が進んでいない。 一方、XNLPの実証システムは、様々なXNLPタスクを探索する研究者にとって不可欠であるが、既存のプラットフォームは、例えば、少数のXNLPタスクしかサポートせず、相互作用性や普遍性に欠ける。 そこで我々は,LLM を利用して汎用 XNLP を実現する,高度な XNLP デモプラットフォームを提案する。 全体として、我々のシステムは、ユニバーサルXNLPモデリング、ハイパフォーマンス、解釈可能性、スケーラビリティ、相互作用性など、様々な面で進歩し、コミュニティ内で多様なXNLPタスクを探索するための統一されたプラットフォームを提供する。 XNLP は https://xnlp.haofei.vip

Structured Natural Language Processing (XNLP) is an important subset of NLP that entails understanding the underlying semantic or syntactic structure of texts, which serves as a foundational component for many downstream applications. Despite certain recent efforts to explore universal solutions for specific categories of XNLP tasks, a comprehensive and effective approach for unifying all XNLP tasks long remains underdeveloped. In the meanwhile, while XNLP demonstration systems are vital for researchers exploring various XNLP tasks, existing platforms can be limited to, e.g., supporting few XNLP tasks, lacking interactivity and universalness. To this end, we propose an advanced XNLP demonstration platform, where we propose leveraging LLM to achieve universal XNLP, with one model for all with high generalizability. Overall, our system advances in multiple aspects, including universal XNLP modeling, high performance, interpretability, scalability, and interactivity, providing a unified platform for exploring diverse XNLP tasks in the community. XNLP is online: https://xnlp.haofei.vip
翻訳日:2024-06-24 20:27:44 公開日:2024-06-21
# Hilbert-Pólya Conjecture に対するハミルトニアン

Hamiltonian for the Hilbert-Pólya Conjecture ( http://arxiv.org/abs/2309.00405v6 )

ライセンス: Link先を確認
Enderalp Yakaboylu, (参考訳) ヒルベルト・ピオリア予想に対処するためにハミルトニアンを導入する。 導入されたハミルトニアンの固有函数は、正の半直線上のディリクレ境界条件の下で、リーマンゼータ函数の非自明な零点によって原点から消える。 その結果、固有値はこれらの非自明リーマン零点によって決定される。 リーマン予想(RH)が真であれば、固有値は実数となり、非自明な零点の虚部を表す。 逆に、ハミルトニアンが自己随伴であり、あるいはより一般的には、真の固有値しか持たないなら、RH は従う。 後者を証明しようとすると、リーマンゼータ函数の消滅によって固有函数によって満たされる適切な境界条件によって指定された領域上で自己随伴する導入されたハミルトニアンの類似性変換の存在を確立する。 我々の結果は、零点が臨界線上にあるより広い種類の函数に拡張することができる。

We introduce a Hamiltonian to address the Hilbert-P\'olya conjecture. The eigenfunctions of the introduced Hamiltonian, subject to the Dirichlet boundary conditions on the positive half-line, vanish at the origin by the nontrivial zeros of the Riemann zeta function. Consequently, the eigenvalues are determined by these nontrivial Riemann zeros. If the Riemann hypothesis (RH) is true, the eigenvalues become real and represent the imaginary parts of the nontrivial zeros. Conversely, if the Hamiltonian is self-adjoint, or more generally, admits only real eigenvalues, then the RH follows. In our attempt to demonstrate the latter, we establish the existence of a similarity transformation of the introduced Hamiltonian that is self-adjoint on the domain specified by an appropriate boundary condition, which is satisfied by the eigenfunctions through the vanishing of the Riemann zeta function. Our result can be extended to a broader class of functions whose zeros lie on the critical line.
翻訳日:2024-06-24 20:27:44 公開日:2024-06-21
# 正規分布の識別不能スペクトルとプライバシ保護機械学習への応用

The Normal Distributions Indistinguishability Spectrum and its Application to Privacy-Preserving Machine Learning ( http://arxiv.org/abs/2309.01243v3 )

ライセンス: Link先を確認
Yun Lu, Malik Magdon-Ismail, Yu Wei, Vassilis Zikas, (参考訳) 差分プライバシー(DP)は、プライバシに敏感なデータに対する機械学習(ML)の最も一般的な方法である。 ビッグデータ分析では、ランダム化されたスケッチ/アグリゲーションアルゴリズムを使用して、高次元データの処理を可能にすることが多い。 直感的には、そのようなMLアルゴリズムは固有のプライバシを提供するべきであるが、既存のDPメカニズムの多くは、この固有のランダム性を利用していない。 クエリ自体のランダム性を活用して、ランダム化されたMLクエリに対するDPメカニズムの有用性をどのように改善できるか。 肯定的な)答えに向けて、我々の重要な貢献は、我々が NDIS 定理と呼ぶもの(証明)であり、これはいくつかの実践的な意味を持つ理論的な結果である。 簡単に言えば、NDISは2つの任意の正規分布 N1 と N2 の (varepsilon,delta)-indistinguishability-spectrum (IS) に対する閉形式解析計算であり、すなわち N1 と N2 が DP 距離に応じて (varepsilon,delta)-クロースであるような最適デルタ (任意の varepsilon に対して) である。 NDIS定理の重要性は、(1)ISの効率的な推定値が得られること、(2)通常分散出力でDP力学を解析できること、そして、大きな入力でそれらの振る舞いを活用することでより一般的なメカニズムを利用できることにある。 我々はNDIS定理を適用し、正規分布の出力を持つクエリ、すなわちガウスランダム射影(RP)に対してDP機構を導出し、より一般的なクエリ、すなわち通常最小方形(OLS)を導出する。 既存の手法と比較して,提案するDPメカニズムは,基礎となるアルゴリズムのランダム性を利用して,より優れたプライバシー/ユーティリティトレードオフを実現する。 次に、NDIS定理をデータ駆動DPの概念、特に Lu et al [S&P 2024] によって導入された相対DPに適用する。 本手法では,付加的なノイズ発生を必要としない (varepsilon,delta) の範囲を同定する。

Differential Privacy (DP) (and its variants) is the most common method for machine learning (ML) on privacy-sensitive data. In big data analytics, one often uses randomized sketching/aggregation algorithms to make processing high-dimensional data tractable. Intuitively, such ML algorithms should provide some inherent privacy, yet most existing DP mechanisms do not leverage or under-utilize this inherent randomness, resulting in potentially redundant noising. The motivating question of our work is: (How) can we improve the utility of DP mechanisms for randomized ML queries, by leveraging the randomness of the query itself? Towards a (positive) answer, our key contribution is (proving) what we call the NDIS theorem, a theoretical result with several practical implications. In a nutshell, NDIS is a closed-form analytic computation for the (varepsilon,delta)-indistinguishability-spectrum (IS) of two arbitrary normal distributions N1 and N2, i.e., the optimal delta (for any given varepsilon) such that N1 and N2 are (varepsilon,delta)-close according to the DP distance. The importance of the NDIS theorem lies in that (1) it yields efficient estimators for IS, and (2) it allows us to analyze DP-mechanism with normally-distributed outputs, as well as more general mechanisms by leveraging their behavior on large inputs. We apply the NDIS theorem to derive DP mechanisms for queries with normally-distributed outputs--i.e., Gaussian Random Projections (RP)--and for more general queries--i.e., Ordinary Least Squares (OLS). Compared to existing techniques, our new DP mechanisms achieve superior privacy/utility trade-offs by leveraging the randomness of the underlying algorithms. We then apply the NDIS theorem to a data-driven DP notion--in particular relative DP introduced by Lu et al. [S&P 2024]. Our method identifies the range of (varepsilon,delta) for which no additional noising is needed.
翻訳日:2024-06-24 20:27:44 公開日:2024-06-21
# 道路交通事故予測のための不確実性を考慮した確率的グラフニューラルネットワーク

Uncertainty-Aware Probabilistic Graph Neural Networks for Road-Level Traffic Accident Prediction ( http://arxiv.org/abs/2309.05072v2 )

ライセンス: Link先を確認
Xiaowei Gao, Xinke Jiang, Dingyi Zhuang, Huanfa Chen, Shenhao Wang, Stephen Law, James Haworth, (参考訳) 交通事故は、都市部における人間の安全と社会経済の発展に重大な課題をもたらす。 交通事故予測モデルの構築は、公共の安全に関する懸念の高まりに対処し、都市交通システムの安全性を高める上で重要である。 従来の手法では、高リスク事故の散発性や非事故特性の優位性により、時空間的に微妙な制限に直面している。 さらに,ほとんどのモデルでは,事故発生予測が期待されているものの,事故の本質から生じる不確実性を見落として,事故リスク値の階層的ランキングを適切にマッピングし,より正確な洞察を得ることができない。 これらの問題に対処するために、道路交通事故予測における最初の不確実性を考慮した確率的グラフ深層学習モデルであるSpatiotemporal ZeroInflated Tweedie Graph Neural Network ,STZITDGNNを導入する。 このモデルは、統計的ツイーディー族モデルの解釈可能性とグラフニューラルネットワークの表現力を統合する。 そのデコーダは、複合Tweedieモデル、事故発生頻度をモデル化するPoisson分布、負傷重大度を評価するGamma分布を革新的に採用し、ゼロインフレード成分で補足され、エキサイティングな非事故事例を効果的に同定する。 ロンドンにおける実世界の交通データを用いた実証テストでは、STZITDGNNが、事故リスクの予測、不確実性最小化、事故発生の特定、事故発生の正確性など、複数のベンチマークとメトリクスで、他のベースラインモデルを上回ることが示されている。 本研究は,STZTIDGNNが目標道路の監視を効果的に行えることを示し,都市道路安全戦略の改善を図った。

Traffic accidents present substantial challenges to human safety and socioeconomic development in urban areas. Developing a reliable and responsible traffic accident prediction model is crucial to addressing growing public safety concerns and enhancing the safety of urban mobility systems. Traditional methods face limitations at fine spatiotemporal scales due to the sporadic nature of highrisk accidents and the predominance of nonaccident characteristics. Furthermore, while most current models show promising occurrence prediction, they overlook the uncertainties arising from the inherent nature of accidents, and then fail to adequately map the hierarchical ranking of accident risk values for more precise insights. To address these issues, we introduce the Spatiotemporal ZeroInflated Tweedie Graph Neural Network ,STZITDGNN, the first uncertainty-aware probabilistic graph deep learning model in roadlevel traffic accident prediction for multi-steps. This model integrates the interpretability of the statistical Tweedie family model and the expressive power of graph neural networks. Its decoder innovatively employs a compound Tweedie model, a Poisson distribution to model the frequency of accident occurrences and a Gamma distribution to assess injury severity, supplemented by a zeroinflated component to effectively identify exessive non-incident instances. Empirical tests using realworld traffic data from London, UK, demonstrate that the STZITDGNN surpasses other baseline models across multiple benchmarks and metrics, including accident risk value prediction, uncertainty minimisation, nonaccident road identification and accident occurrence accuracy. Our study demonstrates that STZTIDGNN can effectively inform targeted road monitoring, thereby improving urban road safety strategies.
翻訳日:2024-06-24 20:27:44 公開日:2024-06-21
# 次元最大3のヒルベルト部分空間における絡み合いと分離性の幾何学

Geometry of entanglement and separability in Hilbert subspaces of dimension up to three ( http://arxiv.org/abs/2309.05144v2 )

ライセンス: Link先を確認
Rotem Liss, Tal Mor, Andreas Winter, (参考訳) 両部量子系と多部量子系の3次元ヒルベルト部分空間における交叉状態と分離状態の相互補完的な集合の幾何学の完全な分類を示す。 我々の解析は、与えられた3次元ヒルベルト部分空間における純積状態の幾何学的構造を発見し、同じ部分空間上のすべての可分かつ絡み合った混合状態を決定することから始まる。 バイパルタイト系では、任意の3次元ヒルベルト部分空間における可分状態の集合に対して、14の可能な定性的に異なる幾何学的形状を特徴づける(このクラスは2次元部分空間に現れ、ボイヤー、リス、モー(Phys. Rev. A 95:032308, 2017)によって発見され、解析され、また9つの新しいクラスは3次元部分空間にのみ現れる)。 また、これらの結果を一般化して、多部系の3次元部分空間における完全分離状態の集合(従って、やや絡み合った状態の相補的集合)を特徴づける。 この結果から, 量子エンタングルメントの幾何学的形状は, 低次元部分空間において成立し得ないことが示唆された。

We present a complete classification of the geometry of the mutually complementary sets of entangled and separable states in three-dimensional Hilbert subspaces of bipartite and multipartite quantum systems. Our analysis begins by finding the geometric structure of the pure product states in a given three-dimensional Hilbert subspace, which determines all the possible separable and entangled mixed states over the same subspace. In bipartite systems, we characterise the 14 possible qualitatively different geometric shapes for the set of separable states in any three-dimensional Hilbert subspace (5 classes which also appear in two-dimensional subspaces and were found and analysed by Boyer, Liss and Mor [Phys. Rev. A 95:032308, 2017], and 9 novel classes which appear only in three-dimensional subspaces), describe their geometries, and provide figures illustrating them. We also generalise these results to characterise the sets of fully separable states (and hence the complementary sets of somewhat entangled states) in three-dimensional subspaces of multipartite systems. Our results show which geometrical forms quantum entanglement can and cannot take in low-dimensional subspaces.
翻訳日:2024-06-24 20:27:44 公開日:2024-06-21
# 鏡視下手術機器位置決め用YOLOネットワーク

Weakly Supervised YOLO Network for Surgical Instrument Localization in Endoscopic Videos ( http://arxiv.org/abs/2309.13404v3 )

ライセンス: Link先を確認
Rongfeng Wei, Jinlin Wu, Xuexue Bai, Ming Feng, Zhen Lei, Hongbin Liu, Zhen Chen, (参考訳) 最小侵襲手術では、手術器具のローカライゼーションは内視鏡的ビデオにとって重要な課題であり、手術結果の改善に様々な応用が可能である。 しかし、内視鏡的ビデオにおける楽器の局在の注釈付けは退屈であり、労働集約的である。 対照的に、カテゴリ情報を取得することは、現実世界のアプリケーションでは簡単かつ効率的である。 分類情報を十分に活用し, 局所化問題に対処するために, 手術機器用WS-YOLOという, 弱教師付き局所化フレームワークを提案する。 楽器カテゴリー情報を弱い監督力として活用することにより、当社のWS-YOLOフレームワークは、ローカライゼーション能力トレーニングに教師なしのマルチラウンドトレーニング戦略を採用する。 手術器具の低調な位置合わせにおいて優れた性能を発揮する内視鏡視力チャレンジ2023データセット上でのWS-YOLOフレームワークの有効性を検証した。 ソースコードはhttps://github.com/Breezewrf/WS-YOLOで公開されている。

In minimally invasive surgery, surgical instrument localization is a crucial task for endoscopic videos, which enables various applications for improving surgical outcomes. However, annotating the instrument localization in endoscopic videos is tedious and labor-intensive. In contrast, obtaining the category information is easy and efficient in real-world applications. To fully utilize the category information and address the localization problem, we propose a weakly supervised localization framework named WS-YOLO for surgical instruments. By leveraging the instrument category information as the weak supervision, our WS-YOLO framework adopts an unsupervised multi-round training strategy for the localization capability training. We validate our WS-YOLO framework on the Endoscopic Vision Challenge 2023 dataset, which achieves remarkable performance in the weakly supervised surgical instrument localization. The source code is available at https://github.com/Breezewrf/WS-YOLO.
翻訳日:2024-06-24 20:27:44 公開日:2024-06-21
# 微分逆流の直接微調整拡散モデル

Directly Fine-Tuning Diffusion Models on Differentiable Rewards ( http://arxiv.org/abs/2309.17400v2 )

ライセンス: Link先を確認
Kevin Clark, Paul Vicol, Kevin Swersky, David J Fleet, (参考訳) 人選好モデルからのスコアなど、微分可能な報酬関数を最大化するために、拡散モデルの簡易かつ効果的な方法であるダイレクト・リワード・ファインチューニング(DRaFT)を提案する。 まず,本手法により報酬関数勾配を逆伝播させることが可能であること,さらに,様々な報奨に対して高い性能を達成し,強化学習に基づくアプローチよりも優れていることを示す。 次に DRaFT のより効率的な変種を提案する: DRaFT-K と DRaFT-LV は、K=1 の場合の低分散勾配推定値を得る。 提案手法は,様々な報酬関数に対して有効であり,安定拡散1.4で生成した画像の美的品質を大幅に向上させることができる。 最後に、我々のアプローチと先行作業の関連性を描き、勾配に基づく微調整アルゴリズムの設計空間について統一的な視点を提供する。

We present Direct Reward Fine-Tuning (DRaFT), a simple and effective method for fine-tuning diffusion models to maximize differentiable reward functions, such as scores from human preference models. We first show that it is possible to backpropagate the reward function gradient through the full sampling procedure, and that doing so achieves strong performance on a variety of rewards, outperforming reinforcement learning-based approaches. We then propose more efficient variants of DRaFT: DRaFT-K, which truncates backpropagation to only the last K steps of sampling, and DRaFT-LV, which obtains lower-variance gradient estimates for the case when K=1. We show that our methods work well for a variety of reward functions and can be used to substantially improve the aesthetic quality of images generated by Stable Diffusion 1.4. Finally, we draw connections between our approach and prior work, providing a unifying perspective on the design space of gradient-based fine-tuning algorithms.
翻訳日:2024-06-24 20:27:44 公開日:2024-06-21
# 双極子量子シミュレータによる障害効果と基礎相によるプログラム可能な順序

Programmable order by disorder effect and underlying phases through dipolar quantum simulators ( http://arxiv.org/abs/2310.00849v3 )

ライセンス: Link先を確認
Huan-Kuang Wu, Takafumi Suzuki, Naoki Kawashima, Wei-Lin Tu, (参考訳) 本研究では, 双極子-双極子相互作用を持つ分子からなる2種類の量子シミュレータについて, 理論的および数値的手法を用いて検討した。 最初の結果は、制御可能な対角異方性を持つ三角光学格子内の円状リドバーグ原子からなる量子シミュレータでプログラムできる$S=1/2$系の障害効果による量子秩序に関する知識を提供する。 上向きスピンと下向きスピンの数が等しいとき、一組の亜指数退化基底状態が古典的極限に存在し、構成が大きな自由度を持つ連続弦からなる。 実空間摂動理論を応用して、この計算により縮退の解除が示され、ストライプ構成が好まれる。 J$が大きくなると、無限に投影された絡み合った状態~(iPEPS)を採用し、退化性持ち上げの効果を数値的に検証する。 iPEPSの結果, スピン交換結合が強い場合でも, ストライプパターンが好まれることがわかった。 次に,光格子内における双極子-双極子相互作用を持つコールド原子ガスからなる量子シミュレータを用いて,傾斜極角の双極子ボソニックモデルについて検討する。 原子を三角形格子に配置し、極角を傾けることで、ボゾン系でも対角異方性を実現することができる。 クラスター平均場理論の計算により、傾斜角度の異なる様々な位相図が提供され、スーパーソリッドを含む多くの基礎的な位相が示される。 本提案では,量子効果と異常位相の研究において,量子シミュレータによる実現可能なシナリオを提案する。 この結果が,二次元量子シミュレーターの優れたベンチマークとなる可能性が示唆された。

In this work, we study two different quantum simulators composed of molecules with dipole-dipole interaction through various theoretical and numerical tools. Our first result provides knowledge upon the quantum order by disorder effect of the $S=1/2$ system, which is programmable in a quantum simulator composed of circular Rydberg atoms in the triangular optical lattice with a controllable diagonal anisotropy. When the numbers of up spins and down spins are equal, a set of sub-extensive degenerate ground states is present in the classical limit, composed of continuous strings whose configuration enjoys a large degree of freedom. Adopting the the real space perturbation theory, our calculation demonstrates a lifting of the degeneracy, favoring the stripe configuration. When $J$ becomes larger, we adopt the infinite projected entangled-pair state~(iPEPS) and numerically check the effect of degeneracy lifting. The iPEPS results show that even when the spin exchange coupling is strong the stripe pattern is still favored. Next, we study the dipolar bosonic model with tilted polar angle which can be realized through a quantum simulator composed of cold atomic gas with dipole-dipole interaction in an optical lattice. By placing the atoms in a triangular lattice and tilting the polar angle, the diagonal anisotropy can also be realized in the bosonic system. With our cluster mean-field theory calculation, we provide various phase diagrams with different tilted angles, showing the abundant underlying phases including the supersolid. Our proposal indicates realizable scenarios through quantum simulators in studying the quantum effect as well as extraordinary phases. We believe that our results indicated here can also become a good benchmark for the two-dimensional quantum simulators.
翻訳日:2024-06-24 20:27:44 公開日:2024-06-21
# オフライン・オンライン強化学習におけるアウト・オブ・ディストリビューションの計画

Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning ( http://arxiv.org/abs/2310.05723v3 )

ライセンス: Link先を確認
Trevor McInroe, Adam Jelley, Stefano V. Albrecht, Amos Storkey, (参考訳) 静的データセットによるオフライン事前トレーニングに続いて、オンラインファインチューニング(オフラインからオフライン、あるいはOtO)は、現実世界のRLデプロイメントプロセスによくマッチするパラダイムである。 このシナリオでは、オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目的としている。 OtO設定における以前の研究は、オフラインRLアルゴリズムのポリシー制約機構によって導入されたバイアスの修正に重点を置いていた。 このような制約は、学習したポリシーをデータセットを収集した行動ポリシーに近く保ちますが、行動ポリシーが最適ではない場合、この制約はポリシーのパフォーマンスを不必要に制限する可能性があることを示します。 代わりに、オンラインデータ収集のメリットを最大化することを目的とした探索問題として、制約を廃止し、OtO RLを定めています。 OtO設定における固有報酬と UCB に基づく主要なオンライン RL 探索手法を最初に研究し、固有報酬が報酬-機能修正によるトレーニング不安定性を高め、UTB 法が筋電図であり、学習者がどのアンサンブルを用いて行動選択を行うかは不明確であることを示した。 次に,これらの問題を回避するために,配電所外(PTGOOD)を計画するアルゴリズムを導入する。 PTGOODは、行動方針によって訪れる可能性が低い比較的高水準の国家行動空間における探索を対象とする、非明視的な計画手順を使用している。 Conditional Entropy Bottleneckの概念を活用することで、PTGOODはオンラインで収集されたデータを奨励し、報酬を変更することなく最終的なデプロイメントポリシを改善するための新たな情報を提供する。 我々は、PTGOODがオンラインの微調整中にエージェントリターンを大幅に改善する連続制御タスクを経験的に示し、我々のベースラインの多くがいくつかの環境で示している最適政策収束を回避する。

Offline pretraining with a static dataset followed by online fine-tuning (offline-to-online, or OtO) is a paradigm well matched to a real-world RL deployment process. In this scenario, we aim to find the best-performing policy within a limited budget of online interactions. Previous work in the OtO setting has focused on correcting for bias introduced by the policy-constraint mechanisms of offline RL algorithms. Such constraints keep the learned policy close to the behavior policy that collected the dataset, but we show this can unnecessarily limit policy performance if the behavior policy is far from optimal. Instead, we forgo constraints and frame OtO RL as an exploration problem that aims to maximize the benefit of online data-collection. We first study the major online RL exploration methods based on intrinsic rewards and UCB in the OtO setting, showing that intrinsic rewards add training instability through reward-function modification, and UCB methods are myopic and it is unclear which learned-component's ensemble to use for action selection. We then introduce an algorithm for planning to go out-of-distribution (PTGOOD) that avoids these issues. PTGOOD uses a non-myopic planning procedure that targets exploration in relatively high-reward regions of the state-action space unlikely to be visited by the behavior policy. By leveraging concepts from the Conditional Entropy Bottleneck, PTGOOD encourages data collected online to provide new information relevant to improving the final deployment policy without altering rewards. We show empirically in several continuous control tasks that PTGOOD significantly improves agent returns during online fine-tuning and avoids the suboptimal policy convergence that many of our baselines exhibit in several environments.
翻訳日:2024-06-24 20:27:44 公開日:2024-06-21
# 分散推論と学習における指数量子通信の利点

Exponential Quantum Communication Advantage in Distributed Inference and Learning ( http://arxiv.org/abs/2310.07136v2 )

ライセンス: Link先を確認
Hagay Michaeli, Dar Gilboa, Daniel Soudry, Jarrod R. McClean, (参考訳) 個々のデバイスのメモリ容量をはるかに超える大規模な機械学習モデルによるトレーニングと推論は、分散アーキテクチャの設計を必要とするため、通信制約と競合せざるを得ない。 本稿では、データを特殊な量子状態に符号化する量子ネットワーク上での分散計算のためのフレームワークを提案する。 このフレームワーク内のモデルでは、従来のアナログよりも指数関数的に少ない通信で、標準勾配に基づく手法と比較して比較的緩やかなオーバーヘッドで、勾配降下を用いた推論と訓練を行うことができることを証明している。 特定のグラフニューラルネットワークがこのフレームワークの実装に特に適していることを示し、さらに標準ベンチマークでうまく動作することを示す実証的な証拠を提示する。 我々の知る限り、これはデータ符号化コストに関係なく保持される一般的な機械学習問題に対する指数量子優位の最初の例である。 さらに,このクラスのモデルでは,入力の非線形な特徴を符号化することができ,その表現性はモデル深度とともに指数関数的に増大することを示す。 また,指数的通信の優位性が線形分類には耐えられないことを示すことによって,モデル空間を導出する。 我々の結果は、データとモデルパラメータについてそれらから抽出できる情報の量を制限する、通信された量子状態における自然なプライバシー上の利点と組み合わせることができる。 全体として見れば、これらの発見は量子ネットワーク上で分散機械学習を実現する上で有望な基盤となっている。

Training and inference with large machine learning models that far exceed the memory capacity of individual devices necessitates the design of distributed architectures, forcing one to contend with communication constraints. We present a framework for distributed computation over a quantum network in which data is encoded into specialized quantum states. We prove that for models within this framework, inference and training using gradient descent can be performed with exponentially less communication compared to their classical analogs, and with relatively modest overhead relative to standard gradient-based methods. We show that certain graph neural networks are particularly amenable to implementation within this framework, and moreover present empirical evidence that they perform well on standard benchmarks. To our knowledge, this is the first example of exponential quantum advantage for a generic class of machine learning problems that hold regardless of the data encoding cost. Moreover, we show that models in this class can encode highly nonlinear features of their inputs, and their expressivity increases exponentially with model depth. We also delineate the space of models for which exponential communication advantages hold by showing that they cannot hold for linear classification. Our results can be combined with natural privacy advantages in the communicated quantum states that limit the amount of information that can be extracted from them about the data and model parameters. Taken as a whole, these findings form a promising foundation for distributed machine learning over quantum networks.
翻訳日:2024-06-24 20:27:44 公開日:2024-06-21
# 隠れターゲット検出の量子限界

Quantum limits of covert target detection ( http://arxiv.org/abs/2310.11013v3 )

ライセンス: Link先を確認
Guo Yao Tham, Ranjith Nair, Mile Gu, (参考訳) 秘密の標的検出では、アリスは光学的またはマイクロ波的なプローブを送り、標的領域内の熱背景放射に埋め込まれた弱い反射する標的の有無を判定する一方で、敵のウィリー(Willie)によって検出されないよう努力する。 我々はこの問題を現実的な設定で定式化し、ウィリーによる任意の固定レベルにおける絡み付き目標検出におけるアリスの誤差確率性能の量子力学的制限を導出する。 本研究では,2モード圧縮真空プローブを用いて,背景輝度が小さい場合と中程度の場合と,ガウス分布コヒーレント状態を用いて従来の手法よりも優れている場合を実証する。 さらに、受動符号仮定を必要とせず、非逆量子照明の普遍的な性能を導出する。

In covert target detection, Alice attempts to send optical or microwave probes to determine the presence or absence of a weakly-reflecting target embedded in thermal background radiation within a target region, while striving to remain undetected by an adversary, Willie, who is co-located with the target and collects all light that does not return to Alice. We formulate this problem in a realistic setting and derive quantum-mechanical limits on Alice's error probability performance in entanglement-assisted target detection for any fixed level of her detectability by Willie. We demonstrate how Alice can approach this performance limit using two-mode squeezed vacuum probes in the regime of small to moderate background brightness, and how such protocols can outperform any conventional approach using Gaussian-distributed coherent states. In addition, we derive a universal performance bound for non-adversarial quantum illumination without requiring the passive-signature assumption.
翻訳日:2024-06-24 20:27:44 公開日:2024-06-21
# NeuroCUT:ロバストグラフ分割のためのニューラルネットワーク

NeuroCUT: A Neural Approach for Robust Graph Partitioning ( http://arxiv.org/abs/2310.11787v3 )

ライセンス: Link先を確認
Rishi Shah, Krishnanshu Jain, Sahil Manchanda, Sourav Medya, Sayan Ranu, (参考訳) グラフ分割は、グラフを分離したサブセットに分割し、特定のパーティショニングの目的を最適化することを目的としている。 グラフ分割に関する定式化の大部分は、その組合せの性質によりNP硬度を示す。 近似アルゴリズムやヒューリスティックスのような従来の手法は、異なる分割目的のために設計されており、他の重要な分割目的に対して一般化を達成できない。 近年,データから直接学習する機械学習ベースの手法が開発されている。 さらに、これらの手法は追加情報を運ぶノード特徴を利用するという明確な利点がある。 しかし、これらの手法は対象の分割対象関数の微分可能性を仮定し、未知の数の分割を一般化することはできない。 本研究では,従来の手法よりも2つの重要な革新を生かしたNeuroCUTを開発した。 まず、グラフニューラルネットワークから派生したノード表現と位置特徴に対して強化学習に基づくフレームワークを活用することにより、NeuroCUTは、微分不可能な関数であっても、任意の最適化目標を満たすことができる。 次に、パラメータ空間とパーティションカウントを分離し、クエリ時に提供される任意のパーティション数にNeuroCUTを誘導する。 実験的な評価により,NeuroCUTは高品質なパーティションの同定に優れ,分割対象の広い範囲にわたる強力な一般化を示し,見当たらないパーティション数に対する強力な一般化を示す。

Graph partitioning aims to divide a graph into disjoint subsets while optimizing a specific partitioning objective. The majority of formulations related to graph partitioning exhibit NP-hardness due to their combinatorial nature. Conventional methods, like approximation algorithms or heuristics, are designed for distinct partitioning objectives and fail to achieve generalization across other important partitioning objectives. Recently machine learning-based methods have been developed that learn directly from data. Further, these methods have a distinct advantage of utilizing node features that carry additional information. However, these methods assume differentiability of target partitioning objective functions and cannot generalize for an unknown number of partitions, i.e., they assume the number of partitions is provided in advance. In this study, we develop NeuroCUT with two key innovations over previous methodologies. First, by leveraging a reinforcement learning-based framework over node representations derived from a graph neural network and positional features, NeuroCUT can accommodate any optimization objective, even those with non-differentiable functions. Second, we decouple the parameter space and the partition count making NeuroCUT inductive to any unseen number of partition, which is provided at query time. Through empirical evaluation, we demonstrate that NeuroCUT excels in identifying high-quality partitions, showcases strong generalization across a wide spectrum of partitioning objectives, and exhibits strong generalization to unseen partition count.
翻訳日:2024-06-24 20:17:57 公開日:2024-06-21
# GestureGPT:大規模言語モデルエージェントによるゼロショット対話型ジェスチャー理解とグラウンド化を目指して

GestureGPT: Toward Zero-shot Interactive Gesture Understanding and Grounding with Large Language Model Agents ( http://arxiv.org/abs/2310.12821v4 )

ライセンス: Link先を確認
Xin Zeng, Xiaoyu Wang, Tengxiang Zhang, Chun Yu, Shengdong Zhao, Yiqiang Chen, (参考訳) 現在のジェスチャーインターフェースでは、ユーザーが事前に定義されたセットからジェスチャーを学習し実行する必要があるため、より自然な体験が得られない。 ユーザ定義のジェスチャーをサポートするインターフェースは学習プロセスを排除するが、ユーザはまだ、ジェスチャーを特定のシステム機能自体に示し、関連付ける必要がある。 GestureGPTは自由形式のジェスチャー理解フレームワークで、ユーザはジェスチャーを学習したり、デモしたり、関連づけたりする必要がなくなる。 本フレームワークは,自然言語記述から自然に実行されたジェスチャーを理解するために,多言語モデル(LLM)の直感的共通感覚と強い推論能力を活用し,インタフェースによって提供される関数に自動的にマッピングする。 より具体的には、我々のトリプルエージェントフレームワークは、手の位置座標に基づいて手ポーズや動きの自然言語記述を自動的にセグメント化し、定式化するジェスチャー記述エージェントを含んでいる。 この記述は、コンテキスト管理エージェントが組織し提供する相互作用コンテキスト(例えば、インタラクション履歴、視線データ)についての自己推論とクエリを通じて、ジェスチャ推論エージェントによって解読される。 反復的な交換に続いて、gesture Inference Agentはユーザー意図を識別し、それを対話的な機能に固定する。 私たちは、スマートホームコントロールとオンラインビデオストリーミングという2つの現実シナリオの下で、概念的なフレームワークを検証しました。 平均ゼロショットのTop-5接地精度は、スマートホームタスクでは83.59%、ビデオストリーミングでは73.44%である。 また、モデル選択の合理性、生成された記述品質、一般化可能性などを含む、我々のフレームワークに関する広範な議論も行いました。

Current gesture interfaces typically demand users to learn and perform gestures from a predefined set, which leads to a less natural experience. Interfaces supporting user-defined gestures eliminate the learning process, but users still need to demonstrate and associate the gesture to a specific system function themselves. We introduce GestureGPT, a free-form hand gesture understanding framework that does not require users to learn, demonstrate, or associate gestures. Our framework leverages the large language model's (LLM) astute common sense and strong inference ability to understand a spontaneously performed gesture from its natural language descriptions, and automatically maps it to a function provided by the interface. More specifically, our triple-agent framework involves a Gesture Description Agent that automatically segments and formulates natural language descriptions of hand poses and movements based on hand landmark coordinates. The description is deciphered by a Gesture Inference Agent through self-reasoning and querying about the interaction context (e.g., interaction history, gaze data), which a Context Management Agent organizes and provides. Following iterative exchanges, the Gesture Inference Agent discerns user intent, grounding it to an interactive function. We validated our conceptual framework under two real-world scenarios: smart home controlling and online video streaming. The average zero-shot Top-5 grounding accuracies are 83.59% for smart home tasks and 73.44% for video streaming. We also provided an extensive discussion of our framework including model selection rationale, generated description quality, generalizability etc.
翻訳日:2024-06-24 20:17:56 公開日:2024-06-21
# ZoomNeXt:カモフラージュ物体検出のための統一協調ピラミッドネットワーク

ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection ( http://arxiv.org/abs/2310.20208v3 )

ライセンス: Link先を確認
Youwei Pang, Xiaoqi Zhao, Tian-Zhu Xiang, Lihe Zhang, Huchuan Lu, (参考訳) 最近のcamouflaged object detection (COD)は、現実世界のシナリオでは極めて複雑で困難である、視覚的にブレンドされた物体を周囲に分割しようとする試みである。 カモフラージュされた物体とそれらの背景の間の本質的な類似性は別として、物体は通常、スケールが多様であり、外観がファジィで、さらに密閉されている。 そこで本研究では,不明瞭な画像やビデオのズームインやズームアウトを行う際の人間の行動を模倣する,効果的な統合型ピラミッドネットワークを提案する。 具体的には,マルチヘッドスケール統合とリッチな粒度認識ユニットによる識別的混合スケール意味論の学習に,ズーム方式を用いている。 前者の本質的なマルチヘッドアグリゲーションは、より多様な視覚パターンを提供する。 後者のルーティング機構は、時空間シナリオにおけるフレーム間差異を効果的に伝播し、静的表現のために適応的に非活性化し、全ゼロ結果を出力する。 静的および動的CODのための統一アーキテクチャを実現するための強固な基盤を提供する。 さらに,不明瞭なテクスチャから生じる不確実性とあいまいさを考慮し,候補領域に高い信頼を抱く予測を促進するため,単純で効果的な正規化,不確実性認識損失を構築した。 我々のタスクフレンドリーなフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法よりも一貫して優れています。

Recent camouflaged object detection (COD) attempts to segment objects visually blended into their surroundings, which is extremely complex and difficult in real-world scenarios. Apart from the high intrinsic similarity between camouflaged objects and their background, objects are usually diverse in scale, fuzzy in appearance, and even severely occluded. To this end, we propose an effective unified collaborative pyramid network that mimics human behavior when observing vague images and videos, \ie zooming in and out. Specifically, our approach employs the zooming strategy to learn discriminative mixed-scale semantics by the multi-head scale integration and rich granularity perception units, which are designed to fully explore imperceptible clues between candidate objects and background surroundings. The former's intrinsic multi-head aggregation provides more diverse visual patterns. The latter's routing mechanism can effectively propagate inter-frame differences in spatiotemporal scenarios and be adaptively deactivated and output all-zero results for static representations. They provide a solid foundation for realizing a unified architecture for static and dynamic COD. Moreover, considering the uncertainty and ambiguity derived from indistinguishable textures, we construct a simple yet effective regularization, uncertainty awareness loss, to encourage predictions with higher confidence in candidate regions. Our highly task-friendly framework consistently outperforms existing state-of-the-art methods in image and video COD benchmarks.
翻訳日:2024-06-24 20:17:56 公開日:2024-06-21
# $\mathbb{Z}_3$キラルクロックモデルにおけるエネルギー輸送の温度依存性

Temperature dependence of energy transport in the $\mathbb{Z}_3$ chiral clock model ( http://arxiv.org/abs/2311.00046v3 )

ライセンス: Link先を確認
Yongchan Yoo, Brian Swingle, (参考訳) 一次元の$\mathbb{Z}_3$キラルクロックモデルの非可積分状態におけるエネルギー輸送を研究するために行列積状態シミュレーションを用いる。 システム全体の非平衡定常状態を誘導するために, 温度とフットプリントを調節可能なジャンプ演算子を特徴とする境界駆動による開系力学を考察する。 熱アンサンブルの局所状態と局所状態とのトレース距離を最小化することにより, 有効局所温度の診断を行う。 スケーリング解析により, 空隙温度と空隙温度の両方以上の比較的高温でモデルの輸送係数を抽出する。 中~高温の状態では、低温物理学によらず拡散輸送が観察される。 モデルパラメータの関数としてのエネルギー拡散定数の温度依存性を計算する。 特に、ギャップのない状態でも、電力系列展開に基づく解析は、比較的限られた設定で中間温度輸送にアクセス可能であることを示唆している。 量子臨界スケーリングが観測される温度には達していないが、我々の手法は幅広い温度とパラメータでモデルの輸送特性にアクセスすることができる。 提案手法の限界と,その範囲を広げる可能性,例えば温度を下げる可能性について論じる。

We employ matrix product state simulations to study energy transport within the non-integrable regime of the one-dimensional $\mathbb{Z}_3$ chiral clock model. To induce a non-equilibrium steady state throughout the system, we consider open system dynamics with boundary driving featuring jump operators with adjustable temperature and footprint in the system. Given a steady state, we diagnose the effective local temperature by minimizing the trace distance between the true local state and the local state of a uniform thermal ensemble. Via a scaling analysis, we extract the transport coefficients of the model at relatively high temperatures above both its gapless and gapped low-temperature phases. In the medium-to-high temperature regime we consider, diffusive transport is observed regardless of the low-temperature physics. We calculate the temperature dependence of the energy diffusion constant as a function of model parameters, including in the regime where the model is quantum critical at the low temperature. Notably, even within the gapless regime, an analysis based on power series expansion implies that intermediate-temperature transport can be accessed within a relatively confined setup. Although we are not yet able to reach temperatures where quantum critical scaling would be observed, our approach is able to access the transport properties of the model over a broad range of temperatures and parameters. We conclude by discussing the limitations of our method and potential extensions that could expand its scope, for example, to even lower temperatures.
翻訳日:2024-06-24 20:17:56 公開日:2024-06-21
# 物理学における計算不可能性とは

How Real is Incomputability in Physics? ( http://arxiv.org/abs/2311.00908v2 )

ライセンス: Link先を確認
José Manuel Agüero Trejo, Cristian S. Calude, Michael J. Dinneen, Arkady Fedorov, Anatoly Kulikov, Rohit Navarathna, Karl Svozil, (参考訳) 物理系は、方程式で表される初期条件と「法則」の有限集合によって決定される。 このシステムは、「数学的知識の有限体」を用いて全てのインスタンスの方程式を解くことができれば計算可能である。 この場合、システムの法則がコンピュータプログラムにコード化され、システムの初期条件が与えられたら、システムの進化を計算することができる。 計算不能な物理系はあるか? この問題は過去30年から40年の間に理論的に研究されてきた。 本稿では、量子実験の強い計算不可能性、すなわち量子乱数生成器の出力を初めて実験的に示す。 さらに、実験結果は頑健で統計的に有意である。

A physical system is determined by a finite set of initial conditions and "laws" represented by equations. The system is computable if we can solve the equations in all instances using a "finite body of mathematical knowledge". In this case, if the laws of the system can be coded into a computer program, then given the initial conditions of the system, one can compute the system's evolution. Are there incomputable physical systems? This question has been theoretically studied in the last 30-40 years. In this paper, we experimentally show for the first time the strong incomputability of a quantum experiment, namely the outputs of a quantum random number generator. Moreover, the experimental results are robust and statistically significant.
翻訳日:2024-06-24 20:17:56 公開日:2024-06-21
# 高次演算を用いたベイズ量子パラメータ推定における最適プロトコルの設計

Designing optimal protocols in Bayesian quantum parameter estimation with higher-order operations ( http://arxiv.org/abs/2311.01513v2 )

ライセンス: Link先を確認
Jessica Bavaresco, Patryk Lipka-Bartosik, Pavel Sekatski, Mohammad Mehboudi, (参考訳) センサやプローブとして量子システムを使用することで、絡み合いのようなユニークな量子的特徴を利用することで、パラメータ推定の精度を大幅に向上することが示されている。 量子センシングの主要な課題は、最適なプロトコル、すなわち最も正確なプロトコルを設計することである。 この問題の特定の事例については解決されていないが、一般には数値的な方法さえ分かっていない。 ここでは、プローブの最適初期状態(補助システムと絡み合うことができる)、最適測定、最適推定関数を見つけることを目標とする単発ベイズ設定に焦点を当てる。 我々は高階演算の定式化を利用して、任意の精度で最適値に近いプロトコルを見つける半定値プログラミングに基づく手法を開発する。 重要なことは、我々の手法は特定の量子進化、コスト関数、あるいは事前分布に限らず、任意の推定問題に適用できる。 また、単パラメータ推定にも多パラメータ推定にも適用できる。 本手法は, 単元相推定, ボゾン浴中の温度測定, SU(2)変換のマルチパラメータ推定の3つの例で実証した。 提案手法の展開により,文献からいくつかの結果が得られた。 例えば、温度測定の場合、任意の有限時間で最適なプロトコルを見つけ、絡み合いの有用性を定量化する。

Using quantum systems as sensors or probes has been shown to greatly improve the precision of parameter estimation by exploiting unique quantum features such as entanglement. A major task in quantum sensing is to design the optimal protocol, i.e., the most precise one. It has been solved for some specific instances of the problem, but in general even numerical methods are not known. Here, we focus on the single-shot Bayesian setting, where the goal is to find the optimal initial state of the probe (which can be entangled with an auxiliary system), the optimal measurement, and the optimal estimator function. We leverage the formalism of higher-order operations to develop a method based on semidefinite programming that finds a protocol that is close to the optimal one with arbitrary precision. Crucially, our method is not restricted to any specific quantum evolution, cost function or prior distribution, and thus can be applied to any estimation problem. Moreover, it can be applied to both single or multiparameter estimation tasks. We demonstrate our method with three examples, consisting of unitary phase estimation, thermometry in a bosonic bath, and multiparameter estimation of an SU(2) transformation. Exploiting our methods, we extend several results from the literature. For example, in the thermometry case, we find the optimal protocol at any finite time and quantify the usefulness of entanglement.
翻訳日:2024-06-24 20:17:56 公開日:2024-06-21
# Black-Box Prompt Optimization: モデルトレーニングなしで大規模言語モデルを調整する

Black-Box Prompt Optimization: Aligning Large Language Models without Model Training ( http://arxiv.org/abs/2311.04155v3 )

ライセンス: Link先を確認
Jiale Cheng, Xiao Liu, Kehan Zheng, Pei Ke, Hongning Wang, Yuxiao Dong, Jie Tang, Minlie Huang, (参考訳) 大規模言語モデル(LLM)は、様々なアプリケーションで顕著な成功を収めている。 しかしながら、これらのモデルは人間の意図とよく一致しないことが多く、それらに対する追加的な治療、すなわちアライメントの問題を要求する。 LLMがユーザー指示に従うのを良くするために、既存のアライメントメソッドは主にそれらをさらに訓練することに焦点を当てている。 さらに悪いことに、一部のLLMはGPTのようなユーザ要求のトレーニングにはアクセスできない。 この作業では、アライメントを実行するために、別の視点 -- Black-Box Prompt Optimization (BPO) -- を取ります。 ユーザプロンプトをLLMの入力理解に合わせるように最適化し、LLMのパラメータを更新せずにユーザの意図を最大限に実現する。 BPOは人間の好みを利用してプロンプトを最適化するので、プロンプトエンジニアとしてLLM(例えばChatGPT)よりも優れている。 さらに, BPOはモデル非依存であり, 実験結果から, BPOを配向したChatGPTは, 元のバージョンに対して22%, GPT-4では10%上昇することがわかった。 特に、BPO整列LLMは、PPOとDPOで整列された同じモデルよりも優れており、BPOとPPOまたはDPOを組み合わせる際に、さらなる性能向上をもたらす。 コードとデータセットはhttps://github.com/thu-coai/BPO.orgで公開されている。

Large language models (LLMs) have shown impressive success in various applications. However, these models are often not well aligned with human intents, which calls for additional treatments on them; that is, the alignment problem. To make LLMs better follow user instructions, existing alignment methods primarily focus on further training them. However, the extra training of LLMs is usually expensive in terms of GPU computing; even worse, some LLMs are not accessible for user-demanded training, such as GPTs. In this work, we take a different perspective -- Black-Box Prompt Optimization (BPO) -- to perform alignments. The idea is to optimize user prompts to suit LLMs' input understanding, so as to best realize users' intents without updating LLMs' parameters. BPO leverages human preferences to optimize prompts, thus making it superior to LLM (e.g., ChatGPT) as a prompt engineer. Moreover, BPO is model-agnostic, and the empirical results demonstrate that the BPO-aligned ChatGPT yields a 22% increase in the win rate against its original version and 10% for GPT-4. Notably, the BPO-aligned LLMs can outperform the same models aligned by PPO and DPO, and it also brings additional performance gains when combining BPO with PPO or DPO. Code and datasets are released at https://github.com/thu-coai/BPO.
翻訳日:2024-06-24 20:17:56 公開日:2024-06-21
# 継続的な学習に対する2つの補完的視点:最適化するだけでなく、どのようにして学習するかを問う

Two Complementary Perspectives to Continual Learning: Ask Not Only What to Optimize, But Also How ( http://arxiv.org/abs/2311.04898v2 )

ライセンス: Link先を確認
Timm Hess, Tinne Tuytelaars, Gido M. van de Ven, (参考訳) 近年、ディープニューラルネットワークの継続的なトレーニングが大幅に進歩しており、これは主に、これまでのすべてのタスクにおける関節の損失を近似するために、損失関数にリプレイ項や正規化項を追加するアプローチによるものである。 しかし, 関節損傷を完璧に近似したとしても, 新たな課題の訓練を始める際には, 一時的ではあるが重大な忘れがちであることがわかった。 この「安定性のギャップ」に触発されて、我々は、継続的な学習戦略は、最適化目的だけでなく、この目的の最適化方法にも焦点をあてるべきである、と提案する。 最適化の軌道を変える連続的な学習作業はいくつかあるが(例えば、勾配投影技術を用いて)、この研究の行は最適化の目的を改善する代替として位置づけられている。 提案手法の実証的サポートを探るため, 再現近似関節目標と勾配予測に基づく最適化ルーチンを組み合わせた事前登録実験を行った。 しかし、この最初の実験的な試みは明確で一貫した利益を示せなかった。 それにもかかわらず、我々の概念的議論と経験的結果のいくつかは、連続学習における最適化軌跡の顕著な重要性を示し、連続学習研究のための新たな方向性を開く。

Recent years have seen considerable progress in the continual training of deep neural networks, predominantly thanks to approaches that add replay or regularization terms to the loss function to approximate the joint loss over all tasks so far. However, we show that even with a perfect approximation to the joint loss, these approaches still suffer from temporary but substantial forgetting when starting to train on a new task. Motivated by this 'stability gap', we propose that continual learning strategies should focus not only on the optimization objective, but also on the way this objective is optimized. While there is some continual learning work that alters the optimization trajectory (e.g., using gradient projection techniques), this line of research is positioned as alternative to improving the optimization objective, while we argue it should be complementary. In search of empirical support for our proposition, we perform a series of pre-registered experiments combining replay-approximated joint objectives with gradient projection-based optimization routines. However, this first experimental attempt fails to show clear and consistent benefits. Nevertheless, our conceptual arguments, as well as some of our empirical results, demonstrate the distinctive importance of the optimization trajectory in continual learning, thereby opening up a new direction for continual learning research.
翻訳日:2024-06-24 20:17:56 公開日:2024-06-21
# 変圧器によるアクチュアリ非ライフ価格モデルの強化

Enhancing Actuarial Non-Life Pricing Models via Transformers ( http://arxiv.org/abs/2311.07597v2 )

ライセンス: Link先を確認
Alexej Brauer, (参考訳) 現在、非生命保険価格に関するニューラルネットワークの分野では、多くの研究が行われている。 通常の目的は、現在の業界標準である一般化線形モデルの上に構築しながら、ニューラルネットワークによる予測能力を改善することである。 本論文は, 表型データに対する変圧器モデルを用いて, アクタリカルな非生命モデルを強化する新しい手法により, この旅路に寄与する。 ここでは、ニューラルネットワークとローカルGLMnetの組み合わせによって構築された基盤の上に構築し、機能トークン化変換器を介してモデルを強化する。 筆者らは,提案手法の性能を実世界のクレーム頻度データセット上で実証し,一般化線形モデル,フィードフォワードニューラルネットワーク,複合アクチュエータニューラルネットワーク,ローカルGLMnet,純粋特徴量トークン変換器などのベンチマークモデルと比較した。 提案手法は,特定の一般化線形モデルの利点を保ちながら,ベンチマークモデルよりも優れた結果が得られることを示す。 また, 変圧器モデルの適用に関する実践的意義と課題についても論じる。

Currently, there is a lot of research in the field of neural networks for non-life insurance pricing. The usual goal is to improve the predictive power via neural networks while building upon the generalized linear model, which is the current industry standard. Our paper contributes to this current journey via novel methods to enhance actuarial non-life models with transformer models for tabular data. We build here upon the foundation laid out by the combined actuarial neural network as well as the localGLMnet and enhance those models via the feature tokenizer transformer. The manuscript demonstrates the performance of the proposed methods on a real-world claim frequency dataset and compares them with several benchmark models such as generalized linear models, feed-forward neural networks, combined actuarial neural networks, LocalGLMnet, and pure feature tokenizer transformer. The paper shows that the new methods can achieve better results than the benchmark models while preserving certain generalized linear model advantages. The paper also discusses the practical implications and challenges of applying transformer models in actuarial settings.
翻訳日:2024-06-24 20:17:56 公開日:2024-06-21
# 語義木による多段階推論の強化

Empowering Multi-step Reasoning across Languages via Tree-of-Thoughts ( http://arxiv.org/abs/2311.08097v4 )

ライセンス: Link先を確認
Leonardo Ranaldi, Giulia Pucci, Federico Ranaldi, Elena Sofia Ruzzetti, Fabio Massimo Zanzotto, (参考訳) 推論手法(Reasoning method)は、よく知られたChain-of-Thought (CoT) によって最もよく例示され、ステップバイステップで複雑なタスクを解くよう促すことで、Large Language Models (LLM) の推論能力を高める。 彼らは大きな成功を収めているが、事前学習データの分布の不均衡により、他の言語が障壁となるため、多段階推論を実現する能力は英語に限られている。 本稿では,言語間での言語間CoT推論を整合させる手法であるクロスランガルツリー・オブ・ソート(Cross-ToT)を提案する。 提案手法は、Tree-of-Thoughtsアプローチにインスパイアされた自己整合型言語間プロンプト機構を通じて、各言語における複数ステップの推論パスを提供する。 実験により,本手法はインタラクションの回数を減らし,最先端の性能を達成することにより,既存のプロンプト手法よりも大幅に優れていることが示された。

Reasoning methods, best exemplified by the well-known Chain-of-Thought (CoT), empower the reasoning abilities of Large Language Models (LLMs) by eliciting them to solve complex tasks in a step-by-step manner. Although they are achieving significant success, the ability to deliver multi-step reasoning remains limited to English because of the imbalance in the distribution of pre-training data, which makes other languages a barrier. In this paper, we propose Cross-lingual Tree-of-Thoughts (Cross-ToT), a method for aligning Cross-lingual CoT reasoning across languages. The proposed method, through a self-consistent cross-lingual prompting mechanism inspired by the Tree-of-Thoughts approach, provides multi-step reasoning paths in different languages that, during the steps, lead to the final solution. Experimental evaluations show that our method significantly outperforms existing prompting methods by reducing the number of interactions and achieving state-of-the-art performance.
翻訳日:2024-06-24 20:17:56 公開日:2024-06-21
# 全スライド画像分類のためのベンチマーク病理特徴指数

Benchmarking Pathology Feature Extractors for Whole Slide Image Classification ( http://arxiv.org/abs/2311.11772v5 )

ライセンス: Link先を確認
Georg Wölflein, Dyke Ferber, Asier R. Meneghetti, Omar S. M. El Nahhas, Daniel Truhn, Zunamys I. Carrero, David J. Harrison, Ognjen Arandjelović, Jakob Nikolas Kather, (参考訳) 弱教師付き全スライド画像分類は、スライドを構成する画像パッチの集合からスライドレベルラベルを予測することを含む、計算病理学における重要なタスクである。 この課題を解決するためのモデルの構築には、堅牢な経験的あるいは決定的な理論的正当化なしに行われる複数の設計選択が含まれる。 これを解決するために,機能抽出器の総合的なベンチマークを実施し,3つの重要な質問に答える。 1) 染色の正規化は依然として必要な前処理ステップなのか? 2)下流のスライドレベル分類に最適な特徴抽出器は何か。 3) 拡大は下流のパフォーマンスにどのように影響しますか? 本研究は,14個の機能抽出器,9つのタスク,5つのデータセット,3つのダウンストリームアーキテクチャ,2段階の倍率,および各種前処理セットアップにわたる1万以上のトレーニング実行を含む,現在最も包括的な病的特徴抽出器の評価である。 我々の発見は、既存の仮定に挑戦する。 1) 実験的に観察し, 遅延空間を解析することにより, 染色正規化と画像強調は性能を低下させることなく, メモリと計算要求を著しく低減する。 2) 下流性能を比較するための新しい評価指標を開発し, 下流性能の指標として, 特徴抽出器の選択が最も重要な要因であることを示す。 3) 低磁化スライドは正確なスライドレベル分類に十分であることがわかった。 従来のパッチレベルのベンチマーク研究とは対照的に,本研究では,外部検証コホートを用いた弱教師付き環境でのスライドレベルのバイオマーカー予測タスクに着目し,臨床関連性を強調した。 本研究は,前処理の必要性を最小化し,特徴抽出器の選択を通知することで,デジタル病理ワークフローを効率化することを目的とする。

Weakly supervised whole slide image classification is a key task in computational pathology, which involves predicting a slide-level label from a set of image patches constituting the slide. Constructing models to solve this task involves multiple design choices, often made without robust empirical or conclusive theoretical justification. To address this, we conduct a comprehensive benchmarking of feature extractors to answer three critical questions: 1) Is stain normalisation still a necessary preprocessing step? 2) Which feature extractors are best for downstream slide-level classification? 3) How does magnification affect downstream performance? Our study constitutes the most comprehensive evaluation of publicly available pathology feature extractors to date, involving more than 10,000 training runs across 14 feature extractors, 9 tasks, 5 datasets, 3 downstream architectures, 2 levels of magnification, and various preprocessing setups. Our findings challenge existing assumptions: 1) We observe empirically, and by analysing the latent space, that skipping stain normalisation and image augmentations does not degrade performance, while significantly reducing memory and computational demands. 2) We develop a novel evaluation metric to compare relative downstream performance, and show that the choice of feature extractor is the most consequential factor for downstream performance. 3) We find that lower-magnification slides are sufficient for accurate slide-level classification. Contrary to previous patch-level benchmarking studies, our approach emphasises clinical relevance by focusing on slide-level biomarker prediction tasks in a weakly supervised setting with external validation cohorts. Our findings stand to streamline digital pathology workflows by minimising preprocessing needs and informing the selection of feature extractors.
翻訳日:2024-06-24 20:17:56 公開日:2024-06-21
# 潜在表現の多様性評価のための計量空間マグニチュード

Metric Space Magnitude for Evaluating the Diversity of Latent Representations ( http://arxiv.org/abs/2311.16054v3 )

ライセンス: Link先を確認
Katharina Limbeck, Rayna Andreeva, Rik Sarkar, Bastian Rieck, (参考訳) 計量空間の大きさは、複数のスケールにわたる空間の「有効サイズ」の測度を提供する新しい不変量であり、また曲率、密度、エントロピーなどの多くの幾何学的性質をキャプチャする。 我々は、潜在表現の内在的多様性に関する等級に基づく尺度の族を開発し、有限距離空間の等級関数間の相似性という新しい概念を定式化する。 我々の測度はデータの摂動下で確実に安定しており、効率的に計算でき、厳密なマルチスケールのキャラクタリゼーションと潜在表現の比較を可能にする。 さまざまなドメインやタスクにまたがる実用性と優れたパフォーマンスを示します。 一 多様性の自動推定 (二)モード崩壊の検出、及び 三 テキスト、画像、グラフデータの生成モデルの評価。

The magnitude of a metric space is a novel invariant that provides a measure of the 'effective size' of a space across multiple scales, while also capturing numerous geometrical properties, such as curvature, density, or entropy. We develop a family of magnitude-based measures of the intrinsic diversity of latent representations, formalising a novel notion of dissimilarity between magnitude functions of finite metric spaces. Our measures are provably stable under perturbations of the data, can be efficiently calculated, and enable a rigorous multi-scale characterisation and comparison of latent representations. We show their utility and superior performance across different domains and tasks, including (i) the automated estimation of diversity, (ii) the detection of mode collapse, and (iii) the evaluation of generative models for text, image, and graph data.
翻訳日:2024-06-24 20:17:56 公開日:2024-06-21
# 量子情報スクランブルが境界絡み状態に及ぼす影響

Effect of Quantum Information Scrambling on Bound Entangled States ( http://arxiv.org/abs/2311.16209v2 )

ライセンス: Link先を確認
Suprabhat Sinha, (参考訳) 物理系における情報の拡散は一般的な現象である。 しかし、情報が本質的に量子的である場合、情報の追跡、記述、定量化は難しい作業である。 量子情報スクランブル(quantum information scrambling)は、物理系上でカオス的に伝播する量子情報を定義する。 本稿では,量子情報が絡み合った状態に与える影響について述べる。 有界絡み状態は、ノイズのある絡み合いを持つ特定のタイプの絡み合い状態である。 このタイプの絡み合った状態の蒸留は非常に困難である。 近年では、これらの状態の有用性が様々な応用で説明されている。 本研究の結果は, 量子情報のスクランブルが, 有界絡み状態の分離部分における絡み合いを生じさせることを示した。 量子情報のスクランブルは絡み合いを減少させるが、量子情報のスクランブルは、ある程度の安定な絡み合いを導入することによって、束縛された絡み合い状態の活性化に重要な役割を果たすと指摘する。

Spreading information in physical systems is a common phenomenon. However, when the information is quantum in nature, tracking, describing, and quantifying the information is a challenging task. Quantum information scrambling defines the quantum information propagating chaotically over the physical system. This article describes the effect of quantum information scrambling on bound entangled states. A bound entangled state is a particular type of entangled state that carries noisy entanglement. The distillation of this type of entangled state is very difficult. In recent times, the usefulness of these states has been depicted in different applications. The outcome of this study exhibits that quantum information scrambling develops entanglement in the separable portion of the bound entangled states. Although quantum information scrambling reduces entanglement, the study pointed out that quantum information scrambling plays a significant role in activating the bound entangled states by introducing a certain amount of approximately stable entanglement.
翻訳日:2024-06-24 20:17:56 公開日:2024-06-21
# 大規模言語モデルと検索拡張生成を用いた任意のコースに適応し、正確な回答を提供するAIチュータの作り方

How to Build an AI Tutor that Can Adapt to Any Course and Provide Accurate Answers Using Large Language Model and Retrieval-Augmented Generation ( http://arxiv.org/abs/2311.17696v3 )

ライセンス: Link先を確認
Chenxi Dong, (参考訳) 本稿では、高度なAI技術を活用して、パーソナライズされた学習環境において、正確かつ文脈的に関連する応答を提供するAIチューターを構築するためのローコードソリューションを提案する。 OpenAI Assistants APIにより、AI Tutorはファイルやチャット履歴の埋め込み、保存、検索、管理が容易になり、ローコードソリューションが可能になる。 大規模言語モデル (LLM) と検索拡張生成 (RAG) 技術は、コース固有の資料に基づいて洗練された回答を生成する。 アプリケーションは、ベクトル埋め込みおよび類似性に基づく検索アルゴリズムを介して、関連情報を効率的に整理し、検索する。 AI Tutorのプロトタイプは、ソースの引用で関連性があり正確な回答を生成する能力を示している。 これは、高等教育における高品質でカスタマイズされた教育支援へのアクセスを民主化し、技術強化された教育システムにおいて大きな進歩を示している。

This paper proposes a low-code solution to build an AI tutor that leverages advanced AI techniques to provide accurate and contextually relevant responses in a personalized learning environment. The OpenAI Assistants API allows AI Tutor to easily embed, store, retrieve, and manage files and chat history, enabling a low-code solution. Large Language Models (LLMs) and Retrieval-Augmented Generation (RAG) technology generate sophisticated answers based on course-specific materials. The application efficiently organizes and retrieves relevant information through vector embedding and similarity-based retrieval algorithms. The AI Tutor prototype demonstrates its ability to generate relevant, accurate answers with source citations. It represents a significant advancement in technology-enhanced tutoring systems, democratizing access to high-quality, customized educational support in higher education.
翻訳日:2024-06-24 20:08:09 公開日:2024-06-21
# Jellyfish: データ前処理のための大規模言語モデル

Jellyfish: A Large Language Model for Data Preprocessing ( http://arxiv.org/abs/2312.01678v5 )

ライセンス: Link先を確認
Haochen Zhang, Yuyang Dong, Chuan Xiao, Masafumi Oyamada, (参考訳) 本稿では,データマイニングパイプラインにおける重要なステップであるデータ前処理(DP)におけるLCMの利用について検討する。 LLMの使用はDPに対する普遍的なソリューション開発への関心を喚起しているが、この領域における最近の取り組みは一般的にGPT APIに依存しており、必然的なデータ漏洩の懸念を提起している。 これらのアプローチとは異なり、命令チューニングのローカルLSM(7-13Bモデル)は、ローカル、シングル、低価格のGPU上で動作し、データのセキュリティを確保し、さらなるカスタマイズを可能にするユニバーサルDPタスク解決器であると考えている。 4つの代表的なDPタスクにまたがるデータセットのコレクションを選択し、データ構成、知識注入、DPに適合した推論データ蒸留技術を用いて、インストラクションチューニングデータを構築する。 Mistral-7B, Llama 3-8B, OpenOrca-Platypus2-13Bをチューニングすることで、我々のモデルであるJellyfish-7B/8B/13Bは、GPT-3.5/4モデルと比較して競争力を提供し、NLPタスクにおけるベースモデルの能力をほとんど妥協することなく、目に見えないタスクに対して強力な一般化性を提供する。 一方、JellyfishはGPT-3.5に比べて推論能力が向上している。 私たちのモデルは、https://huggingface.co/NECOUDBFM/Jellyfishで利用可能です。 私たちの命令データセットは、https://huggingface.co/datasets/NECOUDBFM/Jellyfish-Instruct で利用可能です。

This paper explores the utilization of LLMs for data preprocessing (DP), a crucial step in the data mining pipeline that transforms raw data into a clean format conducive to easy processing. Whereas the use of LLMs has sparked interest in devising universal solutions to DP, recent initiatives in this domain typically rely on GPT APIs, raising inevitable data breach concerns. Unlike these approaches, we consider instruction-tuning local LLMs (7 -- 13B models) as universal DP task solvers that operate on a local, single, and low-priced GPU, ensuring data security and enabling further customization. We select a collection of datasets across four representative DP tasks and construct instruction tuning data using data configuration, knowledge injection, and reasoning data distillation techniques tailored to DP. By tuning Mistral-7B, Llama 3-8B, and OpenOrca-Platypus2-13B, our models, namely, Jellyfish-7B/8B/13B, deliver competitiveness compared to GPT-3.5/4 models and strong generalizability to unseen tasks while barely compromising the base models' abilities in NLP tasks. Meanwhile, Jellyfish offers enhanced reasoning capabilities compared to GPT-3.5. Our models are available at: https://huggingface.co/NECOUDBFM/Jellyfish . Our instruction dataset is available at: https://huggingface.co/datasets/NECOUDBFM/Jellyfish-Instruct .
翻訳日:2024-06-24 20:08:09 公開日:2024-06-21
# シンボル付きステートフルファズリングによる非対称DoS下でのEthereumメムプールセキュリティの理解

Understanding Ethereum Mempool Security under Asymmetric DoS by Symbolized Stateful Fuzzing ( http://arxiv.org/abs/2312.02642v3 )

ライセンス: Link先を確認
Yibo Wang, Yuzhe Tang, Kai Li, Wanning Ding, Zhihua Yang, (参考訳) ブロックチェーンでは、mempoolがコンセンサスの前にトランザクションフローを制御し、そのサービスの否定によってブロックチェーンネットワークの健全性とセキュリティが損なわれる。 本稿では,メムプール状態空間を象徴的に探索し,中間状態がバグオラクルに到達する際の有望性を楽観的に推定することで,非対称なDoSバグを発見する最初のメムプールファズナーMPFUZZを提案する。 MPFUZZは、ベースラインのブロックチェーンファッジャと比較して、既知のDETERエクスプロイトを見つける際の100倍のスピードアップを実現している。 6つの主要なEthereumクライアント上でMPFUZZを実行すると、新たなmempool脆弱性が発見され、ステルスなmempool排除やmempoolロックなど、さまざまな高度なパターンが現れる。 新たに発見された脆弱性に対してルールベースの緩和スキームが提案されている。

In blockchains, mempool controls transaction flow before consensus, denial of whose service hurts the health and security of blockchain networks. This paper presents MPFUZZ, the first mempool fuzzer to find asymmetric DoS bugs by symbolically exploring mempool state space and optimistically estimating the promisingness an intermediate state is in reaching bug oracles. Compared to the baseline blockchain fuzzers, MPFUZZ achieves a > 100x speedup in finding known DETER exploits. Running MPFUZZ on six major Ethereum clients leads to the discovering of new mempool vulnerabilities, which exhibit a wide variety of sophisticated patterns including stealthy mempool eviction and mempool locking. Rule-based mitigation schemes are proposed against newly discovered vulnerabilities.
翻訳日:2024-06-24 20:08:09 公開日:2024-06-21
# 重畳MIMOシステムのためのFew-Shot CSIフィードバックフレームワーク

A Low-Overhead Incorporation-Extrapolation based Few-Shot CSI Feedback Framework for Massive MIMO Systems ( http://arxiv.org/abs/2312.04062v2 )

ライセンス: Link先を確認
Binggui Zhou, Xi Yang, Jintao Wang, Shaodan Ma, Feifei Gao, Guanghua Yang, (参考訳) 直交周波数分割多重化(OFDM)を用いたFDD(Multiple-Input multiple-output)システムにおいて、正確なチャネル状態情報(CSI)がダウンリンクプリコーディングに不可欠である。 しかし、ユーザ機器(UE)からのフィードバックによるCSI取得は、アンテナやサブキャリアの規模が大きくなると困難になり、非常に高いCSIフィードバックオーバーヘッドにつながる。 深層学習に基づくCSI圧縮手法が登場したが、これらの手法は一般的にかなりの収集サンプルを必要とするため、実際的な課題が生じる。 さらに、既存のディープラーニング手法では、フル次元のCSIフィードバックに焦点が当てられているため、フィードバックオーバーヘッドが劇的に増大する。 これらの課題に対処するため,大規模なMIMOシステムを対象としたFew-Shot CSIフィードバックフレームワーク(IEFSF)を提案する。 固有ベクトルに基づくCSIフィードバックの組込み抽出方式を提案し,フィードバックのオーバーヘッドを低減する。 そこで我々は,広範に収集されたサンプルの必要性を軽減し,少数のCSIフィードバックを可能にするために,無線チャネルのドメイン知識を活用し,新しい生成モデルを活用することにより,知識駆動型データ拡張(KDDA)法と人工知能生成コンテンツ(AIGC)に基づくデータ拡張手法を提案する。 DeepMIMOデータセットに基づく実験結果から,提案したIEFSFは既存手法と比較してCSIフィードバックのオーバーヘッドを64倍に低減し,数百個のサンプルのみを用いて高いフィードバック精度を維持した。

Accurate channel state information (CSI) is essential for downlink precoding in frequency division duplexing (FDD) massive multiple-input multiple-output (MIMO) systems with orthogonal frequency-division multiplexing (OFDM). However, obtaining CSI through feedback from the user equipment (UE) becomes challenging with the increasing scale of antennas and subcarriers and leads to extremely high CSI feedback overhead. Deep learning-based methods have emerged for compressing CSI but these methods generally require substantial collected samples and thus pose practical challenges. Moreover, existing deep learning methods also suffer from dramatically growing feedback overhead owing to their focus on full-dimensional CSI feedback. To address these issues, we propose a low-overhead Incorporation-Extrapolation based Few-Shot CSI feedback Framework (IEFSF) for massive MIMO systems. An incorporation-extrapolation scheme for eigenvector-based CSI feedback is proposed to reduce the feedback overhead. Then, to alleviate the necessity of extensive collected samples and enable few-shot CSI feedback, we further propose a knowledge-driven data augmentation (KDDA) method and an artificial intelligence-generated content (AIGC) -based data augmentation method by exploiting the domain knowledge of wireless channels and by exploiting a novel generative model, respectively. Experimental results based on the DeepMIMO dataset demonstrate that the proposed IEFSF significantly reduces CSI feedback overhead by 64 times compared with existing methods while maintaining higher feedback accuracy using only several hundred collected samples.
翻訳日:2024-06-24 20:08:09 公開日:2024-06-21
# AIイノベーションが米国占領に与える影響

The Potential Impact of AI Innovations on U.S. Occupations ( http://arxiv.org/abs/2312.04714v3 )

ライセンス: Link先を確認
Ali Akbar Septiandri, Marios Constantinides, Daniele Quercia, (参考訳) 職業は相互接続されたタスクで構成されており、AIの影響を受けているのは職業自身ではなく、これらのタスクである。 タスクがどのように影響されるかを評価するために、以前のアプローチでは手動アノテーションや粗い粒度のマッチングを使用していた。 機械学習の最近の進歩を活用して、粗い粒度のマッチングをより正確なディープラーニングアプローチに置き換える。 AI Impact(AII)測定の導入では、Deep Learning Natural Language Processingを使用して、さまざまな作業タスクに影響を及ぼす可能性のあるAI特許を自動的に識別する。 われわれの手法は、2015年から2022年にかけて米国特許商標庁(USPTO)に提出された24,758件のAI特許の分析を通じて、17,879件のタスク記述の包括的なデータセットに依存し、AIの潜在的な影響を定量化する。 我々の結果は、いくつかの職業が潜在的に影響を受け、その影響は特定のスキルに複雑に結びついていることを示している。 これらの中には、これまで考えられていたようなルーチンタスク(一連のステップとしてコーディングされた)だけでなく、非ルーチンタスク(例えば、健康状態の診断、コンピュータのプログラミング、飛行経路の追跡など)も含まれている。 さらに、影響を受ける職業のいくつか(神経科医、ソフトウェアエンジニア、航空交通管制官など)が置き換えられたり、影響を受けるセクターが労働不足(IT、医療、運輸など)を経験しているという事実によって、AIの労働への影響は制限されている。

An occupation is comprised of interconnected tasks, and it is these tasks, not occupations themselves, that are affected by AI. To evaluate how tasks may be impacted, previous approaches utilized manual annotations or coarse-grained matching. Leveraging recent advancements in machine learning, we replace coarse-grained matching with more precise deep learning approaches. Introducing the AI Impact (AII) measure, we employ Deep Learning Natural Language Processing to automatically identify AI patents that may impact various occupational tasks at scale. Our methodology relies on a comprehensive dataset of 17,879 task descriptions and quantifies AI's potential impact through analysis of 24,758 AI patents filed with the United States Patent and Trademark Office (USPTO) between 2015 and 2022. Our results reveal that some occupations will potentially be impacted, and that impact is intricately linked to specific skills. These include not only routine tasks (codified as a series of steps), as previously thought, but also non-routine ones (e.g., diagnosing health conditions, programming computers, and tracking flight routes). Furthermore, AI's impact on labour is limited by the fact that some of the occupations affected are augmented rather than replaced (e.g., neurologists, software engineers, air traffic controllers), and the sectors affected are experiencing labour shortages (e.g., IT, Healthcare, Transport).
翻訳日:2024-06-24 20:08:09 公開日:2024-06-21
# メトロポリス調整ミラーランゲヴィンアルゴリズムを用いた制約空間からの高速サンプリング

Fast sampling from constrained spaces using the Metropolis-adjusted Mirror Langevin algorithm ( http://arxiv.org/abs/2312.08823v3 )

ライセンス: Link先を確認
Vishwak Srinivasan, Andre Wibisono, Ashia Wilson, (参考訳) 本稿では, コンパクトで凸集合を持つ分布から近似的なサンプリングを行うために, メトロポリス調整ミラーランゲヴィンアルゴリズムを提案する。 このアルゴリズムは、ミラーランゲヴィンの力学の基本的な離散化であるミラーランゲヴィンアルゴリズム(Zhang et al , 2020)の単一ステップによって誘導されるマルコフ連鎖にアセプション-リジェクションフィルタを追加する。 このフィルタが組み込まれているため、我々の手法はターゲットに対して偏りがないが、ミラーランゲヴィンアルゴリズムを含むミラーランゲヴィンの力学は漸近バイアスを持つ。 このアルゴリズムはまた、自己調和ミラー関数に関して、ポテンシャルが比較的滑らかで凸、リプシッツ連続である制約付き分布に混合するために要する反復数について上限を与える。 メトロポリス・ハスティングスフィルタの包含によって引き起こされるマルコフ連鎖の可逆性の結果、近似されたサンプリングに対する誤差耐性への指数関数的に優れた依存性が得られる。 また, 理論的知見を裏付ける数値実験も行った。

We propose a new method called the Metropolis-adjusted Mirror Langevin algorithm for approximate sampling from distributions whose support is a compact and convex set. This algorithm adds an accept-reject filter to the Markov chain induced by a single step of the Mirror Langevin algorithm (Zhang et al., 2020), which is a basic discretisation of the Mirror Langevin dynamics. Due to the inclusion of this filter, our method is unbiased relative to the target, while known discretisations of the Mirror Langevin dynamics including the Mirror Langevin algorithm have an asymptotic bias. For this algorithm, we also give upper bounds for the number of iterations taken to mix to a constrained distribution whose potential is relatively smooth, convex, and Lipschitz continuous with respect to a self-concordant mirror function. As a consequence of the reversibility of the Markov chain induced by the inclusion of the Metropolis-Hastings filter, we obtain an exponentially better dependence on the error tolerance for approximate constrained sampling. We also present numerical experiments that corroborate our theoretical findings.
翻訳日:2024-06-24 20:08:09 公開日:2024-06-21
# 置換同変指向型グラフニューラルネットワークを用いた概念前提関係予測

Concept Prerequisite Relation Prediction by Using Permutation-Equivariant Directed Graph Neural Networks ( http://arxiv.org/abs/2312.09802v2 )

ライセンス: Link先を確認
Xiran Qu, Xuequn Shang, Yupei Zhang, (参考訳) 本稿では,教育にAIを使用する上での基本課題であるCPRP,概念前提条件関係予測の問題について検討する。 CPRPは通常、概念の関係グラフ上のリンク予測タスクに定式化され、グラフニューラルネットワーク(GNN)モデルをトレーニングすることで解決される。 しかし、現在の有向GNNは非同型グラフの不変性を参照するグラフ同型を管理することができず、結果の表現の表現率を低下させる。 Wesfeiler-Lehman 検定を GNN 学習に導入することにより,変分同変の有向 GNN モデルを提案する。 提案手法はCPRPに利用され,3つの公開データセットで評価される。 実験結果から,本モデルは最先端手法よりも予測性能がよいことがわかった。

This paper studies the problem of CPRP, concept prerequisite relation prediction, which is a fundamental task in using AI for education. CPRP is usually formulated into a link-prediction task on a relationship graph of concepts and solved by training the graph neural network (GNN) model. However, current directed GNNs fail to manage graph isomorphism which refers to the invariance of non-isomorphic graphs, reducing the expressivity of resulting representations. We present a permutation-equivariant directed GNN model by introducing the Weisfeiler-Lehman test into directed GNN learning. Our method is then used for CPRP and evaluated on three public datasets. The experimental results show that our model delivers better prediction performance than the state-of-the-art methods.
翻訳日:2024-06-24 20:08:09 公開日:2024-06-21
# 集積ナノフォトニックマイクロリング回路におけるトラップ原子と超輝度

Trapped atoms and superradiance on an integrated nanophotonic microring circuit ( http://arxiv.org/abs/2312.14318v2 )

ライセンス: Link先を確認
Xinchao Zhou, Hikaru Tamura, Tzu-Han Chang, Chen-Lung Hung, (参考訳) ナノフォトニックデバイスを内蔵した対面型コールド原子は、原子と光の相互作用をエンジニアリングするための新しいパラダイムを提供し、量子センシング、気象学、量子情報処理のための潜在的にスケーラブルな経路を提供する。 しかし、集積ナノフォトニクス回路上で、大量の冷えた原子を効率的にトラップすることは、依然として難しい課題である。 ここでは、最大70個の原子のアンサンブルをナノフォトニックマイクロリング回路上で光学マイクロトラップに直接ロードする様子を実演する。 マイクロトラップにおいて、マイクロリング上のエバネッセント場電位のベクトル光シフトから直接、内蔵されたスピンモーションカップリングが発生するように、退化ラマンサイドバンド冷却を用いることにより、効率的なトラップローディングを実現する。 原子は1つの自由空間ビームで光ポンピングによってトラップに冷却される。 我々は, 連続冷却下で700msに接近するトラップ寿命を達成した。 マイクロリング共振器の共振モードにおいて, 捕捉された原子は大きな協調結合と超ラジカル崩壊を示し, 新たな集団効果の探索を約束する。 我々の技術は、様々な量子応用のためにナノフォトニック回路上の大量の冷媒原子をトラップするために拡張することができる。

Interfacing cold atoms with integrated nanophotonic devices could offer new paradigms for engineering atom-light interactions and provide a potentially scalable route for quantum sensing, metrology, and quantum information processing. However, it remains a challenging task to efficiently trap a large ensemble of cold atoms on an integrated nanophotonic circuit. Here, we demonstrate direct loading of an ensemble of up to 70 atoms into an optical microtrap on a nanophotonic microring circuit. Efficient trap loading is achieved by employing degenerate Raman-sideband cooling in the microtrap, where a built-in spin-motion coupling arises directly from the vector light shift of the evanescent field potential on a microring. Atoms are cooled into the trap via optical pumping with a single free space beam. We have achieved a trap lifetime approaching 700ms under continuous cooling. We show that the trapped atoms display large cooperative coupling and superradiant decay into a whispering-gallery mode of the microring resonator, holding promise for explorations of new collective effects. Our technique can be extended to trapping a large ensemble of cold atoms on nanophotonic circuits for various quantum applications.
翻訳日:2024-06-24 20:08:09 公開日:2024-06-21
# $\mathcal{PT}$-symmetric mapping of three state and its implementation on a cloud quantum processor

$\mathcal{PT}$-symmetric mapping of three states and its implementation on a cloud quantum processor ( http://arxiv.org/abs/2312.16680v2 )

ライセンス: Link先を確認
Yaroslav Balytskyi, Yevgen Kotukh, Gennady Khalimov, Sang-Yoon Chang, (参考訳) 我々は,3つの純量子ビット状態のマッピングを行い,拡張法で実装する$\mathcal{PT}$-symmetricアプローチを開発し,IBM Quantum Experienceによって提供される超伝導量子プロセッサを用いてそれを実証する。 選択後の$\mathcal{PT}$-対称部分空間の人口に対する厳密な公式を導出し、エルミートの場合と整合性を示し、基準ベクトル上の平均射影の保存、および量子フィッシャー情報を示す。 N = 2$純状態の判別に使用される場合、我々のアルゴリズムは従来の曖昧な量子状態の判別と等価な結果を与える。 N = 3$状態の場合、従来のエルミートの場合では利用できない新しい性質を提供し、3つの量子状態の任意の集合を、決定不可能な結果をもたらすコストで別の3つの状態の任意の集合に変換することができる。 QKD3状態プロトコルでは,従来の最小誤差,最大信頼度,最大相互情報戦略と同じ誤差率を有する。 提案手法は,非MSE測定値を用いた量子センシングにおけるHermitian法を超越し,特定のデータ領域内での正確な推定の利点と,出力値に対するロバスト性の向上を実現している。 量子データベース探索に応用すると,従来のGroverの探索アルゴリズムと比較して回路深度が顕著に減少する一方,平均呼び出し数も同じであり,NISQコンピュータには大きな利点がある。 さらに、本手法の汎用性は、高非対称量子状態の識別や量子誤り訂正に有用である。 我々の研究は、量子通信、コンピューティング、暗号に$\mathcal{PT}$対称性を適用するための新しい扉を開く。

We develop a new $\mathcal{PT}$-symmetric approach for mapping three pure qubit states, implement it by the dilation method, and demonstrate it with a superconducting quantum processor provided by the IBM Quantum Experience. We derive exact formulas for the population of the post-selected $\mathcal{PT}$-symmetric subspace and show consistency with the Hermitian case, conservation of average projections on reference vectors, and Quantum Fisher Information. When used for discrimination of $N = 2$ pure states, our algorithm gives an equivalent result to the conventional unambiguous quantum state discrimination. For $N = 3$ states, our approach provides novel properties unavailable in the conventional Hermitian case and can transform an arbitrary set of three quantum states into another arbitrary set of three states at the cost of introducing an inconclusive result. For the QKD three-state protocol, our algorithm has the same error rate as the conventional minimum error, maximum confidence, and maximum mutual information strategies. The proposed method surpasses its Hermitian counterparts in quantum sensing using non-MSE metrics, providing an advantage for precise estimations within specific data space regions and improved robustness to outliers. Applied to quantum database search, our approach yields a notable decrease in circuit depth in comparison to traditional Grover's search algorithm while maintaining the same average number of oracle calls, thereby offering significant advantages for NISQ computers. Additionally, the versatility of our method can be valuable for the discrimination of highly non-symmetric quantum states, and quantum error correction. Our work unlocks new doors for applying $\mathcal{PT}$-symmetry in quantum communication, computing, and cryptography.
翻訳日:2024-06-24 20:08:09 公開日:2024-06-21
# TinyGPT-V:小さなバックボーンによる効率的なマルチモーダル大言語モデル

TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones ( http://arxiv.org/abs/2312.16862v3 )

ライセンス: Link先を確認
Zhengqing Yuan, Zhaoxu Li, Weiran Huang, Yanfang Ye, Lichao Sun, (参考訳) 近年, GPT-4V のようなマルチモーダル大規模言語モデル (MLLM) は, 様々な視覚言語タスクに優れ, 顕著な進歩を見せている。 その技術にもかかわらず、そのようなモデルのクローズドソースの性質と計算上の要求はアクセシビリティと適用性を制限する。 本研究は,画像キャプション(IC)や視覚質問応答(VQA)など,視覚言語タスクの効率的なトレーニングと推論を目的とした,オープンソースのMLLMであるTinyGPT-Vを紹介する。 TinyGPT-Vは、コンパクトだが強力なアーキテクチャを活用し、Phi-2言語モデルと事前訓練された視覚エンコーダを統合し、視覚情報と言語情報の融合のためのユニークなマッピングモジュールを利用する。 小さなバックボーンに最適化されたトレーニングレギュラーと多様なデータセットアマルガムを使用するため、TinyGPT-Vはトレーニングに24GB、パフォーマンスを損なうことなく推論に8GBの計算リソースを必要とする。 我々の実験は、TinyGPT-Vが言語モデル2.8億のパラメータを持つことにより、VQAと画像推論タスクに匹敵する結果を得ると同時に、革新的な量子化技術によるリソース制約されたデバイスへの展開に一意に適していることを示した。 この作業は、よりアクセスしやすく効率的なMLLMの道を開くだけでなく、現実世界のアプリケーションにおける高性能と計算効率のギャップを埋める上で、より小さく最適化されたモデルの可能性を強調している。 さらに,より小さなバックボーンを用いたマルチモーダルな大規模言語モデルに対する新しいアプローチを提案する。 私たちのコードとトレーニングの重みは補足資料で利用可能です。

In recent years, multimodal large language models (MLLMs) such as GPT-4V have demonstrated remarkable advancements, excelling in a variety of vision-language tasks. Despite their prowess, the closed-source nature and computational demands of such models limit their accessibility and applicability. This study introduces TinyGPT-V, a novel open-source MLLM, designed for efficient training and inference across various vision-language tasks, including image captioning (IC) and visual question answering (VQA). Leveraging a compact yet powerful architecture, TinyGPT-V integrates the Phi-2 language model with pre-trained vision encoders, utilizing a unique mapping module for visual and linguistic information fusion. With a training regimen optimized for small backbones and employing a diverse dataset amalgam, TinyGPT-V requires significantly lower computational resources 24GB for training and as little as 8GB for inference without compromising on performance. Our experiments demonstrate that TinyGPT-V, with its language model 2.8 billion parameters, achieves comparable results in VQA and image inference tasks to its larger counterparts while being uniquely suited for deployment on resource-constrained devices through innovative quantization techniques. This work not only paves the way for more accessible and efficient MLLMs but also underscores the potential of smaller, optimized models in bridging the gap between high performance and computational efficiency in real-world applications. Additionally, this paper introduces a new approach to multimodal large language models using smaller backbones. Our code and training weights are available in the supplementary material.
翻訳日:2024-06-24 20:08:09 公開日:2024-06-21
# 大規模法的フィクション:大規模言語モデルにおける法的な幻覚のプロファイリング

Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models ( http://arxiv.org/abs/2401.01301v2 )

ライセンス: Link先を確認
Matthew Dahl, Varun Magesh, Mirac Suzgun, Daniel E. Ho, (参考訳) 大きな言語モデル(LLM)は法則を知っていますか? これらのモデルは、法律の実践、教育、研究を強化するためにますます使われていますが、その革命的なポテンシャルは、法的な事実と一致しないテキスト出力である幻覚の存在によって脅かされています。 われわれはこれらの幻覚に関する最初の体系的な証拠を提示し, LLMの管轄区域, 裁判所, 期間, 事件にまたがる様々な業績を報告した。 私たちの仕事は4つの重要な貢献をします。 まず, 法的な幻覚の類型論を開発し, この領域における将来の研究のための概念的枠組みを提供する。 第2に,ChatGPT 4 の場合の 58% と Llama 2 の場合の 88% の間において,これらのモデルが無作為な連邦裁判所事件に関して,具体的な,検証可能な疑問を呈している。 第3に,LLMは,非現実的な質問設定において,ユーザの誤った法的仮定の修正に失敗することが多いことを示す。 第4に,LLMが法的な幻覚を発生させるとき,常に予測できないこと,あるいは常に知っているとは限らないことの証拠を提供する。 本研究は,LLMの迅速かつ教師なしな法的統合に注意を払っている。 経験豊富な弁護士でさえ、法的な幻覚に警戒し続けなければならず、LLMの恩恵を受けようとする人々にとって最もリスクが高い。

Do large language models (LLMs) know the law? These models are increasingly being used to augment legal practice, education, and research, yet their revolutionary potential is threatened by the presence of hallucinations -- textual output that is not consistent with legal facts. We present the first systematic evidence of these hallucinations, documenting LLMs' varying performance across jurisdictions, courts, time periods, and cases. Our work makes four key contributions. First, we develop a typology of legal hallucinations, providing a conceptual framework for future research in this area. Second, we find that legal hallucinations are alarmingly prevalent, occurring between 58% of the time with ChatGPT 4 and 88% with Llama 2, when these models are asked specific, verifiable questions about random federal court cases. Third, we illustrate that LLMs often fail to correct a user's incorrect legal assumptions in a contra-factual question setup. Fourth, we provide evidence that LLMs cannot always predict, or do not always know, when they are producing legal hallucinations. Taken together, our findings caution against the rapid and unsupervised integration of popular LLMs into legal tasks. Even experienced lawyers must remain wary of legal hallucinations, and the risks are highest for those who stand to benefit from LLMs the most -- pro se litigants or those without access to traditional legal resources.
翻訳日:2024-06-24 20:08:09 公開日:2024-06-21
# ApiQ: 2ビット量子化大言語モデルの微調整

ApiQ: Finetuning of 2-Bit Quantized Large Language Model ( http://arxiv.org/abs/2402.05147v3 )

ライセンス: Link先を確認
Baohao Liao, Christian Herold, Shahram Khadivi, Christof Monz, (参考訳) 大規模言語モデル(LLM)のメモリ効率の高い微調整は、GPUメモリの制限による制約と、フル微調整と比較してこれらの手法の有効性に起因して、LLMのサイズが増大するにつれ、近年大きな注目を集めている。 進歩にもかかわらず、QLoRAのようなメモリ効率の高い微調整のための現在の戦略は、様々なビット幅量子化や多面的タスクにまたがる不整合性能を示す。 この矛盾は、量子化過程が保存された知識に対する有害な影響に大きく起因し、破滅的な忘れ去られ、微調整のために事前訓練されたモデルの利用を損なう結果となった。 本研究では,LoRA成分を並列に初期化し,LLMの重みを定量化することにより,損失情報を量子化から復元する新しい量子化フレームワークであるApiQを紹介する。 このアプローチにより、より浅い層からより深い層へのエラー伝播を緩和しながら、元のLCMのアクティベーション精度の維持が保証される。 様々なLLMを用いた言語タスクの包括的評価により、ApiQは量子化時のアクティベーションエラーを実証的に最小化する。 これにより、様々なビット幅にわたって優れた微調整結果が得られる。

Memory-efficient finetuning of large language models (LLMs) has recently attracted huge attention with the increasing size of LLMs, primarily due to the constraints posed by GPU memory limitations and the effectiveness of these methods compared to full finetuning. Despite the advancements, current strategies for memory-efficient finetuning, such as QLoRA, exhibit inconsistent performance across diverse bit-width quantizations and multifaceted tasks. This inconsistency largely stems from the detrimental impact of the quantization process on preserved knowledge, leading to catastrophic forgetting and undermining the utilization of pretrained models for finetuning purposes. In this work, we introduce a novel quantization framework, ApiQ, designed to restore the lost information from quantization by concurrently initializing the LoRA components and quantizing the weights of LLMs. This approach ensures the maintenance of the original LLM's activation precision while mitigating the error propagation from shallower into deeper layers. Through comprehensive evaluations conducted on a spectrum of language tasks with various LLMs, ApiQ demonstrably minimizes activation error during quantization. Consequently, it consistently achieves superior finetuning results across various bit-widths.
翻訳日:2024-06-24 20:08:09 公開日:2024-06-21
# オン・デマンド軌道を持つ非断熱幾何学的量子ゲート

Nonadiabatic Geometric Quantum Gates with on-Demand Trajectories ( http://arxiv.org/abs/2401.11147v2 )

ライセンス: Link先を確認
Yan Liang, Zheng-Yuan Xue, (参考訳) 高忠実度量子ゲートは、大規模量子計算に必須の前提条件である。 実用的な量子システムを操作する場合、環境および運用上のエラーは避けられないため、高速であることに加えて、異なるエラーに対して本質的に堅牢であることが好ましい。 本稿では, システムの進化軌道を規定するパルス形状を変調することにより, オンデマンドトラジェクトリを用いた幾何学的量子ゲートを構築するための一般的なプロトコルを提案する。 提案手法では,スムーズパルスを用いた対象ハミルトニアンのリバースエンジニアリングを採用し,任意の軌道の幾何位相を計算することの難しさを解消する。 さらに,特定の幾何学的ゲートを様々な軌跡によって誘導できるため,異なるシナリオ下でのゲート性能をさらに最適化することが可能であり,数値シミュレーションの結果,この最適化によりゲートの品質が大幅に向上することが示された。 また,超伝導回路を用いた提案手法の実装を行い,従来の方式に比べてゲート性能が大幅に向上したことを示す。 そこで本プロトコルは,大規模量子計算のための高忠実かつ強ロバストな幾何量子ゲートに対して,有望なアプローチを示す。

High-fidelity quantum gates are an essential prerequisite for large-scale quantum computation. When manipulating practical quantum systems, environmentally and operationally induced errors are inevitable, and thus, in addition to being fast, it is preferable that operations should be intrinsically robust against different errors. Here, we propose a general protocol for constructing geometric quantum gates with on-demand trajectories by modulating the applied pulse shapes that define the system's evolution trajectory. Our scheme adopts reverse engineering of the target Hamiltonian using smooth pulses, which also eliminates the difficulty of calculating geometric phases for an arbitrary trajectory. Furthermore, because a particular geometric gate can be induced by various different trajectories, we can further optimize the gate performance under different scenarios; the results of numerical simulations indicate that this optimization can greatly enhance the quality of the gate. In addition, we present an implementation of our proposal using superconducting circuits, showcasing substantial enhancements in gate performance compared with conventional schemes. Our protocol thus presents a promising approach for high-fidelity and strong-robust geometric quantum gates for large-scale quantum computation.
翻訳日:2024-06-24 19:58:24 公開日:2024-06-21
# アンダーダム型Langevin Monte Carloによる近似トンプソンサンプリングの高速化

Accelerating Approximate Thompson Sampling with Underdamped Langevin Monte Carlo ( http://arxiv.org/abs/2401.11665v3 )

ライセンス: Link先を確認
Haoyang Zheng, Wei Deng, Christian Moya, Guang Lin, (参考訳) ランゲヴィン・モンテカルロによる近似トンプソンサンプリングは、ガウス後部サンプリングからより一般的な滑らかな後部サンプリングの範囲を広げる。 しかし、高い精度を必要とする場合、高次元問題ではスケーラビリティの問題に遭遇する。 そこで本研究では,Langevin Monte Carlo を用いたトンプソンサンプリング手法を提案する。 標準の滑らかさと対数凹凸条件に基づいて, 加速後部濃度とサンプリングを, 特定のポテンシャル関数を用いて検討した。 この設計では、対数的後悔を$\mathcal{\tilde O}(d)$から$\mathcal{\tilde O}(\sqrt{d})$へと改善する。 このアルゴリズムのスケーラビリティと堅牢性は,高次元バンディット問題における合成実験を通じて実証的に検証される。

Approximate Thompson sampling with Langevin Monte Carlo broadens its reach from Gaussian posterior sampling to encompass more general smooth posteriors. However, it still encounters scalability issues in high-dimensional problems when demanding high accuracy. To address this, we propose an approximate Thompson sampling strategy, utilizing underdamped Langevin Monte Carlo, where the latter is the go-to workhorse for simulations of high-dimensional posteriors. Based on the standard smoothness and log-concavity conditions, we study the accelerated posterior concentration and sampling using a specific potential function. This design improves the sample complexity for realizing logarithmic regrets from $\mathcal{\tilde O}(d)$ to $\mathcal{\tilde O}(\sqrt{d})$. The scalability and robustness of our algorithm are also empirically validated through synthetic experiments in high-dimensional bandit problems.
翻訳日:2024-06-24 19:58:24 公開日:2024-06-21
# 医療における音声基盤モデル:病的音声特徴予測における層選択の影響

Speech foundation models in healthcare: Effect of layer selection on pathological speech feature prediction ( http://arxiv.org/abs/2402.01796v2 )

ライセンス: Link先を確認
Daniela A. Wiepert, Rene L. Utianski, Joseph R. Duffy, John L. Stricker, Leland R. Barnard, David T. Jones, Hugo Botha, (参考訳) 音声から正確な臨床情報を抽出することは、多くの神経疾患の診断と治療に重要である。 このように、AIを臨床音声の自動的客観的評価に活用して、音声障害の診断と治療を容易にすることに関心がある。 基礎モデルを用いた伝達学習について検討し,病的音声特徴を予測する下流課題における層選択の影響に着目した。 最適層を選択することで性能が大幅に向上する(最悪の層に比べて1機能当たりのバランス精度が15.8%向上し、最終層に比べて13.6%向上)が、最高の層は予測された特徴によって異なり、常に見当たらないデータに対して一般化されるとは限らない。 学習された重み付け和は、平均的な最上位層(約1.2%低い)に匹敵する性能を示し、分配外データ(平均最下位層よりもわずか1.5%低い)を強く一般化した。

Accurately extracting clinical information from speech is critical to the diagnosis and treatment of many neurological conditions. As such, there is interest in leveraging AI for automatic, objective assessments of clinical speech to facilitate diagnosis and treatment of speech disorders. We explore transfer learning using foundation models, focusing on the impact of layer selection for the downstream task of predicting pathological speech features. We find that selecting an optimal layer can greatly improve performance (~15.8% increase in balanced accuracy per feature as compared to worst layer, ~13.6% increase as compared to final layer), though the best layer varies by predicted feature and does not always generalize well to unseen data. A learned weighted sum offers comparable performance to the average best layer in-distribution (only ~1.2% lower) and had strong generalization for out-of-distribution data (only 1.5% lower than the average best layer).
翻訳日:2024-06-24 19:58:24 公開日:2024-06-21
# Connect Later: ターゲット拡張によるロバストネスの微調整の改善

Connect Later: Improving Fine-tuning for Robustness with Targeted Augmentations ( http://arxiv.org/abs/2402.03325v2 )

ライセンス: Link先を確認
Helen Qu, Sang Michael Xie, (参考訳) ラベル付きソースドメイン(例えば、野生動物のカメラトラップからのラベル付きイメージ)でトレーニングされたモデルは、アウト・オブ・ディストリビューション(OOD)ターゲットドメイン(例えば、新しいカメラトラップ位置からのイメージ)にデプロイすると、しばしば一般化が不十分になる。 ラベルなし対象データが利用可能なドメイン適応設定では、自己教師付き事前訓練(マスク付き自己符号化、コントラスト学習)がこのパフォーマンス低下を軽減するための有望な方法である。 Pretrainingは、ジェネリックデータ拡張(例えば、マスキングやトリミング)がソースとターゲットドメインを接続する際にOODエラーを改善する。 本稿では,事前学習後の微調整を標準化した実世界のタスクについて,ラベル付きソースデータからスクラッチから学習することよりも,OODエラーを常に改善しないことを示す。 分散シフトの事前学習をより効果的に活用するために、我々はConnect Laterを提案する: 汎用的な拡張で事前訓練した後、分散シフトの知識を活かしたターゲット拡張で微調整を行う。 Pretrainingはソースとターゲットドメイン内の優れた表現を学習し、ターゲット拡張は微調整時にドメインをよりよく接続する。 Connect Laterは、天文時系列分類(AstroClassification)の2.5%、ResNet-50の野生生物種識別(iWildCam-WILDS)の0.9%、DenseNet121の腫瘍識別(Camelyon17-WILDS)の1.1%、天文学的な時系列レッドシフト予測(Redshifts)の0.03 RMSE(11%)の新たなデータセットのパフォーマンスを達成している。 コードとデータセットはhttps://github.com/helenqu/connect-laterで公開されている。

Models trained on a labeled source domain (e.g., labeled images from wildlife camera traps) often generalize poorly when deployed on an out-of-distribution (OOD) target domain (e.g., images from new camera trap locations). In the domain adaptation setting where unlabeled target data is available, self-supervised pretraining (e.g., masked autoencoding or contrastive learning) is a promising method to mitigate this performance drop. Pretraining improves OOD error when the generic data augmentations used (e.g., masking or cropping) connect the source and target domains, which may be far apart in the input space. In this paper, we show on real-world tasks that standard fine-tuning after pretraining does not consistently improve OOD error over simply training from scratch on labeled source data. To better leverage pretraining for distribution shifts, we propose Connect Later: after pretraining with generic augmentations, fine-tune with targeted augmentations designed with knowledge of the distribution shift. Pretraining learns good representations within the source and target domains, while targeted augmentations connect the domains better during fine-tuning. Connect Later improves average OOD error over standard fine-tuning and supervised learning with targeted augmentations on 4 real-world datasets: Connect Later achieves the state-of-the-art on astronomical time-series classification (AstroClassification) by 2.5%, wildlife species identification (iWildCam-WILDS) with ResNet-50 by 0.9%, and tumor identification (Camelyon17-WILDS) with DenseNet121 by 1.1%; as well as best performance on a new dataset for astronomical time-series redshift prediction (Redshifts) by 0.03 RMSE (11% relative). Code and datasets are available at https://github.com/helenqu/connect-later.
翻訳日:2024-06-24 19:58:24 公開日:2024-06-21
# DiffTOP:深部強化と模倣学習のための微分軌道最適化

DiffTOP: Differentiable Trajectory Optimization for Deep Reinforcement and Imitation Learning ( http://arxiv.org/abs/2402.05421v2 )

ライセンス: Link先を確認
Weikang Wan, Yufei Wang, Zackory Erickson, David Held, (参考訳) 本稿では、微分軌道最適化をポリシー表現として利用し、深い強化と模倣学習のためのアクションを生成するDiffTOPを提案する。 トラジェクトリ最適化は、コストと動的関数によってパラメータ化され、制御において強力で広く使用されるアルゴリズムである。 提案手法の鍵となるのは,近年の微分可能軌道最適化の進歩を活用し,軌道最適化のパラメータに対する損失の勾配を計算できるようにすることである。 結果として、軌道最適化のコストとダイナミクス関数をエンドツーエンドで学習することができる。 DiffTOPは従来のモデルベースRLアルゴリズムの ``objective mismatch' 問題に対処し、DiffTOPの動的モデルは軌道最適化プロセスを通じて方針勾配損失を微分することによりタスク性能を直接最大化する。 さらに,DiffTOPを用いて標準的なロボット操作タスクスイートの模倣学習を高次元の感覚観測でベンチマークし,エネルギーベースモデル(EBM)や拡散モデル(Diffusion)と同様にフィードフォワードポリシークラスと比較した。 15のモデルベースRLタスクと35のシミュレーション学習タスクに高次元画像と点クラウド入力が組み込まれており、DiffTOPは両方の領域における最先端の手法よりも優れている。

This paper introduces DiffTOP, which utilizes Differentiable Trajectory OPtimization as the policy representation to generate actions for deep reinforcement and imitation learning. Trajectory optimization is a powerful and widely used algorithm in control, parameterized by a cost and a dynamics function. The key to our approach is to leverage the recent progress in differentiable trajectory optimization, which enables computing the gradients of the loss with respect to the parameters of trajectory optimization. As a result, the cost and dynamics functions of trajectory optimization can be learned end-to-end. DiffTOP addresses the ``objective mismatch'' issue of prior model-based RL algorithms, as the dynamics model in DiffTOP is learned to directly maximize task performance by differentiating the policy gradient loss through the trajectory optimization process. We further benchmark DiffTOP for imitation learning on standard robotic manipulation task suites with high-dimensional sensory observations and compare our method to feed-forward policy classes as well as Energy-Based Models (EBM) and Diffusion. Across 15 model-based RL tasks and 35imitation learning tasks with high-dimensional image and point cloud inputs, DiffTOP outperforms prior state-of-the-art methods in both domains.
翻訳日:2024-06-24 19:58:24 公開日:2024-06-21
# 深層ハイブリッドモデル:現実世界における推論と計画

Deep hybrid models: infer and plan in the real world ( http://arxiv.org/abs/2402.10088v2 )

ライセンス: Link先を確認
Matteo Priorelli, Ivilin Peev Stoianov, (参考訳) 目標を達成するための最適な計画を決定することは、現実的なシナリオにおいて難しい問題であり、しばしば複数のエンティティ間の動的および因果関係を構成する。 伝統的にこのような問題は最適制御と強化学習に取り組んできたが、最近の生物学的に動機づけられた提案では、推論プロセスとしての計画と制御が提案されている。 これらの新しいアプローチの中で、特に有望なのがアクティブ推論である。 この新たなパラダイムは、行動と知覚が生活の2つの相補的な側面であり、前者の役割は後者によって推測される予測を満たすことであると仮定する。 本研究では,複雑な制御タスクに対する能動推論に基づく効果的な解を提案する。 提案したアーキテクチャはハイブリッド(離散的かつ連続的)処理を利用して自己と環境の階層的・動的表現を構築し、異なる時間スケールのサブゴールからなる柔軟なプランを作成する。 我々は、このディープハイブリッドモデルを、移動ツールを選択した後、動く物体に到達するという、非自明なタスクで評価する。 本研究は、予測としての計画の過去の作業を拡張し、最適制御と強化学習への代替の方向性を推し進める。

Determining an optimal plan to accomplish a goal is a hard problem in realistic scenarios, which often comprise dynamic and causal relationships between several entities. Although traditionally such problems have been tackled with optimal control and reinforcement learning, a recent biologically-motivated proposal casts planning and control as an inference process. Among these new approaches, one is particularly promising: active inference. This new paradigm assumes that action and perception are two complementary aspects of life whereby the role of the former is to fulfill the predictions inferred by the latter. In this study, we present an effective solution, based on active inference, to complex control tasks. The proposed architecture exploits hybrid (discrete and continuous) processing to construct a hierarchical and dynamic representation of the self and the environment, which is then used to produce a flexible plan consisting of subgoals at different temporal scales. We evaluate this deep hybrid model on a non-trivial task: reaching a moving object after having picked a moving tool. This study extends past work on planning as inference and advances an alternative direction to optimal control and reinforcement learning.
翻訳日:2024-06-24 19:58:24 公開日:2024-06-21
# Any-Precision LLM:複数サイズ異なるLLMの低コスト展開

Any-Precision LLM: Low-Cost Deployment of Multiple, Different-Sized LLMs ( http://arxiv.org/abs/2402.10517v4 )

ライセンス: Link先を確認
Yeonhong Park, Jake Hyun, SangLyul Cho, Bonggeun Sim, Jae W. Lee, (参考訳) 近年,大規模言語モデル (LLM) の圧縮に多大な努力が注がれている。 一方、実用的重要性にもかかわらず、異なるサイズの複数のLSMをデプロイする際のコストを軽減することには、はるかに注意が払われていない。 そこで本稿では,任意の精度 DNN の概念を LLM に拡張した 'emph{any-precision LLM} を提案する。 そこで我々は,LLMの任意の精度量子化のための軽量な手法を提案し,学習後の量子化フレームワークを活用し,効率的な処理を行うための専用ソフトウェアエンジンを開発した。 その結果,3, 4, ..., $n$bits などの様々なビット幅に量子化された LLM を 1 つの$n$bit LLM に相当するメモリフットプリントにオーバーレイすることで,複数の異なる LLM をデプロイするコストを大幅に削減できることがわかった。 サポートするLLMのビット幅は様々であり、最先端のモデル品質と推論のスループットを示しており、異なるサイズのLLMを複数配置する上で魅力的な選択肢であることが証明されている。 私たちのコードはオープンソースで、オンラインで利用可能です。

Recently, considerable efforts have been directed towards compressing Large Language Models (LLMs), which showcase groundbreaking capabilities across diverse applications but entail significant deployment costs due to their large sizes. Meanwhile, much less attention has been given to mitigating the costs associated with deploying multiple LLMs of varying sizes despite its practical significance. Thus, this paper introduces \emph{any-precision LLM}, extending the concept of any-precision DNN to LLMs. Addressing challenges in any-precision LLM, we propose a lightweight method for any-precision quantization of LLMs, leveraging a post-training quantization framework, and develop a specialized software engine for its efficient serving. As a result, our solution significantly reduces the high costs of deploying multiple, different-sized LLMs by overlaying LLMs quantized to varying bit-widths, such as 3, 4, ..., $n$ bits, into a memory footprint comparable to a single $n$-bit LLM. All the supported LLMs with varying bit-widths demonstrate state-of-the-art model quality and inference throughput, proving itself to be a compelling option for deployment of multiple, different-sized LLMs. Our code is open-sourced and available online.
翻訳日:2024-06-24 19:58:24 公開日:2024-06-21
# Conversational SimulMT:大規模言語モデルを用いた効率的な同時翻訳

Conversational SimulMT: Efficient Simultaneous Translation with Large Language Models ( http://arxiv.org/abs/2402.10552v3 )

ライセンス: Link先を確認
Minghan Wang, Thuy-Trang Vu, Yuxia Wang, Ehsan Shareghi, Gholamreza Haffari, (参考訳) 同時機械翻訳(SimulMT)は、翻訳品質とレイテンシのトレードオフを示す。 最近の研究で、LLMはSimulMTタスクにおいて優れた性能を発揮することが示されている。 しかし、これはしばしば高い推論コストと遅延を犠牲にします。 本稿では,マルチターン対話型デコーディングによるLLMベースのSimulMTの推論効率を向上させるための対話型SimulMTフレームワークを提案する。 2つのSimulMTベンチマークにおけるLlama2-7b-chatを用いた実験は、特殊なSimulMTモデルに匹敵する計算遅延を達成しつつ、翻訳品質におけるLLMの優位性を実証した。

Simultaneous machine translation (SimulMT) presents a challenging trade-off between translation quality and latency. Recent studies have shown that LLMs can achieve good performance in SimulMT tasks. However, this often comes at the expense of high inference cost and latency. In this paper, we propose a conversational SimulMT framework to enhance the inference efficiency of LLM-based SimulMT through multi-turn-dialogue-based decoding. Our experiments with Llama2-7b-chat on two SimulMT benchmarks demonstrate the superiority of LLM in translation quality while achieving comparable computational latency to specialized SimulMT models.
翻訳日:2024-06-24 19:46:30 公開日:2024-06-21
# マイクロコントローラの低消費電力不整脈分類のためのTiny Transformer

A Tiny Transformer for Low-Power Arrhythmia Classification on Microcontrollers ( http://arxiv.org/abs/2402.10748v2 )

ライセンス: Link先を確認
Paola Busia, Matteo Antonio Scrugli, Victor Jean-Baptiste Jung, Luca Benini, Paolo Meloni, (参考訳) 循環器疾患の連続的およびリアルタイムモニタリングのためのウェアラブルシステムは、診断と治療において広く、貴重な資産となっている。 心電図(ECG)信号のリアルタイム解析と不整脈などの心臓状態の検出に対する有望なアプローチは、トランスフォーマー機械学習モデルによって表現される。 変換器は時系列分類の強力なモデルであるが、ウェアラブル領域における効率的な実装は、適切な精度と適切な複雑さを組み合わせるために、重要な設計上の課題を提起する。 本研究では,6kパラメータしか必要とせず,MIT-BIH Arrhythmiaデータベースから最も一般的な5つの不整脈クラスを認識した場合に98.97%の精度でECG信号を解析するための小さなトランスフォーマーモデルを提案する。 本研究は, 電極運動アーチファクトノイズに対するロバスト性向上のための拡張ベーストレーニング手法について検討し, 最悪の展開後性能評価を98.36%の精度で行った。 ウェアラブル監視ソリューションの適合性は、推論の実行に4.28msと0.09mJを要する並列超低消費電力のGAP9プロセッサへの効率的なデプロイによって、ついに実証された。

Wearable systems for the continuous and real-time monitoring of cardiovascular diseases are becoming widespread and valuable assets in diagnosis and therapy. A promising approach for real-time analysis of the electrocardiographic (ECG) signal and the detection of heart conditions, such as arrhythmia, is represented by the transformer machine learning model. Transformers are powerful models for the classification of time series, although efficient implementation in the wearable domain raises significant design challenges, to combine adequate accuracy and a suitable complexity. In this work, we present a tiny transformer model for the analysis of the ECG signal, requiring only 6k parameters and reaching 98.97% accuracy in the recognition of the 5 most common arrhythmia classes from the MIT-BIH Arrhythmia database, assessed considering 8-bit integer inference as required for efficient execution on low-power microcontroller-based devices. We explored an augmentation-based training approach for improving the robustness against electrode motion artifacts noise, resulting in a worst-case post-deployment performance assessment of 98.36% accuracy. Suitability for wearable monitoring solutions is finally demonstrated through efficient deployment on the parallel ultra-low-power GAP9 processor, where inference execution requires 4.28ms and 0.09mJ.
翻訳日:2024-06-24 19:46:30 公開日:2024-06-21
# LLMは規則に当てはまるか? LLMのストレステストと改善のための論理スキャフォールディング

Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs ( http://arxiv.org/abs/2402.11442v3 )

ライセンス: Link先を確認
Siyuan Wang, Zhongyu Wei, Yejin Choi, Xiang Ren, (参考訳) 大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。 しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。 そこで本研究では,5つの領域にまたがるプリミティブルールとコンポジションルールを組み合わせた,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。 ルールサブセット上でのGPT系列モデルの解析は,LLMの論理的理解において,特に特定のバイアスパターンを持つ構成的・構造的複雑な規則において,人的性能と比較して大きなギャップを生じさせる。 さらにこれらのルールを,よりフレキシブルなルール生成と下流推論の強化のために,より小型な推論エンジンに蒸留する。 提案する推論エンジンは, 精度, 複雑, 抽象的な結論と前提を生成するのに有効であることを証明し, 各種常識推論タスクを改良する。 全体として、我々の研究は、推論ルールの把握における LLM の限界に光を当て、論理的推論能力~\footnote{Code を向上する方法を、 \url{https://github.com/SiyuanWangw/ULogic} で提案しています。 と。

Large language models (LLMs) have achieved impressive human-like performance across various reasoning tasks. However, their mastery of underlying inferential rules still falls short of human capabilities. To investigate this, we propose a logic scaffolding inferential rule generation framework, to construct an inferential rule base, ULogic, comprising both primitive and compositional rules across five domains. Our analysis of GPT-series models over a rule subset reveals significant gaps in LLMs' logic understanding compared to human performance, especially in compositional and structural complex rules with certain bias patterns. We further distill these rules into a smaller-scale inference engine for flexible rule generation and enhancing downstream reasoning. Through a multi-judger evaluation, our inference engine proves effective in generating accurate, complex and abstract conclusions and premises, and improve various commonsense reasoning tasks. Overall, our work sheds light on LLMs' limitations in grasping inferential rule and suggests ways to enhance their logical reasoning abilities~\footnote{Code and data are available at \url{https://github.com/SiyuanWangw/ULogic}.}.
翻訳日:2024-06-24 19:46:30 公開日:2024-06-21
# ほぼ未熟な時間におけるテスト校正

Testing Calibration in Nearly-Linear Time ( http://arxiv.org/abs/2402.13187v2 )

ライセンス: Link先を確認
Lunjia Hu, Arun Jambulapati, Kevin Tian, Chutong Yang, (参考訳) 機械学習と意思決定に関する最近の文献において、キャリブレーションは二項予測モデルの出力の望ましい統計的特性として広く研究されている。 しかし, モデルキャリブレーションのアルゴリズム的側面は, 比較的よく研究されていない。 キャリブレーション距離を計測する厳密な枠組みを提案した[BGHN23] に動機付けられ, 特性試験のレンズによるキャリブレーションのアルゴリズム研究を開始した。 分布$\mathcal{D}$ on $(predictions, binary outcomes)$, 我々のゴールは、$\mathcal{D}$が完全に校正されている場合と、$\mathcal{D}$が$\varepsilon$-farである場合とを区別することである。 実験的なスムーズなキャリブレーション線形プログラムを,高構造グラフ上での最小コストフローの例として再計算し,時間$O(n\log^2(n))$で実行された正確な動的プログラムベースのソルバを設計し,同時に最適にキャリブレーションテスト問題を解く。 これにより、最先端のブラックボックス線形プログラムソルバは、$\Omega(n^\omega)$ time を必要とし、$\omega > 2$ は行列乗算の指数である。 また,ブラックボックス・リニア・プログラム・ソルバを改良したテスト問題の寛容な変種に対するアルゴリズムを開発し,本研究で検討した代替校正基準に対するサンプル複雑性の低いバウンダリを与える。 最後に、我々は、キャリブレーションの標準概念を忠実に捉え、我々のアルゴリズムが大規模なサンプルサイズに対応するために効率的にスケールすることを示す実験を示す。

In the recent literature on machine learning and decision making, calibration has emerged as a desirable and widely-studied statistical property of the outputs of binary prediction models. However, the algorithmic aspects of measuring model calibration have remained relatively less well-explored. Motivated by [BGHN23], which proposed a rigorous framework for measuring distances to calibration, we initiate the algorithmic study of calibration through the lens of property testing. We define the problem of calibration testing from samples where given $n$ draws from a distribution $\mathcal{D}$ on $(predictions, binary outcomes)$, our goal is to distinguish between the case where $\mathcal{D}$ is perfectly calibrated, and the case where $\mathcal{D}$ is $\varepsilon$-far from calibration. We make the simple observation that the empirical smooth calibration linear program can be reformulated as an instance of minimum-cost flow on a highly-structured graph, and design an exact dynamic programming-based solver for it which runs in time $O(n\log^2(n))$, and solves the calibration testing problem information-theoretically optimally in the same time. This improves upon state-of-the-art black-box linear program solvers requiring $\Omega(n^\omega)$ time, where $\omega > 2$ is the exponent of matrix multiplication. We also develop algorithms for tolerant variants of our testing problem improving upon black-box linear program solvers, and give sample complexity lower bounds for alternative calibration measures to the one considered in this work. Finally, we present experiments showing the testing problem we define faithfully captures standard notions of calibration, and that our algorithms scale efficiently to accommodate large sample sizes.
翻訳日:2024-06-24 19:46:30 公開日:2024-06-21
# 曖昧な正確さとしての不信感の連鎖

Chain-of-Thought Unfaithfulness as Disguised Accuracy ( http://arxiv.org/abs/2402.14897v3 )

ライセンス: Link先を確認
Oliver Bentham, Nathan Stringham, Ana Marasović, (参考訳) CoT(Chain-of-Thought)世代が大きな言語モデル(LLM)の内部計算とどのように一致しているかを理解することは、LLMの出力を信頼するかを決定するために重要である。 CoT 忠実性の代用として、Lanham et al (2023) はモデルが CoT に依存しているかどうかを測定する指標を提案している。 プロプライエタリなモデルの1つのファミリの中で、LLMはモデルサイズと忠実度の間のスケーリングと逆スケーリングの関係を示し、13億のパラメータモデルは8億1000万から1750億のモデルと比較して忠実度を増大させる。 これらの結果が全てのLLMの特性として一般化されるかどうかを評価する。 実験は,3種類のモデルを用いたスケーリング実験に焦点をあてたセクションで再現し,特定の条件下では,CoT忠実度に関するスケーリング傾向を再現することに成功した。 しかし、ある解選択に対するモデルの偏りを考慮するために計量を正規化した後、より小さい可能力のモデルに対して不誠実さは著しく低下する。 この正規化忠実度測定基準も(R^2$=0.74)精度と強く相関しており、忠実度を評価するための妥当性について疑念を抱いている。

Understanding the extent to which Chain-of-Thought (CoT) generations align with a large language model's (LLM) internal computations is critical for deciding whether to trust an LLM's output. As a proxy for CoT faithfulness, Lanham et al. (2023) propose a metric that measures a model's dependence on its CoT for producing an answer. Within a single family of proprietary models, they find that LLMs exhibit a scaling-then-inverse-scaling relationship between model size and their measure of faithfulness, and that a 13 billion parameter model exhibits increased faithfulness compared to models ranging from 810 million to 175 billion parameters in size. We evaluate whether these results generalize as a property of all LLMs. We replicate the experimental setup in their section focused on scaling experiments with three different families of models and, under specific conditions, successfully reproduce the scaling trends for CoT faithfulness they report. However, after normalizing the metric to account for a model's bias toward certain answer choices, unfaithfulness drops significantly for smaller less-capable models. This normalized faithfulness metric is also strongly correlated ($R^2$=0.74) with accuracy, raising doubts about its validity for evaluating faithfulness.
翻訳日:2024-06-24 19:46:30 公開日:2024-06-21
# 弱コインフリップの構成可能なセキュリティについて

On the composable security of weak coin flipping ( http://arxiv.org/abs/2402.15233v2 )

ライセンス: Link先を確認
Jiawei Wu, Yanglin Hu, Akshay Bansal, Marco Tomamichel, (参考訳) 弱コインフリップ(英: Weak coin flipping)は、2つの不信な当事者が相互にランダムなビットを生成し、遠隔通信を通じて勝者に同意する暗号プリミティブである。 単独でセキュアな弱いコインフリッププロトコルは、ノイズレス通信チャネルから構築できるが、その構成性は検討されていない。 本研究では,弱いコインフリッププロトコルを,構成可能なセキュリティを備えたブラックボックスリソースに抽象化することはできないことを示す。 それにもかかわらず、我々は、シーケンシャルな構成の下で弱いコインフリッププロトコルの総合的なスタンドアロンセキュリティを確立する。

Weak coin flipping is a cryptographic primitive in which two mutually distrustful parties generate a shared random bit to agree on a winner via remote communication. While a stand-alone secure weak coin flipping protocol can be constructed from noiseless communication channels, its composability has not been explored. In this work, we demonstrate that no weak coin flipping protocol can be abstracted into a black box resource with composable security. Despite this, we also establish the overall stand-alone security of weak coin flipping protocols under sequential composition.
翻訳日:2024-06-24 19:46:30 公開日:2024-06-21
# アクティブショットファインチューニング

Active Few-Shot Fine-Tuning ( http://arxiv.org/abs/2402.15441v4 )

ライセンス: Link先を確認
Jonas Hübotter, Bhavya Sukhija, Lenart Treven, Yarden As, Andreas Krause, (参考訳) 特定のタスクに微調整する適切なデータをどのように選択すればよいか? 我々はこのデータ選択問題をアクティブ微調整と呼び、古典的アクティブラーニングの新しい一般化であるトランスダクティブアクティブラーニングの例であることを示す。 本稿では,情報に基づくトランスダクティブ学習を短縮した ITL を提案する。 我々は、一般的な正則性仮定の下で、そのような決定規則がアクセス可能なデータから得られる最小の不確実性に一様に収束することを初めて示す。 我々は、大規模なニューラルネットワークの数ショットの微調整にIDLを適用し、IDLを用いた微調整が、最先端技術よりもはるかに少ない例でタスクを学習することを示す。

We study the question: How can we select the right data for fine-tuning to a specific task? We call this data selection problem active fine-tuning and show that it is an instance of transductive active learning, a novel generalization of classical active learning. We propose ITL, short for information-based transductive learning, an approach which samples adaptively to maximize information gained about the specified task. We are the first to show, under general regularity assumptions, that such decision rules converge uniformly to the smallest possible uncertainty obtainable from the accessible data. We apply ITL to the few-shot fine-tuning of large neural networks and show that fine-tuning with ITL learns the task with significantly fewer examples than the state-of-the-art.
翻訳日:2024-06-24 19:46:30 公開日:2024-06-21
# TEaR: 系統的自己精製によるLLM機械翻訳の改善

TEaR: Improving LLM-based Machine Translation with Systematic Self-Refinement ( http://arxiv.org/abs/2402.16379v3 )

ライセンス: Link先を確認
Zhaopeng Feng, Yan Zhang, Hao Li, Bei Wu, Jiayu Liao, Wenqiang Liu, Jun Lang, Yang Feng, Jian Wu, Zuozhu Liu, (参考訳) 大規模言語モデル (LLM) は機械翻訳 (MT) において顕著な成果を上げている。 しかし、人間による慎重な評価は、LLMが生成した翻訳には、まだ複数の誤りが含まれていることを明らかにしている。 重要なことは、そのようなエラー情報をLSMにフィードバックすることは、自己抑止につながる可能性があり、結果として翻訳性能が向上する。 これらの知見に触発されて、我々は体系的な LLM ベースの自己精製翻訳フレームワークである \textbf{T}ranslate, \textbf{E}stimate, \textbf{a}nd \textbf{R}efine を導入する。 私たちの発見は 1) 自己精製フレームワークは,高リソース言語から低リソース言語へ,あるいは英語中心か,あるいは他言語を中心として,多言語にわたる翻訳品質の向上に成功している。 2)TEaRは,優れた体系性と解釈可能性を示す。 3) 様々な評価手法が様々な影響をもたらし, 最終補正の有効性に直接影響を及ぼす。 加えて、従来のニューラル翻訳モデルと評価モデルは別々に動作し、しばしばその限られた能力のために特異なタスクに焦点を合わせ、汎用LLMは両方のタスクを同時に実行する能力を持っている。 さらに, 汎用LLMの翻訳能力と評価能力の関連性を検討するために, クロスモデル補正実験を行った。 私たちのコードとデータはhttps://github.com/fzp0424/self_correct_mtで公開されています。

Large Language Models (LLMs) have achieved impressive results in Machine Translation (MT). However, careful evaluations by human reveal that the translations produced by LLMs still contain multiple errors. Importantly, feeding back such error information into the LLMs can lead to self-refinement and result in improved translation performance. Motivated by these insights, we introduce a systematic LLM-based self-refinement translation framework, named \textbf{TEaR}, which stands for \textbf{T}ranslate, \textbf{E}stimate, \textbf{a}nd \textbf{R}efine, marking a significant step forward in this direction. Our findings demonstrate that 1) our self-refinement framework successfully assists LLMs in improving their translation quality across a wide range of languages, whether it's from high-resource languages to low-resource ones or whether it's English-centric or centered around other languages; 2) TEaR exhibits superior systematicity and interpretability; 3) different estimation strategies yield varied impacts, directly affecting the effectiveness of the final corrections. Additionally, traditional neural translation models and evaluation models operate separately, often focusing on singular tasks due to their limited capabilities, while general-purpose LLMs possess the capability to undertake both tasks simultaneously. We further conduct cross-model correction experiments to investigate the potential relationship between the translation and evaluation capabilities of general-purpose LLMs. Our code and data are available at https://github.com/fzp0424/self_correct_mt
翻訳日:2024-06-24 19:46:30 公開日:2024-06-21
# ソフトウェアエンジニアリングの公平さを理解する - Stack Exchangeからの洞察

Understanding Fairness in Software Engineering: Insights from Stack Exchange ( http://arxiv.org/abs/2402.19038v2 )

ライセンス: Link先を確認
Emeralda Sesari, Federica Sarro, Ayushi Rastogi, (参考訳) ソフトウェア実践者は、同僚や個人、オンラインで作業する際の問題について議論する。 これらの議論は技術的(例:バグの修正方法?)と社会的(例:作業を公平に割り当てる方法? ソフトウェアエンジニアリングの人的および社会的要因において、公平性の問題と解決策を探求する知識が増えている一方で、ほとんどの場合、特定の問題に焦点が当てられている。 この研究はStack Exchangeサイトのソフトウェア実践者による公正な議論を提供する。 本稿では,ソフトウェア実践者の公正な経験と,ソフトウェア開発チームにおける公正な期待を示す探索的研究について述べる。 私たちはまた、ソフトウェア実践者が最もよく話す公平さの側面を特定したいと思っています。 例えば、彼らは収入の公平さや、職場でどのように扱われるかをより気にしていますか? Stack Exchangeの8つのサイトでの公平性に関する議論を調査した結果,4,178の候補ポストから手作業で収集した136の投稿(28の質問と108の回答)のリストが得られた。 この調査によると、フェアネスに関する議論(24記事)の大多数は、多くのソフトウェア実践者が給与とそれがどのようにかなり分散されているかについて非常に関心を持っていることを示唆している。 また、あまり議論されることはないが、採用における公正性に関する議論は、最も多くのビューやスコアを受け取る傾向にあることも指摘した。 興味深いことに、この研究は保護された属性を超えて不公平な体験が広がることを示している。 本研究では,保護属性について言及した投稿は136件中25件に過ぎず,主にジェンダーが議論されている。

Software practitioners discuss problems at work with peers, in-person and online. These discussions can be technical (e.g., how to fix a bug?) and social (e.g., how to assign work fairly?). While there is a growing body of knowledge exploring fairness problems and solutions in the human and social factors of software engineering, most focus has been on specific problems. This study provides fairness discussions by software practitioners on Stack Exchange sites. We present an exploratory study presenting the fairness experience of software practitioners and fairness expectations in software teams. We also want to identify the fairness aspects software practitioners talk about the most. For example, do they care more about fairness in income or how they are treated in the workplace? Our investigation of fairness discussions on eight Stack Exchange sites resulted in a list of 136 posts (28 questions and 108 answers) manually curated from 4,178 candidate posts. The study reveals that the majority of fairness discussions (24 posts) revolve around the topic of income suggesting that many software practitioners are highly interested in matters related to their pay and how it is fairly distributed. Further, we noted that while not discussed as often, discussions on fairness in recruitment tend to receive the highest number of views and scores. Interestingly, the study shows that unfairness experiences extend beyond the protected attributes. In this study, only 25 out of 136 posts mention protected attributes, with gender mainly being discussed.
翻訳日:2024-06-24 19:46:30 公開日:2024-06-21
# AI生成コンテンツの検索拡張生成:サーベイ

Retrieval-Augmented Generation for AI-Generated Content: A Survey ( http://arxiv.org/abs/2402.19473v6 )

ライセンス: Link先を確認
Penghao Zhao, Hailin Zhang, Qinhan Yu, Zhengren Wang, Yunteng Geng, Fangcheng Fu, Ling Yang, Wentao Zhang, Jie Jiang, Bin Cui, (参考訳) モデルアルゴリズムの進歩、基礎モデルの成長、高品質なデータセットへのアクセスは、人工知能生成コンテンツ(AIGC)の進化を促している。 その顕著な成功にもかかわらず、AIGCは、知識の更新、長期データ処理、データ漏洩の軽減、高いトレーニングと推論コストの管理といったハードルに直面している。 Retrieval-Augmented Generation (RAG) はそのような課題に対処するためのパラダイムとして最近登場した。 特に、RAGは情報検索プロセスを導入し、関連オブジェクトを利用可能なデータストアから取得することで生成プロセスを強化し、より高い精度と堅牢性を実現する。 本稿では,RAG手法をAIGCシナリオに統合する既存の取り組みを概観的にレビューする。 本稿では、まず、レトリバーがジェネレータをどのように拡張するかに応じてRAG基盤を分類し、様々なレトリバーやジェネレータのための拡張手法の基本的抽象化を蒸留する。 この統合された視点は、すべてのRAGシナリオを包含し、将来の進歩に役立つ進歩と重要な技術を示します。 また、RAGシステムの効率的なエンジニアリングと実装を容易にするため、RAGのさらなる拡張手法についても要約する。 そして、別の視点から、様々なモダリティやタスクにまたがるRAGの実践的応用を調査し、研究者や実践者に貴重な参考資料を提供する。 さらに、RAGのベンチマークを導入し、現在のRAGシステムの限界について議論し、今後の研究の方向性を提案する。 Github:https://github.com/PKU-DAIR/RAG-Survey.com

Advancements in model algorithms, the growth of foundational models, and access to high-quality datasets have propelled the evolution of Artificial Intelligence Generated Content (AIGC). Despite its notable successes, AIGC still faces hurdles such as updating knowledge, handling long-tail data, mitigating data leakage, and managing high training and inference costs. Retrieval-Augmented Generation (RAG) has recently emerged as a paradigm to address such challenges. In particular, RAG introduces the information retrieval process, which enhances the generation process by retrieving relevant objects from available data stores, leading to higher accuracy and better robustness. In this paper, we comprehensively review existing efforts that integrate RAG technique into AIGC scenarios. We first classify RAG foundations according to how the retriever augments the generator, distilling the fundamental abstractions of the augmentation methodologies for various retrievers and generators. This unified perspective encompasses all RAG scenarios, illuminating advancements and pivotal technologies that help with potential future progress. We also summarize additional enhancements methods for RAG, facilitating effective engineering and implementation of RAG systems. Then from another view, we survey on practical applications of RAG across different modalities and tasks, offering valuable references for researchers and practitioners. Furthermore, we introduce the benchmarks for RAG, discuss the limitations of current RAG systems, and suggest potential directions for future research. Github: https://github.com/PKU-DAIR/RAG-Survey.
翻訳日:2024-06-24 19:46:30 公開日:2024-06-21
# Stackelberg Gamesにおける分散型学習がプレイヤーユーティリティに及ぼす影響

Impact of Decentralized Learning on Player Utilities in Stackelberg Games ( http://arxiv.org/abs/2403.00188v2 )

ライセンス: Link先を確認
Kate Donahue, Nicole Immorlica, Meena Jagadeesan, Brendan Lucier, Aleksandrs Slivkins, (参考訳) 世界展開時には、推薦システムやチャットボットなどの学習エージェントが、時間とともに他の学習エージェント(ユーザなど)と繰り返し対話することがある。 多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。 このようなケースをよりよく理解するために,2エージェントシステムの学習力学と各エージェントの目的に対する意味について検討する。 これらのシステムを分散学習を伴うStackelbergゲームとしてモデル化し、標準後悔ベンチマーク(Stackelberg平衡ペイオフなど)が少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。 これらのシステムをよりよく捉えるため、エージェントによる小さな学習エラーに耐性のある緩和された後悔ベンチマークを構築した。 我々は,標準学習アルゴリズムがサブリニアな後悔を与えるのに失敗することを示し,これらのベンチマークに関して両プレイヤーにほぼ最適な$O(T^{2/3})の後悔を与えるアルゴリズムを開発した。 より高速な学習(O(\sqrt{T})$)が可能な緩和環境をさらに設計する。 また, 逐次的, 分散化された学習環境における2エージェントの相互作用が, 両エージェントの有用性にどのように影響するかを評価するための一歩を踏み出した。

When deployed in the world, a learning agent such as a recommender system or a chatbot often repeatedly interacts with another learning agent (such as a user) over time. In many such two-agent systems, each agent learns separately and the rewards of the two agents are not perfectly aligned. To better understand such cases, we examine the learning dynamics of the two-agent system and the implications for each agent's objective. We model these systems as Stackelberg games with decentralized learning and show that standard regret benchmarks (such as Stackelberg equilibrium payoffs) result in worst-case linear regret for at least one player. To better capture these systems, we construct a relaxed regret benchmark that is tolerant to small learning errors by agents. We show that standard learning algorithms fail to provide sublinear regret, and we develop algorithms to achieve near-optimal $O(T^{2/3})$ regret for both players with respect to these benchmarks. We further design relaxed environments under which faster learning ($O(\sqrt{T})$) is possible. Altogether, our results take a step towards assessing how two-agent interactions in sequential and decentralized learning environments affect the utility of both agents.
翻訳日:2024-06-24 19:46:30 公開日:2024-06-21
# Humorについて真剣に語る - 不幸な大規模言語モデルによるHummorデータセットの構築

Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models ( http://arxiv.org/abs/2403.00794v2 )

ライセンス: Link先を確認
Zachary Horvitz, Jingru Chen, Rahul Aditya, Harshvardhan Srivastava, Robert West, Zhou Yu, Kathleen McKeown, (参考訳) 風は人間の認知と相互作用の基本的な側面である。 しかし、近年の自然言語処理の進歩にもかかわらず、ユーモア検出は、類似の非ユーモラステキストとユーモラステキストをペアリングするデータセットの不足によって複雑化している課題である。 本研究では,大言語モデル(LLM)がテキスト編集によるユーモア検出のための合成データを生成することができるかどうかを検討する。 我々は、既存の人間のデータセット上でLSMをベンチマークし、現在のLSMは、人間によって判断され、ユーモア検出の下流のタスクで測定されるように、ジョークを「不快に」する印象的な能力を示すことを示した。 我々は、GPT-4の合成データがバイリンガルアノテータによって高い評価を受けており、ユーモア分類のための挑戦的な逆例を提供するという、コード混合のイングリッシュ・ヒンディー語ユーモアデータセットにアプローチを拡張した。

Humor is a fundamental facet of human cognition and interaction. Yet, despite recent advances in natural language processing, humor detection remains a challenging task that is complicated by the scarcity of datasets that pair humorous texts with similar non-humorous counterparts. In our work, we investigate whether large language models (LLMs), can generate synthetic data for humor detection via editing texts. We benchmark LLMs on an existing human dataset and show that current LLMs display an impressive ability to 'unfun' jokes, as judged by humans and as measured on the downstream task of humor detection. We extend our approach to a code-mixed English-Hindi humor dataset, where we find that GPT-4's synthetic data is highly rated by bilingual annotators and provides challenging adversarial examples for humor classifiers.
翻訳日:2024-06-24 19:46:30 公開日:2024-06-21
# 2Dビデオとしての動的3Dポイントクラウドシーケンス

Dynamic 3D Point Cloud Sequences as 2D Videos ( http://arxiv.org/abs/2403.01129v2 )

ライセンス: Link先を確認
Yiming Zeng, Junhui Hou, Qijian Zhang, Siyu Ren, Wenping Wang, (参考訳) 動的3Dポイントクラウドシーケンスは、動的現実世界環境の最も一般的で実用的な表現の1つとして機能する。 しかし、空間的領域と時間的領域の両方における非構造的な性質は、効率的かつ効率的な処理に重大な課題をもたらす。 既存のディープポイント・クラウド・シーケンス・モデリング手法は、複雑な時空間近傍グループと特徴集約スキームを開発することによって、成熟した2次元ビデオ学習機構を模倣し、多くの場合、有効性、効率、表現力に欠ける手法をもたらす。 本稿では,SPCV(textit{Structured Point Cloud Videos)と呼ばれる新しい汎用表現を提案する。 直感的には、3次元幾何学的形状が本質的に2次元多様体であるという事実を活用することにより、SPCVは、点の3次元座標に対応する画素値が空間的滑らかさと時間的一貫性を持つ2次元ビデオとして、点雲列を再編成する。 SPCV表現の構造化された性質により、よく確立された2次元画像/映像技術のシームレスな適応が可能となり、3次元点雲列の効率的かつ効率的な処理と解析が可能となった。 このような再編成を実現するために、幾何学的に正規化され、自己再構成的および変形的フィールド学習目的によって駆動される自己教師型学習パイプラインを設計する。 さらに,SPCVをベースとした低レベル・高レベルの3Dポイントクラウドシーケンス処理と解析タスクの構築を行い,動作認識,時間的補間,圧縮などを行った。 広範な実験により提案されたSPCVの汎用性と優位性が示され、非構造化の3Dポイントクラウドシークエンスの深層学習に新たな可能性をもたらす可能性がある。 コードはhttps://github.com/ZENGYIMING-EAMON/SPCV.comでリリースされる。

Dynamic 3D point cloud sequences serve as one of the most common and practical representation modalities of dynamic real-world environments. However, their unstructured nature in both spatial and temporal domains poses significant challenges to effective and efficient processing. Existing deep point cloud sequence modeling approaches imitate the mature 2D video learning mechanisms by developing complex spatio-temporal point neighbor grouping and feature aggregation schemes, often resulting in methods lacking effectiveness, efficiency, and expressive power. In this paper, we propose a novel generic representation called \textit{Structured Point Cloud Videos} (SPCVs). Intuitively, by leveraging the fact that 3D geometric shapes are essentially 2D manifolds, SPCV re-organizes a point cloud sequence as a 2D video with spatial smoothness and temporal consistency, where the pixel values correspond to the 3D coordinates of points. The structured nature of our SPCV representation allows for the seamless adaptation of well-established 2D image/video techniques, enabling efficient and effective processing and analysis of 3D point cloud sequences. To achieve such re-organization, we design a self-supervised learning pipeline that is geometrically regularized and driven by self-reconstructive and deformation field learning objectives. Additionally, we construct SPCV-based frameworks for both low-level and high-level 3D point cloud sequence processing and analysis tasks, including action recognition, temporal interpolation, and compression. Extensive experiments demonstrate the versatility and superiority of the proposed SPCV, which has the potential to offer new possibilities for deep learning on unstructured 3D point cloud sequences. Code will be released at https://github.com/ZENGYIMING-EAMON/SPCV.
翻訳日:2024-06-24 19:36:33 公開日:2024-06-21
# 大規模言語モデルは神経科学結果の予測において人間の専門家を上回る

Large language models surpass human experts in predicting neuroscience results ( http://arxiv.org/abs/2403.03230v3 )

ライセンス: Link先を確認
Xiaoliang Luo, Akilles Rechardt, Guangzhi Sun, Kevin K. Nejad, Felipe Yáñez, Bati Yilmaz, Kangjoo Lee, Alexandra O. Cohen, Valentina Borghesani, Anton Pashkov, Daniele Marinazzo, Jonathan Nicholas, Alessandro Salatiello, Ilia Sucholutsky, Pasquale Minervini, Sepehr Razavi, Roberta Rocca, Elkhan Yusifov, Tereza Okalova, Nianlong Gu, Martin Ferianc, Mikail Khona, Kaustubh R. Patil, Pui-Shee Lee, Rui Mata, Nicholas E. Myers, Jennifer K Bizley, Sebastian Musslick, Isil Poyraz Bilgin, Guiomar Niso, Justin M. Ales, Michael Gaebler, N Apurva Ratan Murty, Leyla Loued-Khenissi, Anna Behler, Chloe M. Hall, Jessica Dafflon, Sherry Dongqi Bao, Bradley C. Love, (参考訳) 科学的な発見は、何十年にもわたって研究を合成することに悩まされている。 大規模言語モデル(LLM)は解決策を提供する。 膨大な科学文献で訓練されたLSMは、人間の専門家よりも新しい結果を予測するためにノイズがあるが、関連する研究結果を統合する可能性がある。 この可能性を評価するために、我々は神経科学の結果を予測する前向きなベンチマークであるBrainBenchを作成しました。 実験結果の予測では,LSMが専門家を上回ることが判明した。 神経科学の文献をチューニングしたLLMであるBrainGPTは、まだパフォーマンスが良くありません。 人間の専門家のように、LLMが予測に自信がある場合には、その予測が正しい可能性が高いため、人間とLLMが協力して発見する未来が予想される。 我々のアプローチは神経科学に特有ではなく、他の知識集約的な取り組みに伝達可能である。

Scientific discoveries often hinge on synthesizing decades of research, a task that potentially outstrips human information processing capacities. Large language models (LLMs) offer a solution. LLMs trained on the vast scientific literature could potentially integrate noisy yet interrelated findings to forecast novel results better than human experts. To evaluate this possibility, we created BrainBench, a forward-looking benchmark for predicting neuroscience results. We find that LLMs surpass experts in predicting experimental outcomes. BrainGPT, an LLM we tuned on the neuroscience literature, performed better yet. Like human experts, when LLMs were confident in their predictions, they were more likely to be correct, which presages a future where humans and LLMs team together to make discoveries. Our approach is not neuroscience-specific and is transferable to other knowledge-intensive endeavors.
翻訳日:2024-06-24 19:36:33 公開日:2024-06-21
# 接続モードによるフェデレーション学習

Federated Learning over Connected Modes ( http://arxiv.org/abs/2403.03333v2 )

ライセンス: Link先を確認
Dennis Grinwald, Philipp Wiesner, Shinichi Nakajima, (参考訳) フェデレート学習における統計的不均一性は、対立する勾配信号によるグローバルトレーニングの遅さと、局所的な分布に対するパーソナライズの必要性の2つの大きな課題を生じさせる。 本研究では,ニューラルネットワークの重み空間において,線形に連結された低損失領域を同定し,解単純性(solution simplex)と呼ぶ。 接続モード上でのフェデレーション学習(\textsc{Floco})を提案し、クライアントに勾配信号に基づいて局所的な部分領域を割り当て、共有グローバルソリューションの単純さを学習する。 これにより、クライアントモデルのパーソナライズは、ソリューションのシンプルさの度合いに局所的な分布を適合させ、グローバルなシンプルさのトレーニングのための更新シグナルを均質化する。 実験の結果, textsc{Floco} はグローバルトレーニングプロセスを加速し, 計算オーバーヘッドを最小限に抑えて局所的精度を大幅に向上することがわかった。

Statistical heterogeneity in federated learning poses two major challenges: slow global training due to conflicting gradient signals, and the need of personalization for local distributions. In this work, we tackle both challenges by leveraging recent advances in \emph{linear mode connectivity} -- identifying a linearly connected low-loss region in the weight space of neural networks, which we call solution simplex. We propose federated learning over connected modes (\textsc{Floco}), where clients are assigned local subregions in this simplex based on their gradient signals, and together learn the shared global solution simplex. This allows personalization of the client models to fit their local distributions within the degrees of freedom in the solution simplex and homogenizes the update signals for the global simplex training. Our experiments show that \textsc{Floco} accelerates the global training process, and significantly improves the local accuracy with minimal computational overhead.
翻訳日:2024-06-24 19:36:33 公開日:2024-06-21
# SHAN:Scene Heterogeneous Graph上での推論によるオブジェクトレベルプライバシ検出

SHAN: Object-Level Privacy Detection via Inference on Scene Heterogeneous Graph ( http://arxiv.org/abs/2403.09172v2 )

ライセンス: Link先を確認
Zhuohang Jiang, Bingkui Tong, Xia Du, Ahmed Alhammadi, Jizhe Zhou, (参考訳) ソーシャルプラットフォームの普及に伴い、プライバシー保護は重要な問題となっている。 プライバシオブジェクト検出は、画像内のプライベートオブジェクトを正確に見つけることを目的としている。 個人のプライバシの権利を保護し、デジタル時代の責任あるデータ処理プラクティスを確実にする基盤となっている。 オブジェクトのプライバシはシフト不変ではないため、プライバシオブジェクト検出タスクの本質は、シーン情報に基づいてオブジェクトのプライバシを推論することである。 しかし、プライバシオブジェクト検出は、一般的なオブジェクト検出タスクのサブプロブレムとして長い間研究されてきた。 したがって、既存の手法は精度、一般化、解釈可能性の重大な欠陥に悩まされている。 さらに、法的制約のため、大規模なプライバシデータセットの作成は困難であり、既存のプライバシデータセットにはラベルの粒度がない。 既存のプライバシー検出手法の粒度は依然として画像レベルに限られている。 上記の2つの問題に対処するために、オブジェクトレベルのプライバシ検出のためのベンチマークデータセットを2つ導入し、画像からシーン異質なグラフを構築し、シーン推論に自己認識機構を用いてオブジェクトのプライバシを得るモデルであるSHAN(Scene Heterogeneous Graph Attention Network)を提案する。 実験により,SHANはプライバシオブジェクト検出タスクにおいて優れた性能を示し,すべての指標がベースラインモデルを上回ることを示した。

With the rise of social platforms, protecting privacy has become an important issue. Privacy object detection aims to accurately locate private objects in images. It is the foundation of safeguarding individuals' privacy rights and ensuring responsible data handling practices in the digital age. Since privacy of object is not shift-invariant, the essence of the privacy object detection task is inferring object privacy based on scene information. However, privacy object detection has long been studied as a subproblem of common object detection tasks. Therefore, existing methods suffer from serious deficiencies in accuracy, generalization, and interpretability. Moreover, creating large-scale privacy datasets is difficult due to legal constraints and existing privacy datasets lack label granularity. The granularity of existing privacy detection methods remains limited to the image level. To address the above two issues, we introduce two benchmark datasets for object-level privacy detection and propose SHAN, Scene Heterogeneous graph Attention Network, a model constructs a scene heterogeneous graph from an image and utilizes self-attention mechanisms for scene inference to obtain object privacy. Through experiments, we demonstrated that SHAN performs excellently in privacy object detection tasks, with all metrics surpassing those of the baseline model.
翻訳日:2024-06-24 19:36:33 公開日:2024-06-21
# テネシー・イーストマン過程における異常検出・診断のためのGated Dynamic Learnable Attention 機構を用いた双極子変圧器

Twin Transformer using Gated Dynamic Learnable Attention mechanism for Fault Detection and Diagnosis in the Tennessee Eastman Process ( http://arxiv.org/abs/2403.10842v3 )

ライセンス: Link先を確認
Mohammad Ali Labbaf-Khaniki, Mohammad Manthouri, (参考訳) 故障検出・診断(FDD)は,産業プロセスの安全性と効率を確保するための重要な課題である。 我々は、化学プロセス制御のための広く使われているベンチマークであるテネシー・イーストマン・プロセス(TEP)のための新しいFDD手法を提案する。 このモデルは2つの別々のTransformerブランチを使用しており、入力データの独立処理と多様な情報の潜在的抽出を可能にしている。 新しい注意機構であるGated Dynamic Learnable Attention (GDLAttention)を導入し、ゲーティング機構と動的学習機能を統合する。 ゲーティング機構は注意重みを変調し、モデルが入力の最も関連性の高い部分に集中できるようにする。 動的学習アプローチは、トレーニング中の注意戦略に適応し、パフォーマンスを向上させる可能性がある。 注意機構は双線形類似関数を使用し、クエリとキーベクトルの間の複雑な関係をキャプチャする柔軟性を高める。 提案手法の有効性を評価するため,TEPの21および18の異なる障害シナリオに対してテストを行い,その性能をいくつかのFDD手法と比較した。 その結果, 精度, 誤報率, 誤分類率において, 他者よりも優れていたことが示唆された。 このことは、複雑な工業プロセスにおけるFDDのアプローチの堅牢性と有効性を示している。

Fault detection and diagnosis (FDD) is a crucial task for ensuring the safety and efficiency of industrial processes. We propose a novel FDD methodology for the Tennessee Eastman Process (TEP), a widely used benchmark for chemical process control. The model employs two separate Transformer branches, enabling independent processing of input data and potential extraction of diverse information. A novel attention mechanism, Gated Dynamic Learnable Attention (GDLAttention), is introduced which integrates a gating mechanism and dynamic learning capabilities. The gating mechanism modulates the attention weights, allowing the model to focus on the most relevant parts of the input. The dynamic learning approach adapts the attention strategy during training, potentially leading to improved performance. The attention mechanism uses a bilinear similarity function, providing greater flexibility in capturing complex relationships between query and key vectors. In order to assess the effectiveness of our approach, we tested it against 21 and 18 distinct fault scenarios in TEP, and compared its performance with several established FDD techniques. The outcomes indicate that the method outperforms others in terms of accuracy, false alarm rate, and misclassification rate. This underscores the robustness and efficacy of the approach for FDD in intricate industrial processes.
翻訳日:2024-06-24 19:36:33 公開日:2024-06-21
# 遅延状態推論による観測遅延下での自律型オンランプマージの強化学習

Reinforcement Learning with Latent State Inference for Autonomous On-ramp Merging under Observation Delay ( http://arxiv.org/abs/2403.11852v3 )

ライセンス: Link先を確認
Amin Tabrizian, Zhitong Huang, Peng Wei, (参考訳) 本稿では、自動運転車が多車線高速道路の車両の流れにシームレスに統合されるという、自律的なオンランプ統合の課題に対処する新しいアプローチを提案する。 車両の意図や運転スタイルに関する包括的知識を必要とせず,オンランプマージタスクを安全に行うために設計されたL3ISエージェントを用いたレーンキーピング・レーンチェンジについて紹介する。 また、このエージェントであるAL3ISを、観測遅延を考慮し、車車間通信遅延(V2V)を用いて、実環境においてより堅牢な決定を行えるようにした。 他の運転者の意図などの潜伏状態を通じて環境の観測不能な側面をモデル化することにより、我々のアプローチは、エージェントが動的な交通条件に適応し、マージ操作を最適化し、他の車両との安全な相互作用を確保する能力を高める。 実交通データから発生する広範囲なシミュレーションにより,本手法の有効性を実証し,その性能を既存手法と比較する。 L3ISは、実際のアメリカ国道101号線のデータから生成された、ランプ上の合併事件において、99.90%の成功率を示している。 さらに、AL3ISの感度解析を行い、様々な観測遅延に対する頑健さを評価し、1秒間V2V通信遅延における93.84%の成功率を許容できる性能を示す。

This paper presents a novel approach to address the challenging problem of autonomous on-ramp merging, where a self-driving vehicle needs to seamlessly integrate into a flow of vehicles on a multi-lane highway. We introduce the Lane-keeping, Lane-changing with Latent-state Inference and Safety Controller (L3IS) agent, designed to perform the on-ramp merging task safely without comprehensive knowledge about surrounding vehicles' intents or driving styles. We also present an augmentation of this agent called AL3IS that accounts for observation delays, allowing the agent to make more robust decisions in real-world environments with vehicle-to-vehicle (V2V) communication delays. By modeling the unobservable aspects of the environment through latent states, such as other drivers' intents, our approach enhances the agent's ability to adapt to dynamic traffic conditions, optimize merging maneuvers, and ensure safe interactions with other vehicles. We demonstrate the effectiveness of our method through extensive simulations generated from real traffic data and compare its performance with existing approaches. L3IS shows a 99.90% success rate in a challenging on-ramp merging case generated from the real US Highway 101 data. We further perform a sensitivity analysis on AL3IS to evaluate its robustness against varying observation delays, which demonstrates an acceptable performance of 93.84% success rate in 1-second V2V communication delay.
翻訳日:2024-06-24 19:36:33 公開日:2024-06-21
# テキスト・画像拡散モデルから学習した著作権侵害のデータセットとベンチマーク

A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models ( http://arxiv.org/abs/2403.12052v3 )

ライセンス: Link先を確認
Rui Ma, Qiang Zhou, Yizhu Jin, Daquan Zhou, Bangjun Xiao, Xiuyu Li, Yi Qu, Aishani Singh, Kurt Keutzer, Jingtong Hu, Xiaodong Xie, Zhen Dong, Shanghang Zhang, Shiji Zhou, (参考訳) 著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに委ねている。 しかし、近年のテキスト・画像生成の進歩は、著作権の執行に重大な課題をもたらしている。 これらの技術は、著作権のあるコンテンツの無許可の学習と複製、芸術的創造、そして類推を可能にし、規制されていないコンテンツの拡散につながる。 特に、テキスト・ツー・イメージ合成に優れた安定拡散のようなモデルは、著作権侵害や不正な配布のリスクを高め、機械学習モデルから特定のデータや概念の影響を根絶しようとするマカイン・アンラーニングは、拡散モデルに内在する「enquote{copyright memory"を排除し、有望な解決策として現れる。 しかし、著作権保護シナリオにおける非学習技術の有効性を評価するための包括的な大規模データセットと標準化されたベンチマークが欠如していることは、より効果的な非学習方法の開発を妨げる。 このギャップに対処するために、データセットをキュレートするためにCLIP、ChatGPT、拡散モデルを調和させる新しいパイプラインを導入します。 このデータセットは、アンカー画像、関連するプロンプト、およびテキスト・ツー・イメージ・モデルによって合成される画像を含む。 さらに,非学習的アプローチの有効性を評価するため,人間と芸術家の双方による評価を通じて,意味情報とスタイル情報に基づく混合メトリクスを開発した。 私たちのデータセット、ベンチマークライブラリ、評価メトリクスは、将来の研究と実践的アプリケーションを促進するために公開されます(https://rmpku.github.io/CPDM-page/, website / http://149.104.22.83/unlearning.tar.gz, dataset)。

Copyright law confers upon creators the exclusive rights to reproduce, distribute, and monetize their creative works. However, recent progress in text-to-image generation has introduced formidable challenges to copyright enforcement. These technologies enable the unauthorized learning and replication of copyrighted content, artistic creations, and likenesses, leading to the proliferation of unregulated content. Notably, models like stable diffusion, which excel in text-to-image synthesis, heighten the risk of copyright infringement and unauthorized distribution.Machine unlearning, which seeks to eradicate the influence of specific data or concepts from machine learning models, emerges as a promising solution by eliminating the \enquote{copyright memories} ingrained in diffusion models. Yet, the absence of comprehensive large-scale datasets and standardized benchmarks for evaluating the efficacy of unlearning techniques in the copyright protection scenarios impedes the development of more effective unlearning methods. To address this gap, we introduce a novel pipeline that harmonizes CLIP, ChatGPT, and diffusion models to curate a dataset. This dataset encompasses anchor images, associated prompts, and images synthesized by text-to-image models. Additionally, we have developed a mixed metric based on semantic and style information, validated through both human and artist assessments, to gauge the effectiveness of unlearning approaches. Our dataset, benchmark library, and evaluation metrics will be made publicly available to foster future research and practical applications (https://rmpku.github.io/CPDM-page/, website / http://149.104.22.83/unlearning.tar.gz, dataset).
翻訳日:2024-06-24 19:36:33 公開日:2024-06-21
# 非プロプライエタリなプレプロシージャによる予測可能なプライバシ

Provable Privacy with Non-Private Pre-Processing ( http://arxiv.org/abs/2403.13041v4 )

ライセンス: Link先を確認
Yaxi Hu, Amartya Sanyal, Bernhard Schölkopf, (参考訳) Differentially Private(DP)機械学習パイプラインを分析する場合、データ依存の事前処理の潜在的なプライバシコストは、プライバシ会計においてしばしば見過ごされる。 本研究では,非プライベートなデータ依存型前処理アルゴリズムによって生じる追加のプライバシーコストを評価するための一般的なフレームワークを提案する。 本フレームワークは,Smooth DPと呼ばれるDPの変種と,前処理アルゴリズムの限界感度という,2つの新しい技術的概念を活用することにより,全体的なプライバシー保証の上限を確立する。 汎用フレームワークに加えて、複数のDPアルゴリズムと組み合わせて使用する場合、データ計算、量子化、復号化、PCAなどの複数のデータ依存事前処理アルゴリズムに対して、全体的なプライバシー保証を提供する。 このフレームワークは実装も簡単で、既存のDPパイプラインに直接統合できる。

When analysing Differentially Private (DP) machine learning pipelines, the potential privacy cost of data-dependent pre-processing is frequently overlooked in privacy accounting. In this work, we propose a general framework to evaluate the additional privacy cost incurred by non-private data-dependent pre-processing algorithms. Our framework establishes upper bounds on the overall privacy guarantees by utilising two new technical notions: a variant of DP termed Smooth DP and the bounded sensitivity of the pre-processing algorithms. In addition to the generic framework, we provide explicit overall privacy guarantees for multiple data-dependent pre-processing algorithms, such as data imputation, quantization, deduplication and PCA, when used in combination with several DP algorithms. Notably, this framework is also simple to implement, allowing direct integration into existing DP pipelines.
翻訳日:2024-06-24 19:36:33 公開日:2024-06-21
# 平衡からの一元的時間発展について

On unitary time evolution out of equilibrium ( http://arxiv.org/abs/2403.13477v2 )

ライセンス: Link先を確認
Gesualdo Delfino, Marianna Sorba, (参考訳) 負の時間における任意の進化を考慮に入れるために、非平衡状態にある時間非依存のハミルトン状態において、正の時間で進化する$d$次元量子系を考える。 局所作用素の一点函数がエネルギー固有状態に基づいて非平衡状態の膨張係数に依存することを示す。 この方法で漸近的なオフセットを表現し、この値の周囲の振動が大きな時間で破壊されない状態を示す。 また、小さなクエンチの場合、一般結果の構造が摂動的に知られていることを単純化し、再現する方法も示す。

We consider $d$-dimensional quantum systems which for positive times evolve with a time-independent Hamiltonian in a nonequilibrium state that we keep generic in order to account for arbitrary evolution at negative times. We show how the one-point functions of local operators depend on the coefficients of the expansion of the nonequilibrium state on the basis of energy eigenstates. We express in this way the asymptotic offset and show under which conditions oscillations around this value stay undamped at large times. We also show how, in the case of small quenches, the structure of the general results simplifies and reproduces that known perturbatively.
翻訳日:2024-06-24 19:36:33 公開日:2024-06-21
# 対実的キーワードを考えることで、大規模なマルチモーダルモデルにおける幻覚を緩和する

What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models ( http://arxiv.org/abs/2403.13513v2 )

ライセンス: Link先を確認
Junho Kim, Yeon Ju Kim, Yong Man Ro, (参考訳) 本稿では,大規模マルチモーダルモデル(LMM)の幻覚に対する信頼性を高める手法を提案する。 そこで我々は,自己生成した反事実キーワードを用いて,反現実的思考をLMMに埋め込む新しい手法である反現実的インセプションを提案する。 本手法は,人間が代替現実を考察し,より広範な文脈探索を可能にする認知的プロセスである,反現実的思考の概念に基づいている。 人間の認知メカニズムをLMMに組み込むことで、より広い文脈の場面で理解し、幻覚のアウトプットを緩和する反応をモデルが関与し、生成することを目指している。 さらにPlatusibility Verification Process (PVP)を導入し、モデル応答における反現実的思考の一貫したトリガを可能にするために、サブ最適キーワードを効果的にフィルタリングするシンプルな頑健なキーワード制約を提案する。 オープンソースモデルとプロプライエタリモデルの両方を含む多種多様なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させ、真の視覚的手がかりに基づいて文脈的理解を広げるのに役立ちます。

This paper presents a way of enhancing the reliability of Large Multi-modal Models (LMMs) in addressing hallucination, where the models generate cross-modal inconsistent responses. Without additional training, we propose Counterfactual Inception, a novel method that implants counterfactual thinking into LMMs using self-generated counterfactual keywords. Our method is grounded in the concept of counterfactual thinking, a cognitive process where human considers alternative realities, enabling more extensive context exploration. Bridging the human cognition mechanism into LMMs, we aim for the models to engage with and generate responses that span a wider contextual scene understanding, mitigating hallucinatory outputs. We further introduce Plausibility Verification Process (PVP), a simple yet robust keyword constraint that effectively filters out sub-optimal keywords to enable the consistent triggering of counterfactual thinking in the model responses. Comprehensive analyses across various LMMs, including both open-source and proprietary models, corroborate that counterfactual thinking significantly reduces hallucination and helps to broaden contextual understanding based on true visual clues.
翻訳日:2024-06-24 19:36:33 公開日:2024-06-21
# 非エルミート皮膚効果の一般的な基準と応用:多くの身体系におけるフォック空間皮膚効果

General criterion for non-Hermitian skin effects and Application: Fock space skin effects in many body systems ( http://arxiv.org/abs/2403.13595v2 )

ライセンス: Link先を確認
Kenji Shimomura, Masatoshi Sato, (参考訳) 非ハーミティシティは、非ハーミティアン皮膚効果と呼ばれるバルク状態のマクロ的な蓄積を可能にする。 非エルミート皮膚効果は単一粒子系では十分に確立されているが、一般的な系では適切に特徴づけられる。 ここでは、線形作用素によって進化した任意の有限次元系に対して機能する非エルミート皮膚効果の一般的な基準を提案する。 適用システムは多体システムとネットワークシステムを含む。 基準を満たす系は進化作用素の強化された非正規性を示し、非エルミート系に固有の例外的な特性を伴っている。 この基準を適用して、Fock空間の皮膚効果を再現する新しいタイプの非エルミート皮膚効果を多体系で発見する。 また、Fock空間皮膚効果による緩やかなダイナミクスについても論じ、Fock空間皮膚効果の実験的シグナルを与える。

Non-Hermiticity enables macroscopic accumulation of bulk states, named non-Hermitian skin effects. The non-Hermitian skin effects are well-established for single-particle systems, but their proper characterization for general systems is elusive. Here, we propose a general criterion of non-Hermitian skin effects, which works for any finite-dimensional system evolved by a linear operator. The applicable systems include many-body systems and network systems. A system meeting the criterion exhibits enhanced non-normality of the evolution operator, accompanied by exceptional characteristics intrinsic to non-Hermitian systems. Applying the criterion, we discover a new type of non-Hermitian skin effect in many-body systems, which we dub the Fock space skin effect. We also discuss the Fock space skin effect-induced slow dynamics, which gives an experimental signal for the Fock space skin effect.
翻訳日:2024-06-24 19:26:42 公開日:2024-06-21
# 結晶構造予測のための多目的品質多様性

Multi-Objective Quality-Diversity for Crystal Structure Prediction ( http://arxiv.org/abs/2403.17164v2 )

ライセンス: Link先を確認
Hannah Janmohamed, Marta Wolinska, Shikha Surana, Thomas Pierrot, Aron Walsh, Antoine Cully, (参考訳) 結晶構造は電池から太陽電池まで、さまざまな領域で必須であり、原子配置に基づいて結晶の性質を予測するための広範な研究が続けられている。 しかし、一般的な結晶構造予測法は、エネルギー関数の世界の最小値にある最も安定な解を特定することに重点を置いている。 このアプローチは、近隣の局所的なミニマムにある他の潜在的に興味深い材料を見落とし、導電性や変形に対する抵抗などの異なる材料特性を持つ。 対照的に、Quality-Diversityアルゴリズムは、様々な特性を持つ高性能なソリューションの集合を見つけることを目的として、結晶構造予測のための有望な道を提供する。 しかし、磁性や熱電効率といった他の目的と並んで結晶構造の安定性を最適化するのも価値があるかもしれない。 そこで本研究では,多目的品質多様性アルゴリズムのパワーを利用して,多様な特徴を持つ結晶構造を探索し,異なる目的のトレードオフを実現する。 5つの結晶系に対する我々のアプローチを分析し、既知の実生活構造を再発見できるだけでなく、将来有望な新しい構造も発見できることを実証する。 また,目的空間を照らし,どのようなトレードオフが達成できるかを理解する方法を提案する。

Crystal structures are indispensable across various domains, from batteries to solar cells, and extensive research has been dedicated to predicting their properties based on their atomic configurations. However, prevailing Crystal Structure Prediction methods focus on identifying the most stable solutions that lie at the global minimum of the energy function. This approach overlooks other potentially interesting materials that lie in neighbouring local minima and have different material properties such as conductivity or resistance to deformation. By contrast, Quality-Diversity algorithms provide a promising avenue for Crystal Structure Prediction as they aim to find a collection of high-performing solutions that have diverse characteristics. However, it may also be valuable to optimise for the stability of crystal structures alongside other objectives such as magnetism or thermoelectric efficiency. Therefore, in this work, we harness the power of Multi-Objective Quality-Diversity algorithms in order to find crystal structures which have diverse features and achieve different trade-offs of objectives. We analyse our approach on 5 crystal systems and demonstrate that it is not only able to re-discover known real-life structures, but also find promising new ones. Moreover, we propose a method for illuminating the objective space to gain an understanding of what trade-offs can be achieved.
翻訳日:2024-06-24 19:26:42 公開日:2024-06-21
# MonoBox:Monotonicity Constraintを用いた軽量なボックス管理ポリープセグメンテーション

MonoBox: Tightness-free Box-supervised Polyp Segmentation using Monotonicity Constraint ( http://arxiv.org/abs/2404.01188v3 )

ライセンス: Link先を確認
Qiang Hu, Zhenyu Yi, Ying Zhou, Ting Li, Fan Huang, Mei Liu, Qiang Li, Zhiwei Wang, (参考訳) 単調性に制約された革新的なボックス教師付きセグメンテーション手法であるMonoBoxを提案し,そのトレーニングをユーザフレンドリーでないボックスタイトネスの仮定から解放する。 ボックスエッジが正確にターゲット境界に触れなければならない従来のボックス管理セグメンテーションとは対照的に、MonoBoxは不正確なアノテートボックスを活用して、堅牢なピクセルワイドセグメンテーションを実現する。 この'linchpin'は、ボックスエッジ周辺のノイズの多いゾーンにおいて、MonoBoxは従来のミスガイドによるマルチインスタンス学習損失を捨て、代わりに慎重に設計されたモノトニック性制約と呼ばれる目的を最適化する、というものだ。 前景から背景へと遷移する方向に沿って、この新しい制約は、単調に減少する値の傾向に固執するように応答する。 したがって、ノイズゾーン内の元の信頼性の低い学習は、正しい、効果的な単調性最適化に変換される。 さらに、適応ラベル補正を導入し、MonoBoxは、以前のエポックから予測されたマスクを使用してボックスアノテーションの厳密性を向上し、トレーニングが進むにつれてノイズゾーンを動的に縮小する。 本研究は, ポリープと正常組織の境界が曖昧であるため, ボックスの密閉度を満たすことが困難であるポリープのボックス管理セグメンテーションタスクにおけるMonoBoxの検証である。 公開合成および社内実雑音データセットの実験では、MonoBoxはDiceを少なくとも5.5%改善し、3.3%改善することで、他のアンチ・ノイズ・オブ・ザ・アーティファクトを上回っている。 コードはhttps://github.com/Huster-Hq/MonoBoxにある。

We propose MonoBox, an innovative box-supervised segmentation method constrained by monotonicity to liberate its training from the user-unfriendly box-tightness assumption. In contrast to conventional box-supervised segmentation, where the box edges must precisely touch the target boundaries, MonoBox leverages imprecisely-annotated boxes to achieve robust pixel-wise segmentation. The 'linchpin' is that, within the noisy zones around box edges, MonoBox discards the traditional misguiding multiple-instance learning loss, and instead optimizes a carefully-designed objective, termed monotonicity constraint. Along directions transitioning from the foreground to background, this new constraint steers responses to adhere to a trend of monotonically decreasing values. Consequently, the originally unreliable learning within the noisy zones is transformed into a correct and effective monotonicity optimization. Moreover, an adaptive label correction is introduced, enabling MonoBox to enhance the tightness of box annotations using predicted masks from the previous epoch and dynamically shrink the noisy zones as training progresses. We verify MonoBox in the box-supervised segmentation task of polyps, where satisfying box-tightness is challenging due to the vague boundaries between the polyp and normal tissues. Experiments on both public synthetic and in-house real noisy datasets demonstrate that MonoBox exceeds other anti-noise state-of-the-arts by improving Dice by at least 5.5% and 3.3%, respectively. Codes are at https://github.com/Huster-Hq/MonoBox.
翻訳日:2024-06-24 19:26:42 公開日:2024-06-21
# EBUS-TBNAにおける肺がん病変解析の高度化に向けて -- 半監督ビデオオブジェクト検出法-

Towards Enhanced Analysis of Lung Cancer Lesions in EBUS-TBNA -- A Semi-Supervised Video Object Detection Method ( http://arxiv.org/abs/2404.01929v4 )

ライセンス: Link先を確認
Jyun-An Lin, Yun-Chien Cheng, Ching-Kai Lin, (参考訳) 本研究の目的は, 内膜超音波(EBUS)を用いた肺病変のコンピュータ診断システムを構築し, 病変部位の同定を支援することである。 EBUS-transbronchial needle apiration (EBUS-TBNA) 術中, 衛生士は病変の位置をグレースケールの超音波画像に頼っている。 しかし、これらの画像は大きなノイズを伴い、周囲の組織や血管の影響を受けやすいため、識別は困難である。 これまでの研究では、EBUS-TBNAへのオブジェクト検出モデルの適用が欠如しており、EBUS-TBNAデータセットに注釈付きデータがないという明確な解決策はない。 超音波画像の関連研究では、各タスクのターゲット領域の取得に成功しているが、トレーニングと予測は2次元画像に基づいており、時間的特徴を活用して予測を改善する能力が制限されている。 本研究では,3次元映像に基づく物体検出モデルを提案する。 まず、拡散モデルを用いて改善されたクエリのセットを生成し、次に注意機構を通じて時間的相関をキャプチャする。 フィルタリング機構は、前のフレームから関連情報を選択して、現在のフレームに渡す。 その後、教師-学生モデルトレーニング手法を用いて、ラベルなしデータを用いてモデルをさらに最適化する。 様々なデータ拡張と特徴アライメントを組み込むことで、モデルは干渉に対する堅牢性を得る。 テスト結果は、時空間情報をキャプチャし、半教師付き学習手法を用いるこのモデルが、テストデータセット上で平均48.7の精度(AP)を達成し、他のモデルより優れていることを示す。 また、79.2のAR(Average Recall)も達成し、既存のモデルを大きく上回っている。

This study aims to establish a computer-aided diagnostic system for lung lesions using endobronchial ultrasound (EBUS) to assist physicians in identifying lesion areas. During EBUS-transbronchial needle aspiration (EBUS-TBNA) procedures, hysicians rely on grayscale ultrasound images to determine the location of lesions. However, these images often contain significant noise and can be influenced by surrounding tissues or blood vessels, making identification challenging. Previous research has lacked the application of object detection models to EBUS-TBNA, and there has been no well-defined solution for the lack of annotated data in the EBUS-TBNA dataset. In related studies on ultrasound images, although models have been successful in capturing target regions for their respective tasks, their training and predictions have been based on two-dimensional images, limiting their ability to leverage temporal features for improved predictions. This study introduces a three-dimensional video-based object detection model. It first generates a set of improved queries using a diffusion model, then captures temporal correlations through an attention mechanism. A filtering mechanism selects relevant information from previous frames to pass to the current frame. Subsequently, a teacher-student model training approach is employed to further optimize the model using unlabeled data. By incorporating various data augmentation and feature alignment, the model gains robustness against interference. Test results demonstrate that this model, which captures spatiotemporal information and employs semi-supervised learning methods, achieves an Average Precision (AP) of 48.7 on the test dataset, outperforming other models. It also achieves an Average Recall (AR) of 79.2, significantly leading over existing models.
翻訳日:2024-06-24 19:26:42 公開日:2024-06-21
# CantTalkAboutThis: 対話におけるトピックに留まる言語モデルの調整

CantTalkAboutThis: Aligning Language Models to Stay on Topic in Dialogues ( http://arxiv.org/abs/2404.03820v2 )

ライセンス: Link先を確認
Makesh Narsimhan Sreedhar, Traian Rebedea, Shaona Ghosh, Jiaqi Zeng, Christopher Parisien, (参考訳) 命令チューニングデータセットの最近の進歩は、主に数学的または論理的推論のような特定のタスクに焦点を当てている。 会話におけるトピック関連性を維持するために言語モデルを調整するように設計されたデータには、注目すべきギャップがある。 我々はCantTalkAboutThisデータセットを導入し、タスク指向インタラクションの間、言語モデルが対象に焦点を合わせるのを助ける。 異なるドメインからの幅広い会話トピックに関する合成対話で構成されている。 これらの対話は、事前に定義されたトピックからチャットボットを意図的に逸脱させるイントラクタ・ターンによって分散される。 このデータセット上の微調整言語モデルは、GPT-4-turboやMixtral-Instructのような汎用的な命令チューニングLLMと比較して、割り当てられた役割から逸脱し、トピックコヒーレンスを維持する能力を向上させるのに役立つ。 さらに、予備的な観察では、このデータセットのトレーニングモデルが、安全アライメントを含む細かな指示に従うタスクの性能を向上させることを示唆している。

Recent advancements in instruction-tuning datasets have predominantly focused on specific tasks like mathematical or logical reasoning. There has been a notable gap in data designed for aligning language models to maintain topic relevance in conversations - a critical aspect for deploying chatbots to production. We introduce the CantTalkAboutThis dataset to help language models remain focused on the subject at hand during task-oriented interactions. It consists of synthetic dialogues on a wide range of conversation topics from different domains. These dialogues are interspersed with distractor turns that intentionally divert the chatbot from the predefined topic. Fine-tuning language models on this dataset helps make them resilient to deviating from the role assigned and improves their ability to maintain topical coherence compared to general-purpose instruction-tuned LLMs like GPT-4-turbo and Mixtral-Instruct. Additionally, preliminary observations suggest that training models on this dataset also enhance their performance on fine-grained instruction following tasks, including safety alignment.
翻訳日:2024-06-24 19:26:42 公開日:2024-06-21
# ハイパースペクトル画像のサブスペースクラスタリングのための展開ADMM

Unfolding ADMM for Enhanced Subspace Clustering of Hyperspectral Images ( http://arxiv.org/abs/2404.07112v3 )

ライセンス: Link先を確認
Xianlu Li, Nicolas Nadisic, Shaoguang Huang, Aleksandra Pižurica, (参考訳) ディープサブスペースクラスタリング法はクラスタリングにおいて注目され、一般的には完全に接続されたネットワークと自己表現損失関数を使用する。 しかし、これらの手法は過度に適合し、解釈性に欠けることが多い。 本稿では,深部展開に基づくクラスタリング手法を提案する。 ニューラルネットワークに反復最適化手法を展開することにより、データ駆動型ディープラーニング手法と比較して解釈可能性と信頼性が向上し、モデルベースアプローチよりも適応性と一般化が向上する。 したがって、展開は画像復元、再構成、超解像などの逆画像問題で広く用いられるようになったが、クラスタリングの文脈では十分に研究されていない。 本研究では,部分空間クラスタリングのためのマルチプライヤの交互方向法(ADMM)に基づく反復解法を展開させることにより,ハイパースペクトル画像(HSI)のための革新的なクラスタリングアーキテクチャを提案する。 我々の知る限り、これはサブスペースクラスタリングにおける自己表現行列の計算に展開ADMMを適用する最初の試みである。 さらに,本手法では,構造保存モジュールの一部として,K近傍近傍のアルゴリズムを用いて,HSIデータの構造特性をよく把握する。 3つの確立されたHSIデータセットの実験的評価は、HSIクラスタリングにおける展開アプローチの可能性を明確に示し、最先端技術よりも優れた性能を示している。

Deep subspace clustering methods are now prominent in clustering, typically using fully connected networks and a self-representation loss function. However, these methods often struggle with overfitting and lack interpretability. In this paper, we explore an alternative clustering approach based on deep unfolding. By unfolding iterative optimization methods into neural networks, this approach offers enhanced interpretability and reliability compared to data-driven deep learning methods, and greater adaptability and generalization than model-based approaches. Hence, unfolding has become widely used in inverse imaging problems, such as image restoration, reconstruction, and super-resolution, but has not been sufficiently explored yet in the context of clustering. In this work, we introduce an innovative clustering architecture for hyperspectral images (HSI) by unfolding an iterative solver based on the Alternating Direction Method of Multipliers (ADMM) for sparse subspace clustering. To our knowledge, this is the first attempt to apply unfolding ADMM for computing the self-representation matrix in subspace clustering. Moreover, our approach captures well the structural characteristics of HSI data by employing the K nearest neighbors algorithm as part of a structure preservation module. Experimental evaluation of three established HSI datasets shows clearly the potential of the unfolding approach in HSI clustering and even demonstrates superior performance compared to state-of-the-art techniques.
翻訳日:2024-06-24 19:26:42 公開日:2024-06-21
# 時系列からの因果発見によるサイバー物理システムのオンライン教師なし異常検出

Explainable Online Unsupervised Anomaly Detection for Cyber-Physical Systems via Causal Discovery from Time Series ( http://arxiv.org/abs/2404.09871v2 )

ライセンス: Link先を確認
Daniele Meli, (参考訳) オンラインで監視されていない異常の検出は、サイバー物理システムの正しい操作と、それらと相互作用する人間の安全性を保証するために不可欠である。 ニューラルネットワークによるディープラーニングに基づく最先端のアプローチは、(異常のない)システムの通常のモデルとセンサー時系列のリアルタイムストリームとの相違を評価し、異常認識において優れたパフォーマンスを達成する。 しかしながら、大規模なトレーニングデータと時間は通常必要であり、説明可能性はまだ、異常の根源を特定し、予測保守性を実装することが課題である。 本稿では,センサデータのリアルタイム取得における因果関係の持続性を評価し,異常を迅速に検出する。 2つのベンチマーク異常検出データセットにおいて、我々の手法はトレーニング効率が高く、最先端のニューラルネットワークの精度を上回り、10$以上の異なる異常の原因を正しく識別する。 実験的なレプリケーションのコードは http://tinyurl.com/case24causal にある。

Online unsupervised detection of anomalies is crucial to guarantee the correct operation of cyber-physical systems and the safety of humans interacting with them. State-of-the-art approaches based on deep learning via neural networks achieve outstanding performance at anomaly recognition, evaluating the discrepancy between a normal model of the system (with no anomalies) and the real-time stream of sensor time series. However, large training data and time are typically required, and explainability is still a challenge to identify the root of the anomaly and implement predictive maintainance. In this paper, we use causal discovery to learn a normal causal graph of the system, and we evaluate the persistency of causal links during real-time acquisition of sensor data to promptly detect anomalies. On two benchmark anomaly detection datasets, we show that our method has higher training efficiency, outperforms the accuracy of state-of-the-art neural architectures and correctly identifies the sources of $>10$ different anomalies. The code for experimental replication is at http://tinyurl.com/case24causal.
翻訳日:2024-06-24 19:26:42 公開日:2024-06-21
# リモートセンシング変化検出のための微粒化情報とノイズデカップリングの活用

Leveraging Fine-Grained Information and Noise Decoupling for Remote Sensing Change Detection ( http://arxiv.org/abs/2404.11318v3 )

ライセンス: Link先を確認
Qiangang Du, Jinlong Peng, Changan Wang, Xu Chen, Qingdong He, Wenbing Zhu, Mingmin Chi, Yabiao Wang, Chengjie Wang, (参考訳) 変化検出は、バイテンポラルイメージペア間のデータを分析することによって、リモートセンシングオブジェクトの変化を識別することを目的としている。 変化検出画像対におけるデータ収集の時間的・空間的幅が大きいため、タスク固有のノイズやタスクに依存しないノイズがかなり多いことがしばしばある。 これまでの努力は、デノベーションに過度に焦点を合わせてきたが、これは、きめ細かい情報を大量に失うことになる。 本稿では、変更検出におけるきめ細かい特徴の重要性を再考し、きめ細かい情報補償とノイズデカップリング(FINO)のための一連の操作を提案する。 まず、そのコンテキストを利用して、特徴空間内のきめ細かい情報を補う。 次に、表現学習能力を向上させるために、形状認識と明るさ認識モジュールを設計する。 形状認識モジュールは、より正確な形状推定のために背骨をガイドし、物体形状特徴の抽出において背骨ネットワークを誘導する。 明るさ認識モジュールは全体輝度推定を学習し、タスク非依存雑音に対するモデルの堅牢性を改善する。 最後に、タスク固有のノイズ分離構造を、特徴的類似性からノイズ干渉を分離するモデルの能力を改善するために設計する。 これらのトレーニング手法により,提案手法は複数の変更検出ベンチマークにおいて新しいSOTA(State-of-the-art)を実現する。 コードは利用可能になります。

Change detection aims to identify remote sense object changes by analyzing data between bitemporal image pairs. Due to the large temporal and spatial span of data collection in change detection image pairs, there are often a significant amount of task-specific and task-agnostic noise. Previous effort has focused excessively on denoising, with this goes a great deal of loss of fine-grained information. In this paper, we revisit the importance of fine-grained features in change detection and propose a series of operations for fine-grained information compensation and noise decoupling (FINO). First, the context is utilized to compensate for the fine-grained information in the feature space. Next, a shape-aware and a brightness-aware module are designed to improve the capacity for representation learning. The shape-aware module guides the backbone for more precise shape estimation, guiding the backbone network in extracting object shape features. The brightness-aware module learns a overall brightness estimation to improve the model's robustness to task-agnostic noise. Finally, a task-specific noise decoupling structure is designed as a way to improve the model's ability to separate noise interference from feature similarity. With these training schemes, our proposed method achieves new state-of-the-art (SOTA) results in multiple change detection benchmarks. The code will be made available.
翻訳日:2024-06-24 19:26:42 公開日:2024-06-21
# 概念活性化ベクトルによる大規模言語モデルの安全性リスクの解明

Uncovering Safety Risks of Large Language Models through Concept Activation Vector ( http://arxiv.org/abs/2404.12038v2 )

ライセンス: Link先を確認
Zhihao Xu, Ruixuan Huang, Shuai Wang, Xiting Wang, (参考訳) 注意深い安全確保にもかかわらず、現在の大規模言語モデル(LLM)は、様々な攻撃に対して脆弱なままである。 LLMの安全性リスクをさらに明らかにするために,LLMの安全性メカニズムを正確に解釈して攻撃を効果的に誘導する,SCAV(Safety Concept Activation Vector)フレームワークを導入する。 そこで我々は,自動選択摂動ハイパーパラメータによる攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。 自動評価と人的評価の両方で、我々の攻撃方法は、トレーニングデータが少なく、攻撃成功率と応答品質を著しく改善することを示した。 さらに、生成した攻撃プロンプトは GPT-4 に転送可能であり、埋め込みレベル攻撃もパラメータが知られている他のホワイトボックス LLM に転送可能であることも判明した。 我々の実験は、現在のLLMにおける安全性のリスクをさらに明らかにした。 例えば、7つのオープンソース LLM のうち 6 つが攻撃され、85 % 以上の悪意のある命令に対して常に関連性のある回答が得られます。 最後に,LLMの安全性に関する知見を提供する。

Despite careful safety alignment, current large language models (LLMs) remain vulnerable to various attacks. To further unveil the safety risks of LLMs, we introduce a Safety Concept Activation Vector (SCAV) framework, which effectively guides the attacks by accurately interpreting LLMs' safety mechanisms. We then develop an SCAV-guided attack method that can generate both attack prompts and embedding-level attacks with automatically selected perturbation hyperparameters. Both automatic and human evaluations demonstrate that our attack method significantly improves the attack success rate and response quality while requiring less training data. Additionally, we find that our generated attack prompts may be transferable to GPT-4, and the embedding-level attacks may also be transferred to other white-box LLMs whose parameters are known. Our experiments further uncover the safety risks present in current LLMs. For example, we find that six out of seven open-source LLMs that we attack consistently provide relevant answers to more than 85\% malicious instructions. Finally, we provide insights into the safety mechanism of LLMs.
翻訳日:2024-06-24 19:26:42 公開日:2024-06-21
# 複数のカメラを用いた強化学習のための多視点ディスタングル

Multi-view Disentanglement for Reinforcement Learning with Multiple Cameras ( http://arxiv.org/abs/2404.14064v2 )

ライセンス: Link先を確認
Mhairi Dunion, Stefano V. Albrecht, (参考訳) 画像ベース強化学習(RL)エージェントの性能は、撮像に使用されるカメラの位置によって異なる。 一人称自撮りカメラを含む複数のカメラを同時に訓練することで、異なるカメラの視点からの情報を活用してRLの性能を向上させることができる。 しかし、ハードウェアの制約により、現実のデプロイメントにおける複数のカメラの可用性が制限される可能性がある。 さらに、訓練中に使用した全てのカメラへのアクセスを防止するために、現実世界でカメラが損傷する可能性がある。 ハードウェアの制約を克服するため,マルチビュー・ディスタングルメント(MVD, Multi-View Disentanglement)を提案する。 提案手法は、複数のカメラから不整合表現を学習するRLの自己教師型補助タスクであり、全カメラにまたがって一台のカメラへの一般化を可能にする共有表現と、カメラ固有のプライベート表現とを有する。 実験では,1台の第三者カメラで訓練したRLエージェントが,多数の制御タスクにおいて最適なポリシーを学習できないことを示すが,トレーニング中の複数のカメラの恩恵を受けながら,同一の第三者カメラのみを用いてタスクを解くことができる。

The performance of image-based Reinforcement Learning (RL) agents can vary depending on the position of the camera used to capture the images. Training on multiple cameras simultaneously, including a first-person egocentric camera, can leverage information from different camera perspectives to improve the performance of RL. However, hardware constraints may limit the availability of multiple cameras in real-world deployment. Additionally, cameras may become damaged in the real-world preventing access to all cameras that were used during training. To overcome these hardware constraints, we propose Multi-View Disentanglement (MVD), which uses multiple cameras to learn a policy that is robust to a reduction in the number of cameras to generalise to any single camera from the training set. Our approach is a self-supervised auxiliary task for RL that learns a disentangled representation from multiple cameras, with a shared representation that is aligned across all cameras to allow generalisation to a single camera, and a private representation that is camera-specific. We show experimentally that an RL agent trained on a single third-person camera is unable to learn an optimal policy in many control tasks; but, our approach, benefiting from multiple cameras during training, is able to solve the task using only the same single third-person camera.
翻訳日:2024-06-24 19:26:42 公開日:2024-06-21
# CORM: 大規模言語モデル推論のための最近のメッセージによるキャッシュ最適化

CORM: Cache Optimization with Recent Message for Large Language Model Inference ( http://arxiv.org/abs/2404.15949v2 )

ライセンス: Link先を確認
Jincheng Dai, Zhuowei Huang, Haiyun Jiang, Chen Chen, Deng Cai, Wei Bi, Shuming Shi, (参考訳) 大きな言語モデル(LLM)は、幅広いタスクにまたがる顕著なパフォーマンスにもかかわらず、相当なGPUメモリを必要とし、かなりの計算資源を消費する。 モデル重みによって取り上げられるメモリの他に、KVキャッシュで使用されるメモリはシーケンス長とともに線形に上昇し、推論の主要なボトルネックとなる。 本稿では,メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 徹底的な調査の結果、ほとんどのTransformerモデルでそのことが判明した。 (i)隣接するトークンのクエリベクタに顕著な類似性があり、 (2)現在のクエリの注意計算は、前回のクエリのごく一部のアテンション情報にのみ依存することができる。 これらの観測に基づき、モデル微調整を必要とせず、推論に必要なキーと値のペアを動的に保持するKVキャッシュ消去ポリシーであるCORMを提案する。 我々の検証では、CORMは、LongBenchの6つのタスクで無視できるパフォーマンス劣化を伴って、KVキャッシュの推論メモリ使用量を最大70 %削減している。 さらに, 圧縮速度を向上するために, CORMがGQAと互換性があることを実証する。

Large Language Models (LLMs), despite their remarkable performance across a wide range of tasks, necessitate substantial GPU memory and consume significant computational resources. Beyond the memory taken up by model weights, the memory used by the KV cache rises linearly with sequence length, becoming a primary bottleneck for inference. In this paper, we introduce an innovative method for optimizing the KV cache, which considerably minimizes its memory footprint. Upon thorough investigation, we discover that in most Transformer models, (i) there is a striking similarity between adjacent tokens' query vectors, and (ii) the attention calculation of the current query can rely exclusively on the attention information of a small fraction of preceding queries. Based on these observations, we present CORM, a KV cache eviction policy that dynamically retains essential key-value pairs for inference without the need for model fine-tuning. Our validation shows that CORM reduces the inference memory usage of KV cache by up to 70\% with negligible performance degradation across six tasks in LongBench. Furthermore, we demonstrate that CORM is compatible with GQA for further compression rate.
翻訳日:2024-06-24 19:26:42 公開日:2024-06-21
# 回転凝縮体における非線形状態判別プロトコル

Protocol for nonlinear state discrimination in rotating condensate ( http://arxiv.org/abs/2404.16288v2 )

ライセンス: Link先を確認
Michael R. Geller, (参考訳) 非線形平均場力学は、線形一粒子量子力学では不可能な量子情報処理操作を可能にする。 このアプローチでは、ボゾン量子ビット(中性原子や偏光子など)のレジスタは凝縮によって対称積状態に初期化され、その後、量子ビット-量子相互作用の変化によって制御される。 本稿では,量子計算における重要なサブルーチンである量子状態判別の実験的実装を,トロイダルボース・アインシュタイン凝縮体を用いて提案する。 ここでの凝縮ボソンは原子であり、それぞれが角モータ 0 と 1 の重ね合わせで、量子ビットを符号化する。 このプロトコルのよい特徴は、個々の量子化された循環状態(重ね合わせではない)の読み出しのみが必要であることである。

Nonlinear mean field dynamics enables quantum information processing operations that are impossible in linear one-particle quantum mechanics. In this approach, a register of bosonic qubits (such as neutral atoms or polaritons) is initialized into a symmetric product state through condensation, then subsequently controlled by varying the qubit-qubit interaction. We propose an experimental implementation of quantum state discrimination, an important subroutine in quantum computation, with a toroidal Bose-Einstein condensate. The condensed bosons here are atoms, each in the same superposition of angular momenta 0 and 1, encoding a qubit. A nice feature of the protocol is that only readout of individual quantized circulation states (not superpositions) is required.
翻訳日:2024-06-24 19:26:42 公開日:2024-06-21
# L-DIT:動作ダイナミクスブロックチェーン上のASOのライブ検出性、識別性、追跡性のためのdApp

L-DIT: A dApp for Live Detectability, Identifiability and Trackability for ASOs on the Behavioral Dynamics Blockchain ( http://arxiv.org/abs/2404.18350v2 )

ライセンス: Link先を確認
Anirban Chowdhury, Yasir Latif, Moriba K. Jah, Samya Bagchi, (参考訳) 宇宙空間オブジェクト(ASO)の数が増加するにつれて、宇宙の安全、セキュリティ、持続可能性(S3)の確保が急務である。 現在、軌道上の全てのASOの安全性、安全性、持続可能性の定量化に有効な方法は存在しない。 スペース・サステナビリティ・レーティング(SSR)のような既存の手法は、サステナビリティ・レーティングを提供するために個人情報をボランティアに頼っている。 しかし、そのようなセンシティブなデータの必要性は、空間エンティティの採用の障壁となるかもしれない。 ASOを効果的に比較するためには、すべてのASOに対して、遡及的にも、評価機構を適用して、1つのASOの持続性を評価する必要がある。 最後に、地政学的境界線とアライメントは、宇宙の安全性、セキュリティ、持続可能性を制限するボランティア格付けシステムにおいて決定的かつ制限的な役割を担っている。 この作業では、Behavimental Dynamicsブロックチェーン(BDB)上に構築された分散アプリ(dApp)を通じて、Live Detectability、Identifiability、Trackability(L-DIT)のスコアを提示する。 BDBチェーンは、複数のソースから検証されたクロスチェックされたASOデータを提供する空間状況認識(SSA)チェーンである。 このBDBからのコンセンサスに基づく情報と、データへの無許可アクセスのユニークな組み合わせにより、ここで提示されたDITスコアリングメソッドは、すべてのASOに適用できる。 基盤となるBDBチェーンは、さまざまなオープン(かつ、利用可能であればクローズド)ソースからSSAデータを収集、フィルタし、検証する一方で、L-DIT dAppは、そのチェーンからのデータを消費して、オペレータ、製造者、所有者の持続可能性プラクティスに寄与できるL-DITスコアを提供する。 我々のdAppは、すべてのASOにデータを提供し、その持続可能性スコアを、地政学的アライメントに関係なく他のASOと比較し、宇宙保険業者のようなエンティティにビジネス価値を提供し、コンプライアンスの検証と実施を可能にします。

As the number of Anthropogenic Space Objects (ASOs) grows, there is an urgent need to ensure space safety, security, and sustainability (S3) for long-term space use. Currently, no globally effective method can quantify the safety, security, and Sustainability of all ASOs in orbit. Existing methods such as the Space Sustainability Rating (SSR) rely on volunteering private information to provide sustainability ratings. However, the need for such sensitive data might prove to be a barrier to adoption for space entities. For effective comparison of ASOs, the rating mechanism should apply to all ASOs, even retroactively, so that the sustainability of a single ASO can be assessed holistically. Lastly, geopolitical boundaries and alignments play a crucial and limiting role in a volunteered rating system, limiting the space safety, security, and sustainability. This work presents a Live Detectability, Identifiability, and Trackability (L-DIT) score through a distributed app (dApp) built on top of the Behavioral Dynamics blockchain (BDB). The BDB chain is a space situational awareness (SSA) chain that provides verified and cross-checked ASO data from multiple sources. This unique combination of consensus-based information from BDB and permissionless access to data allows the DIT scoring method presented here to be applied to all ASOs. While the underlying BDB chain collects, filters, and validates SSA data from various open (and closed if available) sources, the L-DIT dApp consumes the data from the chain to provide L-DIT score that can contribute towards an operator's, manufacturer's, or owner's sustainability practices. Our dApp provides data for all ASOs, allowing their sustainability score to be compared against other ASOs, regardless of geopolitical alignments, providing business value to entities such as space insurance providers and enabling compliance validation and enforcement.
翻訳日:2024-06-24 19:26:42 公開日:2024-06-21
# ソース・グラウンド情報検索ダイアログの効率的なデータ生成:ミーティング・トランスクリプトのユースケース

Efficient Data Generation for Source-grounded Information-seeking Dialogs: A Use Case for Meeting Transcripts ( http://arxiv.org/abs/2405.01121v2 )

ライセンス: Link先を確認
Lotem Golany, Filippo Galgani, Maya Mamo, Nimrod Parasol, Omer Vandsburger, Nadav Bar, Ido Dagan, (参考訳) 大規模言語モデル(LLM)によるデータ生成の自動化は、ますます人気が高まっている。 本研究では,LLMに基づくデータ生成の実現可能性と有効性について検討し,長文に対する応答帰属を伴うソースグラウンド情報検索ダイアログの設定に挑戦する。 私たちのソーステキストは、タスクの複雑さを増し、長くて騒々しいミーティングの書き起こしから成り立っている。 自動帰属は依然として困難であるため、ダイアログクエリと応答をLLMで生成し、続いて人間の検証と属性の特定を行う半自動的手法を提案する。 このアプローチを用いて、ミーティングの書き起こしに焦点を当てた情報検索ダイアログのデータセットであるMISeD -- Meeting Information Seeking Dialogsデータセットを作成しました。 MISeDで微調整されたモデルは、市販のモデルよりも、より大きなモデルよりも優れた性能を示す。 MISeDの微調整は、完全な手動データによる微調整に匹敵する応答生成品質を提供すると同時に、属性品質を改善し、時間と労力を削減する。

Automating data generation with Large Language Models (LLMs) has become increasingly popular. In this work, we investigate the feasibility and effectiveness of LLM-based data generation in the challenging setting of source-grounded information-seeking dialogs, with response attribution, over long documents. Our source texts consist of long and noisy meeting transcripts, adding to the task complexity. Since automating attribution remains difficult, we propose a semi-automatic approach: dialog queries and responses are generated with LLMs, followed by human verification and identification of attribution spans. Using this approach, we created MISeD -- Meeting Information Seeking Dialogs dataset -- a dataset of information-seeking dialogs focused on meeting transcripts. Models finetuned with MISeD demonstrate superior performance compared to off-the-shelf models, even those of larger size. Finetuning on MISeD gives comparable response generation quality to finetuning on fully manual data, while improving attribution quality and reducing time and effort.
翻訳日:2024-06-24 19:16:56 公開日:2024-06-21
# ランダムパレート前面

Random Pareto front surfaces ( http://arxiv.org/abs/2405.01404v2 )

ライセンス: Link先を確認
Ben Tu, Nikolas Kantas, Robert M. Lee, Behrang Shafei, (参考訳) 多目的最適化の目標は、最良のトレードオフ点を接続して得られる集合であるパレート前面を特定することである。 典型的には、この曲面は異なる点の目的を評価し、次に最も評価されたトレードオフ点のサブセット間を補間することによって計算される。 本研究では,極座標を用いたパレート表面のパラメータ化を提案する。 より正確には、任意のパレート前面は、任意の正の半径方向に沿って投影された長さを返すスカラー値長関数を用いて等価に表現できることを示す。 次に、この表現を用いて、確率的パレート面の理論と応用を厳密に発展させる。 特に、期待、共分散、量子化など、多くのパレート面統計学を導出する。 そこでは,Pareto面の分布を推測・利用して効果的な意思決定を行うことを目標とする実験環境の設計において,これらが実際にどのように使用できるかについて議論する。 我々のフレームワークは、明確な不確実性定量化を可能にし、また、この目的のために高度な可視化技術も開発している。 最後に,多変量極値理論におけるアイデアの適用性について論じ,実世界の大気汚染データセットを用いたケーススタディを含む,さまざまな数値例で方法論を解説する。

The goal of multi-objective optimisation is to identify the Pareto front surface which is the set obtained by connecting the best trade-off points. Typically this surface is computed by evaluating the objectives at different points and then interpolating between the subset of the best evaluated trade-off points. In this work, we propose to parameterise the Pareto front surface using polar coordinates. More precisely, we show that any Pareto front surface can be equivalently represented using a scalar-valued length function which returns the projected length along any positive radial direction. We then use this representation in order to rigorously develop the theory and applications of stochastic Pareto front surfaces. In particular, we derive many Pareto front surface statistics of interest such as the expectation, covariance and quantiles. We then discuss how these can be used in practice within a design of experiments setting, where the goal is to both infer and use the Pareto front surface distribution in order to make effective decisions. Our framework allows for clear uncertainty quantification and we also develop advanced visualisation techniques for this purpose. Finally we discuss the applicability of our ideas within multivariate extreme value theory and illustrate our methodology in a variety of numerical examples, including a case study with a real-world air pollution data set.
翻訳日:2024-06-24 19:16:56 公開日:2024-06-21
# QxEAI:自動確率予測のための量子様進化アルゴリズム

QxEAI: Quantum-like evolutionary algorithm for automated probabilistic forecasting ( http://arxiv.org/abs/2405.03701v2 )

ライセンス: Link先を確認
Kevin Xin, Lizhi Xin, (参考訳) 将来の出来事を見積もるためには、予測はビジネスと意思決定に不可欠である。 本稿では,量子ライクな論理決定木と古典値木を少数の時系列でトレーニングし,量子ライクな進化アルゴリズムを用いた確率予測手法であるQxEAIを提案する。 我々は、量子ライクな進化的アルゴリズムの予測への応用が、古典的およびその他の機械学習アプローチが直面している課題を克服する方法について実証する。 実世界の3つのデータセット(Dow Jones Index、小売販売、ガス消費)を用いて、我々の方法論がどのように正確な予測を生成するかを示し、手作業はほとんど必要としない。

Forecasting, to estimate future events, is crucial for business and decision-making. This paper proposes QxEAI, a methodology that produces a probabilistic forecast that utilizes a quantum-like evolutionary algorithm based on training a quantum-like logic decision tree and a classical value tree on a small number of related time series. We demonstrate how the application of our quantum-like evolutionary algorithm to forecasting can overcome the challenges faced by classical and other machine learning approaches. By using three real-world datasets (Dow Jones Index, retail sales, gas consumption), we show how our methodology produces accurate forecasts while requiring little to none manual work.
翻訳日:2024-06-24 19:16:56 公開日:2024-06-21
# 多項ロジスティック帯域に対する極小最小レグレット

Nearly Minimax Optimal Regret for Multinomial Logistic Bandit ( http://arxiv.org/abs/2405.09831v5 )

ライセンス: Link先を確認
Joongkyu Lee, Min-hwan Oh, (参考訳) 本稿では,学習エージェントがコンテキスト情報に基づいて順にアソシエーションを選択し,ユーザからのフィードバックがMNL選択モデルに従うという,コンテキスト多項ロジット(MNL)バンディット問題について検討する。 特に最大品位が$K$の場合には、下限と上限の差が顕著である。 さらに、これらの境界の間の報酬構造の変化は、最適性の探求を複雑にする。 すべてのアイテムが同じ期待される報酬を持つ一様報酬の下で、後悔の少ない$\Omega(d\sqrt{\smash[b]{T/K}})$を確立し、一致する上限の$\tilde{O}(d\sqrt{\smash[b]{T/K}})$を達成する定数時間アルゴリズム OFU-MNL+を提案する。 非一様報酬の下では、$\Omega(d\sqrt{T})$の下位境界と$\tilde{O}(d\sqrt{T})$の上限を証明し、OFU-MNL+によっても達成できる。 我々の実証研究はこれらの理論的な発見を支持している。 我々の知る限りでは、これは文脈的 MNL バンディット文学において、一様あるいは一様でない報酬設定に対して最小の最適性を証明し、この最適性を対数的要因まで達成する計算効率の良いアルゴリズムを提案する最初の作品である。

In this paper, we study the contextual multinomial logit (MNL) bandit problem in which a learning agent sequentially selects an assortment based on contextual information, and user feedback follows an MNL choice model. There has been a significant discrepancy between lower and upper regret bounds, particularly regarding the maximum assortment size $K$. Additionally, the variation in reward structures between these bounds complicates the quest for optimality. Under uniform rewards, where all items have the same expected reward, we establish a regret lower bound of $\Omega(d\sqrt{\smash[b]{T/K}})$ and propose a constant-time algorithm, OFU-MNL+, that achieves a matching upper bound of $\tilde{O}(d\sqrt{\smash[b]{T/K}})$. Under non-uniform rewards, we prove a lower bound of $\Omega(d\sqrt{T})$ and an upper bound of $\tilde{O}(d\sqrt{T})$, also achievable by OFU-MNL+. Our empirical studies support these theoretical findings. To the best of our knowledge, this is the first work in the contextual MNL bandit literature to prove minimax optimality -- for either uniform or non-uniform reward setting -- and to propose a computationally efficient algorithm that achieves this optimality up to logarithmic factors.
翻訳日:2024-06-24 19:16:56 公開日:2024-06-21
# HW-GPT-Bench: 言語モデルのためのハードウェア対応アーキテクチャベンチマーク

HW-GPT-Bench: Hardware-Aware Architecture Benchmark for Language Models ( http://arxiv.org/abs/2405.10299v2 )

ライセンス: Link先を確認
Rhea Sanjay Sukthanker, Arber Zela, Benedikt Staffler, Aaron Klein, Lennart Purucker, Joerg K. H. Franke, Frank Hutter, (参考訳) 言語モデルの増大は、レイテンシ、エネルギー消費、GPUメモリ使用量、パフォーマンスといった重要なハードウェアメトリクス間のトレードオフを評価するために、複数の次元にわたる徹底的な分析を必要とする。 特定のハードウェア制約下での最適モデル構成の同定は不可欠だが, 徹底的なトレーニングの計算負荷と複数のデバイスに対する評価が原因で, 依然として困難である。 そこで本研究では,GPT-2ファミリーの13種類のアーキテクチャにおいて,サロゲート予測を用いて,最大7億7400万のパラメータを含む各種ハードウェアメトリクスを近似するハードウェア対応ベンチマークであるHW-GPT-Benchを紹介する。 我々のサロゲートは、キャリブレーションされた予測と確実な不確実性推定を通じて、エネルギーと遅延測定に固有のヘテロセダスティックノイズを忠実にモデル化する。 パープレキシティを推定するために、ニューラルアーキテクチャサーチ(NAS)のウェイトシェアリング技術を使用し、最大のGPT-2モデルから事前訓練したウェイトを継承する。 最後に,HW-GPT-Benchの多目的最適化アルゴリズムの最適化軌道を数秒でシミュレーションすることで,HW-GPT-Benchの有用性を実証する。

The increasing size of language models necessitates a thorough analysis across multiple dimensions to assess trade-offs among crucial hardware metrics such as latency, energy consumption, GPU memory usage, and performance. Identifying optimal model configurations under specific hardware constraints is becoming essential but remains challenging due to the computational load of exhaustive training and evaluation on multiple devices. To address this, we introduce HW-GPT-Bench, a hardware-aware benchmark that utilizes surrogate predictions to approximate various hardware metrics across 13 devices of architectures in the GPT-2 family, with architectures containing up to 774M parameters. Our surrogates, via calibrated predictions and reliable uncertainty estimates, faithfully model the heteroscedastic noise inherent in the energy and latency measurements. To estimate perplexity, we employ weight-sharing techniques from Neural Architecture Search (NAS), inheriting pretrained weights from the largest GPT-2 model. Finally, we demonstrate the utility of HW-GPT-Bench by simulating optimization trajectories of various multi-objective optimization algorithms in just a few seconds.
翻訳日:2024-06-24 19:16:56 公開日:2024-06-21
# オープンVocabulary SAM3D:3Dシーンの理解

Open-Vocabulary SAM3D: Understand Any 3D Scene ( http://arxiv.org/abs/2405.15580v2 )

ライセンス: Link先を確認
Hanchen Tai, Qingdong He, Jiangning Zhang, Yijie Qian, Zhenyu Zhang, Xiaobin Hu, Yabiao Wang, Yong Liu, (参考訳) オープン語彙の3Dシーン理解はこの分野において重要な課題である。 最近の進歩は、視覚言語モデルに埋め込まれた知識を2Dドメインから3Dドメインに転送することを目指している。 しかしながら、これらのアプローチでは、特定の3Dシーンデータセットから事前知識を学習する必要がある場合が多いため、オープンワールドシナリオにおける適用性が制限される。 SAM(Segment Anything Model)は,ゼロショットセグメンテーション能力に優れており,トレーニングを必要とせずに3Dシーンを解釈する可能性について検討する。 本稿では,オープンな3Dシーン理解のための汎用フレームワークであるOV-SAM3Dを紹介する。 このフレームワークは、シーンの事前の知識を必要とせずに、任意の3Dシーンの理解タスクを実行するように設計されている。 まず,初期3Dプロンプトとしてスーパーポイントを生成し,SAMから派生したセグメントマスクを用いてこれらのプロンプトを洗練することにより,プロセスを開始する。 さらに,RAM (Recognize Anything Model) のオープンタグと特別に設計されたオーバーラップスコアテーブルを統合し,オープンワールドラベルによる最終的な3Dインスタンスを生成する。 ScanNet200 と nuScenes のデータセットで行った実証的な評価は、我々のアプローチが未知のオープンワールド環境における既存のオープンボキャブラリ手法を超越していることを示している。

Open-vocabulary 3D scene understanding presents a significant challenge in the field. Recent advancements have sought to transfer knowledge embedded in vision language models from the 2D domain to 3D domain. However, these approaches often require learning prior knowledge from specific 3D scene datasets, which limits their applicability in open-world scenarios. The Segment Anything Model (SAM) has demonstrated remarkable zero-shot segmentation capabilities, prompting us to investigate its potential for comprehending 3D scenes without the need for training. In this paper, we introduce OV-SAM3D, a universal framework for open-vocabulary 3D scene understanding. This framework is designed to perform understanding tasks for any 3D scene without requiring prior knowledge of the scene. Specifically, our method is composed of two key sub-modules: First, we initiate the process by generating superpoints as the initial 3D prompts and refine these prompts using segment masks derived from SAM. Moreover, we then integrate a specially designed overlapping score table with open tags from the Recognize Anything Model (RAM) to produce final 3D instances with open-world label. Empirical evaluations conducted on the ScanNet200 and nuScenes datasets demonstrate that our approach surpasses existing open-vocabulary methods in unknown open-world environments.
翻訳日:2024-06-24 19:16:56 公開日:2024-06-21
# モバイルネットワークのための大規模言語モデル駆動型カリキュラム設計

Large Language Model-Driven Curriculum Design for Mobile Networks ( http://arxiv.org/abs/2405.18039v2 )

ライセンス: Link先を確認
Omar Erak, Omar Alhussein, Shimaa Naser, Nouf Alabbasi, De Mi, Sami Muhaidat, (参考訳) 本研究では,大規模言語モデル(LLM)を用いて強化学習(RL)のためのキュリキュラの設計と生成を自動化する,革新的なフレームワークを提案する。 モバイルネットワークが6G時代に向かって進化するにつれて、その複雑さと動的な性質を管理することが大きな課題となる。 従来のRLアプローチは、競合する目的や、モバイルネットワークに関連する大きな状態や行動空間のために、収束が遅く、一般化が貧弱な場合が多い。 これらの欠点に対処するために,RLエージェントを段階的に困難なタスクに体系的に公開し,収束と一般化を改善するカリキュラム学習を導入する。 しかし、カリキュラム設計は通常、広範囲のドメイン知識と手作業を必要とする。 本フレームワークは,LCMの生成能力を活用してカリキュラム設計プロセスの自動化を実現し,RLエージェントの収束と性能を向上しつつ,人的労力を大幅に削減する。 シミュレーションされたモバイルネットワーク環境にアプローチを展開し、RL収束率の改善、未確認シナリオへの一般化、全体的なパフォーマンス向上を実演する。 ケーススタディとして,モバイルネットワークにおける自律的コーディネートとユーザアソシエーションについて考察する。 得られた結果は,次世代無線ネットワークを管理するために,LCMベースのカリキュラム生成とRLを併用する可能性を強調し,完全自律型ネットワーク運用に向けての大きな一歩を踏み出した。

This study introduces an innovative framework that employs large language models (LLMs) to automate the design and generation of curricula for reinforcement learning (RL). As mobile networks evolve towards the 6G era, managing their increasing complexity and dynamic nature poses significant challenges. Conventional RL approaches often suffer from slow convergence and poor generalization due to conflicting objectives and the large state and action spaces associated with mobile networks. To address these shortcomings, we introduce curriculum learning, a method that systematically exposes the RL agent to progressively challenging tasks, improving convergence and generalization. However, curriculum design typically requires extensive domain knowledge and manual human effort. Our framework mitigates this by utilizing the generative capabilities of LLMs to automate the curriculum design process, significantly reducing human effort while improving the RL agent's convergence and performance. We deploy our approach within a simulated mobile network environment and demonstrate improved RL convergence rates, generalization to unseen scenarios, and overall performance enhancements. As a case study, we consider autonomous coordination and user association in mobile networks. Our obtained results highlight the potential of combining LLM-based curriculum generation with RL for managing next-generation wireless networks, marking a significant step towards fully autonomous network operations.
翻訳日:2024-06-24 19:16:56 公開日:2024-06-21
# 自らを信頼するモデルを信頼する - 不確かさを意識したロールアウト適応を用いたモデルベースアクタ批判

Trust the Model Where It Trusts Itself -- Model-Based Actor-Critic with Uncertainty-Aware Rollout Adaption ( http://arxiv.org/abs/2405.19014v3 )

ライセンス: Link先を確認
Bernd Frauenknecht, Artur Eisele, Devdutt Subhasish, Friedrich Solowjow, Sebastian Trimpe, (参考訳) ダイナスタイルモデルベース強化学習(MBRL)はモデルベースロールアウトを通じてモデルフリーエージェントと予測遷移モデルを組み合わせる。 この組み合わせは、重要な疑問を提起する: 「モデルをいつ信頼するか?」、すなわち、どのロールアウト期間が、有用なデータを提供するモデルに結果をもたらすか? Janner et al (2019)は、トレーニング全体を通して徐々にロールアウトの長さを増やしてこの問題に対処している。 理論上は誘惑的であるが、一様モデルの精度は、外挿時に最新の段階で崩壊する誤りである。 その代わり、我々は「モデルを信頼するだろうか」という質問をする。 局所的精度を考慮するために固有モデル不確実性を用いることで、不確かさを意識したロールアウト適応(MACURA)アルゴリズムを得る。 本研究では, MuJoCo ベンチマークにおける最先端の深層MBRL 法と比較して, データの効率と性能を著しく向上する機構を提案する。

Dyna-style model-based reinforcement learning (MBRL) combines model-free agents with predictive transition models through model-based rollouts. This combination raises a critical question: 'When to trust your model?'; i.e., which rollout length results in the model providing useful data? Janner et al. (2019) address this question by gradually increasing rollout lengths throughout the training. While theoretically tempting, uniform model accuracy is a fallacy that collapses at the latest when extrapolating. Instead, we propose asking the question 'Where to trust your model?'. Using inherent model uncertainty to consider local accuracy, we obtain the Model-Based Actor-Critic with Uncertainty-Aware Rollout Adaption (MACURA) algorithm. We propose an easy-to-tune rollout mechanism and demonstrate substantial improvements in data efficiency and performance compared to state-of-the-art deep MBRL methods on the MuJoCo benchmark.
翻訳日:2024-06-24 19:16:56 公開日:2024-06-21
# クリティカルラーニング期間: 効率的なデータ処理のための早期トレーニングダイナミクスを活用する

Critical Learning Periods: Leveraging Early Training Dynamics for Efficient Data Pruning ( http://arxiv.org/abs/2405.19462v2 )

ライセンス: Link先を確認
Everlyn Asiko Chimoto, Jay Gala, Orevaoghene Ahia, Julia Kreutzer, Bruce A. Bassett, Sara Hooker, (参考訳) ニューラルマシン翻訳モデルは、非常にデータと計算能力が高い。 しかし、全てのデータポイントがモデルトレーニングと一般化に等しく寄与するわけではない。 低値のデータポイントを取り除くためのデータプルーニングは、モデルの性能を大幅に低下させることなく、計算予算を大幅に削減する利点がある。 本稿では、初期モデルトレーニングのダイナミクスを活用して、モデル性能の最も関連性の高いデータポイントを識別する新しいデータプルーニング手法であるチェックポイントアクロスタイム(CAT)を提案する。 我々は、COMET-QE、LASER、LaBSEなど、いくつかのデータプルーニング技術に対してCATをベンチマークする。 CAT は Indo-European 言語のベンチマークを複数のテストセットで上回ります。 英語-ドイツ語、英語-フランス語、英語-スワヒリの翻訳タスクに適用すると、CATはトレーニングデータの最大50%をプルーニングしながら、完全なデータセットを使用するのに匹敵するパフォーマンスを達成する。 我々は、CATが選択したデータポイントを検査し、それよりも長い文や、ユニークな単語や稀な単語が好まれる傾向にあることを示す。

Neural Machine Translation models are extremely data and compute-hungry. However, not all data points contribute equally to model training and generalization. Data pruning to remove the low-value data points has the benefit of drastically reducing the compute budget without significant drop in model performance. In this paper, we propose a new data pruning technique: Checkpoints Across Time (CAT), that leverages early model training dynamics to identify the most relevant data points for model performance. We benchmark CAT against several data pruning techniques including COMET-QE, LASER and LaBSE. We find that CAT outperforms the benchmarks on Indo-European languages on multiple test sets. When applied to English-German, English-French and English-Swahili translation tasks, CAT achieves comparable performance to using the full dataset, while pruning up to 50% of training data. We inspect the data points that CAT selects and find that it tends to favour longer sentences and sentences with unique or rare words.
翻訳日:2024-06-24 19:16:56 公開日:2024-06-21
# SpecDec++: 適応候補長による投機的デコーディングの強化

SpecDec++: Boosting Speculative Decoding via Adaptive Candidate Lengths ( http://arxiv.org/abs/2405.19715v2 )

ライセンス: Link先を確認
Kaixuan Huang, Xudong Guo, Mengdi Wang, (参考訳) 投機的復号化は、より小さくより高速なドラフトモデルを利用することで、ターゲットとする大言語モデルの推論遅延を低減する。 その性能は、候補長、すなわち各ラウンドで検証するターゲットモデルの候補トークンの数であるハイパーパラメータKに依存する。 しかし、従来の手法ではKを選択するために単純なヒューリスティックスを使用しており、これは準最適性能をもたらす可能性がある。 候補長Kの選択について検討し、マルコフ決定過程として定式化する。 理論的には、このマルコフ決定過程の最適ポリシーはしきい値ポリシーの形式をとる、すなわち、拒絶される確率がしきい値を超えると、現在の憶測は停止して検証されるべきである。 この理論によって動機付けられたSpecDec++は、投機的復号法の拡張版で、ハエの候補長を適応的に決定する。 トレーニングされた受入予測ヘッドでドラフトモデルを拡張し、候補トークンの条件付き受入確率を予測する。 SpecDec++は、少なくとも1つのトークンが拒否される確率がしきい値を超えると、現在の憶測を止める。 SpecDec++を実装し,llama-2-chat 7Bと70Bモデルペアに適用する。 我々の適応的手法は、Alpacaデータセット上で2.04倍の高速化を実現している(ベースライン投機復号法よりも7.2%改善されている)。 GSM8KとHumanEvalのデータセットでは、それぞれ2.26倍のスピードアップ(9.4%の改善)と2.23倍のスピードアップ(11.1%改善)を達成した。

Speculative decoding reduces the inference latency of a target large language model via utilizing a smaller and faster draft model. Its performance depends on a hyperparameter K -- the candidate length, i.e., the number of candidate tokens for the target model to verify in each round. However, previous methods often use simple heuristics to choose K, which may result in sub-optimal performance. We study the choice of the candidate length K and formulate it as a Markov Decision Process. We theoretically show that the optimal policy of this Markov decision process takes the form of a threshold policy, i.e., the current speculation should stop and be verified when the probability of getting a rejection exceeds a threshold value. Motivated by this theory, we propose SpecDec++, an enhanced version of speculative decoding that adaptively determines the candidate length on the fly. We augment the draft model with a trained acceptance prediction head to predict the conditional acceptance probability of the candidate tokens. SpecDec++ will stop the current speculation when the predicted probability that at least one token gets rejected exceeds a threshold. We implement SpecDec++ and apply it to the llama-2-chat 7B & 70B model pair. Our adaptive method achieves a 2.04x speedup on the Alpaca dataset (an additional 7.2% improvement over the baseline speculative decoding). On the GSM8K and HumanEval datasets, our method achieves a 2.26x speedup (9.4% improvement) and 2.23x speedup (11.1% improvement), respectively.
翻訳日:2024-06-24 19:07:12 公開日:2024-06-21
# ランダムよりも悪いか? 医療用VQAにおける大規模マルチモーダルモデルの恥ずかしいほど単純な検証

Worse than Random? An Embarrassingly Simple Probing Evaluation of Large Multimodal Models in Medical VQA ( http://arxiv.org/abs/2405.20421v2 )

ライセンス: Link先を確認
Qianqi Yan, Xuehai He, Xiang Yue, Xin Eric Wang, (参考訳) 大規模マルチモーダルモデル(LMM)は医用視覚質問応答(Med-VQA)において顕著な進歩を示し、既存のベンチマークで高い精度を達成している。 しかし、頑健な評価下での信頼性は疑わしい。 本研究は, 簡易な探索評価を行う場合, 医学的診断問題に対するランダムな推測よりも, 最先端のモデルの方が悪いことを明らかにした。 この批判的評価問題に対処するため,医用画像のLMM性能を探索的評価と手続き的診断により厳格に評価するProbMed(ProbMed)データセットを導入した。 特に、プロシージャ診断には、モダリティ認識、臓器の同定、臨床所見、異常、位置的接地など、各画像の様々な診断次元の推論が必要である。 評価の結果, GPT-4o, GPT-4V, Gemini Pro などのトップパフォーマンスモデルでは, 特定診断質問に対するランダムな推測よりも性能が悪く, きめ細かい医療問合せの処理に限界があることが示唆された。 さらに、LLaVA-Medのようなモデルは、より一般的な疑問に苦しむとともに、CheXagentの結果は、同じ臓器の異なるモダリティをまたいだ専門知識の伝達可能性を示している。 本研究は, 医療診断などの重要な分野におけるLMMの信頼性を確保するために, より堅牢な評価の必要性を浮き彫りにするものである。

Large Multimodal Models (LMMs) have shown remarkable progress in medical Visual Question Answering (Med-VQA), achieving high accuracy on existing benchmarks. However, their reliability under robust evaluation is questionable. This study reveals that when subjected to simple probing evaluation, state-of-the-art models perform worse than random guessing on medical diagnosis questions. To address this critical evaluation problem, we introduce the Probing Evaluation for Medical Diagnosis (ProbMed) dataset to rigorously assess LMM performance in medical imaging through probing evaluation and procedural diagnosis. Particularly, probing evaluation features pairing original questions with negation questions with hallucinated attributes, while procedural diagnosis requires reasoning across various diagnostic dimensions for each image, including modality recognition, organ identification, clinical findings, abnormalities, and positional grounding. Our evaluation reveals that top-performing models like GPT-4o, GPT-4V, and Gemini Pro perform worse than random guessing on specialized diagnostic questions, indicating significant limitations in handling fine-grained medical inquiries. Besides, models like LLaVA-Med struggle even with more general questions, and results from CheXagent demonstrate the transferability of expertise across different modalities of the same organ, showing that specialized domain knowledge is still crucial for improving performance. This study underscores the urgent need for more robust evaluation to ensure the reliability of LMMs in critical fields like medical diagnosis, and current LMMs are still far from applicable to those fields.
翻訳日:2024-06-24 19:07:12 公開日:2024-06-21
# 大規模言語モデルを用いた質問応答におけるパッセージ特化プロンプトチューニング

Passage-specific Prompt Tuning for Passage Reranking in Question Answering with Large Language Models ( http://arxiv.org/abs/2405.20654v2 )

ライセンス: Link先を確認
Xuyang Wu, Zhiyuan Peng, Krishna Sravanthi Rajanala Sai, Hsin-Tai Wu, Yi Fang, (参考訳) オープンドメイン質問応答タスクの適切な候補を特定するために,有効経路検索と再ランク法が広く利用されてきたが,近年の研究では,各項目に条件付き質問のログ化によって,検索された経路を再ランク付けするLLMを用いている。 これらの手法は有望な結果を示したが、その性能は人書きのプロンプト(あるいはハードプロンプト)に顕著に敏感であり、微調整 LLM は計算集約的で時間を要する可能性がある。 さらに,LLMのランク付け能力を高めるために,質問パス関連ペアとパス固有知識の活用を制限した。 本稿では,学習可能なパス固有のソフトプロンプトを微調整するパラメータ効率の手法である,オープンドメイン質問応答(PSPT)における再ランク付けのためのパス固有プロンプトチューニングを提案する。 本手法は,各経路に条件付き質問と学習したソフトプロンプトを生成するモデルのログ類似度に基づいて,検索したパスのランク付けを行う。 Llama-2-chat-7Bモデルを3つの公開領域質問応答データセットに適用し,提案手法の有効性を実証した。

Effective passage retrieval and reranking methods have been widely utilized to identify suitable candidates in open-domain question answering tasks, recent studies have resorted to LLMs for reranking the retrieved passages by the log-likelihood of the question conditioned on each passage. Although these methods have demonstrated promising results, the performance is notably sensitive to the human-written prompt (or hard prompt), and fine-tuning LLMs can be computationally intensive and time-consuming. Furthermore, this approach limits the leverage of question-passage relevance pairs and passage-specific knowledge to enhance the ranking capabilities of LLMs. In this paper, we propose passage-specific prompt tuning for reranking in open-domain question answering (PSPT): a parameter-efficient method that fine-tunes learnable passage-specific soft prompts, incorporating passage-specific knowledge from a limited set of question-passage relevance pairs. The method involves ranking retrieved passages based on the log-likelihood of the model generating the question conditioned on each passage and the learned soft prompt. We conducted extensive experiments utilizing the Llama-2-chat-7B model across three publicly available open-domain question answering datasets and the results demonstrate the effectiveness of the proposed approach.
翻訳日:2024-06-24 19:07:12 公開日:2024-06-21
# フィールドトラップにおけるモスキート卵の自動計数と分類

Automatic Counting and Classification of Mosquito Eggs in Field Traps ( http://arxiv.org/abs/2405.20656v3 )

ライセンス: Link先を確認
Javier Naranjo-Alcazar, Jordi Grau-Haro, Pedro Zuccarello, David Almenar, Jesus Lopez-Ballester, (参考訳) 蚊が卵を挿入するフィールドトラップの解析は、不妊虫技術(SIT)が適切に機能していることを確認するのに不可欠である。 これは、ハッチした卵の数は、不妊オスが野生の卵と競合していないことを示唆している可能性があるためである。 現在、トラップの研究は顕微鏡で手作業で行われており、非常に時間がかかり、人的ミスを起こしやすい。 本稿では,自動トラップサーベイを提案する。 この目的のために、異なる重なり合う写真を取得するスラットを自動的にスキャンする装置が設計された。 その後、画像はMask-RCNNニューラルネットワークによって分析され、卵を分割し、それらを2つのクラス(フルまたはハッチ)に分類する。

The analysis of the field traps where the mosquitoes insert their eggs is vital to check that the sterile insect technique (SIT) is working properly. This is because the number of hatched eggs may indicate that the sterile males are not competing with the wild ones. Nowadays, the study of the traps is done manually by microscope and is very time-consuming and prone to human error. This paper presents an automatic trap survey. For this purpose, a device has been designed that automatically scans the slat obtaining different overlapping photos. Subsequently, the images are analyzed by a Mask-RCNN neural network that segments the eggs and classifies them into 2 classes: full or hatch
翻訳日:2024-06-24 19:07:12 公開日:2024-06-21
# Fusion-PSRO:Nash Policy Fusion for Policy Space Response Oracles

Fusion-PSRO: Nash Policy Fusion for Policy Space Response Oracles ( http://arxiv.org/abs/2405.21027v4 )

ライセンス: Link先を確認
Jiesong Lian, (参考訳) ゼロサムゲームを解決するための一般的なアプローチは、Nash Equilibrium (NE) を近似するポリシーの集団を維持することである。 これまでの研究では、ポリシー空間応答オラクル(PSRO)アルゴリズムが、そのようなゲームを解くための効果的なマルチエージェント強化学習フレームワークであることが示されている。 しかし、各イテレーションで相手の混合ポリシーに対して、スクラッチからBest Response(BR)を近似するために、新しいポリシーを繰り返し訓練することは、非効率かつコストがかかる。 いくつかのPSROは、過去のBRポリシーから継承することで、新しいポリシーを初期化するが、このアプローチは、特に挑戦する相手に対して、新しいポリシーの探索を制限する。 この問題に対処するために、政策融合を利用してBRの近似を改善するためのポリシーを初期化するFusion-PSROを提案する。 メタNEから高品質なベースポリシーを選択することで、ポリシー融合はベースポリシーをモデル平均化を通じて新しいポリシーに融合させる。 このアプローチにより、初期化されたポリシーが複数の専門家ポリシーを組み込むことができ、過去のBRポリシーを継承したり、スクラッチから初期化したりするよりも、難しい相手を扱うのが簡単になる。 さらに,本手法はポリシー初期化フェーズのみを修正し,PSROのほぼすべての変種を追加のトレーニングオーバーヘッドなく適用できるようにする。 非推移的行列ゲーム、Leduc Pokerおよびより複雑なLiars Diceに関する実験は、Fusion-PSROがほぼ全てのPSRO変種の性能を高め、より低い利用性を実現することを示した。

A popular approach for solving zero-sum games is to maintain populations of policies to approximate the Nash Equilibrium (NE). Previous studies have shown that Policy Space Response Oracle (PSRO) algorithm is an effective multi-agent reinforcement learning framework for solving such games. However, repeatedly training new policies from scratch to approximate Best Response (BR) to opponents' mixed policies at each iteration is both inefficient and costly. While some PSRO variants initialize a new policy by inheriting from past BR policies, this approach limits the exploration of new policies, especially against challenging opponents. To address this issue, we propose Fusion-PSRO, which employs policy fusion to initialize policies for better approximation to BR. By selecting high-quality base policies from meta-NE, policy fusion fuses the base policies into a new policy through model averaging. This approach allows the initialized policies to incorporate multiple expert policies, making it easier to handle difficult opponents compared to inheriting from past BR policies or initializing from scratch. Moreover, our method only modifies the policy initialization phase, allowing its application to nearly all PSRO variants without additional training overhead. Our experiments on non-transitive matrix games, Leduc Poker, and the more complex Liars Dice demonstrate that Fusion-PSRO enhances the performance of nearly all PSRO variants, achieving lower exploitability.
翻訳日:2024-06-24 19:07:12 公開日:2024-06-21
# UniUSNet:Universal Ultrasound Disease Prediction and tissue Segmentationのためのプロンプタブルフレームワーク

UniUSNet: A Promptable Framework for Universal Ultrasound Disease Prediction and Tissue Segmentation ( http://arxiv.org/abs/2406.01154v2 )

ライセンス: Link先を確認
Zehui Lin, Zhuoneng Zhang, Xindi Hu, Zhifan Gao, Xin Yang, Yue Sun, Dong Ni, Tao Tan, (参考訳) 超音波は、低コスト、可搬性、安全性のために臨床実践において広く用いられている画像モダリティである。 一般医療向けAIにおける現在の研究は、大きな言語モデルと一般的なセグメンテーションモデルに焦点を当てており、疾患予測と組織セグメンテーションの両方に対処するソリューションにはあまり注意を払っていない。 そこで本研究では,超音波画像の分類と分割を高速化する枠組みであるUniUSNetという,超音波のための新しいユニバーサルフレームワークを提案する。 このモデルの普遍性は、様々な側面にわたる汎用性から導かれる。 超音波の性質、解剖学的位置、あらゆる入力タイプを巧みに管理し、セグメンテーションタスクだけでなく、分類タスクでも優れている。 我々は、この情報をプロンプトとして組み込んだ新しいモジュールを導入し、モデルの学習プロセスにシームレスに組み込む。 提案したモデルをトレーニングし,検証するために,9.7K以上のアノテーションで最大7つの解剖学的位置を含む,公開ソースからの包括的超音波データセットをキュレートした。 実験結果から,本モデルは最先端モデルに匹敵する性能を達成し,単一データセットでトレーニングしたモデルと,即時ガイダンスを欠いたネットワークの短縮バージョンの両方を上回る性能を示した。 さらに、我々は、新しいデータセットに対してゼロショットおよび微調整実験を行い、このモデルには強力な一般化能力があり、アダプタモジュールを通じて低コストで新しいデータに効果的に適用できることを証明した。 我々は、継続的にデータセットを拡張し、医療用超音波の普遍性に向けてタスク固有のプロンプト機構を最適化する。 モデルウェイト、データ処理ワークフロー、およびコードはオープンソースとして公開される(https://github.com/Zehui-Lin/UniUSNet)。

Ultrasound is a widely used imaging modality in clinical practice due to its low cost, portability, and safety. Current research in general AI for healthcare focuses on large language models and general segmentation models, with insufficient attention to solutions addressing both disease prediction and tissue segmentation. In this study, we propose a novel universal framework for ultrasound, namely UniUSNet, which is a promptable framework for ultrasound image classification and segmentation. The universality of this model is derived from its versatility across various aspects. It proficiently manages any ultrasound nature, any anatomical position, any input type and excelling not only in segmentation tasks but also in classification tasks. We introduce a novel module that incorporates this information as a prompt and seamlessly embedding it within the model's learning process. To train and validate our proposed model, we curated a comprehensive ultrasound dataset from publicly accessible sources, encompassing up to 7 distinct anatomical positions with over 9.7K annotations. Experimental results demonstrate that our model achieves performance comparable to state-of-the-art models, and surpasses both a model trained on a single dataset and an ablated version of the network lacking prompt guidance. Additionally, we conducted zero-shot and fine-tuning experiments on new datasets, which proved that our model possesses strong generalization capabilities and can be effectively adapted to new data at low cost through its adapter module. We will continuously expand the dataset and optimize the task specific prompting mechanism towards the universality in medical ultrasound. Model weights, data processing workflows, and code will be open source to the public (https://github.com/Zehui-Lin/UniUSNet).
翻訳日:2024-06-24 19:07:12 公開日:2024-06-21
# 大規模言語モデルによる多エージェント生産システム

Large Language Model-Enabled Multi-Agent Manufacturing Systems ( http://arxiv.org/abs/2406.01893v2 )

ライセンス: Link先を確認
Jonghan Lim, Birgit Vogel-Heuser, Ilya Kovalenko, (参考訳) 従来の製造業は、動的環境に適応し、製造の変化に迅速に対応しようとする課題に直面している。 マルチエージェントシステムの使用は適応性と協調性を改善するが、自然言語統合による迅速な人間の指導理解、運用適応性、調整のさらなる進歩が必要である。 GPT-3.5やGPT-4のような大規模言語モデルは、エージェントが自然言語でコミュニケーションし、意思決定のために人間の指示を解釈できるようにすることにより、マルチエージェント製造システムを強化している。 本研究は,大規模言語モデルによって生産におけるエージェントの能力が向上し,より適応性が高く,文脈固有の命令を処理できる新しい枠組みを提案する。 ケーススタディでは、エージェント間の正確なGコード割り当てを含む、効果的にコミュニケーションし、タスクを理解し、製造プロセスを実行する方法を示す。 その結果,多エージェント製造システムへの継続的大規模言語モデル統合の重要性と,より柔軟な製造システムのための高度なエージェント通信プロトコルの開発が注目された。

Traditional manufacturing faces challenges adapting to dynamic environments and quickly responding to manufacturing changes. The use of multi-agent systems has improved adaptability and coordination but requires further advancements in rapid human instruction comprehension, operational adaptability, and coordination through natural language integration. Large language models like GPT-3.5 and GPT-4 enhance multi-agent manufacturing systems by enabling agents to communicate in natural language and interpret human instructions for decision-making. This research introduces a novel framework where large language models enhance the capabilities of agents in manufacturing, making them more adaptable, and capable of processing context-specific instructions. A case study demonstrates the practical application of this framework, showing how agents can effectively communicate, understand tasks, and execute manufacturing processes, including precise G-code allocation among agents. The findings highlight the importance of continuous large language model integration into multi-agent manufacturing systems and the development of sophisticated agent communication protocols for a more flexible manufacturing system.
翻訳日:2024-06-24 19:07:12 公開日:2024-06-21
# Branches: 最適な決定木のための高速な動的プログラミングとブランチ&バウンドアルゴリズム

Branches: A Fast Dynamic Programming and Branch & Bound Algorithm for Optimal Decision Trees ( http://arxiv.org/abs/2406.02175v2 )

ライセンス: Link先を確認
Ayman Chaouki, Jesse Read, Albert Bifet, (参考訳) 決定木学習(Decision Tree Learning)は、解釈可能な機械学習の基本的な問題である。 1990年代初期までさかのぼる多くの努力にもかかわらず、実用的なアルゴリズムが登場したのはごく最近であり、主に動的プログラミング(DP)とブランチ&バウンド(B&B)の技術を活用している。 これらのブレークスルーは、2つの異なるアプローチの開発につながった。 DL8.5やMurTreeのようなアルゴリズムはノード(または分岐)の空間で動作し、非常に高速であるが、複雑な決定木をペナライズしない。 一方、OSDT や GOSDT のようなアルゴリズムは、決定木(Decision Trees)の空間で動作し、スパース性は解決するが、速度は低下する。 本稿では,両パラダイムの強みを統合する新しいアルゴリズムであるBranchesを紹介する。 DPとB&Bを活用することで、ブランチは例外的な速度を達成し、スパーシティも解決する。 その効率の中心は、探索空間の実質的な切断を可能にする新しい解析的境界である。 さらにブランチはバイナリ機能を必要としない。 理論的解析により、枝は最先端の手法に比べて複雑さが低いことが示され、その主張は広範な経験的評価によって検証される。 以上の結果から,ブランチは速度と反復回数において最先端の手法より優れ,かつ常に最適な決定木が得られることが示された。

Decision Tree Learning is a fundamental problem for Interpretable Machine Learning, yet it poses a formidable optimization challenge. Despite numerous efforts dating back to the early 1990's, practical algorithms have only recently emerged, primarily leveraging Dynamic Programming (DP) and Branch & Bound (B&B) techniques. These breakthroughs led to the development of two distinct approaches. Algorithms like DL8.5 and MurTree operate on the space of nodes (or branches), they are very fast, but do not penalise complex Decision Trees, i.e. they do not solve for sparsity. On the other hand, algorithms like OSDT and GOSDT operate on the space of Decision Trees, they solve for sparsity but at the detriment of speed. In this work, we introduce Branches, a novel algorithm that integrates the strengths of both paradigms. Leveraging DP and B&B, Branches achieves exceptional speed while also solving for sparsity. Central to its efficiency is a novel analytical bound enabling substantial pruning of the search space. Furthermore, Branches does not necessitate binary features. Theoretical analysis demonstrates that Branches has a lower complexity bound compared to state-of-the-art methods, a claim validated through extensive empirical evaluation. Our results illustrate that Branches outperforms the state of the art in terms of speed and number of iterations while consistently yielding optimal Decision Trees.
翻訳日:2024-06-24 19:07:12 公開日:2024-06-21
# 任意の測地におけるランダム量子回路の計算力

The computational power of random quantum circuits in arbitrary geometries ( http://arxiv.org/abs/2406.02501v3 )

ライセンス: Link先を確認
Matthew DeCross, Reza Haghshenas, Minzhao Liu, Enrico Rinaldi, Johnnie Gray, Yuri Alexeev, Charles H. Baldwin, John P. Bartolotta, Matthew Bohn, Eli Chertkov, Julia Cline, Jonhas Colina, Davide DelVento, Joan M. Dreiling, Cameron Foltz, John P. Gaebler, Thomas M. Gatterman, Christopher N. Gilbreth, Joshua Giles, Dan Gresh, Alex Hall, Aaron Hankin, Azure Hansen, Nathan Hewitt, Ian Hoffman, Craig Holliman, Ross B. Hutson, Trent Jacobs, Jacob Johansen, Patricia J. Lee, Elliot Lehman, Dominic Lucchetti, Danylo Lykov, Ivaylo S. Madjarov, Brian Mathewson, Karl Mayer, Michael Mills, Pradeep Niroula, Juan M. Pino, Conrad Roman, Michael Schecter, Peter E. Siegfried, Bruce G. Tiemann, Curtis Volin, James Walker, Ruslan Shaydulin, Marco Pistoia, Steven. A. Moses, David Hayes, Brian Neyenhuis, Russell P. Stutz, Michael Foss-Feig, (参考訳) 古典コンピュータと量子コンピュータの計算能力のギャップに関する実証的な証拠は、二次元量子回路の出力分布をサンプリングする実験によって提供されてきた。 このギャップを埋めようとする試みの多くはテンソルネットワーク技術に基づく古典シミュレーションを利用しており、それらの制限は古典的なシミュラビリティをフラストレーションするために必要な量子ハードウェアの改善に光を当てている。 特に、$\sim 50$ qubit を超える量子コンピュータは、ゲートの忠実度と接続性に制限があるため、主に古典的なシミュレーションに弱い。 ここでは、QuantinuumのH2量子コンピュータへの最近のハードウェアアップグレードについて説明する。これにより、任意の接続で最大56$ qubits、99.843(5)\%$ 2-qubit gate fidelityで動作することができる。 H2のフレキシブルな接続を利用して、高連結なジオメトリーにおけるランダム回路サンプリングのデータを示し、前代未聞の忠実度と、最先端の古典的アルゴリズムの能力を超越したスケールを示す。 H2を古典的にシミュレートすることのかなりの困難さは、量子ビット数によってのみ制限され、より大きなマシンを構築するための継続的な進歩がQCCDアーキテクチャの約束と拡張性を示している。

Empirical evidence for a gap between the computational powers of classical and quantum computers has been provided by experiments that sample the output distributions of two-dimensional quantum circuits. Many attempts to close this gap have utilized classical simulations based on tensor network techniques, and their limitations shed light on the improvements to quantum hardware required to frustrate classical simulability. In particular, quantum computers having in excess of $\sim 50$ qubits are primarily vulnerable to classical simulation due to restrictions on their gate fidelity and their connectivity, the latter determining how many gates are required (and therefore how much infidelity is suffered) in generating highly-entangled states. Here, we describe recent hardware upgrades to Quantinuum's H2 quantum computer enabling it to operate on up to $56$ qubits with arbitrary connectivity and $99.843(5)\%$ two-qubit gate fidelity. Utilizing the flexible connectivity of H2, we present data from random circuit sampling in highly connected geometries, doing so at unprecedented fidelities and a scale that appears to be beyond the capabilities of state-of-the-art classical algorithms. The considerable difficulty of classically simulating H2 is likely limited only by qubit number, demonstrating the promise and scalability of the QCCD architecture as continued progress is made towards building larger machines.
翻訳日:2024-06-24 19:07:12 公開日:2024-06-21
# 遺伝的プログラミングによる動的シンボリック・ポリシーの発見

Discovering Dynamic Symbolic Policies with Genetic Programming ( http://arxiv.org/abs/2406.02765v2 )

ライセンス: Link先を確認
Sigur de Vries, Sander Keemink, Marcel van Gerven, (参考訳) 人工知能(AI)技術は、制御問題の解決にますます応用されている。 しかし、AIで開発された制御システムは、しばしばブラックボックス方式であり、どのようにして、なぜ出力を生成するのかは明らかになっていない。 透明性の欠如は、特に制御タスクにおいて、バイアスやエラーの識別が複雑になるため、システムに対するユーザの信頼に悪影響を及ぼすため、問題となることがある。 制御系における解釈可能性と透明性を向上させるため、ブラックボックス構造を数学的表現によって記述されたホワイトボックスのシンボルポリシーに置き換えることができる。 遺伝的プログラミングは、微分不可能な数学的表現の構造を最適化するための勾配のない方法を提供する。 本稿では,遺伝的プログラミングがシンボル制御システム発見に有効であることを示す。 これは、観測を制御信号に変換する関数の記号表現を学ぶことで達成される。 メモリのない静的制御ポリシーを実装するシステムと動的メモリベースの制御ポリシーを実装するシステムの両方を考慮する。 後者の場合、発見関数は微分方程式の状態方程式となり、証拠積分が可能である。 この結果から,様々な制御タスクにおいて,ブラックボックスポリシと互換性のあるシンボリックポリシが発見された。 さらに、静的ポリシーが不足する実験では、動的ポリシーにおけるメモリ容量の付加価値が示される。 全体として、ブラックボックスモデルに欠けている解釈性と透明性を提供しながら、ホワイトボックスのシンボルポリシーを遺伝的プログラミングで最適化できることを示します。

Artificial intelligence (AI) techniques are increasingly being applied to solve control problems. However, control systems developed in AI are often black-box methods, in that it is not clear how and why they generate their outputs. A lack of transparency can be problematic for control tasks in particular, because it complicates the identification of biases or errors, which in turn negatively influences the user's confidence in the system. To improve the interpretability and transparency in control systems, the black-box structure can be replaced with white-box symbolic policies described by mathematical expressions. Genetic programming offers a gradient-free method to optimise the structure of non-differentiable mathematical expressions. In this paper, we show that genetic programming can be used to discover symbolic control systems. This is achieved by learning a symbolic representation of a function that transforms observations into control signals. We consider both systems that implement static control policies without memory and systems that implement dynamic memory-based control policies. In case of the latter, the discovered function becomes the state equation of a differential equation, which allows for evidence integration. Our results show that symbolic policies are discovered that perform comparably with black-box policies on a variety of control tasks. Furthermore, the additional value of the memory capacity in the dynamic policies is demonstrated on experiments where static policies fall short. Overall, we demonstrate that white-box symbolic policies can be optimised with genetic programming, while offering interpretability and transparency that lacks in black-box models.
翻訳日:2024-06-24 19:07:12 公開日:2024-06-21
# インテリジェントモノのインターネットに関する調査:アプリケーション,セキュリティ,プライバシ,今後の方向性

A Survey on Intelligent Internet of Things: Applications, Security, Privacy, and Future Directions ( http://arxiv.org/abs/2406.03820v2 )

ライセンス: Link先を確認
Ons Aouedi, Thai-Hoc Vu, Alessio Sacco, Dinh C. Nguyen, Kandaraj Piamrat, Guido Marchetto, Quoc-Viet Pham, (参考訳) IoT(Internet of Things)の急速な進歩は、コミュニケーション技術の革命を促進し、さまざまなカスタマーサービスを提供している。 人工知能(AI)技術は、IoT操作の促進と、現代的なアプリケーションシナリオにおけるその可能性の最大化に活用されている。 特に、IoTとAIの収束により、Intelligent IoT(IIoT)と呼ばれる新しいネットワークパラダイムが生まれました。 本稿では、モバイルネットワークにおける重要な応用と、関連するセキュリティとプライバシの問題を調査し、IIoTに関する包括的調査を行う。 具体的には、スマートヘルスケアやスマートシティ、スマートトランスポートやスマート産業など、さまざまな主要なアプリケーション領域におけるIIoTの役割について検討し、議論する。 このような広範な議論を通じて、ネットワーク攻撃、機密性、完全性、侵入を分析するIIoTネットワークにおける重要なセキュリティ問題と、潜在的な対策の議論について検討する。 IIoTネットワークのプライバシ問題も調査され、データやロケーション、モデルのプライバシリークなど、議論された。 最後に、いくつかの重要な課題を概説し、この重要な領域における潜在的研究の方向性を明らかにする。

The rapid advances in the Internet of Things (IoT) have promoted a revolution in communication technology and offered various customer services. Artificial intelligence (AI) techniques have been exploited to facilitate IoT operations and maximize their potential in modern application scenarios. In particular, the convergence of IoT and AI has led to a new networking paradigm called Intelligent IoT (IIoT), which has the potential to significantly transform businesses and industrial domains. This paper presents a comprehensive survey of IIoT by investigating its significant applications in mobile networks, as well as its associated security and privacy issues. Specifically, we explore and discuss the roles of IIoT in a wide range of key application domains, from smart healthcare and smart cities to smart transportation and smart industries. Through such extensive discussions, we investigate important security issues in IIoT networks, where network attacks, confidentiality, integrity, and intrusion are analyzed, along with a discussion of potential countermeasures. Privacy issues in IIoT networks were also surveyed and discussed, including data, location, and model privacy leakage. Finally, we outline several key challenges and highlight potential research directions in this important area.
翻訳日:2024-06-24 19:07:12 公開日:2024-06-21
# LLMによる言語ステガナリシス:強吸収ステゴの効率的な検出のための2つの方法

Linguistic Steganalysis via LLMs: Two Modes for Efficient Detection of Strongly Concealed Stego ( http://arxiv.org/abs/2406.04218v2 )

ライセンス: Link先を確認
Yifan Tang, Yihao Wang, Ru Zhang, Jianyi Liu, (参考訳) 複雑なシナリオにおけるステゴ(ステガノグラフィーテキスト)を検出するため,様々なモチベーションを持つ言語ステガナリシス(LS)が提案され,優れた性能を示した。 しかし, 造形ステガノグラフィーの発達に伴い, 一部のステガノグラフィーは強い隠蔽を有しており, 特にLLMによるステガノグラフィーが出現した後は, 既存のLSは検出が低く, 検出できない。 我々はLSGCと呼ばれる2つのモードを持つ新しいLSを設計した。 生成モードでは、LS-taskの「記述」を作成し、LLMの生成能力を用いて検出対象のテキストがステゴであるかどうかを説明する。 そこで我々はLSとLLMの原理を再考し,分類モードを提案する。 このモードでは、LSGCはLS-taskの「記述」を削除し、"causalLM" LLMs を使用して骨組織学的特徴を抽出した。 LS特徴はモデルの1パスのみで抽出でき、初期化重み付き線形層を追加して分類確率を得る。 強く隠蔽されたステゴスの実験では、LSGCは検出を著しく改善し、SOTA性能に達することが示されている。 さらに、分類モードにおけるLSGCは、高い性能を維持しながらトレーニング時間を大幅に短縮する。

To detect stego (steganographic text) in complex scenarios, linguistic steganalysis (LS) with various motivations has been proposed and achieved excellent performance. However, with the development of generative steganography, some stegos have strong concealment, especially after the emergence of LLMs-based steganography, the existing LS has low detection or cannot detect them. We designed a novel LS with two modes called LSGC. In the generation mode, we created an LS-task "description" and used the generation ability of LLM to explain whether texts to be detected are stegos. On this basis, we rethought the principle of LS and LLMs, and proposed the classification mode. In this mode, LSGC deleted the LS-task "description" and used the "causalLM" LLMs to extract steganographic features. The LS features can be extracted by only one pass of the model, and a linear layer with initialization weights is added to obtain the classification probability. Experiments on strongly concealed stegos show that LSGC significantly improves detection and reaches SOTA performance. Additionally, LSGC in classification mode greatly reduces training time while maintaining high performance.
翻訳日:2024-06-24 19:07:12 公開日:2024-06-21
# MeGA: 遺伝的アルゴリズムに基づく複数の独立学習ニューラルネットワークの統合

MeGA: Merging Multiple Independently Trained Neural Networks Based on Genetic Algorithm ( http://arxiv.org/abs/2406.04607v3 )

ライセンス: Link先を確認
Daniel Yun, (参考訳) 本稿では, 遺伝的アルゴリズムであるMeGAを用いて, 複数の事前学習ニューラルネットワークの重みをマージする手法を提案する。 重量平均法やアンサンブル法といった従来の手法は、事前訓練されたネットワークの能力を十分に活用できないことが多い。 我々のアプローチは、トーナメントの選択、クロスオーバー、突然変異による遺伝的アルゴリズムを利用して重量の組み合わせを最適化し、より効果的な融合を生み出す。 この手法により、融合モデルは両方の親モデルから有利な特徴を引き継ぐことができ、その結果精度と堅牢性が向上する。 CIFAR-10データセットの実験を通じて、遺伝的アルゴリズムに基づく重み付け法は、個々のモデルや従来の手法と比較してテスト精度を向上させることを示した。 このアプローチは、さまざまなディープラーニングアプリケーションにまたがって、複数のトレーニング済みネットワークを統合するためのスケーラブルなソリューションを提供する。 Githubは、https://github.com/YUNBLAK/MeGA-Merging-Multiple-Independently-Trained-Neural-Networks-Based-on-Gene tic-Algorithm.comで入手できる。

In this paper, we introduce a novel method for merging the weights of multiple pre-trained neural networks using a genetic algorithm called MeGA. Traditional techniques, such as weight averaging and ensemble methods, often fail to fully harness the capabilities of pre-trained networks. Our approach leverages a genetic algorithm with tournament selection, crossover, and mutation to optimize weight combinations, creating a more effective fusion. This technique allows the merged model to inherit advantageous features from both parent models, resulting in enhanced accuracy and robustness. Through experiments on the CIFAR-10 dataset, we demonstrate that our genetic algorithm-based weight merging method improves test accuracy compared to individual models and conventional methods. This approach provides a scalable solution for integrating multiple pre-trained networks across various deep learning applications. Github is available at: https://github.com/YUNBLAK/MeGA-Merging-Multiple-Independently-Trained-Neural-Networks-Based-on-Gene tic-Algorithm
翻訳日:2024-06-24 19:07:12 公開日:2024-06-21
# ULS23チャレンジ:CTにおける3次元ユニバーサル病変分割のためのベースラインモデルとベンチマークデータセット

The ULS23 Challenge: a Baseline Model and Benchmark Dataset for 3D Universal Lesion Segmentation in Computed Tomography ( http://arxiv.org/abs/2406.05231v2 )

ライセンス: Link先を確認
M. J. J. de Grauw, E. Th. Scholten, E. J. Smit, M. J. C. M. Rutten, M. Prokop, B. van Ginneken, A. Hering, (参考訳) 術後CT検査における腫瘍像の大きさ測定は, がん患者の治療成績を評価する上で重要である。 効率的な病変のセグメンテーションは、これらの放射線学的ワークフローを高速化することができる。 多くのベンチマークや課題は、肝臓、腎臓、肺などの特定の臓器の病変のセグメンテーションに対処するが、臨床で遭遇するより多様な病変には、より普遍的なアプローチが必要である。 このギャップに対処するため,胸腹部骨盤CT検査における3次元普遍的病変分割のためのULS23ベンチマークを導入した。 ULS23のトレーニングデータセットには、膵、結腸、骨の病変を含む、この地域全体で38,693の病変が含まれている。 評価目的で,284例の775病変からなるデータセットを収集した。 これらの病変のそれぞれが臨床的文脈における標的病変として同定され、このデータセット内での多様性と臨床的妥当性が保証された。 ULS23ベンチマークはuls23.grand-challenge.orgを通じて一般に公開されている。 さらに, ベースライン型半教師付き3次元病変分割モデルの開発と公開を行った。 このモデルは、チャレンジテストセットで平均Dice係数 0.703$\pm$ 0.240 を達成した。 今後の ULS モデルの開発を進めるため,現在進行中の提出を募集する。

Size measurements of tumor manifestations on follow-up CT examinations are crucial for evaluating treatment outcomes in cancer patients. Efficient lesion segmentation can speed up these radiological workflows. While numerous benchmarks and challenges address lesion segmentation in specific organs like the liver, kidneys, and lungs, the larger variety of lesion types encountered in clinical practice demands a more universal approach. To address this gap, we introduced the ULS23 benchmark for 3D universal lesion segmentation in chest-abdomen-pelvis CT examinations. The ULS23 training dataset contains 38,693 lesions across this region, including challenging pancreatic, colon and bone lesions. For evaluation purposes, we curated a dataset comprising 775 lesions from 284 patients. Each of these lesions was identified as a target lesion in a clinical context, ensuring diversity and clinical relevance within this dataset. The ULS23 benchmark is publicly accessible via uls23.grand-challenge.org, enabling researchers worldwide to assess the performance of their segmentation methods. Furthermore, we have developed and publicly released our baseline semi-supervised 3D lesion segmentation model. This model achieved an average Dice coefficient of 0.703 $\pm$ 0.240 on the challenge test set. We invite ongoing submissions to advance the development of future ULS models.
翻訳日:2024-06-24 19:07:12 公開日:2024-06-21
# Hypernetworkとしての注意

Attention as a Hypernetwork ( http://arxiv.org/abs/2406.05816v2 )

ライセンス: Link先を確認
Simon Schug, Seijin Kobayashi, Yassir Akram, João Sacramento, Razvan Pascanu, (参考訳) トランスフォーマーは、ある状況下では、トレーニング中に構成部品に遭遇したかもしれないが、構成が存在しない新しい問題事例に一般化することができる。 この構成一般化能力を実現するメカニズムは何か? マルチヘッドアテンションをハイパーネットワークとして再構成することにより、低次元の潜伏符号がキークエリの特定の操作を規定していることを明らかにする。 この潜在コードは高度に構造化されており、ネットワークによって実行されるサブタスクに関する情報をキャプチャする。 注意の枠組みをハイパーネットワークとして用い,抽象的推論タスクの多頭部線形注意の簡易な修正を提案する。 特に,Raven Progressive Matricesヒューマンインテリジェンステストのシンボリックバージョンを紹介し,モデルサイズとデータのスケーリングによって構成一般化が可能になり,トランスフォーマーに機能的に構造化された潜在コードが発生することを示す。

Transformers can under some circumstances generalize to novel problem instances whose constituent parts might have been encountered during training but whose compositions have not. What mechanisms underlie this ability for compositional generalization? By reformulating multi-head attention as a hypernetwork, we reveal that a low-dimensional latent code specifies key-query specific operations. We find empirically that this latent code is highly structured, capturing information about the subtasks performed by the network. Using the framework of attention as a hypernetwork we further propose a simple modification of multi-head linear attention that strengthens the ability for compositional generalization on a range of abstract reasoning tasks. In particular, we introduce a symbolic version of the Raven Progressive Matrices human intelligence test on which we demonstrate how scaling model size and data enables compositional generalization and gives rise to a functionally structured latent code in the transformer.
翻訳日:2024-06-24 18:57:27 公開日:2024-06-21
# アノテーションアライメント:LLMと人間の会話安全アノテーションの比較

Annotation alignment: Comparing LLM and human annotations of conversational safety ( http://arxiv.org/abs/2406.06369v2 )

ライセンス: Link先を確認
Rajiv Movva, Pang Wei Koh, Emma Pierson, (参考訳) LLMは安全に対する人間の認識とどの程度一致しているか? 我々は,ユーザとチャットボットの会話の安全性に言及する際に,LLMと人間が同意する範囲について,*アノテーションアライメント*を用いて検討する。 私たちは最近のDICESデータセット(Aroyo et al , 2023)を活用し、350の会話が10のレースジェンダーグループにまたがる112のアノテータによって安全のために評価される。 GPT-4は、平均アノテータのレーティングと$r = 0.59$のピアソン相関を達成し、平均 (r=0.51$) との平均アノテータの相関よりも高い。 我々は、GPT-4が人口統計群とどのように相関するかの相違を示すためには、より大きなデータセットが必要であることを示した。 また、**グループとの相関にはかなりの慣用的変化があり、人種と性別がアライメントの差を完全に捉えていないことを示唆している。 最後に、GPT-4は、ある集団が他の集団よりも会話が安全でないと予測できないことを発見した。

To what extent to do LLMs align with human perceptions of safety? We study this question via *annotation alignment*, the extent to which LLMs and humans agree when annotating the safety of user-chatbot conversations. We leverage the recent DICES dataset (Aroyo et al., 2023), in which 350 conversations are each rated for safety by 112 annotators spanning 10 race-gender groups. GPT-4 achieves a Pearson correlation of $r = 0.59$ with the average annotator rating, higher than the median annotator's correlation with the average ($r=0.51$). We show that larger datasets are needed to resolve whether GPT-4 exhibits disparities in how well it correlates with demographic groups. Also, there is substantial idiosyncratic variation in correlation *within* groups, suggesting that race & gender do not fully capture differences in alignment. Finally, we find that GPT-4 cannot predict when one demographic group finds a conversation more unsafe than another.
翻訳日:2024-06-24 18:57:27 公開日:2024-06-21
# Dual-ReFLECT:デュアルラーニングフィードバック機構による大規模言語モデルによる反射翻訳

DUAL-REFLECT: Enhancing Large Language Models for Reflective Translation through Dual Learning Feedback Mechanisms ( http://arxiv.org/abs/2406.07232v2 )

ライセンス: Link先を確認
Andong Chen, Lianzhang Lou, Kehai Chen, Xuefeng Bai, Yang Xiang, Muyun Yang, Tiejun Zhao, Min Zhang, (参考訳) 近年,自己回帰によって強化された大規模言語モデル (LLM) は,機械翻訳において有望な性能を達成している。 鍵となるアイデアは、LLMに人間のようなフィードバックで翻訳を誘導することである。 しかし、既存の自己回帰法には効果的なフィードバック情報がなく、翻訳性能が制限されている。 そこで本研究では,翻訳タスクの二重学習を利用して効果的なフィードバックを提供することにより,モデルの自己表現能力の向上と翻訳性能の向上を実現したDUAL-REFLECTフレームワークを提案する。 この手法を様々な翻訳タスクに適用することにより,翻訳精度の向上とあいまいさの解消,特に低リソース言語対を用いた翻訳タスクにおいて有効であることが証明された。

Recently, large language models (LLMs) enhanced by self-reflection have achieved promising performance on machine translation. The key idea is guiding LLMs to generate translation with human-like feedback. However, existing self-reflection methods lack effective feedback information, limiting the translation performance. To address this, we introduce a DUAL-REFLECT framework, leveraging the dual learning of translation tasks to provide effective feedback, thereby enhancing the models' self-reflective abilities and improving translation performance. The application of this method across various translation tasks has proven its effectiveness in improving translation accuracy and eliminating ambiguities, especially in translation tasks with low-resource language pairs.
翻訳日:2024-06-24 18:57:27 公開日:2024-06-21
# 最小フレーム平均化による高対称性と効率の等価性

Equivariance via Minimal Frame Averaging for More Symmetries and Efficiency ( http://arxiv.org/abs/2406.07598v4 )

ライセンス: Link先を確認
Yuchao Lin, Jacob Helwig, Shurui Gui, Shuiwang Ji, (参考訳) フレーム平均化による機械学習システムにおける等価性の実現を検討する。 現在のフレーム平均化法は、大きなフレーム上でのコストのかかる和や、近似同値しか得られないサンプリングベースのアプローチに依存している。 本稿では,最小フレーム平均化(MFA, Minimal Frame Averaging)を提案する。 MFAの一般基盤はまた、時空の対称性を記述するローレンツ群や複素値領域のユニタリ群など、これまで考えられていたよりも多くの群にフレーム平均化を拡張できる。 その結果,MFAによる対称性の符号化は,$n$-bodyシミュレーション,コライダー物理におけるトップタグ付け,緩和エネルギー予測など,多種多様なタスクにまたがって効率と効果が示された。 私たちのコードはhttps://github.com/divelab/MFA.comで公開されています。

We consider achieving equivariance in machine learning systems via frame averaging. Current frame averaging methods involve a costly sum over large frames or rely on sampling-based approaches that only yield approximate equivariance. Here, we propose Minimal Frame Averaging (MFA), a mathematical framework for constructing provably minimal frames that are exactly equivariant. The general foundations of MFA also allow us to extend frame averaging to more groups than previously considered, including the Lorentz group for describing symmetries in space-time, and the unitary group for complex-valued domains. Results demonstrate the efficiency and effectiveness of encoding symmetries via MFA across a diverse range of tasks, including $n$-body simulation, top tagging in collider physics, and relaxed energy prediction. Our code is available at https://github.com/divelab/MFA.
翻訳日:2024-06-24 18:57:27 公開日:2024-06-21
# 深層学習によるセンサー融合による幼児運動分類の改善

Deep learning empowered sensor fusion to improve infant movement classification ( http://arxiv.org/abs/2406.09014v3 )

ライセンス: Link先を確認
Tomas Kulvicius, Dajie Zhang, Luise Poustka, Sven Bölte, Lennart Jahn, Sarah Flügge, Marc Kraft, Markus Zweckstetter, Karin Nielsen-Saines, Florentin Wörgötter, Peter B Marschik, (参考訳) 確立した臨床ツールの診断手順を容易にし、強化するためのAIソリューションの開発が最近ブームになっている。 発達期神経系の完全性を評価するため,幼児期における神経障害の診断における臨床的意義として,プレヒト運動評価(GMA)が認められている。 GMAは、その応用を拡大し、人間のアセスメントのトレーニングにおけるコストを回避し、自発的な運動パターンの分類を標準化しようとする機械学習アプローチを通じて、ますます強化されている。 利用可能なディープラーニングツールは、いずれも単一センサーのモダリティに基づいているが、しかしながら、十分に訓練された人間の評価ツールよりもかなり劣っている。 これらのアプローチは、すべてのモデルがプロプライエタリ/サイロデータセットで設計、訓練、評価されるのとほぼ同等である。 本研究は,3つの異なるセンサモード(圧力,慣性,視覚センサ)を比較し,FM(Fidgety Movement)を評価するためのセンサ融合手法を提案する。 乳幼児運動分類のための様々な組み合わせと2つのセンサフュージョンアプローチ(後期および初期融合)を試験し、マルチセンサーシステムが単一モダリティ評価を上回っているかどうかを検証した。 乳児の運動パターンを自動分類する手段としては, センサフュージョンアプローチが有望な方法であることを示唆し, 3センサフュージョンの性能(分類精度94.5\%)はどの単一モードよりも有意に高かった。 堅牢なセンサー融合システムの開発は、AIによる神経機能の初期認識を著しく向上させ、最終的には神経発達状態の自動早期検出を容易にする。

There is a recent boom in the development of AI solutions to facilitate and enhance diagnostic procedures for established clinical tools. To assess the integrity of the developing nervous system, the Prechtl general movement assessment (GMA) is recognized for its clinical value in diagnosing neurological impairments in early infancy. GMA has been increasingly augmented through machine learning approaches intending to scale-up its application, circumvent costs in the training of human assessors and further standardize classification of spontaneous motor patterns. Available deep learning tools, all of which are based on single sensor modalities, are however still considerably inferior to that of well-trained human assessors. These approaches are hardly comparable as all models are designed, trained and evaluated on proprietary/silo-data sets. With this study we propose a sensor fusion approach for assessing fidgety movements (FMs) comparing three different sensor modalities (pressure, inertial, and visual sensors). Various combinations and two sensor fusion approaches (late and early fusion) for infant movement classification were tested to evaluate whether a multi-sensor system outperforms single modality assessments. The performance of the three-sensor fusion (classification accuracy of 94.5\%) was significantly higher than that of any single modality evaluated, suggesting the sensor fusion approach is a promising avenue for automated classification of infant motor patterns. The development of a robust sensor fusion system may significantly enhance AI-based early recognition of neurofunctions, ultimately facilitating automated early detection of neurodevelopmental conditions.
翻訳日:2024-06-24 18:57:27 公開日:2024-06-21
# オブジェクト検出の強化:V3Det Challenge 2024におけるVast Vocabulary Object Detection Trackの検討

Enhanced Object Detection: A Study on Vast Vocabulary Object Detection Track for V3Det Challenge 2024 ( http://arxiv.org/abs/2406.09201v3 )

ライセンス: Link先を確認
Peixi Wu, Bosong Chai, Xuan Nie, Longquan Yan, Zeyu Wang, Qifan Zhou, Boning Wang, Yansong Peng, Hebei Li, (参考訳) 本稿では,Vast Vocabulary Visual Detection (V3Det) データセットを用いて,教師付きVast Vocabulary Visual Detectionタスクについて検討した。 このトラックでは、複雑なカテゴリや検出ボックスの扱いが困難になっている。 オリジナルの管制検出器は、この作業には適していない。 ネットワーク構造の調整、損失関数の変更、トレーニング戦略の設計など、一連の改善を設計しました。 我々のモデルは,V3Det Challenge 2024のVast Vocabulary Object Detection(Supervised)トラックとOpen Vocabulary Object Detection(OVD)トラックの両方において,ベースラインを改良し,Leadboardの優れたランキングを達成した。

In this technical report, we present our findings from the research conducted on the Vast Vocabulary Visual Detection (V3Det) dataset for Supervised Vast Vocabulary Visual Detection task. How to deal with complex categories and detection boxes has become a difficulty in this track. The original supervised detector is not suitable for this task. We have designed a series of improvements, including adjustments to the network structure, changes to the loss function, and design of training strategies. Our model has shown improvement over the baseline and achieved excellent rankings on the Leaderboard for both the Vast Vocabulary Object Detection (Supervised) track and the Open Vocabulary Object Detection (OVD) track of the V3Det Challenge 2024.
翻訳日:2024-06-24 18:57:27 公開日:2024-06-21
# GenDistiller: 自己回帰生成モデルに基づく事前学習言語モデルの蒸留

GenDistiller: Distilling Pre-trained Language Models based on an Autoregressive Generative Model ( http://arxiv.org/abs/2406.09444v2 )

ライセンス: Link先を確認
Yingying Gao, Shilei Zhang, Chao Deng, Junlan Feng, (参考訳) HuBERTやWavLMのような事前訓練された音声言語モデルは、ラベルなしの音声データを自己教師付き学習に利用し、多くの下流タスクに強力な表現を提供する。 これらのモデルの成功にもかかわらず、メモリとコンピューティングリソースに対する高い要求は、リソース制限されたデバイス上のアプリケーションを妨げる。 そこで本稿では,より小規模な学生ネットワークによって,教師モデルの隠蔽表現を生成する新しい知識蒸留フレームワークであるGenDistillerを紹介する。 提案手法は,従来の隠蔽層を履歴として捉え,教師モデルの層間予測を自己回帰的に実施する。 SUPERBの実験では、自動回帰フレームワークを使わずに、GenDistillerをベースライン蒸留法よりも優れていることが判明した。 最終的に提案されたGenDistillerは、WavLMのサイズを82%削減する。

Pre-trained speech language models such as HuBERT and WavLM leverage unlabeled speech data for self-supervised learning and offer powerful representations for numerous downstream tasks. Despite the success of these models, their high requirements for memory and computing resource hinder their application on resource restricted devices. Therefore, this paper introduces GenDistiller, a novel knowledge distillation framework which generates the hidden representations of the pre-trained teacher model directly by a much smaller student network. The proposed method takes the previous hidden layer as history and implements a layer-by-layer prediction of the teacher model autoregressively. Experiments on SUPERB reveal the advantage of GenDistiller over the baseline distilling method without an autoregressive framework, with 33% fewer parameters, similar time consumption and better performance on most of the SUPERB tasks. Ultimately, the proposed GenDistiller reduces the size of WavLM by 82%.
翻訳日:2024-06-24 18:57:27 公開日:2024-06-21
# SHMamba:オーディオ・ビジュアル質問応答のための構造的双曲的状態空間モデル

SHMamba: Structured Hyperbolic State Space Model for Audio-Visual Question Answering ( http://arxiv.org/abs/2406.09833v2 )

ライセンス: Link先を確認
Zhe Yang, Wenrui Li, Guanghui Cheng, (参考訳) AVQA(Audio-Visual Question Answering)タスクは、アプリケーションにとって大きな可能性を秘めている。 従来のユニモーダルアプローチと比較して、AVQAのマルチモーダル入力は特徴抽出と融合プロセスをより困難にする。 ユークリッド空間は、データの多次元関係を効果的に表現することは困難である。 特に木構造や階層構造でデータを抽出・処理する場合、ユークリッド空間は埋め込み空間には適さない。 さらに、トランスフォーマーの自己保持機構は、シーケンス内の要素間の動的関係を捉えるのに有効である。 しかし、ウィンドウモデリングと2次計算複雑性における自己注意機構の限界は、長いシーケンスをモデル化する際の効率を低下させる。 これらの制約に対処するため、我々はSHMamba: Structured Hyperbolic State Space Modelを提案し、双曲幾何学と状態空間モデルの利点を統合する。 具体的には、SHMambaは双曲空間の内在的性質を利用して、階層構造と音声・視覚データにおける複雑な関係を表現する。 一方、状態空間モデルは、全シーケンスをグローバルにモデル化することで、時間とともに動的な変化を捉えます。 さらに,適応的な曲率双曲アライメントモジュールとクロスフュージョンブロックを導入し,階層構造の理解とクロスモーダル情報の動的交換を強化する。 SHMambaはより少ないパラメータと計算コストで従来の手法より優れていることを示した。 学習可能なパラメータは78.12\%削減され、平均性能は2.53\%向上した。 実験の結果,本手法は現在のすべての主要な手法よりも優れており,実用的なアプリケーションシナリオに適していることがわかった。

The Audio-Visual Question Answering (AVQA) task holds significant potential for applications. Compared to traditional unimodal approaches, the multi-modal input of AVQA makes feature extraction and fusion processes more challenging. Euclidean space is difficult to effectively represent multi-dimensional relationships of data. Especially when extracting and processing data with a tree structure or hierarchical structure, Euclidean space is not suitable as an embedding space. Additionally, the self-attention mechanism in Transformers is effective in capturing the dynamic relationships between elements in a sequence. However, the self-attention mechanism's limitations in window modeling and quadratic computational complexity reduce its effectiveness in modeling long sequences. To address these limitations, we propose SHMamba: Structured Hyperbolic State Space Model to integrate the advantages of hyperbolic geometry and state space models. Specifically, SHMamba leverages the intrinsic properties of hyperbolic space to represent hierarchical structures and complex relationships in audio-visual data. Meanwhile, the state space model captures dynamic changes over time by globally modeling the entire sequence. Furthermore, we introduce an adaptive curvature hyperbolic alignment module and a cross fusion block to enhance the understanding of hierarchical structures and the dynamic exchange of cross-modal information, respectively. Extensive experiments demonstrate that SHMamba outperforms previous methods with fewer parameters and computational costs. Our learnable parameters are reduced by 78.12\%, while the average performance improves by 2.53\%. Experiments show that our method demonstrates superiority among all current major methods and is more suitable for practical application scenarios.
翻訳日:2024-06-24 18:57:27 公開日:2024-06-21
# 画像品質評価のためのコンテンツ・歪み・外観の視覚言語モデリング

Vision Language Modeling of Content, Distortion and Appearance for Image Quality Assessment ( http://arxiv.org/abs/2406.09858v2 )

ライセンス: Link先を確認
Fei Zhou, Zhicong Huang, Tianhao Gu, Guoping Qiu, (参考訳) 画像の視覚的品質は、その意味的内容、歪み特性、明るさ、コントラスト、鮮明さ、色鮮度などの外観特性を含む多くの中間要素によって構成される。 画像品質評価(IQA)の開発には,これらすべての品質評価属性について高いレベルの知識を希釈することが不可欠である。 既存のソリューションはこれらの側面のいくつかをモデル化しているが、これらの重要な品質関連属性をすべて含む包括的なソリューションはまだ開発されていない。 本稿では、画像意味内容、歪み特性およびIQAの外観特性に関する高レベルな知識を得るための、視覚言語および視覚コントラスト表現学習フレームワークを特徴とする、自己監督・視覚言語監視画像QUality Evaluator(SLIQUE)と呼ばれる新しい盲目IQA(BIQA)モデルを提案する。 SLIQUEをトレーニングするために、我々は、品質関連テキストの3つのカテゴリにアノテートした、最初の大きな画像データベースを構築するための体系的なアプローチを開発した。 Text Annotated Distortion, Outearance and Content (TADAC)データベースは、160万以上の画像に意味的内容、歪み特性、外観特性のテキスト記述を付加している。 TADACとデータベース自体を構築する方法は、高度なIQAアプリケーションのための視覚言語モデリングを利用するのに特に有用である。 SLIQUEは最先端技術よりも優れた性能を示し,設計原理の健全性と実装の有効性を示した。

The visual quality of an image is confounded by a number of intertwined factors including its semantic content, distortion characteristics and appearance properties such as brightness, contrast, sharpness, and colourfulness. Distilling high level knowledge about all these quality bearing attributes is crucial for developing objective Image Quality Assessment (IQA).While existing solutions have modeled some of these aspects, a comprehensive solution that involves all these important quality related attributes has not yet been developed. In this paper, we present a new blind IQA (BIQA) model termed Self-supervision and Vision-Language supervision Image QUality Evaluator (SLIQUE) that features a joint vision-language and visual contrastive representation learning framework for acquiring high level knowledge about the images semantic contents, distortion characteristics and appearance properties for IQA. For training SLIQUE, we have developed a systematic approach to constructing a first of its kind large image database annotated with all three categories of quality relevant texts. The Text Annotated Distortion, Appearance and Content (TADAC) database has over 1.6 million images annotated with textual descriptions of their semantic contents, distortion characteristics and appearance properties. The method for constructing TADAC and the database itself will be particularly useful for exploiting vision-language modeling for advanced IQA applications. Extensive experimental results show that SLIQUE has superior performances over state of the art, demonstrating the soundness of its design principle and the effectiveness of its implementation.
翻訳日:2024-06-24 18:57:27 公開日:2024-06-21
# 半線形混合ブール-アリーメティック表現の難読化

Deobfuscation of Semi-Linear Mixed Boolean-Arithmetic Expressions ( http://arxiv.org/abs/2406.10016v2 )

ライセンス: Link先を確認
Colton Skees, (参考訳) 混合ブール-アリシメティック(MBA)難解化(Mixed Boolean-Arithmetic)は、単純な式を意味論的に等価だがより複雑なブール演算と算術演算の組合せに変換するために用いられる一般的な手法である。 DRMシステム、マルウェア、ソフトウェアプロテクターで広く使われていることは、十分に文書化されている。 2021年、Louらは1ビット変数とnビット変数の間の隠れた双方向変換を利用して線形MBAを単純化する画期的な方法を提案した。 2022年、Reichenwallnerらも同様だがより効果的に線形MBA、SiMBAを単純化する方法を提案した。 しかし、現在の線形MBA単純化器は1ビット空間で動作するため、ビット幅のオペランド内で定数を利用する式、e g (x&1), (x&1111) + (y&1111) は扱えない。 我々は、このより広範な表現のクラスを単純化できるSiMBAの拡張を提案する。 ピアツールを超越し、現在の単純化者が苦労するMBAのクラスを効率的に単純化する。

Mixed Boolean-Arithmetic (MBA) obfuscation is a common technique used to transform simple expressions into semantically equivalent but more complex combinations of boolean and arithmetic operators. Its widespread usage in DRM systems, malware, and software protectors is well documented. In 2021, Liu et al. proposed a groundbreaking method of simplifying linear MBAs, utilizing a hidden two-way transformation between 1-bit and n-bit variables. In 2022, Reichenwallner et al. proposed a similar but more effective method of simplifying linear MBAs, SiMBA, relying on a similar but more involved theorem. However, because current linear MBA simplifiers operate in 1-bit space, they cannot handle expressions which utilize constants inside of their bitwise operands, e.g. (x&1), (x&1111) + (y&1111). We propose an extension to SiMBA that enables simplification of this broader class of expressions. It surpasses peer tools, achieving efficient simplification of a class of MBAs that current simplifiers struggle with.
翻訳日:2024-06-24 18:57:27 公開日:2024-06-21
# 大規模言語モデルの最悪のプロンプト性能について

On the Worst Prompt Performance of Large Language Models ( http://arxiv.org/abs/2406.10248v2 )

ライセンス: Link先を確認
Bowen Cao, Deng Cai, Zhisong Zhang, Yuexian Zou, Wai Lam, (参考訳) 大規模言語モデル(LLM)の性能はプロンプトの表現に非常に敏感であり、現実のシナリオにおける信頼性に対する大きな懸念を引き起こす。 既存の研究では、しばしばプロンプトをタスクレベルの命令とケースレベルのインプットに分割し、主にタスクレベルの命令のバリエーションに対する堅牢性を評価し改善することに焦点を当てている。 しかし、このセットアップは現実世界のユーザクエリの多様性を完全に解決することができず、タスク固有のデータセットの存在を前提としている。 これは意味論的に等価なケースレベルのクエリで構成される新しいベンチマークで、モデルパフォーマンスの低いバウンダリを測定するために、最悪のプロンプトパフォーマンスを使用することの重要性を強調します。 ChatGPTのRobostAlpacaEvalと、Llama、Mistral、Gemmaファミリーの6つのオープンソースLCMによる大規模な実験により、モデル性能のかなりの変動が明らかになった。 さらに、モデルに依存しない視点とモデルに依存しない視点の両方から最悪のプロンプトを特定することの難しさを説明し、最悪のプロンプトを特徴づけるショートカットがないことを強調する。 既存のプロンプトエンジニアリングとプロンプト一貫性メソッドを使用して、最悪のプロンプトパフォーマンスを向上しようともしていますが、その影響は限られています。 これらの知見は、多様なプロンプトにまたがって高い性能を維持できる、より回復力のあるLCMを作成する必要性を浮き彫りにしている。 データとコードはhttps://github.com/cbwbuaa/On-the-Worst-Prompt- Performance-of-LLMsで入手できる。

The performance of large language models (LLMs) is acutely sensitive to the phrasing of prompts, which raises significant concerns about their reliability in real-world scenarios. Existing studies often divide prompts into task-level instructions and case-level inputs and primarily focus on evaluating and improving robustness against variations in tasks-level instructions. However, this setup fails to fully address the diversity of real-world user queries and assumes the existence of task-specific datasets. To address these limitations, we introduce RobustAlpacaEval, a new benchmark that consists of semantically equivalent case-level queries and emphasizes the importance of using the worst prompt performance to gauge the lower bound of model performance. Extensive experiments on RobustAlpacaEval with ChatGPT and six open-source LLMs from the Llama, Mistral, and Gemma families uncover substantial variability in model performance; for instance, a difference of 45.48% between the worst and best performance for the Llama-2-70B-chat model, with its worst performance dipping as low as 9.38%. We further illustrate the difficulty in identifying the worst prompt from both model-agnostic and model-dependent perspectives, emphasizing the absence of a shortcut to characterize the worst prompt. We also attempt to enhance the worst prompt performance using existing prompt engineering and prompt consistency methods, but find that their impact is limited. These findings underscore the need to create more resilient LLMs that can maintain high performance across diverse prompts. Data and code are available at https://github.com/cbwbuaa/On-the-Worst-Prompt- Performance-of-LLMs.
翻訳日:2024-06-24 18:57:27 公開日:2024-06-21
# Byzantine-Robust分散フェデレーションラーニング

Byzantine-Robust Decentralized Federated Learning ( http://arxiv.org/abs/2406.10416v3 )

ライセンス: Link先を確認
Minghong Fang, Zifan Zhang, Hairi, Prashant Khanduri, Jia Liu, Songtao Lu, Yuchen Liu, Neil Gong, (参考訳) フェデレートラーニング(FL)は、複数のクライアントがプライベートトレーニングデータを公開せずに、機械学習モデルを協調的にトレーニングすることを可能にする。 従来のFLでは、システムはサーバ支援アーキテクチャ(サーバ支援FL)に従い、トレーニングプロセスは中央サーバによって調整される。 しかし、サーバ支援のFLフレームワークは、サーバでの通信ボトルネックと依存関係の問題によりスケーラビリティの低下に悩まされている。 課題に対処するため、クライアントがサーバレスとピアツーピアの方法でモデルを協調的にトレーニングできるようにするために、分散フェデレーションラーニング(DFL)アーキテクチャが提案されている。 しかし、完全に分散した性質のため、DFLは有害な攻撃に対して非常に脆弱であり、悪意のあるクライアントは、近隣のクライアントに慎重に構築されたローカルモデルを送信することでシステムを操作できる。 現在では限られた数のビザンチン・ローバストDFL法が提案されており、そのほとんどは通信効率が良くないか、先進的な毒殺攻撃に弱いままである。 本稿では,DFLにおける毒殺対策として,BALANCE (Byzantine-robust averaging through local similarity in decentralization) というアルゴリズムを提案する。 BALANCEでは、各クライアントは独自のローカルモデルを類似参照として利用し、受信したモデルが悪意があるか良性があるかを判断する。 我々は, 強凸および非凸の双方において, 毒性攻撃下でのBALANCEの理論的収束保証を確立する。 さらに、毒殺攻撃によるBALANCEの収束率は、ビザンチンフリー環境での最先端のものと一致している。 大規模な実験は、BALANCEが既存のDFL法より優れており、効果的に中毒攻撃を防いでいることも示している。

Federated learning (FL) enables multiple clients to collaboratively train machine learning models without revealing their private training data. In conventional FL, the system follows the server-assisted architecture (server-assisted FL), where the training process is coordinated by a central server. However, the server-assisted FL framework suffers from poor scalability due to a communication bottleneck at the server, and trust dependency issues. To address challenges, decentralized federated learning (DFL) architecture has been proposed to allow clients to train models collaboratively in a serverless and peer-to-peer manner. However, due to its fully decentralized nature, DFL is highly vulnerable to poisoning attacks, where malicious clients could manipulate the system by sending carefully-crafted local models to their neighboring clients. To date, only a limited number of Byzantine-robust DFL methods have been proposed, most of which are either communication-inefficient or remain vulnerable to advanced poisoning attacks. In this paper, we propose a new algorithm called BALANCE (Byzantine-robust averaging through local similarity in decentralization) to defend against poisoning attacks in DFL. In BALANCE, each client leverages its own local model as a similarity reference to determine if the received model is malicious or benign. We establish the theoretical convergence guarantee for BALANCE under poisoning attacks in both strongly convex and non-convex settings. Furthermore, the convergence rate of BALANCE under poisoning attacks matches those of the state-of-the-art counterparts in Byzantine-free settings. Extensive experiments also demonstrate that BALANCE outperforms existing DFL methods and effectively defends against poisoning attacks.
翻訳日:2024-06-24 18:47:43 公開日:2024-06-21
# 言葉から世界へ:コミュニケーティブLLMエージェントによるワンライン・プロンプトから没入型マルチモーダル・デジタルストーリーへ

From Words to Worlds: Transforming One-line Prompt into Immersive Multi-modal Digital Stories with Communicative LLM Agent ( http://arxiv.org/abs/2406.10478v2 )

ライセンス: Link先を確認
Samuel S. Sohn, Danrui Li, Sen Zhang, Che-Jui Chang, Mubbasir Kapadia, (参考訳) エンターテイメント、教育、マーケティングに不可欠なデジタルストーリーテリングは、プロダクションのスケーラビリティと柔軟性の課題に直面している。 本稿では,大規模言語モデルと生成ツールを用いて,デジタルストーリーテリングの自動化と洗練を行う。 トップダウンのストーリードラフトとボトムアップのアセット生成アプローチを採用して、手動の介入、インタラクティブなシーンオーケストレーション、物語の一貫性といった重要な問題に取り組む。 このフレームワークは、インタラクティブで一貫した物語を複数のモダリティにわたって効率的に作成し、コンテンツの創造を民主化し、エンゲージメントを高める。 提案手法は,参照ビデオを使わずにコヒーレントなデジタルストーリーを作成できることを示し,自動化されたデジタルストーリーテリングの大幅な進歩を示すものである。

Digital storytelling, essential in entertainment, education, and marketing, faces challenges in production scalability and flexibility. The StoryAgent framework, introduced in this paper, utilizes Large Language Models and generative tools to automate and refine digital storytelling. Employing a top-down story drafting and bottom-up asset generation approach, StoryAgent tackles key issues such as manual intervention, interactive scene orchestration, and narrative consistency. This framework enables efficient production of interactive and consistent narratives across multiple modalities, democratizing content creation and enhancing engagement. Our results demonstrate the framework's capability to produce coherent digital stories without reference videos, marking a significant advancement in automated digital storytelling.
翻訳日:2024-06-24 18:47:43 公開日:2024-06-21
# EDAにおける3次元フロアプランニングのための大規模推論モデル:不完全性から学ぶ

Large Reasoning Models for 3D Floorplanning in EDA: Learning from Imperfections ( http://arxiv.org/abs/2406.10538v2 )

ライセンス: Link先を確認
Fin Amin, Nirjhor Rouf, Tse-Han Pan, Md Kamal Ibn Shafi, Paul D. Franzon, (参考訳) 本稿では,大推論モデル (LRM) として知られる自己回帰型意思決定モデルに属するDreamweaverを紹介する。 Dreamweaverは、電子設計自動化(EDA)における3Dフロアプランニングを改善するために設計されている。 提案手法の顕著な利点は,床計画における種々の機能ブロックに対する多数の潜在的位置を扱う上で不可欠な,大きな離散的な作用空間を効果的に推論できることである。 さらに、ドリームウィーバーは完全にランダムな軌跡で訓練された場合でも強い性能を示し、その結果を高めるために準最適または非熟練の軌跡を活用する能力を示している。 この革新的なアプローチは、集積回路(IC)設計フローの合理化と、フロアプランニングに関連する高い計算コストの削減に寄与する。 我々はその性能を現在の最先端手法と比較して評価し、顕著な改善点を浮き彫りにした。

In this paper, we introduce Dreamweaver, which belongs to a new class of auto-regressive decision-making models known as large reasoning models (LRMs). Dreamweaver is designed to improve 3D floorplanning in electronic design automation (EDA) via an architecture that melds advancements in sequence-to-sequence reinforcement learning algorithms. A significant advantage of our approach is its ability to effectively reason over large discrete action spaces, which is essential for handling the numerous potential positions for various functional blocks in floorplanning. Additionally, Dreamweaver demonstrates strong performance even when trained on entirely random trajectories, showcasing its capacity to leverage sub-optimal or non-expert trajectories to enhance its results. This innovative approach contributes to streamlining the integrated circuit (IC) design flow and reducing the high computational costs typically associated with floorplanning. We evaluate its performance against a current state-of-the-art method, highlighting notable improvements.
翻訳日:2024-06-24 18:47:43 公開日:2024-06-21
# FreeMotion: MoCap-free Human Motion Synthesis with Multimodal Large Language Models

FreeMotion: MoCap-Free Human Motion Synthesis with Multimodal Large Language Models ( http://arxiv.org/abs/2406.10740v2 )

ライセンス: Link先を確認
Zhikai Zhang, Yitang Li, Haofeng Huang, Mingxian Lin, Li Yi, (参考訳) 人間の動き合成はコンピュータアニメーションの基本的な課題である。 ディープラーニングとモーションキャプチャーデータを利用したこの分野の最近の進歩にもかかわらず、既存の手法は常に特定の動作カテゴリ、環境、スタイルに限られている。 この貧弱な一般化性は、大規模かつ高品質なモーションデータ収集の困難さと費用によって部分的に説明できる。 同時に、インターネット規模の画像とテキストデータで訓練された基礎モデルは、様々な下流タスクに対する驚くべき世界の知識と推論能力を示している。 これらの基礎モデルを利用すると、人間の動きの合成に役立つかもしれない。 しかし、これらの手法は、このタスクに対する基礎モデルの可能性を十分に明らかにせず、いくつかの単純なアクションと環境しかサポートしていない。 本稿では,動作データなしで,自然言語命令をMLLMに基づくユーザ制御信号として使用したオープンセットの人間の動作合成を,任意の動作タスクや環境に対して初めて検討する。 私たちのフレームワークは2つの段階に分けられます。 1) MLLMをキーフレームデザイナ及びアニメーターとして活用したシーケンシャルなキーフレーム生成 2【補間・追従によるキーフレーム間の動作充足】 本手法は,多くの下流タスクにおいて,一般的な人間の動作合成を実現することができる。 有望な結果は、MLLMが支援するモキャップフリーなヒトの運動合成の価値を示し、将来の研究の道を開くものである。

Human motion synthesis is a fundamental task in computer animation. Despite recent progress in this field utilizing deep learning and motion capture data, existing methods are always limited to specific motion categories, environments, and styles. This poor generalizability can be partially attributed to the difficulty and expense of collecting large-scale and high-quality motion data. At the same time, foundation models trained with internet-scale image and text data have demonstrated surprising world knowledge and reasoning ability for various downstream tasks. Utilizing these foundation models may help with human motion synthesis, which some recent works have superficially explored. However, these methods didn't fully unveil the foundation models' potential for this task and only support several simple actions and environments. In this paper, we for the first time, without any motion data, explore open-set human motion synthesis using natural language instructions as user control signals based on MLLMs across any motion task and environment. Our framework can be split into two stages: 1) sequential keyframe generation by utilizing MLLMs as a keyframe designer and animator; 2) motion filling between keyframes through interpolation and motion tracking. Our method can achieve general human motion synthesis for many downstream tasks. The promising results demonstrate the worth of mocap-free human motion synthesis aided by MLLMs and pave the way for future research.
翻訳日:2024-06-24 18:47:43 公開日:2024-06-21
# α$-SSC:不確かさを意識したカメラベースの3Dセマンティック・シーン・コンプリート

$α$-SSC: Uncertainty-Aware Camera-based 3D Semantic Scene Completion ( http://arxiv.org/abs/2406.11021v2 )

ライセンス: Link先を確認
Sanbao Su, Nuo Chen, Felix Juefei-Xu, Chen Feng, Fei Miao, (参考訳) 自動運転車(AV)の認識の領域では、計画やマッピングといったタスクにおいて、3Dシーンの理解が最重要である。 セマンティックシーン補完(SSC)は、限られた観測からシーンの幾何学と意味を推測することを目的としている。 カメラベースのSSCは、手頃な価格とリッチな視覚的手がかりによって人気を得ているが、既存の手法はモデルに固有の不確実性を無視していることが多い。 そこで我々は,不確実性を考慮したカメラによる3Dセマンティックシーン補完手法(\alpha$-SSC)を提案する。 提案手法では,深度モデル(Depth-UP)からの不確実な伝播フレームワークを組み,幾何学的完備化(最大11.58%改良)と意味的セグメンテーション(最大14.61%改良)を向上する。 さらに,SSCデータセットの高レベルクラス不均衡を効果的に解消し,SSCの不確かさを定量化する階層型共形予測手法を提案する。 幾何レベルでは、安全クリティカルクラス(45%改善)の占有リコールを大幅に改善し、性能オーバーヘッドを最小化(3.4%削減)するKL発散に基づくスコア関数を提案する。 不確実性定量化のために、定義されたカバレッジ保証を維持しつつ、より小さな予測セットサイズを達成する能力を示す。 ベースラインと比較すると、セットサイズを最大85%削減できる。 我々の貢献は、SSCの精度と堅牢性において大きな進歩を示すものであり、自律認識システムにおける注目すべき一歩である。

In the realm of autonomous vehicle (AV) perception, comprehending 3D scenes is paramount for tasks such as planning and mapping. Semantic scene completion (SSC) aims to infer scene geometry and semantics from limited observations. While camera-based SSC has gained popularity due to affordability and rich visual cues, existing methods often neglect the inherent uncertainty in models. To address this, we propose an uncertainty-aware camera-based 3D semantic scene completion method ($\alpha$-SSC). Our approach includes an uncertainty propagation framework from depth models (Depth-UP) to enhance geometry completion (up to 11.58% improvement) and semantic segmentation (up to 14.61% improvement). Additionally, we propose a hierarchical conformal prediction (HCP) method to quantify SSC uncertainty, effectively addressing high-level class imbalance in SSC datasets. On the geometry level, we present a novel KL divergence-based score function that significantly improves the occupied recall of safety-critical classes (45% improvement) with minimal performance overhead (3.4% reduction). For uncertainty quantification, we demonstrate the ability to achieve smaller prediction set sizes while maintaining a defined coverage guarantee. Compared with baselines, it achieves up to 85% reduction in set sizes. Our contributions collectively signify significant advancements in SSC accuracy and robustness, marking a noteworthy step forward in autonomous perception systems.
翻訳日:2024-06-24 18:47:43 公開日:2024-06-21
# 文脈知識グラフ

Contextual Knowledge Graph ( http://arxiv.org/abs/2406.11160v2 )

ライセンス: Link先を確認
Chengjin Xu, Muzhi Li, Cehao Yang, Xuhui Jiang, Lumingyuan Tang, Yiyan Qi, Jian Guo, (参考訳) 知識グラフ(KG)は多くのAIアプリケーションの基本構造であり、エンティティと三重項による相互関係を表す。 しかし、3重ベースKGは、包括的な知識表現と効果的な推論に不可欠である時間的ダイナミクスや前駆的詳細といった、関係知識の文脈的な情報を欠いている。 代わりに、時間的妥当性、地理的な位置、ソースの出所といった付加的な情報を組み込むことで、従来の構造に拡張する。 この統合により、知識のより微妙で正確な理解が得られ、KGはより豊かな洞察を提供し、より洗練された推論プロセスをサポートすることができる。 本稿ではまず,三重項に基づくKGの本質的限界について論じ,文脈的KGの概念を導入し,知識表現と推論の優位性を強調した。 次に、大言語モデル(LLM)を活用して、候補エンティティと関連するコンテキストを検索し、検索した情報に基づいてそれらをランク付けし、クエリに応答するのに十分な情報を得たかどうかを判断するコンテキスト強化KG推論パラダイムである、textbf{KGR$^3$を提示した。 実験の結果、KGR$^3$はKG完了(KGC)およびKG質問応答(KGQA)タスクの性能を大幅に向上させ、KG表現と推論に文脈情報を組み込むことの有効性を検証した。

Knowledge Graphs (KGs) are foundational structures in many AI applications, representing entities and their interrelations through triples. However, triple-based KGs lack the contextual information of relational knowledge, like temporal dynamics and provenance details, which are crucial for comprehensive knowledge representation and effective reasoning. Instead, \textbf{Contextual Knowledge Graphs} (CKGs) expand upon the conventional structure by incorporating additional information such as time validity, geographic location, and source provenance. This integration provides a more nuanced and accurate understanding of knowledge, enabling KGs to offer richer insights and support more sophisticated reasoning processes. In this work, we first discuss the inherent limitations of triple-based KGs and introduce the concept of contextual KGs, highlighting their advantages in knowledge representation and reasoning. We then present \textbf{KGR$^3$, a context-enriched KG reasoning paradigm} that leverages large language models (LLMs) to retrieve candidate entities and related contexts, rank them based on the retrieved information, and reason whether sufficient information has been obtained to answer a query. Our experimental results demonstrate that KGR$^3$ significantly improves performance on KG completion (KGC) and KG question answering (KGQA) tasks, validating the effectiveness of incorporating contextual information on KG representation and reasoning.
翻訳日:2024-06-24 18:47:43 公開日:2024-06-21
# 大規模言語モデルにおける失敗管理のためのAIOpsに関する調査

A Survey of AIOps for Failure Management in the Era of Large Language Models ( http://arxiv.org/abs/2406.11213v3 )

ライセンス: Link先を確認
Lingzhe Zhang, Tong Jia, Mengxi Jia, Yifan Wu, Aiwei Liu, Yong Yang, Zhonghai Wu, Xuming Hu, Philip S. Yu, Ying Li, (参考訳) ソフトウェアシステムが複雑化するにつれ、AIOps(Artificial Intelligence for IT Operations)メソッドは、大規模分散ソフトウェアシステムの高可用性と信頼性を確保するために、ソフトウェアシステムの障害管理に広く使用されている。 しかし、これらの手法はクロスプラットフォームの汎用性やタスク間の柔軟性の欠如など、いくつかの課題に直面している。 幸いなことに、近年の大規模言語モデル(LLM)の進歩はこれらの課題に大きく取り組むことができ、この分野を探求するための多くのアプローチがすでに提案されている。 しかしながら、LLMベースのAIOpsと従来のAIOpsメソッドの違いについて、包括的な調査は行われていない。 そこで本研究では,LLM時代の障害管理のためのAIOps技術に関する包括的調査を行う。 これには、障害管理のためのAIOpsタスクの詳細な定義、AIOpsのデータソース、AIOpsに採用されているLLMベースのアプローチが含まれている。 さらに、この調査では、AIOpsサブタスク、異なるAIOpsサブタスクに適した特定のLLMベースのアプローチ、ドメインの課題と今後の方向性などについて調査し、開発と応用をさらに進めることを目指している。

As software systems grow increasingly intricate, Artificial Intelligence for IT Operations (AIOps) methods have been widely used in software system failure management to ensure the high availability and reliability of large-scale distributed software systems. However, these methods still face several challenges, such as lack of cross-platform generality and cross-task flexibility. Fortunately, recent advancements in large language models (LLMs) can significantly address these challenges, and many approaches have already been proposed to explore this field. However, there is currently no comprehensive survey that discusses the differences between LLM-based AIOps and traditional AIOps methods. Therefore, this paper presents a comprehensive survey of AIOps technology for failure management in the LLM era. It includes a detailed definition of AIOps tasks for failure management, the data sources for AIOps, and the LLM-based approaches adopted for AIOps. Additionally, this survey explores the AIOps subtasks, the specific LLM-based approaches suitable for different AIOps subtasks, and the challenges and future directions of the domain, aiming to further its development and application.
翻訳日:2024-06-24 18:47:43 公開日:2024-06-21
# 平均逆対象による制約付き強化学習:モデルベースおよびモデルフリーアルゴリズム

Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms ( http://arxiv.org/abs/2406.11481v2 )

ライセンス: Link先を確認
Vaneet Aggarwal, Washim Uddin Mondal, Qinbo Bai, (参考訳) 強化学習(Reinforcement Learning, RL)は、ロボット工学、自律運転、レコメンデーションシステム、サプライチェーン最適化、生物学、メカニクス、ファイナンスなど、さまざまな分野にまたがる応用を見つける、シーケンシャルな意思決定のための汎用的なフレームワークとして機能する。 これらのアプリケーションの主な目的は、平均的な報酬を最大化することです。 現実世界のシナリオは、学習プロセス中に特定の制約に固執する必要があることが多い。 このモノグラフは、平均報酬マルコフ決定過程(MDP)の文脈における制約付きRLに対する様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている。 調査はモデルに基づく戦略の検証から始まり、不確実性に直面した楽観主義と後続サンプリングという2つの基礎的手法を掘り下げる。 その後、この議論はパラメタライズドモデルフリーアプローチに移行し、そこでは、制約付きMDPの解として、原始双対ポリシー勾配に基づくアルゴリズムを探索する。 モノグラフは後悔の保証を提供し、議論された各設定に対する制約違反を分析します。 以上の調査では,基礎となるMDPがエルゴディックであると仮定する。 さらに、このモノグラフは、MDPの弱い通信に適した結果を含むように議論を拡張し、その結果の範囲を広げ、より広い範囲の実践シナリオとの関連性を広げる。

Reinforcement Learning (RL) serves as a versatile framework for sequential decision-making, finding applications across diverse domains such as robotics, autonomous driving, recommendation systems, supply chain optimization, biology, mechanics, and finance. The primary objective in these applications is to maximize the average reward. Real-world scenarios often necessitate adherence to specific constraints during the learning process. This monograph focuses on the exploration of various model-based and model-free approaches for Constrained RL within the context of average reward Markov Decision Processes (MDPs). The investigation commences with an examination of model-based strategies, delving into two foundational methods - optimism in the face of uncertainty and posterior sampling. Subsequently, the discussion transitions to parametrized model-free approaches, where the primal-dual policy gradient-based algorithm is explored as a solution for constrained MDPs. The monograph provides regret guarantees and analyzes constraint violation for each of the discussed setups. For the above exploration, we assume the underlying MDP to be ergodic. Further, this monograph extends its discussion to encompass results tailored for weakly communicating MDPs, thereby broadening the scope of its findings and their relevance to a wider range of practical scenarios.
翻訳日:2024-06-24 18:47:43 公開日:2024-06-21
# 量子ウォーク情報変分アルゴリズムの設計

Quantum walk informed variational algorithm design ( http://arxiv.org/abs/2406.11620v2 )

ライセンス: Link先を確認
Edric Matwiejew, Jingbo B. Wang, (参考訳) 本稿では,その連続時間量子ウォーク(CTQW)表現とグラフ自己同型群の理論に基づいて,頂点遷移グラフで定義されるユニタリを混合した組合せ最適化のための量子変分アルゴリズム(QVA)の振幅伝達解析の理論的枠組みを提案する。 このフレームワークは、効率的な問題固有のQVAを設計するためのヒューリスティックにつながります。 このヒューリスティックな手法を用いて,制約のない最適化のための新しいアルゴリズムを開発した。 本稿では, 多項式ゲートの複雑性による実装の概要を述べるとともに, 並列マシンスケジューリングと組合せ最適化問題へのポートフォリオ再分散への応用をシミュレートし, 既存のQVAの収束性を大幅に向上したことを示す。 分析結果から,特定の問題事例に対するグラフ構造の適合性を評価する指標と,異なるグラフ構造が支持する収束の限界を確立する指標を導出する。 長さ$n$のm$-tuples上のハミンググラフ上のCTQWによって特徴づけられるユニタリを混合するために、この結果は$\mathcal{O}(e^{n \log m})$のような問題サイズで増幅上界が増加することを示す。

We present a theoretical framework for the analysis of amplitude transfer in Quantum Variational Algorithms (QVAs) for combinatorial optimisation with mixing unitaries defined by vertex-transitive graphs, based on their continuous-time quantum walk (CTQW) representation and the theory of graph automorphism groups. This framework leads to a heuristic for designing efficient problem-specific QVAs. Using this heuristic, we develop novel algorithms for unconstrained and constrained optimisation. We outline their implementation with polynomial gate complexity and simulate their application to the parallel machine scheduling and portfolio rebalancing combinatorial optimisation problems, showing significantly improved convergence over preexisting QVAs. Based on our analysis, we derive metrics for evaluating the suitability of graph structures for specific problem instances, and for establishing bounds on the convergence supported by different graph structures. For mixing unitaries characterised by a CTQW over a Hamming graph on $m$-tuples of length $n$, our results indicate that the amplification upper bound increases with problem size like $\mathcal{O}(e^{n \log m})$.
翻訳日:2024-06-24 18:47:43 公開日:2024-06-21
# 機械的解釈可能性によるモデル性能の保証

Provable Guarantees for Model Performance via Mechanistic Interpretability ( http://arxiv.org/abs/2406.11779v4 )

ライセンス: Link先を確認
Jason Gross, Rajashree Agrawal, Thomas Kwa, Euan Ong, Chun Hei Yip, Alex Gibson, Soufiane Noubir, Lawrence Chan, (参考訳) 本研究では,モデル性能の形式的保証を導出し,コンパクトに証明するために,機械的解釈可能性 (リバースエンジニアリングモデルウェイトを人間解釈可能なアルゴリズムに変換する技術) を用いることを提案する。 提案手法は, 最大K$タスクで訓練した151個の小型変圧器の精度について, 下限を正式に証明して試作する。 我々は,コンピュータ支援型証明戦略を102種類作成し,それぞれのモデルに対して,その長さと厳密さを評価する。 定量的な測定値を用いることで、より短い証明が必要になり、より機械的な理解が得られます。 さらに、より忠実なメカニスティックな理解が、パフォーマンス境界の厳密化につながることが分かっています。 これらの関係は、証明のサブセットを質的に検証することで確認する。 最後に, モデル性能に関するコンパクトな証明を生成するために, 機械的解釈可能性を利用する上で重要な課題として, 合成構造のないノイズを同定する。

In this work, we propose using mechanistic interpretability -- techniques for reverse engineering model weights into human-interpretable algorithms -- to derive and compactly prove formal guarantees on model performance. We prototype this approach by formally proving lower bounds on the accuracy of 151 small transformers trained on a Max-of-$K$ task. We create 102 different computer-assisted proof strategies and assess their length and tightness of bound on each of our models. Using quantitative metrics, we find that shorter proofs seem to require and provide more mechanistic understanding. Moreover, we find that more faithful mechanistic understanding leads to tighter performance bounds. We confirm these connections by qualitatively examining a subset of our proofs. Finally, we identify compounding structureless noise as a key challenge for using mechanistic interpretability to generate compact proofs on model performance.
翻訳日:2024-06-24 18:47:43 公開日:2024-06-21
# 拡散モデルのプロンプト符号化における大規模言語モデルの役割を探る

Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models ( http://arxiv.org/abs/2406.11831v2 )

ライセンス: Link先を確認
Bingqi Ma, Zhuofan Zong, Guanglu Song, Hongsheng Li, Yu Liu, (参考訳) デコーダのみの変換器をベースとした大規模言語モデル(LLM)は、CLIPやT5シリーズモデルと比較して、優れたテキスト理解能力を示している。 しかし,テキストから画像への拡散モデルにおいて,現在進行しているLCMを利用するためのパラダイムについて検討する。 我々は,プロンプトエンコーダとして大規模言語モデルを直接使用することにより,画像生成におけるプロンプト追従能力を著しく低下させるという異常な現象を観察した。 私たちはこの問題の主な障害を2つ挙げた。 一つは、LLMにおける次のトークン予測トレーニングと拡散モデルにおける識別的プロンプト特徴の要求との相違である。 もう1つは、デコーダのみのアーキテクチャによって導入された本質的な位置バイアスである。 この問題に対処するために,LLMの能力をフル活用するための新しいフレームワークを提案する。 慎重に設計された利用指導を通じて、エンコーディングを促進し、その固有の位置バイアスを排除するためのテキスト表現能力を効果的に強化する。 これにより、最先端のLCMをテキスト・画像生成モデルに柔軟に統合することができる。 さらに,フレームワークに複数のLSMを融合させる効果的な方法も提供する。 トランスアーキテクチャが示す優れた性能とスケーリング機能を考慮すると,LLM-Infused Diffusion Transformer (LI-DiT) をさらに設計する。 モデルサイズとデータサイズにまたがるLI-DiTの検証を行う。 LI-DiTの即時理解性能は,LLMの本質的な能力や革新的な設計に特化して,現状のオープンソースモデルや,DALL-E 3 やMidjourney V6 といった主流のクローズドソースの商用モデルに勝る。 強力なLI-DiT-10Bは、さらなる最適化とセキュリティチェックの後、オンラインプラットフォームとAPIを通じて利用可能になる。

Large language models (LLMs) based on decoder-only transformers have demonstrated superior text understanding capabilities compared to CLIP and T5-series models. However, the paradigm for utilizing current advanced LLMs in text-to-image diffusion models remains to be explored. We observed an unusual phenomenon: directly using a large language model as the prompt encoder significantly degrades the prompt-following ability in image generation. We identified two main obstacles behind this issue. One is the misalignment between the next token prediction training in LLM and the requirement for discriminative prompt features in diffusion models. The other is the intrinsic positional bias introduced by the decoder-only architecture. To deal with this issue, we propose a novel framework to fully harness the capabilities of LLMs. Through the carefully designed usage guidance, we effectively enhance the text representation capability for prompt encoding and eliminate its inherent positional bias. This allows us to integrate state-of-the-art LLMs into the text-to-image generation model flexibly. Furthermore, we also provide an effective manner to fuse multiple LLMs into our framework. Considering the excellent performance and scaling capabilities demonstrated by the transformer architecture, we further design an LLM-Infused Diffusion Transformer (LI-DiT) based on the framework. We conduct extensive experiments to validate LI-DiT across model size and data size. Benefiting from the inherent ability of the LLMs and our innovative designs, the prompt understanding performance of LI-DiT easily surpasses state-of-the-art open-source models as well as mainstream closed-source commercial models including Stable Diffusion 3, DALL-E 3, and Midjourney V6. The powerful LI-DiT-10B will be available through the online platform and API after further optimization and security checks.
翻訳日:2024-06-24 18:47:43 公開日:2024-06-21
# 集団限界外における雑音性SVGDの長期無症状

Long-time asymptotics of noisy SVGD outside the population limit ( http://arxiv.org/abs/2406.11929v2 )

ライセンス: Link先を確認
Victor Priser, Pascal Bianchi, Adil Salim, (参考訳) Stein Variational Gradient Descent (SVGD) は、機械学習の分野で広く使われているサンプリングアルゴリズムである。 SVGDは、対象の分布を近似するために相互作用する粒子(サンプルを表す)の集合を反復的に移動する。 SVGDとその変種に関する最近の研究にもかかわらず、その長年の漸近的挙動(つまり、何度も繰り返した後に)は、有限個の粒子系では理解されていない。 SVGDの雑音変化の長期的漸近挙動について検討した。 まず、大きめのノイズSVGDの極限集合が well-defined であることを示す。 次に、この極限集合を特徴付け、増加とともにターゲット分布に近づくことを示す。 特に、ノイズSVGDは、SVGDで観測される分散崩壊を確実に回避する。 我々のアプローチは、ノイズの多いSVGDの軌道がマッケイン・ブラソフ過程によって記述された軌道とよく似ていることを示すものである。

Stein Variational Gradient Descent (SVGD) is a widely used sampling algorithm that has been successfully applied in several areas of Machine Learning. SVGD operates by iteratively moving a set of interacting particles (which represent the samples) to approximate the target distribution. Despite recent studies on the complexity of SVGD and its variants, their long-time asymptotic behavior (i.e., after numerous iterations ) is still not understood in the finite number of particles regime. We study the long-time asymptotic behavior of a noisy variant of SVGD. First, we establish that the limit set of noisy SVGD for large is well-defined. We then characterize this limit set, showing that it approaches the target distribution as increases. In particular, noisy SVGD provably avoids the variance collapse observed for SVGD. Our approach involves demonstrating that the trajectories of noisy SVGD closely resemble those described by a McKean-Vlasov process.
翻訳日:2024-06-24 18:47:43 公開日:2024-06-21
# MU-Bench: 機械学習のためのマルチタスクマルチモーダルベンチマーク

MU-Bench: A Multitask Multimodal Benchmark for Machine Unlearning ( http://arxiv.org/abs/2406.14796v1 )

ライセンス: Link先を確認
Jiali Cheng, Hadi Amiri, (参考訳) マシン・アンラーニング(MU)の最近の進歩は、古い情報やセンシティブな情報を含む特定のトレーニングサンプルを訓練されたモデルから選択的に除去するソリューションを導入している。 これらの進歩にもかかわらず、MU法の評価は矛盾しておらず、異なる訓練されたモデルとアーキテクチャ、そして正確な比較を妨げているサンプル除去戦略が採用されている。 さらに、以前のMUアプローチは主に、包括的ではない特異なタスクやモダリティに重点を置いている。 これらの制限に対処するため、MU-BenchはMUのための最初の包括的なベンチマークである。 i)削除されたサンプルと訓練されたモデルの集合を統一し、 (ii) 音声やビデオの分類などの未探索領域を含むタスクやデータモダリティを幅広くカバーする。 我々はRandLabelとSalUnがMU-Bench上で最も効果的なMUアプローチであることを示し,BadTとSCRUBは削除セット上でランダムな性能を達成することができることを示した。 我々は、スケーラビリティ、パラメータ効率のよい微調整とカリキュラム学習の影響、データセットバイアスに対する感受性など、未学習の未研究のいくつかの側面を分析した。 MU-Benchは、データセット分割、モデル、実装を含む使いやすいパッケージと、リーダボードを組み合わせて、統一的でスケーラブルなMUリサーチを可能にする。

Recent advancements in Machine Unlearning (MU) have introduced solutions to selectively remove certain training samples, such as those with outdated or sensitive information, from trained models. Despite these advancements, evaluation of MU methods have been inconsistent, employing different trained models and architectures, and sample removal strategies, which hampers accurate comparison. In addition, prior MU approaches have mainly focused on singular tasks or modalities, which is not comprehensive. To address these limitations, we develop MU-Bench, the first comprehensive benchmark for MU that (i) unifies the sets of deleted samples and trained models, and (ii) provides broad coverage of tasks and data modalities, including previously unexplored domains such as speech and video classification. Our evaluation show that RandLabel and SalUn are the most effective general MU approaches on MU-Bench, and BadT and SCRUB are capable of achieving random performance on the deletion set. We analyze several under-investigated aspects of unlearning, including scalability, the impacts of parameter-efficient fine-tuning and curriculum learning, and susceptibility to dataset biases. MU-Bench provides an easy-to-use package that includes dataset splits, models, and implementations, together with a leader board to enable unified and scalable MU research.
翻訳日:2024-06-24 15:12:21 公開日:2024-06-21
# シングルカメラ学習者再識別のためのカメラ不変なメタラーニングネットワーク

Camera-Invariant Meta-Learning Network for Single-Camera-Training Person Re-identification ( http://arxiv.org/abs/2406.14797v1 )

ライセンス: Link先を確認
Jiangbo Pei, Zhuqing Jiang, Aidong Men, Haiying Wang, Haiyong Luo, Shiping Wen, (参考訳) SCT re-ID(Single-camera-training person re-identification)は、SCTデータセットを使用したre-IDモデルをトレーニングすることを目的としている。 SCT re-IDの主な課題は、カメラ間の同一人物(CCSP)データを監視対象とせずに、カメラ不変の特徴表現を学習することである。 従来の方法では、最も類似した人物が別のカメラで見つかるべきであると仮定して対処する。 しかし、この仮定は正しいという保証はない。 本稿では,SCTリIDのためのカメラ不変メタラーニングネットワーク(CIMN)を提案する。 CIMNは、カメラに不変な特徴表現は、カメラの変更に対して堅牢であるべきだと仮定している。 この目的のために,訓練データをカメラIDに基づくメタトレインセットとメタテストセットに分割し,メタ学習戦略によるクロスカメラシミュレーションを行い,メタテストセットに頑健なメタトレインセットから学習した表現を強制することを目的とした。 クロスカメラシミュレーションにより、CIMNはCCSPデータがない場合でも、カメラ不変およびアイデンティティ識別表現を学習することができる。 しかし、このシミュレーションはメタトレインセットとメタテストセットの分離を引き起こす。 そこで, メタトリプルト損失, メタ分類損失, メタカメラアライメント損失の3つの損失を, 無視された関係を活用するために導入した。 実験の結果,提案手法はCCSPデータと非対応で同等の性能を示し,SCT re-IDベンチマークの最先端手法よりも優れていた。 さらに,モデルの領域一般化能力の向上にも有効である。

Single-camera-training person re-identification (SCT re-ID) aims to train a re-ID model using SCT datasets where each person appears in only one camera. The main challenge of SCT re-ID is to learn camera-invariant feature representations without cross-camera same-person (CCSP) data as supervision. Previous methods address it by assuming that the most similar person should be found in another camera. However, this assumption is not guaranteed to be correct. In this paper, we propose a Camera-Invariant Meta-Learning Network (CIMN) for SCT re-ID. CIMN assumes that the camera-invariant feature representations should be robust to camera changes. To this end, we split the training data into meta-train set and meta-test set based on camera IDs and perform a cross-camera simulation via meta-learning strategy, aiming to enforce the representations learned from the meta-train set to be robust to the meta-test set. With the cross-camera simulation, CIMN can learn camera-invariant and identity-discriminative representations even there are no CCSP data. However, this simulation also causes the separation of the meta-train set and the meta-test set, which ignores some beneficial relations between them. Thus, we introduce three losses: meta triplet loss, meta classification loss, and meta camera alignment loss, to leverage the ignored relations. The experiment results demonstrate that our method achieves comparable performance with and without CCSP data, and outperforms the state-of-the-art methods on SCT re-ID benchmarks. In addition, it is also effective in improving the domain generalization ability of the model.
翻訳日:2024-06-24 15:12:21 公開日:2024-06-21
# 球状拡散を伴う地球規模の気候モデルの確率論的エミュレーション

Probabilistic Emulation of a Global Climate Model with Spherical DYffusion ( http://arxiv.org/abs/2406.14798v1 )

ライセンス: Link先を確認
Salva Rühling Cachay, Brian Henn, Oliver Watt-Meyer, Christopher S. Bretherton, Rose Yu, (参考訳) データ駆動のディープラーニングモデルは、世界の天気予報を変革しようとしている。 この成功が、長期の推論のロールアウトとデータの複雑さが重大な課題をもたらす、気候モデリングにまで拡張できるかどうかは、明らかな疑問である。 本稿では,地球規模の気候アンサンブルシミュレーションを作成できる最初の条件生成モデルについて述べる。 我々のモデルは6時間の時間ステップで動作し、10年間のシミュレーションで安定であることが示されている。 われわれのアプローチは、関連する基準を破り、気候モデルエミュレーションを成功させるための金の基準にほぼ達している。 我々は、この効率的なデータ駆動型気候シミュレーションに向けた重要なステップを可能にする、ダイナミックスインフォームド拡散モデルに基づくアプローチの背景にある重要な設計選択について論じる。

Data-driven deep learning models are on the verge of transforming global weather forecasting. It is an open question if this success can extend to climate modeling, where long inference rollouts and data complexity pose significant challenges. Here, we present the first conditional generative model able to produce global climate ensemble simulations that are accurate and physically consistent. Our model runs at 6-hourly time steps and is shown to be stable for 10-year-long simulations. Our approach beats relevant baselines and nearly reaches a gold standard for successful climate model emulation. We discuss the key design choices behind our dynamics-informed diffusion model-based approach which enables this significant step towards efficient, data-driven climate simulations that can help us better understand the Earth and adapt to a changing climate.
翻訳日:2024-06-24 15:12:21 公開日:2024-06-21
# 未来をセキュアにする - 持続可能なIoTエコシステムのためのプロアクティブな脅威ハンティング

Securing the Future: Proactive Threat Hunting for Sustainable IoT Ecosystems ( http://arxiv.org/abs/2406.14804v1 )

ライセンス: Link先を確認
Saeid Ghasemshirazi, Ghazaleh Shirvani, (参考訳) IoTの急速な進化の中で、コネクテッドデバイスのセキュリティが最重要課題になっている。 本稿では、IoTシステムのセキュリティと持続可能性を高めるための重要な戦略として、プロアクティブな脅威ハンティングの概念を考察する。 アクティブな脅威狩りは、IoTネットワークを継続的にかつ事前に分析し、脅威を発生前に見つけて排除する、従来のリアクティブセキュリティ対策の代替手段である。 IoTデバイスのセキュリティ姿勢を改善することによって、このアプローチはIoT運用寿命の拡大と環境への影響低減に大きく貢献する。 CVSS(Common Vulnerability Scoring System)に似たセキュリティメトリクスをコンシューマプラットフォームに統合することにより、プロアクティブな脅威ハンティングはIoTデバイスのセキュリティに対するユーザの認識を高めることができる、と論文は主張する。 これは、消費者の選択に影響を与える可能性があり、製造業とユーザコミュニティの両方において、セキュリティに配慮した考え方を促進する。 包括的分析を通じて、この研究は、より安全で持続可能でユーザ対応のIoTエコシステムの開発に、プロアクティブな脅威狩りがどう貢献するかを示す。

In the rapidly evolving landscape of the IoT, the security of connected devices has become a paramount concern. This paper explores the concept of proactive threat hunting as a pivotal strategy for enhancing the security and sustainability of IoT systems. Proactive threat hunting is an alternative to traditional reactive security measures that analyses IoT networks continuously and in advance to find and eliminate threats before they occure. By improving the security posture of IoT devices this approach significantly contributes to extending IoT operational lifespan and reduces environmental impact. By integrating security metrics similar to the Common Vulnerability Scoring System (CVSS) into consumer platforms, this paper argues that proactive threat hunting can elevate user awareness about the security of IoT devices. This has the potential to impact consumer choices and encourage a security-conscious mindset in both the manufacturing and user communities. Through a comprehensive analysis, this study demonstrates how proactive threat hunting can contribute to the development of a more secure, sustainable, and user-aware IoT ecosystem.
翻訳日:2024-06-24 15:12:21 公開日:2024-06-21
# LLMは文化全体の価値をどのように表現するか : ホフスティード文化次元に基づくLCM応答の実証分析

How Well Do LLMs Represent Values Across Cultures? Empirical Analysis of LLM Responses Based on Hofstede Cultural Dimensions ( http://arxiv.org/abs/2406.14805v1 )

ライセンス: Link先を確認
Julia Kharchenko, Tanya Roosta, Aman Chadha, Chirag Shah, (参考訳) 大きな言語モデル(LLM)は、人間に反応して人間の振る舞いを模倣しようと試みる。 しかし、人間は異なる価値を持つ多様な文化から来ています。 LLMは、ユーザの既知の国のステレオタイプ値に基づいて、ユーザに対して異なる値を示すかどうかを理解することが重要である。 我々は、各国の価値観を表す定量的な方法である5つのホフスティード文化次元に基づく一連のアドバイス要求により、異なるLCMを刺激する。 それぞれのプロンプトを通じて、36の異なる国を代表するペルソナと、それぞれの国に主に結びついている言語を組み込んで、LLMの文化的理解の一貫性を分析する。 分析の結果,LDMは価値の一方の側面と他方の側面を区別することができ,また,各国が異なる価値を持っていることは理解できたが,アドバイスを行う際には常に価値を守ろうとするわけではなく,異なる文化的価値に基づいて異なる回答を行う必要性を理解できなかった。 本研究は,これらの知見を引用し,価値と文化に敏感なLCMの育成を推奨する。 さらに重要なのは、ここで開発された方法論とフレームワークは、LLMによる文化や言語アライメントの問題をさらに理解し緩和するのに役立ちます。

Large Language Models (LLMs) attempt to imitate human behavior by responding to humans in a way that pleases them, including by adhering to their values. However, humans come from diverse cultures with different values. It is critical to understand whether LLMs showcase different values to the user based on the stereotypical values of a user's known country. We prompt different LLMs with a series of advice requests based on 5 Hofstede Cultural Dimensions -- a quantifiable way of representing the values of a country. Throughout each prompt, we incorporate personas representing 36 different countries and, separately, languages predominantly tied to each country to analyze the consistency in the LLMs' cultural understanding. Through our analysis of the responses, we found that LLMs can differentiate between one side of a value and another, as well as understand that countries have differing values, but will not always uphold the values when giving advice, and fail to understand the need to answer differently based on different cultural values. Rooted in these findings, we present recommendations for training value-aligned and culturally sensitive LLMs. More importantly, the methodology and the framework developed here can help further understand and mitigate culture and language alignment issues with LLMs.
翻訳日:2024-06-24 15:02:37 公開日:2024-06-21
# ニューラル・ラジアンス・フィールドにおけるオブジェクト・インサーションによるリライティング・シーン

Relighting Scenes with Object Insertions in Neural Radiance Fields ( http://arxiv.org/abs/2406.14806v1 )

ライセンス: Link先を確認
Xuening Zhu, Renjiao Yi, Xin Wen, Chenyang Zhu, Kai Xu, (参考訳) シーンへのオブジェクトの挿入とリライティングは、拡張現実(AR)において一般的に利用される。 これまではCADモデルや一眼レフ画像から仮想オブジェクトを挿入することに集中していたため、ARアプリケーションのシナリオは極めて限られていた。 我々は,物体のNeRFをシーンのNeRFに挿入する新しいNeRFパイプラインを提案し,新しいビュー合成と現実的なリライティングを可能にし,物体とシーンを描写した2つの画像から影を投射するなどの物理的相互作用をサポートする。 照明環境は、球状高調波と球状ガウスのハイブリッド表現であり、高周波数と低周波の両方の照明成分を非常によく表現し、非ランベルト面を支えている。 具体的には、ボリュームレンダリングの利点を活用し、カメラビューと光源ビューの奥行きマップを比較し、鮮やかなソフトシャドウを生成することによって、効率的なシャドウレンダリングのための革新的なアプローチを導入する。 提案手法は,広範囲な実験評価において,現実的な照明効果を実現する。

The insertion of objects into a scene and relighting are commonly utilized applications in augmented reality (AR). Previous methods focused on inserting virtual objects using CAD models or real objects from single-view images, resulting in highly limited AR application scenarios. We propose a novel NeRF-based pipeline for inserting object NeRFs into scene NeRFs, enabling novel view synthesis and realistic relighting, supporting physical interactions like casting shadows onto each other, from two sets of images depicting the object and scene. The lighting environment is in a hybrid representation of Spherical Harmonics and Spherical Gaussians, representing both high- and low-frequency lighting components very well, and supporting non-Lambertian surfaces. Specifically, we leverage the benefits of volume rendering and introduce an innovative approach for efficient shadow rendering by comparing the depth maps between the camera view and the light source view and generating vivid soft shadows. The proposed method achieves realistic relighting effects in extensive experimental evaluations.
翻訳日:2024-06-24 15:02:37 公開日:2024-06-21
# 逆問題に対するベイズPINNの推定速度について

On the estimation rate of Bayesian PINN for inverse problems ( http://arxiv.org/abs/2406.14808v1 )

ライセンス: Link先を確認
Yi Sun, Debarghya Mukherjee, Yves Atchade, (参考訳) 物理インフォームドニューラルネットワーク(PINN)を用いた偏微分方程式(PDE)とその逆問題の解法は、物理学と機械学習のコミュニティにおいて急速に普及しているアプローチである。 PINNにはいくつかのアーキテクチャがあり、実際に非常に機能するが、その性能に関する理論的理解はやや限られている。 本研究では, PDEの解のベイズPINN推定器の挙動を, $n$独立雑音測定から検討した。 パラメータで線型な方程式のクラス(未知の係数$\theta_\star$)に焦点を当てる。 偏微分方程式が古典解(例えば$u_\star$)を持つとき、$\beta$を順序付けできるとき、ベイズ平均の平均二乗誤差は少なくとも位数$n^{-2\beta/(2\beta + d)}$であることを示す。 さらに、基底微分作用素の順序に応じて、$\theta_\star$ の線型係数の収束率を確立する。 最後に重要なこととして、我々の理論結果は広範なシミュレーションによって検証される。

Solving partial differential equations (PDEs) and their inverse problems using Physics-informed neural networks (PINNs) is a rapidly growing approach in the physics and machine learning community. Although several architectures exist for PINNs that work remarkably in practice, our theoretical understanding of their performances is somewhat limited. In this work, we study the behavior of a Bayesian PINN estimator of the solution of a PDE from $n$ independent noisy measurement of the solution. We focus on a class of equations that are linear in their parameters (with unknown coefficients $\theta_\star$). We show that when the partial differential equation admits a classical solution (say $u_\star$), differentiable to order $\beta$, the mean square error of the Bayesian posterior mean is at least of order $n^{-2\beta/(2\beta + d)}$. Furthermore, we establish a convergence rate of the linear coefficients of $\theta_\star$ depending on the order of the underlying differential operator. Last but not least, our theoretical results are validated through extensive simulations.
翻訳日:2024-06-24 15:02:37 公開日:2024-06-21
# ゼノレジームにおけるジャイアントエミッターの非マルコフ的集団放出

Non-Markovian Collective Emission of Giant emitters in the Zeno Regime ( http://arxiv.org/abs/2406.14811v1 )

ライセンス: Link先を確認
Qing-Yang Qiu, Xin-You Lü, (参考訳) 複数の結合点を介して、共通のフォトニックまたは音響貯留層に結合する巨大な人工原子の集合的なゼノダイナミクスを探索する。 この体制では、原子の協調性の確立と指数的崩壊の復活は高度に絡み合っており、これは非マルコフ的体制には全く及ばず、バックアクションを遅らせるだけである。 我々は、巨大原子がゼロの崩壊速度からマルコフ近似によって予測されるものまで、その集合放出を円滑に積み上げ、異なる導波管QEDセットアップ間で大きな相違を示すことを明らかにした。 比較として, 遅延のみの画像における即時崩壊速度の段階的成長が示されている。 これらの理論図はすべて、長い時間で同じ集団行動を予測する。 現象学的観点から、原子超放射能は重要な指向性を持つ。 さらに、サブラジアント光子は、巨大放射体と磁場の間でエネルギーが著しく交換される集合放射の初期段階で長めの振動を特徴とする。 我々の結果は、最先端の導波管QED実験で調べられ、巨大原子を持つ系における集団放出の分野を根本的に拡大するかもしれない。

We explore the collective Zeno dynamics of giant artificial atoms that are coupled, via multiple coupling points, to a common photonic or acoustic reservoir. In this regime, the establishment of atomic cooperativity and the revivification of exponential decay, are highly intertwined, which is utterly beyond the non-Markovian regime with only retarded backaction. We reveal that giant atoms build up their collective emission smoothly from the decay rate of zero to that predicted by Markovian approximation, and show great disparity between different waveguide QED setups. As a comparison, the step-like growth of instantaneous decay rates in the retardation-only picture has also been shown. All of these theoretical pictures predict the same collective behavior in the long time limit. From a phenomenological standpoint, we observe that the atomic superradiance exhabits significant directional property. In addition, the subradiant photons feature prolonged oscillation in the early stage of collective radiance, where the energy is exchanged remarkably between giant emitters and the field. Our results might be probed in state-of-art waveguide QED experiments, and fundamentally broaden the fields of collective emission in systems with giant atoms.
翻訳日:2024-06-24 15:02:37 公開日:2024-06-21
# フェーシに基づくジオモデルのパラメータ化とデータ同化のための潜時拡散モデル

Latent diffusion models for parameterization and data assimilation of facies-based geomodels ( http://arxiv.org/abs/2406.14815v1 )

ライセンス: Link先を確認
Guido Di Federico, Louis J. Durlofsky, (参考訳) 地質学的パラメータ化は、小さな潜伏変数の集合とこれらの変数からポーシティや透水性のようなグリッドブロック特性への写像を用いて、ジオモデルの表現を包含する。 パラメータ化はデータ同化(履歴マッチング)において有用であり、地質学的リアリズムを維持しつつ、決定すべき変数の数を減らす。 拡散モデル(diffusion model)は、画像生成タスクにおいて、生成的対向ネットワークなどの従来の手法よりも優れていることが示されている、新しい生成的深層学習手順のクラスである。 拡散モデルは「デノエーズ」として訓練され、ランダムノイズを特徴とする入力場から新しい地質学的実現を生成することができる。 この研究で考慮された特定の変種である潜伏拡散モデルは、低次元潜伏変数を用いて次元を減少させる。 本研究で開発されたモデルは、次元縮小のための変分オートエンコーダと、復調過程のためのU-netを含む。 本応用は, 条件付き2次元三相(チャネル-レリー-マウス)システムである。 潜在拡散モデルは、ジオモデリングソフトウェアからのサンプルと視覚的に整合した実現を提供する。 空間的および流動応答統計学の定量的指標を評価し,拡散生成モデルと参照実現の一般的な一致を観察する。 パラメータ化法の平滑性を評価するため,安定性試験を行った。 次に、潜伏拡散モデルを用いてアンサンブルに基づくデータ同化を行う。 2つの合成「真の」モデルが検討されている。 P$_{10}$-P$_{90}$予測は、一般に観測されたデータと一貫した後続地形モデルの両方で達成される。

Geological parameterization entails the representation of a geomodel using a small set of latent variables and a mapping from these variables to grid-block properties such as porosity and permeability. Parameterization is useful for data assimilation (history matching), as it maintains geological realism while reducing the number of variables to be determined. Diffusion models are a new class of generative deep-learning procedures that have been shown to outperform previous methods, such as generative adversarial networks, for image generation tasks. Diffusion models are trained to "denoise", which enables them to generate new geological realizations from input fields characterized by random noise. Latent diffusion models, which are the specific variant considered in this study, provide dimension reduction through use of a low-dimensional latent variable. The model developed in this work includes a variational autoencoder for dimension reduction and a U-net for the denoising process. Our application involves conditional 2D three-facies (channel-levee-mud) systems. The latent diffusion model is shown to provide realizations that are visually consistent with samples from geomodeling software. Quantitative metrics involving spatial and flow-response statistics are evaluated, and general agreement between the diffusion-generated models and reference realizations is observed. Stability tests are performed to assess the smoothness of the parameterization method. The latent diffusion model is then used for ensemble-based data assimilation. Two synthetic "true" models are considered. Significant uncertainty reduction, posterior P$_{10}$-P$_{90}$ forecasts that generally bracket observed data, and consistent posterior geomodels, are achieved in both cases.
翻訳日:2024-06-24 15:02:37 公開日:2024-06-21
# SAM-EG: 効率的なポリプセグメンテーションのためのEgde Guidanceフレームワークを用いたセグメンテーションモデル

SAM-EG: Segment Anything Model with Egde Guidance framework for efficient Polyp Segmentation ( http://arxiv.org/abs/2406.14819v1 )

ライセンス: Link先を確認
Quoc-Huy Trinh, Hai-Dang Nguyen, Bao-Tram Nguyen Ngoc, Debesh Jha, Ulas Bagci, Minh-Triet Tran, (参考訳) 医用画像において重要な関心事であるポリープセグメンテーションは、セグメンテーションマスクの品質向上を目的とした多くの手法を提唱している。 現在の最先端技術は印象的な結果をもたらすが、これらのモデルのサイズと計算コストは、実用的な産業アプリケーションに課題をもたらす。 近年,Segment Anything Model (SAM) が堅牢な基盤モデルとして提案され,医用画像セグメンテーションへの適応が期待されている。 この概念にインスパイアされたSAM-EGは,計算コスト問題に対処するために,ポリプセグメンテーションのための小さなセグメンテーションモデルをガイドするフレームワークである。 さらに,本研究ではエッジ案内モジュールを導入し,エッジ情報を画像特徴に統合することで,現在のセグメンテーションモデルからの境界問題に対処するセグメンテーションモデルを支援する。 広汎な実験を通じて,本研究の小型モデルは,最先端の手法による競争結果の達成と,多点分割の精度の高いコンパクトなモデル開発への有望なアプローチを提供するとともに,医療画像の幅広い分野において,その有効性を示す。

Polyp segmentation, a critical concern in medical imaging, has prompted numerous proposed methods aimed at enhancing the quality of segmented masks. While current state-of-the-art techniques produce impressive results, the size and computational cost of these models pose challenges for practical industry applications. Recently, the Segment Anything Model (SAM) has been proposed as a robust foundation model, showing promise for adaptation to medical image segmentation. Inspired by this concept, we propose SAM-EG, a framework that guides small segmentation models for polyp segmentation to address the computation cost challenge. Additionally, in this study, we introduce the Edge Guiding module, which integrates edge information into image features to assist the segmentation model in addressing boundary issues from current segmentation model in this task. Through extensive experiments, our small models showcase their efficacy by achieving competitive results with state-of-the-art methods, offering a promising approach to developing compact models with high accuracy for polyp segmentation and in the broader field of medical imaging.
翻訳日:2024-06-24 15:02:37 公開日:2024-06-21
# ファノ強化低損失オンチップ超伝導マイクロ波循環器

Fano-enhanced low-loss on-chip superconducting microwave circulator ( http://arxiv.org/abs/2406.14821v1 )

ライセンス: Link先を確認
N. Pradeep Kumar, Dat Thanh Le, Prasanna Pakkiam, Thomas M. Stace, Arkady Fedorov, (参考訳) 半導体回路に基づく量子技術では、受動的でチップ上で容易に積分可能なフェライトフリー循環器が求められている。 前報では,不明瞭な非相互性および信号循環を示す3-Josephson-junctionループを用いたサーキュレータを実装したが,設計値の1/%以内のジャンクションエネルギーが必要であった。 この耐久性は標準の接合加工法よりも強く, 必要な接合加工精度を緩和し, デバイス性能の向上と製造歩留まりの向上を可能にする設計改善を提案する。 具体的には、導波路間に大きな直接容量結合を導入し、強いファノ散乱干渉を発生させる。 モデル計算とよく一致し, 共振器内挿入損失0.2$~dB, アイソレーション$18$~dB, パワーリフレクタンス$15$~dBを最適化した。

Ferrite-free circulators that are passive and readily integratable on a chip are highly sought-after in quantum technologies based on superconducting circuits. In our previous work, we implemented such a circulator using a three-Josephson-junction loop that exhibited unambiguous nonreciprocity and signal circulation, but required junction energies to be within $1\%$ of design values. This tolerance is tighter than standard junction fabrication methods provide, so we propose and demonstrate a design improvement that relaxes the required junction fabrication precision, allowing for higher device performance and fabrication yield. Specifically, we introduce large direct capacitive couplings between the waveguides to create strong Fano scattering interference. We measure enhanced `circulation fidelity' above $97\%$, with optimised on-resonance insertion loss of $0.2$~dB, isolation of $18$~dB, and power reflectance of $-15$~dB, in good agreement with model calculations.
翻訳日:2024-06-24 15:02:37 公開日:2024-06-21
# TemPrompt: RAGベースのクラウドソーシングシステムにおける時間関係抽出のためのマルチタスクプロンプト学習

TemPrompt: Multi-Task Prompt Learning for Temporal Relation Extraction in RAG-based Crowdsourcing Systems ( http://arxiv.org/abs/2406.14825v1 )

ライセンス: Link先を確認
Jing Yang, Yu Zhao, Yang Linyao, Xiao Wang, Fei-Yue Wang, (参考訳) 時間的関係抽出(TRE)は、イベントや行動の進化を把握し、関連するタスクのワークフローを形成することを目的としており、クラウドソーシングシステムにおける要求者によるタスク要求の理解を支援することを約束している。 しかし、既存のメソッドは限定的で不均一に分散されたアノテートデータに苦戦している。 そこで本研究では,TRE(TemPrompt)のためのマルチタスク・プロンプト学習フレームワークを提案する。 PLMのより効果的なプロンプトを引き出すため,タスク指向のプロンプト構築手法を導入し,TREの無数の要因を自動プロンプト生成に深く取り込む。 さらに、時間的事象推論をモデルがイベントや時間的手がかりに焦点を合わせるための補足として提示する。 実験結果によると、TemPromptは標準設定と少数ショット設定の両方で、ほとんどのメトリクスで比較されたベースラインを上回っている。 クラウドソーシングシナリオにおける有効性を検証するためのケーススタディが提供されている。

Temporal relation extraction (TRE) aims to grasp the evolution of events or actions, and thus shape the workflow of associated tasks, so it holds promise in helping understand task requests initiated by requesters in crowdsourcing systems. However, existing methods still struggle with limited and unevenly distributed annotated data. Therefore, inspired by the abundant global knowledge stored within pre-trained language models (PLMs), we propose a multi-task prompt learning framework for TRE (TemPrompt), incorporating prompt tuning and contrastive learning to tackle these issues. To elicit more effective prompts for PLMs, we introduce a task-oriented prompt construction approach that thoroughly takes the myriad factors of TRE into consideration for automatic prompt generation. In addition, we present temporal event reasoning as a supplement to bolster the model's focus on events and temporal cues. The experimental results demonstrate that TemPrompt outperforms all compared baselines across the majority of metrics under both standard and few-shot settings. A case study is provided to validate its effectiveness in crowdsourcing scenarios.
翻訳日:2024-06-24 15:02:37 公開日:2024-06-21
# 医用画像の効果的なデータ拡張のための自己監督型脳病変生成

Self-supervised Brain Lesion Generation for Effective Data Augmentation of Medical Images ( http://arxiv.org/abs/2406.14826v1 )

ライセンス: Link先を確認
Jiayu Huo, Sebastien Ourselin, Rachel Sparks, (参考訳) 正確な脳病変の脱線は神経外科治療の計画に重要である。 畳み込みニューラルネットワークに基づく自動脳病変分割法は顕著な性能を示した。 しかしながら、ニューラルネットワークのパフォーマンスは、大規模に注釈付けされたトレーニングデータセットの欠如によって制限されている。 そこで本論文では,脳病変セグメンテーションモデルをトレーニングするための,新しい現実的なサンプルを効率的に生成するための包括的枠組みを提案する。 まず, 対向型自己エンコーダに基づく病変発生器を自己管理的に訓練する。 次に、新しい画像合成アルゴリズムであるSoft Poisson Blendingを用いて、合成病変と脳画像をシームレスに組み合わせてトレーニングサンプルを得る。 最後に,脳病変セグメンテーションモデルを拡張画像で効果的に訓練するために,実像と合成像を整列させるための新しいプロトタイプを導入する。 我々のフレームワークは、ATLAS v2.0とShift MSの2つのパブリック脳病変セグメンテーションデータセットに関する広範な実験によって検証されている。 例えば、我々の方法では、従来のATLAS v2.0データセットのデータ拡張技術を用いて、U-Netと比較して、Diceを50.36%から60.23%に改善する。

Accurate brain lesion delineation is important for planning neurosurgical treatment. Automatic brain lesion segmentation methods based on convolutional neural networks have demonstrated remarkable performance. However, neural network performance is constrained by the lack of large-scale well-annotated training datasets. In this manuscript, we propose a comprehensive framework to efficiently generate new, realistic samples for training a brain lesion segmentation model. We first train a lesion generator, based on an adversarial autoencoder, in a self-supervised manner. Next, we utilize a novel image composition algorithm, Soft Poisson Blending, to seamlessly combine synthetic lesions and brain images to obtain training samples. Finally, to effectively train the brain lesion segmentation model with augmented images we introduce a new prototype consistence regularization to align real and synthetic features. Our framework is validated by extensive experiments on two public brain lesion segmentation datasets: ATLAS v2.0 and Shift MS. Our method outperforms existing brain image data augmentation schemes. For instance, our method improves the Dice from 50.36% to 60.23% compared to the U-Net with conventional data augmentation techniques for the ATLAS v2.0 dataset.
翻訳日:2024-06-24 15:02:37 公開日:2024-06-21
# 単語の問題:ドメイン適応が要約にどのような影響を及ぼすか?

Word Matters: What Influences Domain Adaptation in Summarization? ( http://arxiv.org/abs/2406.14828v1 )

ライセンス: Link先を確認
Yinghao Li, Siyu Miao, Heyan Huang, Yang Gao, (参考訳) ドメイン適応は、Large Language Models (LLM) が、トレーニングフェーズ中に見えないドメインデータセットを効果的に一般化できるようにすることを目的としている。 しかし、モデルパラメータのサイズやトレーニングデータの規模などの要因は一般的なインフルエンサーであり、ドメイン適応性能のニュアンスを反映していない。 本稿では,ドメイン適応性能に影響を及ぼすきめ細かな要因について検討し,学習データ中の「単語」が要約タスクに与える影響を分析した。 本稿では,単語ベース圧縮率と抽象化レベルという2つの指標によって決定される生成要約の学習難度として,データセット学習難度を定量化する手法を提案する。 実験の結果,データセット学習の難しさを考慮すると,要約タスクにおけるドメイン間重複や性能向上は,単語数と直接関係のない近似線形関係を示すことがわかった。 この発見に基づいて、未知のドメインデータセット上でモデルのパフォーマンスを予測することは、トレーニングを行うことなく可能である。

Domain adaptation aims to enable Large Language Models (LLMs) to generalize domain datasets unseen effectively during the training phase. However, factors such as the size of the model parameters and the scale of training data are general influencers and do not reflect the nuances of domain adaptation performance. This paper investigates the fine-grained factors affecting domain adaptation performance, analyzing the specific impact of `words' in training data on summarization tasks. We propose quantifying dataset learning difficulty as the learning difficulty of generative summarization, which is determined by two indicators: word-based compression rate and abstraction level. Our experiments conclude that, when considering dataset learning difficulty, the cross-domain overlap and the performance gain in summarization tasks exhibit an approximate linear relationship, which is not directly related to the number of words. Based on this finding, predicting a model's performance on unknown domain datasets is possible without undergoing training.
翻訳日:2024-06-24 15:02:37 公開日:2024-06-21
# これは悪いテーブルか? テキストからテーブル生成を評価する

Is this a bad table? A Closer Look at the Evaluation of Table Generation from Text ( http://arxiv.org/abs/2406.14829v1 )

ライセンス: Link先を確認
Pritika Ramu, Aparna Garimella, Sambaran Bandyopadhyay, (参考訳) 生成したテーブルが高品質であるかどうかを理解するためには、自動メソッドを使用して文書の作成や編集に使用することが重要である。 本研究では,テーブル品質評価のための既存の尺度では,テーブルの全体的意味を捉えることができず,時に良いテーブルを不公平に罰し,悪いテーブルに報いる。 本研究では,まずテーブルを自然言語のアトミックステートメントのリストに分解してテーブルの意味を抽出し,それに基づいて基本真理文と比較するテーブル評価戦略であるTabEvalを提案する。 提案手法を検証するために,既存のデータセットの限られた範囲とは対照的に,多種多様なウィキペディアテーブルのテキスト記述からなるデータセットをキュレートした。 本研究では,TabEvalを教師なしおよび教師なしのテキスト・ツー・テーブル生成手法を用いて既存のメトリクスと比較し,テーブル品質の人為的判断と4つのデータセット間の相関性を示す。

Understanding whether a generated table is of good quality is important to be able to use it in creating or editing documents using automatic methods. In this work, we underline that existing measures for table quality evaluation fail to capture the overall semantics of the tables, and sometimes unfairly penalize good tables and reward bad ones. We propose TabEval, a novel table evaluation strategy that captures table semantics by first breaking down a table into a list of natural language atomic statements and then compares them with ground truth statements using entailment-based measures. To validate our approach, we curate a dataset comprising of text descriptions for 1,250 diverse Wikipedia tables, covering a range of topics and structures, in contrast to the limited scope of existing datasets. We compare TabEval with existing metrics using unsupervised and supervised text-to-table generation methods, demonstrating its stronger correlation with human judgments of table quality across four datasets.
翻訳日:2024-06-24 15:02:37 公開日:2024-06-21
# CLIP-Decoder : マルチモーダルCLIPアライメント表現を用いたゼロショットマルチラベル分類

CLIP-Decoder : ZeroShot Multilabel Classification using Multimodal CLIP Aligned Representation ( http://arxiv.org/abs/2406.14830v1 )

ライセンス: Link先を確認
Muhammad Ali, Salman Khan, (参考訳) マルチラベル分類は、様々な現実世界のアプリケーションで利用される重要なタスクである。 マルチラベルゼロショット学習(Multi-label zero-shot learning)は、訓練データがない複数の未確認カテゴリに分類する方法である。 CLIP-Decoderは最先端のML-Decoderアテンションベースのヘッドに基づく新しい手法である。 CLIP-Decoderにマルチモーダル表現学習を導入し、テキストエンコーダを用いてテキスト特徴と画像特徴抽出のための画像エンコーダを抽出する。 さらに、画像と単語の埋め込みを同一次元に調整し、分類損失とCLIP損失を含む複合的な損失を用いてそれぞれの表現を比較することで、意味的ミスマッチを最小限に抑える。 この手法は他の手法よりも優れており、CLIP-Decoderを用いたゼロショットマルチラベル分類タスクの最先端化を実現している。 本手法は,ゼロショット学習マルチラベル分類タスクにおける既存の手法と比較して,絶対的な性能向上を実現している。 さらに,一般化されたゼロショット学習マルチラベル分類タスクでは,約2.3%の増加がみられた。

Multi-label classification is an essential task utilized in a wide variety of real-world applications. Multi-label zero-shot learning is a method for classifying images into multiple unseen categories for which no training data is available, while in general zero-shot situations, the test set may include observed classes. The CLIP-Decoder is a novel method based on the state-of-the-art ML-Decoder attention-based head. We introduce multi-modal representation learning in CLIP-Decoder, utilizing the text encoder to extract text features and the image encoder for image feature extraction. Furthermore, we minimize semantic mismatch by aligning image and word embeddings in the same dimension and comparing their respective representations using a combined loss, which comprises classification loss and CLIP loss. This strategy outperforms other methods and we achieve cutting-edge results on zero-shot multilabel classification tasks using CLIP-Decoder. Our method achieves an absolute increase of 3.9% in performance compared to existing methods for zero-shot learning multi-label classification tasks. Additionally, in the generalized zero-shot learning multi-label classification task, our method shows an impressive increase of almost 2.3%.
翻訳日:2024-06-24 15:02:37 公開日:2024-06-21
# 統一手法による階層型マルチパーティイトとネットワーク非局所性の検証

Verifying Hierarchic Multipartite and Network Nonlocalities with a Unified Method ( http://arxiv.org/abs/2406.14831v1 )

ライセンス: Link先を確認
Ming-Xing Luo, Shao-Ming Fei, (参考訳) マルチパーティの非局所性は、量子力学の基本的特徴に関する深い洞察を与え、量子インターネットにおける潜在的なアプリケーションに対する異なるレベルの暗号化セキュリティを保証する。 マルチパーティリート非局所相関の検証は難しい作業である。 我々は,完全分離可能から二分離不能な無信号相関に留まらず,多部相関系の全ての量子特性を包含する統一的アプローチを提案する。 部分的な非局所的相関性を持ち上げることによって,一般的なシステムを検証するための簡単な方法を提案する。 これにより、連鎖ベルの不等式を構築することができ、階層的多部類非局所性の統一的な検証を容易にする。 量子ネットワークから導出される相関性を検証するために,最後にリフト法を適用した。

The multipartite nonlocality provides deep insights into the fundamental feature of quantum mechanics and guarantees different degrees of cryptography security for potential applications in the quantum internet. Verifying multipartite nonlocal correlations is a difficult task. We propose a unified approach that encompasses all the quantum characteristics of the multipartite correlated system beyond from fully separable to biseparable no-signaling correlations. We offer a straightforward method to verify general systems by lifting partial nonlocal correlations. This allows to construct a chained Bell inequality, facilitating the unified verification of hierarchic multipartite nonlocalities. We finally apply the lifting method to verify the correlations derived from quantum networks.
翻訳日:2024-06-24 15:02:37 公開日:2024-06-21
# 安定ギャップの緩和による連続的事前学習の効率化

Efficient Continual Pre-training by Mitigating the Stability Gap ( http://arxiv.org/abs/2406.14833v1 )

ライセンス: Link先を確認
Yiduo Guo, Jie Fu, Huishuai Zhang, Dongyan Zhao, Yikang Shen, (参考訳) 継続的な事前学習は、大規模言語モデル(LLM)を新しいドメインに適用するための主要なアプローチになりつつある。 このプロセスでは、トレーニング済みのLLMを新しいドメインからコーパスで更新することで、トレーニング分布がシフトする。 このシフト中のLLMの挙動を調べるため,連続的な事前学習過程を通じてモデルの性能を測定した。 最初は一時的な性能低下がみられ,その後に回復期,すなわち「安定ギャップ」と呼ばれる現象が出現した。 この課題に対処し、固定された計算予算内でのLLM性能を向上させるために、(1)複数のエポックに対して適切な大きさのサブセット上でLLMを継続的に事前訓練し、単一のエポックにおいて大規模コーパス上でLLMを事前訓練するよりも高速な性能回復をもたらすこと、(2)ドメイン性能を急速に向上させる高品質サブコーパスにのみLLMを事前訓練すること、(3)事前学習データと類似したデータを用いて、分散ギャップを低減すること、の3つの効果的な戦略を提案する。 我々は,Llamaファミリーモデルを用いた様々な実験を行い,医療継続訓練と指導訓練における戦略の有効性を検証した。 例えば、OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し、当初のトレーニング予算の40%に留まり、忘れることなく平均一般タスクパフォーマンスを向上させました。 さらに,この戦略をLlama-3-8Bモデルに適用する。 結果として得られたモデルであるLlama-3-Physicianは、現在のオープンソースモデルの中で最高の医療性能を達成し、いくつかの医療ベンチマークにおいて、GPT-4と同等かそれ以上に性能を発揮する。 We release our model at \url{https://huggingface.co/YiDuo 1999/Llama-3-Physician-8B-Instruct}。

Continual pre-training has increasingly become the predominant approach for adapting Large Language Models (LLMs) to new domains. This process involves updating the pre-trained LLM with a corpus from a new domain, resulting in a shift in the training distribution. To study the behavior of LLMs during this shift, we measured the model's performance throughout the continual pre-training process. we observed a temporary performance drop at the beginning, followed by a recovery phase, a phenomenon known as the "stability gap," previously noted in vision models classifying new classes. To address this issue and enhance LLM performance within a fixed compute budget, we propose three effective strategies: (1) Continually pre-training the LLM on a subset with a proper size for multiple epochs, resulting in faster performance recovery than pre-training the LLM on a large corpus in a single epoch; (2) Pre-training the LLM only on high-quality sub-corpus, which rapidly boosts domain performance; and (3) Using a data mixture similar to the pre-training data to reduce distribution gap. We conduct various experiments on Llama-family models to validate the effectiveness of our strategies in both medical continual pre-training and instruction tuning. For example, our strategies improve the average medical task performance of the OpenLlama-3B model from 36.2% to 40.7% with only 40% of the original training budget and enhance the average general task performance without causing forgetting. Furthermore, we apply our strategies to the Llama-3-8B model. The resulting model, Llama-3-Physician, achieves the best medical performance among current open-source models, and performs comparably to or even better than GPT-4 on several medical benchmarks. We release our models at \url{https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct}.
翻訳日:2024-06-24 15:02:37 公開日:2024-06-21
# ToVo:投票による毒性分類

ToVo: Toxicity Taxonomy via Voting ( http://arxiv.org/abs/2406.14835v1 )

ライセンス: Link先を確認
Tinh Son Luong, Thanh-Thien Le, Thang Viet Doan, Linh Ngo Van, Thien Huu Nguyen, Diep Thi-Ngoc Nguyen, (参考訳) 既存の有毒な検出モデルは、透明性の欠如、カスタマイズ、再現性といった重大な制限に直面している。 これらの課題は、トレーニングデータのクローズドソースの性質と、評価メカニズムに関する説明の質に起因している。 これらの問題に対処するために、投票と連鎖プロセスを統合し、有害なコンテンツ検出のための高品質なオープンソースデータセットを作成するデータセット作成機構を提案する。 本手法は,各試料の多様な分類基準を保証し,分類スコアと説明的推論の両方を含む。 提案したメカニズムによって生成されたデータセットを用いてモデルをトレーニングし、既存の広く使われている検出器と比較する。 このアプローチは透明性とカスタマイズ性を向上するだけでなく、特定のユースケースの微調整も改善します。 この研究は、有毒なコンテンツ検出モデルを開発するための堅牢なフレームワークに貢献し、オープン性と適応性を強調し、より効果的でユーザ固有のコンテンツモデレーションソリューションの道を開いた。

Existing toxic detection models face significant limitations, such as lack of transparency, customization, and reproducibility. These challenges stem from the closed-source nature of their training data and the paucity of explanations for their evaluation mechanism. To address these issues, we propose a dataset creation mechanism that integrates voting and chain-of-thought processes, producing a high-quality open-source dataset for toxic content detection. Our methodology ensures diverse classification metrics for each sample and includes both classification scores and explanatory reasoning for the classifications. We utilize the dataset created through our proposed mechanism to train our model, which is then compared against existing widely-used detectors. Our approach not only enhances transparency and customizability but also facilitates better fine-tuning for specific use cases. This work contributes a robust framework for developing toxic content detection models, emphasizing openness and adaptability, thus paving the way for more effective and user-specific content moderation solutions.
翻訳日:2024-06-24 15:02:37 公開日:2024-06-21
# テスト実行によるLLM生成コードコメントの不正確な記述の同定

Identifying Inaccurate Descriptions in LLM-generated Code Comments via Test Execution ( http://arxiv.org/abs/2406.14836v1 )

ライセンス: Link先を確認
Sungmin Kang, Louis Milliken, Shin Yoo, (参考訳) ソフトウェアコメントは人間のソフトウェア理解にとって重要なものであり、多くのコメント生成技術が提案されている。 しかし、生成したコメントの事実的正確さを体系的に評価することは稀であり、主観的精度ラベルのみが与えられた。 3つの大言語モデル(LLM)が生成したコメントを評価すると、最も優れたLCMであっても、そのコメントの約5分の1は、明らかに不正確なステートメントを含んでいることがわかった。 コード構成整合性検出技術は不正確なコメントを検出できるはずだが、我々は、コメント精度と統計的に有意な関係がないことを示す実験を行い、この問題のかなりの難しさを浮き彫りにしている。 そこで本研究では,LCMを用いて文書に基づいてテストを生成し,それらのテストを実行し,通過するかどうかを確認することによって,文書の検証を行う文書テストの概念を提案する。 さらに、Javaコメントを検証するために、我々の概念を実装します。 実験により,提案手法はコメント精度と統計的に強い関係があることが示され,従来の手法が失敗した問題への道のりが示唆された。 質的な評価は、現在の実装の限界を強調しながら、開発者の信頼を得るためのアプローチの約束を明らかにします。

Software comments are critical for human understanding of software, and as such many comment generation techniques have been proposed. However, we find that a systematic evaluation of the factual accuracy of generated comments is rare; only subjective accuracy labels have been given. Evaluating comments generated by three Large Language Models (LLMs), we find that even for the best-performing LLM, roughly a fifth of its comments contained demonstrably inaccurate statements. While it seems code-comment consistency detection techniques should be able to detect inaccurate comments, we perform experiments demonstrating they have no statistically significant relationship with comment accuracy, underscoring the substantial difficulty of this problem. To tackle this, we propose the concept of document testing, in which a document is verified by using an LLM to generate tests based on the document, running those tests, and observing whether they pass or fail. Furthermore, we implement our concept to verify Java comments. Experiments demonstrate that our approach has a robust statistical relationship with comment accuracy, making headway into a problem where prior techniques failed. Qualitative evaluation also reveals the promise of our approach in gaining developer trust, while highlighting the limitations of our current implementation.
翻訳日:2024-06-24 14:52:36 公開日:2024-06-21
# フルフィールド材料応答の不確実性予測のためのベイズニューラルネットワーク

Bayesian neural networks for predicting uncertainty in full-field material response ( http://arxiv.org/abs/2406.14838v1 )

ライセンス: Link先を確認
George D. Pasparakis, Lori Graham-Brady, Michael D. Shields, (参考訳) 応力および材料変形場予測は計算力学において最も重要な課題である。 これらの予測は典型的には、有限要素解析を用いて連続体力学の制御方程式を解き、複雑なミクロ構造や材料挙動を考慮して計算的に禁止される。 機械学習(ML)メソッドは、これらのアプリケーションに対して、潜在的にコスト効率の良いサロゲートを提供する。 しかし、既存のMLサロゲートは低次元の問題に制限されているか、あるいは予測に不確実な推定を提供していない。 本研究では,各種材料の応力場予測と不確実性定量化のためのMLサロゲートフレームワークを提案する。 修正されたベイズU-netアーキテクチャを用いて、初期ミクロ構造から応力場へのデータ駆動画像-画像マッピングを行い、予測(即時)不確実性の推定を行う。 U-netパラメータに対するベイズ的後続分布は, 後方サンプリングに基づくハミルトンモンテカルロ法と, モンテカルロ・ドロップアウト法とベイズ・バイ・ザ・ベイズ・バイ・バックプロップ法という3つの手法を用いて推定される。 繊維強化複合材料の予測精度と不確実性評価の系統的比較を行った。 提案手法はFAA法と比較して高精度な予測を行うが,不確実性推定は推論手法に依存する。 一般に、バックプロップ法によるハミルトニアンモンテカルロとベイズが一貫した不確実性推定を提供する。 一方、モンテカルロ・ドロップアウトの不確実性推定は解釈が難しく、手法の設計に強く依存する。

Stress and material deformation field predictions are among the most important tasks in computational mechanics. These predictions are typically made by solving the governing equations of continuum mechanics using finite element analysis, which can become computationally prohibitive considering complex microstructures and material behaviors. Machine learning (ML) methods offer potentially cost effective surrogates for these applications. However, existing ML surrogates are either limited to low-dimensional problems and/or do not provide uncertainty estimates in the predictions. This work proposes an ML surrogate framework for stress field prediction and uncertainty quantification for diverse materials microstructures. A modified Bayesian U-net architecture is employed to provide a data-driven image-to-image mapping from initial microstructure to stress field with prediction (epistemic) uncertainty estimates. The Bayesian posterior distributions for the U-net parameters are estimated using three state-of-the-art inference algorithms: the posterior sampling-based Hamiltonian Monte Carlo method and two variational approaches, the Monte-Carlo Dropout method and the Bayes by Backprop algorithm. A systematic comparison of the predictive accuracy and uncertainty estimates for these methods is performed for a fiber reinforced composite material and polycrystalline microstructure application. It is shown that the proposed methods yield predictions of high accuracy compared to the FEA solution, while uncertainty estimates depend on the inference approach. Generally, the Hamiltonian Monte Carlo and Bayes by Backprop methods provide consistent uncertainty estimates. Uncertainty estimates from Monte Carlo Dropout, on the other hand, are more difficult to interpret and depend strongly on the method's design.
翻訳日:2024-06-24 14:52:36 公開日:2024-06-21
# 物理に着想を得た生成設計フレームワークを用いた建築空間レイアウトの自動設計

Automated architectural space layout planning using a physics-inspired generative design framework ( http://arxiv.org/abs/2406.14840v1 )

ライセンス: Link先を確認
Zhipeng Li, Sichao Li, Geoff Hinchcliffe, Noam Maitless, Nick Birbilis, (参考訳) 空間配置の決定は、建築プロジェクトの設計段階における主要な活動の1つである。 最初のレイアウト計画では、内部空間の形状、寸法、循環パターンを定義しており、構造の性能やコストにも影響を及ぼす。 手動で行うと、スペースレイアウトの計画が複雑になり、反復的になり、時間がかかります。 本研究では,空間配置の自動生成のための生成設計フレームワークを開発した。 提案手法は、空間レイアウト計画と進化的最適化メタヒューリスティックのための、物理学から着想を得た新しいパラメトリックモデルを統合する。 その結果、このような生成設計フレームワークは、複雑な設計問題に適用可能な設計段階において、多種多様な設計提案を生成できることが判明した。

The determination of space layout is one of the primary activities in the schematic design stage of an architectural project. The initial layout planning defines the shape, dimension, and circulation pattern of internal spaces; which can also affect performance and cost of the construction. When carried out manually, space layout planning can be complicated, repetitive and time consuming. In this work, a generative design framework for the automatic generation of spatial architectural layout has been developed. The proposed approach integrates a novel physics-inspired parametric model for space layout planning and an evolutionary optimisation metaheuristic. Results revealed that such a generative design framework can generate a wide variety of design suggestions at the schematic design stage, applicable to complex design problems.
翻訳日:2024-06-24 14:52:36 公開日:2024-06-21
# TabularMark: 機械学習のためのウォーターマーク付きタブラルデータセット

TabularMark: Watermarking Tabular Datasets for Machine Learning ( http://arxiv.org/abs/2406.14841v1 )

ライセンス: Link先を確認
Yihao Zheng, Haocheng Xia, Junyuan Pang, Jinfei Liu, Kui Ren, Lingyang Chu, Yang Cao, Li Xiong, (参考訳) ウォーターマーキングは、データユーティリティを保持しながら共有データの所有権を保護するために広く利用されている。 しかし、既存のグラフデータセットの透かし手法は、所望の特性(検出性、非侵襲性、堅牢性)に乏しく、データ統計の観点からのみデータユーティリティを保持し、データセットでトレーニングされた下流MLモデルのパフォーマンスを無視する。 攻撃されたデータセット上で、攻撃者が使用可能なMLモデルをトレーニングするのを防止しながら、MLモデルをトレーニングするユーティリティを著しく損なうことなく、表形式のデータセットをウォーターマークできますか? 本稿では,仮説テストに基づく透かし方式であるTabularMarkを提案する。 データノイズパーティショニングは、埋め込み中のデータ摂動に利用され、データユーティリティを保ちながら数値的および分類的属性に適応できる。 検出にはカスタムスレッショルド1比z検定を用い、透かしの存在を確実に判定することができる。 実世界のデータセットと合成データセットの実験は、検出性、非侵入性、堅牢性においてTabularMarkの優位性を示している。

Watermarking is broadly utilized to protect ownership of shared data while preserving data utility. However, existing watermarking methods for tabular datasets fall short on the desired properties (detectability, non-intrusiveness, and robustness) and only preserve data utility from the perspective of data statistics, ignoring the performance of downstream ML models trained on the datasets. Can we watermark tabular datasets without significantly compromising their utility for training ML models while preventing attackers from training usable ML models on attacked datasets? In this paper, we propose a hypothesis testing-based watermarking scheme, TabularMark. Data noise partitioning is utilized for data perturbation during embedding, which is adaptable for numerical and categorical attributes while preserving the data utility. For detection, a custom-threshold one proportion z-test is employed, which can reliably determine the presence of the watermark. Experiments on real-world and synthetic datasets demonstrate the superiority of TabularMark in detectability, non-intrusiveness, and robustness.
翻訳日:2024-06-24 14:52:36 公開日:2024-06-21
# DN-CL:コントラスト学習による雑音に対する深いシンボリック回帰

DN-CL: Deep Symbolic Regression against Noise via Contrastive Learning ( http://arxiv.org/abs/2406.14844v1 )

ライセンス: Link先を確認
Jingyi Liu, Yanjie Li, Lina Yu, Min Wu, Weijun Li, Wenqiang Li, Meilan Hao, Yusong Deng, Shu Wei, (参考訳) 騒音は、物理的、電子的、環境的な影響を含む多くの要因のために、信号の中にユビキタスに存在する。 遺伝的プログラミングやディープラーニングモデルのような伝統的な記号回帰の方法は、これらの信号に最も適した表現を見つけることを目的としている。 しかし、これらの手法は実世界のデータに存在するノイズを見落とし、適合精度を低下させる。 この問題に対処するために、我々は \textbf{C}ontrastive \textbf{L}earning (DN-CL)} を介して \textbf{N}oise に対する \textit{\textbf{D}eep シンボリック回帰を提案する。 DN-CLは2つのパラメータ共有エンコーダを使用して、様々なデータ変換のデータポイントをノイズに対する特徴シールドに埋め込む。 このモデルは、ノイズの多いデータとクリーンなデータを、基底真実の数学的表現の異なるビューとして扱う。 これらの特徴間の距離は最小化され、比較学習を利用して「正」のノイズ補正対と「負」のコントラスト対を区別する。 実験の結果,DN-CLはノイズやクリーンなデータを扱う上で優れた性能を示し,シンボルレグレッションの有望な方法を示すことがわかった。

Noise ubiquitously exists in signals due to numerous factors including physical, electronic, and environmental effects. Traditional methods of symbolic regression, such as genetic programming or deep learning models, aim to find the most fitting expressions for these signals. However, these methods often overlook the noise present in real-world data, leading to reduced fitting accuracy. To tackle this issue, we propose \textit{\textbf{D}eep Symbolic Regression against \textbf{N}oise via \textbf{C}ontrastive \textbf{L}earning (DN-CL)}. DN-CL employs two parameter-sharing encoders to embed data points from various data transformations into feature shields against noise. This model treats noisy data and clean data as different views of the ground-truth mathematical expressions. Distances between these features are minimized, utilizing contrastive learning to distinguish between 'positive' noise-corrected pairs and 'negative' contrasting pairs. Our experiments indicate that DN-CL demonstrates superior performance in handling both noisy and clean data, presenting a promising method of symbolic regression.
翻訳日:2024-06-24 14:52:36 公開日:2024-06-21
# Tensor Product Graph Convolutional Representationによるグラフエッジ表現

Graph Edge Representation via Tensor Product Graph Convolutional Representation ( http://arxiv.org/abs/2406.14846v1 )

ライセンス: Link先を確認
Bo Jiang, Sheng Ge, Ziyan Zhang, Beibei Wang, Jin Tang, Bin Luo, (参考訳) グラフ畳み込みネットワーク(GCN)は広く研究されている。 GCNの中核はグラフ上の畳み込み作用素の定義である。 しかし、既存のグラフ畳み込み(GC)演算子は、主に隣接行列とノード特徴に基づいて定義されており、一般に(高次元)エッジ特徴でグラフに対処できない効果的なノード埋め込みの獲得に重点を置いている。 この問題に対処するために,テンソル積グラフ拡散理論とテンソル積グラフ拡散理論を用いて,テンソル積グラフ畳み込み(TPGC)と呼ばれるエッジ特徴を持つグラフ上の効果的な畳み込み演算子を類似的に定義する。 提案するTPGCは,効率的なエッジ埋め込みの実現を目的としている。 従来のグラフ畳み込み(GC)を補完するモデルを提供し、ノードとエッジの両方でより一般的なグラフデータ解析に対処する。 いくつかのグラフ学習タスクの実験結果から,提案したTPGCの有効性が示された。

Graph Convolutional Networks (GCNs) have been widely studied. The core of GCNs is the definition of convolution operators on graphs. However, existing Graph Convolution (GC) operators are mainly defined on adjacency matrix and node features and generally focus on obtaining effective node embeddings which cannot be utilized to address the graphs with (high-dimensional) edge features. To address this problem, by leveraging tensor contraction representation and tensor product graph diffusion theories, this paper analogously defines an effective convolution operator on graphs with edge features which is named as Tensor Product Graph Convolution (TPGC). The proposed TPGC aims to obtain effective edge embeddings. It provides a complementary model to traditional graph convolutions (GCs) to address the more general graph data analysis with both node and edge features. Experimental results on several graph learning tasks demonstrate the effectiveness of the proposed TPGC.
翻訳日:2024-06-24 14:52:36 公開日:2024-06-21
# サブグループ分布を考慮した医用画像拡散モデル

Fair Text to Medical Image Diffusion Model with Subgroup Distribution Aligned Tuning ( http://arxiv.org/abs/2406.14847v1 )

ライセンス: Link先を確認
Xu Han, Fangfang Fan, Jingzhao Rong, Xiaofeng Liu, (参考訳) 潜伏拡散モデルを用いたテキスト・トゥ・メディカル・イメージ (T2MedI) は, 医用画像データの不足を軽減し, 特定の患者の状態記述において, 病変の出現分布を解明する大きな可能性を秘めている。 しかし、自然画像モデルへのテキストとして、T2MedIモデルは一部のサブグループにも偏りがあり、トレーニングセットの少数派を見渡すことができる。 本研究は,まず,固定コントラスト言語画像事前学習(CLIP)テキストエンコーダを備えた事前学習画像モデルに基づくT2MedIモデルを構築し,そのデコーダは,COCOデータセット内の放射線画像から医用画像に微調整されている。 その性別バイアスは質的かつ定量的に分析される。 そこで本研究では,T2MedIを対象のアプリケーションデータセットに向けて微調整し,その機密部分群分布確率を調整することを提案する。 特に、微調整のためのアライメント損失は、生成された画像と予測対象データセットとの分類確率に一致するように、オフザシェルフ感度サブグループ分類器によって誘導される。 また、知識蒸留方式に従って、CLIP整合正則化項により画質を維持できる。 評価のために、ターゲットデータセットをBraST18データセットとして拡張するように設定し、脳磁気共鳴(MR)スライスに基づく性別分類器をトレーニングした。 この手法により、生成したMR画像はBraTS18データセットの性別比と矛盾を著しく低減できる。

The text to medical image (T2MedI) with latent diffusion model has great potential to alleviate the scarcity of medical imaging data and explore the underlying appearance distribution of lesions in a specific patient status description. However, as the text to nature image models, we show that the T2MedI model can also bias to some subgroups to overlook the minority ones in the training set. In this work, we first build a T2MedI model based on the pre-trained Imagen model, which has the fixed contrastive language-image pre-training (CLIP) text encoder, while its decoder has been fine-tuned on medical images from the Radiology Objects in COntext (ROCO) dataset. Its gender bias is analyzed qualitatively and quantitatively. Toward this issue, we propose to fine-tune the T2MedI toward the target application dataset to align their sensitive subgroups distribution probability. Specifically, the alignment loss for fine-tuning is guided by an off-the-shelf sensitivity-subgroup classifier to match the classification probability between the generated images and the expected target dataset. In addition, the image quality is maintained by a CLIP-consistency regularization term following a knowledge distillation scheme. For evaluation, we set the target dataset to be enhanced as the BraST18 dataset, and trained a brain magnetic resonance (MR) slice-based gender classifier from it. With our method, the generated MR image can markedly reduce the inconsistency with the gender proportion in the BraTS18 dataset.
翻訳日:2024-06-24 14:52:36 公開日:2024-06-21
# 大規模言語モデルを用いた効率的なリスニングのためのパッセージ埋め込みの活用

Leveraging Passage Embeddings for Efficient Listwise Reranking with Large Language Models ( http://arxiv.org/abs/2406.14848v1 )

ライセンス: Link先を確認
Qi Liu, Bo Wang, Nan Wang, Jiaxin Mao, (参考訳) 近年の研究では,大言語モデル (LLM) を通訳ランキングに使用することの有効性が実証されている。 RankGPTのようなリストワイズアプローチはこのタスクにおいて新しい最先端技術になっている。 しかし、LangGPTモデルの効率は、LLM推論の最大文脈長と比較的高いレイテンシによって制限される。 これらの問題に対処するために, PE-Rankを提案する。 それぞれの通路を特別なトークンとして扱うことにより、通路埋め込みを直接LSMに入力し、入力長を削減できる。 さらに、これらの特別なトークンに復号空間を動的に制約する推論手法を導入し、復号処理を高速化する。 モデルを再ランク付けするためには、トレーニングの損失をランク付けするためにリストワイズ学習を採用します。 複数のベンチマークで評価した結果、PE-Rankは、競合するランキング効率を維持しながら、プリフィルとデコードの両方の効率を大幅に向上することが示された。 The Code は \url{https://github.com/liuqi6777/pe_rank} で入手できる。 ※

Recent studies have demonstrated the effectiveness of using large language language models (LLMs) in passage ranking. The listwise approaches, such as RankGPT, have become new state-of-the-art in this task. However, the efficiency of RankGPT models is limited by the maximum context length and relatively high latency of LLM inference. To address these issues, in this paper, we propose PE-Rank, leveraging the single passage embedding as a good context compression for efficient listwise passage reranking. By treating each passage as a special token, we can directly input passage embeddings into LLMs, thereby reducing input length. Additionally, we introduce an inference method that dynamically constrains the decoding space to these special tokens, accelerating the decoding process. For adapting the model to reranking, we employ listwise learning to rank loss for training. Evaluation results on multiple benchmarks demonstrate that PE-Rank significantly improves efficiency in both prefilling and decoding, while maintaining competitive ranking effectiveness. {The Code is available at \url{https://github.com/liuqi6777/pe_rank}.}
翻訳日:2024-06-24 14:52:36 公開日:2024-06-21
# 写真は数千語の価値はあるか? 視覚言語モデルのための空間推論に生き残る

Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models ( http://arxiv.org/abs/2406.14852v1 )

ライセンス: Link先を確認
Jiayu Wang, Yifei Ming, Zhenmei Shi, Vibhav Vineet, Xin Wang, Neel Joshi, (参考訳) 大規模言語モデル (LLM) と視覚言語モデル (VLM) は、幅広いタスクや領域で顕著な性能を示している。 この約束にもかかわらず、人間の認知の基本的な構成要素である空間的理解と推論は未解明のままである。 本研究では,関係理解,ナビゲーション,カウントといった空間的推論の多様な側面をカバーする新しいベンチマークを開発する。 我々は、競合する言語と視覚言語モデルを総合的に評価する。 その結果,(1) 空間的推論は, 競合モデルがランダムな推測に遅れる可能性のある重要な課題を生じさせる; (2) 視覚的入力が加わったにもかかわらず, VLMはLLMに比べて性能が劣る; (3) テキスト情報と視覚情報の両方が利用可能である場合, マルチモーダル言語モデルは, 十分な手掛かりが得られれば, 視覚情報への依存度が低下する。 さらに、視覚とテキストの冗長性を活用することで、モデルの性能が大幅に向上することを示した。 我々の研究は、空間知性を改善し、人間の知性とのギャップをさらに埋めるために、マルチモーダルモデルの開発に報いることを願っている。

Large language models (LLMs) and vision-language models (VLMs) have demonstrated remarkable performance across a wide range of tasks and domains. Despite this promise, spatial understanding and reasoning -- a fundamental component of human cognition -- remains under-explored. We develop novel benchmarks that cover diverse aspects of spatial reasoning such as relationship understanding, navigation, and counting. We conduct a comprehensive evaluation of competitive language and vision-language models. Our findings reveal several counter-intuitive insights that have been overlooked in the literature: (1) Spatial reasoning poses significant challenges where competitive models can fall behind random guessing; (2) Despite additional visual input, VLMs often under-perform compared to their LLM counterparts; (3) When both textual and visual information is available, multi-modal language models become less reliant on visual information if sufficient textual clues are provided. Additionally, we demonstrate that leveraging redundancy between vision and text can significantly enhance model performance. We hope our study will inform the development of multimodal models to improve spatial intelligence and further close the gap with human intelligence.
翻訳日:2024-06-24 14:52:36 公開日:2024-06-21
# PEANO-ViT:視覚変換器における非線形の高効率近似

PEANO-ViT: Power-Efficient Approximations of Non-Linearities in Vision Transformers ( http://arxiv.org/abs/2406.14854v1 )

ライセンス: Link先を確認
Mohammad Erfan Sadeghi, Arash Fayyazi, Seyedarmin Azizi, Massoud Pedram, (参考訳) ビジョントランスフォーマー(ViT)のハードウェアプラットフォームへの展開、特にFPGA(Field-Programmable Gate Arrays)は、主に非線型関数(特に層正規化、ソフトマックス、ガウス誤差線形ユニット(GELU))の計算と電力要求のために多くの課題を提起している。 これらの重要な機能は、複雑な数学的操作と、FPGAの固有のリソース数とアーキテクチャ上の制約により、効率的なハードウェア実装に重大な障害をもたらす。 PEANO-ViTは、分割と平方根関数を同時に近似する分割自由手法を導入することにより、層正規化層の実装を合理化するための新しいアプローチを提供する。 さらに、PEANO-ViTは、指数関数のPadeに基づく近似により、ソフトマックス層の分割操作を除去するマルチスケール分割戦略を提供する。 最後に、PEANO-ViTはGELU関数の分数次線形近似を導入し、GELUに付随する計算集約操作をバイパスするように慎重に設計した。 総合評価では, PEANO-ViTは最小の精度劣化(DeiT-Bでは0.5%)を示し, 電力効率を著しく向上させ, それぞれ1.91x, 1.39x, 8.01xの層正規化, ソフトマックス, GELUの改善を実現した。 この改善は、DSP、LUT、レジスタカウントの大幅な削減によって達成される。 このため、PEANO-ViTはリソースと電力制約のあるFPGAプラットフォームにビジョントランスフォーマーを効率的に配置できる。

The deployment of Vision Transformers (ViTs) on hardware platforms, specially Field-Programmable Gate Arrays (FPGAs), presents many challenges, which are mainly due to the substantial computational and power requirements of their non-linear functions, notably layer normalization, softmax, and Gaussian Error Linear Unit (GELU). These critical functions pose significant obstacles to efficient hardware implementation due to their complex mathematical operations and the inherent resource count and architectural limitations of FPGAs. PEANO-ViT offers a novel approach to streamlining the implementation of the layer normalization layer by introducing a division-free technique that simultaneously approximates the division and square root function. Additionally, PEANO-ViT provides a multi-scale division strategy to eliminate division operations in the softmax layer, aided by a Pade-based approximation for the exponential function. Finally, PEANO-ViT introduces a piece-wise linear approximation for the GELU function, carefully designed to bypass the computationally intensive operations associated with GELU. In our comprehensive evaluations, PEANO-ViT exhibits minimal accuracy degradation (<= 0.5% for DeiT-B) while significantly enhancing power efficiency, achieving improvements of 1.91x, 1.39x, 8.01x for layer normalization, softmax, and GELU, respectively. This improvement is achieved through substantial reductions in DSP, LUT, and register counts for these non-linear operations. Consequently, PEANO-ViT enables efficient deployment of Vision Transformers on resource- and power-constrained FPGA platforms.
翻訳日:2024-06-24 14:52:36 公開日:2024-06-21
# Six-CD: 良質テキスト-画像拡散モデルのためのベンチマーク概念除去

Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models ( http://arxiv.org/abs/2406.14855v1 )

ライセンス: Link先を確認
Jie Ren, Kangrui Chen, Yingqian Cui, Shenglai Zeng, Hui Liu, Yue Xing, Jiliang Tang, Lingjuan Lyu, (参考訳) テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。 しかしながら、T2I拡散モデルの進歩は、暴力やヌードの画像を生成したり、不適切な文脈で公開人物の無許可の肖像画を作成するなど、悪質な目的のために悪用される可能性があるため、重大なリスクを示す。 これらのリスクを軽減するため,概念除去手法が提案されている。 これらの手法は、悪意ある概念や望ましくない概念の発生を防ぐために拡散モデルを変更することを目的としている。 これらの努力にもかかわらず、既存の研究は、(1)包括的データセットにおける一貫した比較の欠如、(2)有害・ヌード性概念における非効率なプロンプト、(3)悪意のある概念を含むプロンプト内で良性部分を生成する能力の過小評価など、いくつかの課題に直面している。 これらのギャップに対処するために、新しいデータセットであるSix-CDと新しい評価基準を導入することで、概念除去手法のベンチマークを行う。 本ベンチマークでは,概念の除去を徹底的に評価し,その分野で価値のある知見を提供する実験的な観察と議論を行う。

Text-to-image (T2I) diffusion models have shown exceptional capabilities in generating images that closely correspond to textual prompts. However, the advancement of T2I diffusion models presents significant risks, as the models could be exploited for malicious purposes, such as generating images with violence or nudity, or creating unauthorized portraits of public figures in inappropriate contexts. To mitigate these risks, concept removal methods have been proposed. These methods aim to modify diffusion models to prevent the generation of malicious and unwanted concepts. Despite these efforts, existing research faces several challenges: (1) a lack of consistent comparisons on a comprehensive dataset, (2) ineffective prompts in harmful and nudity concepts, (3) overlooked evaluation of the ability to generate the benign part within prompts containing malicious concepts. To address these gaps, we propose to benchmark the concept removal methods by introducing a new dataset, Six-CD, along with a novel evaluation metric. In this benchmark, we conduct a thorough evaluation of concept removals, with the experimental observations and discussions offering valuable insights in the field.
翻訳日:2024-06-24 14:52:36 公開日:2024-06-21
# マルチタスクビデオ解析によるパーキンソン病のアクセシブル・ホーム検出

Accessible, At-Home Detection of Parkinson's Disease via Multi-task Video Analysis ( http://arxiv.org/abs/2406.14856v1 )

ライセンス: Link先を確認
Md Saiful Islam, Tariq Adnan, Jan Freyberg, Sangwu Lee, Abdelrahman Abdelkader, Meghan Pawlik, Cathe Schwartz, Karen Jaffe, Ruth B. Schneider, E Ray Dorsey, Ehsan Hoque, (参考訳) 神経学的治療への限られたアクセスはパーキンソン病(PD)の診断を見逃し、多くの個人が未同定で治療を受けていない。 我々は,パーキンソン病(PD)を検出するために,指のタップ,表情(笑顔),発声(アルファベットの全文字を含む文)という3つのタスクのウェブカメラ記録から抽出した特徴を分析し,新しいニューラルネットワークベースの融合アーキテクチャを訓練した。 さらに、モデルは不確実性を考慮して予測精度を向上させるためにモンテカルロ・ドロップアウトを組み込んだ。 被験者 (n = 845, 272 with PD) をランダムに3セットに分け, トレーニングの60%, モデル選択の20% (ハイパーパラメータチューニング) , 最終評価の20%に分けた。 データセットは1102セッションで構成され、各セッションには3つのタスクすべてのビデオが含まれている。 提案モデルの精度は,ORC曲線(AUROC)下において有意に向上し,単一タスクモデルと比較して非固有性に対する感度が向上した。 不確実な予測を控えて、88.0% (95% CI: 87.7% - 88.4%) の精度、93.0% (92.8% - 93.2%) のAUROC、79.3% (78.4% - 80.2%) の感度、92.6% (92.3% - 92.8%) の特異性を達成した。 さらに分析したところ、この訓練されたモデルは性別と民族のサブグループ間で検出可能な偏見を示さず、50歳から80歳までの個人に最も効果的であることが示唆された。 ウェブカメラとマイクロフォンを備えたインターネット対応デバイスのみを必要とするこの安価なアプローチは、特に臨床専門医に限られた地域において、家庭で便利なPDスクリーニングを行うための道を開く。

Limited access to neurological care leads to missed diagnoses of Parkinson's disease (PD), leaving many individuals unidentified and untreated. We trained a novel neural network-based fusion architecture to detect Parkinson's disease (PD) by analyzing features extracted from webcam recordings of three tasks: finger tapping, facial expression (smiling), and speech (uttering a sentence containing all letters of the alphabet). Additionally, the model incorporated Monte Carlo Dropout to improve prediction accuracy by considering uncertainties. The study participants (n = 845, 272 with PD) were randomly split into three sets: 60% for training, 20% for model selection (hyper-parameter tuning), and 20% for final performance evaluation. The dataset consists of 1102 sessions, each session containing videos of all three tasks. Our proposed model achieved significantly better accuracy, area under the ROC curve (AUROC), and sensitivity at non-inferior specificity compared to any single-task model. Withholding uncertain predictions further boosted the performance, achieving 88.0% (95% CI: 87.7% - 88.4%) accuracy, 93.0% (92.8% - 93.2%) AUROC, 79.3% (78.4% - 80.2%) sensitivity, and 92.6% (92.3% - 92.8%) specificity, at the expense of not being able to predict for 2.3% (2.0% - 2.6%) data. Further analysis suggests that the trained model does not exhibit any detectable bias across sex and ethnic subgroups and is most effective for individuals aged between 50 and 80. This accessible, low-cost approach requiring only an internet-enabled device with a webcam and microphone paves the way for convenient PD screening at home, particularly in regions with limited access to clinical specialists.
翻訳日:2024-06-24 14:52:36 公開日:2024-06-21
# LLMからMLLMへ:マルチモーダル・ジェイルブレイクの景観を探る

From LLMs to MLLMs: Exploring the Landscape of Multimodal Jailbreaking ( http://arxiv.org/abs/2406.14859v1 )

ライセンス: Link先を確認
Siyuan Wang, Zhuohan Long, Zhihao Fan, Zhongyu Wei, (参考訳) LLM(Large Language Models)とMLLM(Multimodal Large Language Models)の急速な開発により、様々な敵の攻撃に対する脆弱性が明らかになった。 本稿では, LLM と MLLM を対象とするジェイルブレーキング研究の概要を概説し, 評価ベンチマーク, 攻撃技術, 防衛戦略の最近の進歩に注目した。 より先進的な一過性のジェイルブレイクと比較すると、マルチモーダルドメインは未探索のままである。 我々は,マルチモーダルジェイルブレイクの限界と潜在的研究方向性を要約し,今後の研究を刺激し,MLLMの堅牢性と安全性をさらに高めることを目的としている。

The rapid development of Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) has exposed vulnerabilities to various adversarial attacks. This paper provides a comprehensive overview of jailbreaking research targeting both LLMs and MLLMs, highlighting recent advancements in evaluation benchmarks, attack techniques and defense strategies. Compared to the more advanced state of unimodal jailbreaking, multimodal domain remains underexplored. We summarize the limitations and potential research directions of multimodal jailbreaking, aiming to inspire future research and further enhance the robustness and security of MLLMs.
翻訳日:2024-06-24 14:52:36 公開日:2024-06-21
# LatentExplainer: マルチモーダル基礎モデルを用いた深部生成モデルにおける潜在表現の説明

LatentExplainer: Explaining Latent Representations in Deep Generative Models with Multi-modal Foundation Models ( http://arxiv.org/abs/2406.14862v1 )

ライセンス: Link先を確認
Mengdan Zhu, Raasikh Kanjiani, Jiahui Lu, Andrew Choi, Qirui Ye, Liang Zhao, (参考訳) VAEや拡散モデルのような深層生成モデルは、潜伏変数を利用してデータ分布を学習し、高品質なサンプルを生成することによって、様々な生成タスクを進化させてきた。 機械学習モデルの解釈において、説明可能なAIの分野は進歩しているが、生成モデルにおける潜伏変数の理解は依然として困難である。 本稿では,深層生成モデルにおける潜伏変数の意味論的説明を自動的に生成するフレームワークであるLatentExplainerを紹介する。 LatentExplainerは、潜伏変数の意味の推測、帰納的バイアスによる説明の整合、さまざまな説明可能性の扱いの3つの主な課題に取り組む。 このフレームワークは、潜伏変数を摂動させ、生成されたデータの変化を解釈することによって、データ生成プロセスを理解し制御するための体系的なアプローチを提供し、深層生成モデルの透明性と解釈可能性を高める。 提案手法を実環境および合成データセット上で評価し,提案手法は潜伏変数の高品質な説明を生成する上で優れた性能を示す。

Deep generative models like VAEs and diffusion models have advanced various generation tasks by leveraging latent variables to learn data distributions and generate high-quality samples. Despite the field of explainable AI making strides in interpreting machine learning models, understanding latent variables in generative models remains challenging. This paper introduces LatentExplainer, a framework for automatically generating semantically meaningful explanations of latent variables in deep generative models. LatentExplainer tackles three main challenges: inferring the meaning of latent variables, aligning explanations with inductive biases, and handling varying degrees of explainability. By perturbing latent variables and interpreting changes in generated data, the framework provides a systematic approach to understanding and controlling the data generation process, enhancing the transparency and interpretability of deep generative models. We evaluate our proposed method on several real-world and synthetic datasets, and the results demonstrate superior performance in generating high-quality explanations of latent variables.
翻訳日:2024-06-24 14:52:36 公開日:2024-06-21
# 高齢化とWiser:Deep Neural Networksのデバイス老化と知的財産保護の結婚

Older and Wiser: The Marriage of Device Aging and Intellectual Property Protection of Deep Neural Networks ( http://arxiv.org/abs/2406.14863v1 )

ライセンス: Link先を確認
Ning Lin, Shaocong Wang, Yue Zhang, Yangu He, Kwunhang Wong, Arindam Basu, Dashan Shang, Xiaoming Chen, Zhongrui Wang, (参考訳) 数十億のパラメータを持つ広く使われているGPT-3のようなディープニューラルネットワーク(DNN)は、トレーニングに使用されるデータを取り巻く高いトレーニングコストとプライバシー上の懸念のために秘密にされていることが多い。 従来のDNNの安全性確保には、通常、高価な回路の再設計が必要であり、その結果、面積の増加、エネルギー消費、遅延などのオーバーヘッドが生じる。 そこで本研究では,DNN知的財産権(IP)保護のためのハードウェア・ソフトウェア共同設計手法を提案する。 ハードウェア面では、承認されたチップを生成するためにランダムな老化を用いる。 このプロセスはチップの再設計を回避し、DNNの推論手順中に追加のハードウェアオーバーヘッドをなくす。 さらに、認証チップは、未承認チップと比較して、DNN推論性能にかなりの差があることを示す。 ソフトウェア面では、事前学習したDNNが最小限の微調整で認証チップ上で元の精度を維持することができる新しいDOFTを提案する一方、未承認チップ上でのモデルの性能はランダムな推測に還元される。 MLP、VGG、ResNet、Mixer、SwinTransformerなど、軽量なバイナリと実用的なマルチビット重みを持つ多種多様なモデルに対する大規模な実験により、提案手法が有効なIP保護を実現することを示し、未承認チップでは10倍の精度しか得られず、認証されたチップではほぼ元の精度を保っている。

Deep neural networks (DNNs), such as the widely-used GPT-3 with billions of parameters, are often kept secret due to high training costs and privacy concerns surrounding the data used to train them. Previous approaches to securing DNNs typically require expensive circuit redesign, resulting in additional overheads such as increased area, energy consumption, and latency. To address these issues, we propose a novel hardware-software co-design approach for DNN intellectual property (IP) protection that capitalizes on the inherent aging characteristics of circuits and a novel differential orientation fine-tuning (DOFT) to ensure effective protection. Hardware-wise, we employ random aging to produce authorized chips. This process circumvents the need for chip redesign, thereby eliminating any additional hardware overhead during the inference procedure of DNNs. Moreover, the authorized chips demonstrate a considerable disparity in DNN inference performance when compared to unauthorized chips. Software-wise, we propose a novel DOFT, which allows pre-trained DNNs to maintain their original accuracy on authorized chips with minimal fine-tuning, while the model's performance on unauthorized chips is reduced to random guessing. Extensive experiments on various models, including MLP, VGG, ResNet, Mixer, and SwinTransformer, with lightweight binary and practical multi-bit weights demonstrate that the proposed method achieves effective IP protection, with only 10\% accuracy on unauthorized chips, while preserving nearly the original accuracy on authorized ones.
翻訳日:2024-06-24 14:52:36 公開日:2024-06-21
# グラフデータ構造と知識グラフを用いた特徴選択手法の検討

A review of feature selection strategies utilizing graph data structures and knowledge graphs ( http://arxiv.org/abs/2406.14864v1 )

ライセンス: Link先を確認
Sisi Shao, Pedro Henrique Ribeiro, Christina Ramirez, Jason H. Moore, (参考訳) 知識グラフ(KG)の特徴選択は、生物医学研究、自然言語処理(NLP)、パーソナライズされたレコメンデーションシステムなど、さまざまな領域でますます活用されている。 本稿では,機械学習(ML)モデルの有効性向上,仮説生成,解釈可能性向上におけるKGsの機能選択の方法論を考察する。 この総合的なレビューを通じて、我々は、KGsの機能選択におけるさらなる革新を触媒し、より洞察に富み、効率的で、解釈可能な分析モデルへの道を開くことを目指している。 本稿では,機能選択技術におけるスケーラビリティ,正確性,解釈可能性の重要性を明らかにするとともに,ドメイン知識の統合による選択プロセスの洗練を提唱する。 我々は、KG特徴選択の進展における多目的最適化と学際的協調の急激な可能性を強調し、これらの手法が精度医学などに与える影響を強調する。 論文は、スケーラブルでダイナミックな特徴選択アルゴリズムの開発や、KG駆動モデルにおける透明性と信頼を促進するための説明可能なAI原則の統合など、今後の方向性をグラフ化することで締めくくっている。

Feature selection in Knowledge Graphs (KGs) are increasingly utilized in diverse domains, including biomedical research, Natural Language Processing (NLP), and personalized recommendation systems. This paper delves into the methodologies for feature selection within KGs, emphasizing their roles in enhancing machine learning (ML) model efficacy, hypothesis generation, and interpretability. Through this comprehensive review, we aim to catalyze further innovation in feature selection for KGs, paving the way for more insightful, efficient, and interpretable analytical models across various domains. Our exploration reveals the critical importance of scalability, accuracy, and interpretability in feature selection techniques, advocating for the integration of domain knowledge to refine the selection process. We highlight the burgeoning potential of multi-objective optimization and interdisciplinary collaboration in advancing KG feature selection, underscoring the transformative impact of such methodologies on precision medicine, among other fields. The paper concludes by charting future directions, including the development of scalable, dynamic feature selection algorithms and the integration of explainable AI principles to foster transparency and trust in KG-driven models.
翻訳日:2024-06-24 14:42:51 公開日:2024-06-21
# ネットワーク構造のマルチドメイン進化最適化

Multi-Domain Evolutionary Optimization of Network Structures ( http://arxiv.org/abs/2406.14865v1 )

ライセンス: Link先を確認
Jie Zhao, Kang Hao Cheong, Yaochu Jin, (参考訳) 複数のタスクを同時に最適化することで複雑な問題に対処する重要な分野であるMulti-Task Evolutionary Optimization (MTEO)が注目されている。 MTEOは主にタスクの類似性に重点を置いているが、進化的最適化を強化するために異なるドメイン間の共有特性を利用するには、未解決の可能性が残されている。 例えば、現実世界の複雑なシステムは、通常、権力法則、小さな世界の性質、コミュニティ構造など、同じ特性を共有しているため、最適化を容易にするために、あるシステムで最適化されたソリューションを別のシステムに転送することができる。 そこで我々は,MTEOを新たなフレームワークであるMDEO(Multi- Domain Evolution Optimization)に拡張することを試みた。 提案したMDEOの性能を調べるために, 複雑なネットワークにおけるコミュニティの騙しを最適化タスクとして, 重大なセキュリティ上の問題である, 難解な組合せ問題を利用する。 MDEOを実現するために,ドメイン間の知識伝達を管理するために,コミュニティによるグラフ類似度の測定を提案する。 さらに,グラフ表現に基づくネットワークアライメントモデルを構築し,異なる領域間の解を効果的に転送するコンジットとして機能する。 さらに、異なるドメインから移行したソリューションの数を決定する自己適応的なメカニズムを考案し、学習されたマッピングに基づいて新しい突然変異演算子を導入し、他のドメインからの知識の利用を容易にする。 異なる領域の8つの実世界のネットワークの実験は、古典的な進化的最適化と比較してMDEOが優れていることを示す。 コミュニティに対する攻撃のシミュレーションは、コミュニティの安全を守るために提案されたMDEOの有効性を検証する。

Multi-Task Evolutionary Optimization (MTEO), an important field focusing on addressing complex problems through optimizing multiple tasks simultaneously, has attracted much attention. While MTEO has been primarily focusing on task similarity, there remains a hugely untapped potential in harnessing the shared characteristics between different domains to enhance evolutionary optimization. For example, real-world complex systems usually share the same characteristics, such as the power-law rule, small-world property, and community structure, thus making it possible to transfer solutions optimized in one system to another to facilitate the optimization. Drawing inspiration from this observation of shared characteristics within complex systems, we set out to extend MTEO to a novel framework - multi-domain evolutionary optimization (MDEO). To examine the performance of the proposed MDEO, we utilize a challenging combinatorial problem of great security concern - community deception in complex networks as the optimization task. To achieve MDEO, we propose a community-based measurement of graph similarity to manage the knowledge transfer among domains. Furthermore, we develop a graph representation-based network alignment model that serves as the conduit for effectively transferring solutions between different domains. Moreover, we devise a self-adaptive mechanism to determine the number of transferred solutions from different domains and introduce a novel mutation operator based on the learned mapping to facilitate the utilization of knowledge from other domains. Experiments on eight real-world networks of different domains demonstrate MDEO superiority in efficacy compared to classical evolutionary optimization. Simulations of attacks on the community validate the effectiveness of the proposed MDEO in safeguarding community security.
翻訳日:2024-06-24 14:42:51 公開日:2024-06-21
# 臨床グレード病理診断のためのAIによる異常検出

AI-based Anomaly Detection for Clinical-Grade Histopathological Diagnostics ( http://arxiv.org/abs/2406.14866v1 )

ライセンス: Link先を確認
Jonas Dippel, Niklas Prenißl, Julius Hense, Philipp Liznerski, Tobias Winterhoff, Simon Schallenberg, Marius Kloft, Oliver Buchstab, David Horst, Maximilian Alber, Lukas Ruff, Klaus-Robert Müller, Frederick Klauschen, (参考訳) これまでの研究では、画像データ中の病気を診断するAIの可能性を実証してきたが、臨床実装はまだ遅れている。 これは、AIモデルが一般的な疾患にのみ利用可能な多数の例でトレーニングを必要とするためである。 しかし、臨床では病気はごくわずかであるが、ほとんどの疾患は頻度が低い(長い尾の分布)。 現在のAIモデルは、これらの病気を見落としたり、分類ミスしたりする。 そこで本研究では,より頻度の低い疾患も検出するために,一般的な疾患からのトレーニングデータのみを必要とする深層異常検出手法を提案する。 我々は,この問題の原型である消化器生検の2つの大規模な実世界のデータセットを収集した。 ここでは、最も一般的な10例が約90%の症例であり、残りの10%には、多くのがんを含む56の疾患が含まれている。 5,423例の組織像1700万枚をトレーニングと評価に使用した。 本研究は,本疾患の特定トレーニングを伴わず,95.0%(胃)および91.0%(大腸)AUROCの低頻度(非悪性)の病態を確実に検出し,スキャナーおよび病院間で一般化した。 提案した異常検出法は,消化管生検の診断尾の病理学的変化を検出することが期待できる。 本研究は, 病理組織学におけるAIベースの異常検出の有効な臨床応用として, 異常症例のフラグ付け, 症例優先化の促進, 欠失診断の低減, AIモデルの安全性の向上, 定期診断等におけるAI導入と自動化の促進を図ったものである。

While previous studies have demonstrated the potential of AI to diagnose diseases in imaging data, clinical implementation is still lagging behind. This is partly because AI models require training with large numbers of examples only available for common diseases. In clinical reality, however, only few diseases are common, whereas the majority of diseases are less frequent (long-tail distribution). Current AI models overlook or misclassify these diseases. We propose a deep anomaly detection approach that only requires training data from common diseases to detect also all less frequent diseases. We collected two large real-world datasets of gastrointestinal biopsies, which are prototypical of the problem. Herein, the ten most common findings account for approximately 90% of cases, whereas the remaining 10% contained 56 disease entities, including many cancers. 17 million histological images from 5,423 cases were used for training and evaluation. Without any specific training for the diseases, our best-performing model reliably detected a broad spectrum of infrequent ("anomalous") pathologies with 95.0% (stomach) and 91.0% (colon) AUROC and generalized across scanners and hospitals. By design, the proposed anomaly detection can be expected to detect any pathological alteration in the diagnostic tail of gastrointestinal biopsies, including rare primary or metastatic cancers. This study establishes the first effective clinical application of AI-based anomaly detection in histopathology that can flag anomalous cases, facilitate case prioritization, reduce missed diagnoses and enhance the general safety of AI models, thereby driving AI adoption and automation in routine diagnostics and beyond.
翻訳日:2024-06-24 14:42:51 公開日:2024-06-21
# DistiLRR:低リソースプログラミング言語のコード修復

DistiLRR: Transferring Code Repair for Low-Resource Programming Languages ( http://arxiv.org/abs/2406.14867v1 )

ライセンス: Link先を確認
Kyle Wong, Alfonso Amayuelas, Liangming Pan, William Yang Wang, (参考訳) 大規模言語モデル(LLM)は、コード生成タスクにおいて顕著なパフォーマンスを示している。 コード生成のための最近のLLMの応用は反復的なコード修復であり、モデルが誤りを合理化し、新しいプログラムを生成することによって、間違ったプログラムを修正する。 しかし、コード修復は主にPythonのような高リソース言語で研究されており、フレームワークの有効性は低リソース言語で過小評価されている。 低リソース言語にコード修復を適用するために,教師モデルから学生モデルへの推論とコード生成能力の移行を行うDistilling Low-Resource repairs (DistiLRR)を提案する。 以上の結果から, DistiLRR は低リソース言語ではベースラインを一貫して上回るが, 高リソース言語では同様の性能を示すことがわかった。 この振る舞いを調べるために、我々はさらに分析を行い、合理的な品質とコード正しさの相関が以前認識されていたよりも弱いことを発見した。 この弱点は、ベースモデルがプログラミング言語の深い知識を欠いている低リソース環境では、高リソースと低リソースの言語間のコード修復の恩恵が波及する、という仮説を立てています。

Large language models (LLMs) have shown remarkable performance on code generation tasks. A recent application of LLMs for code generation is iterative code repair, where a model fixes an incorrect program by rationalizing about errors and generating a new program. However, code repair is primarily studied on high-resource languages like Python, and the framework's efficacy is under-explored on low-resource languages. To apply code repair for low-resource languages, we propose Distilling Low-Resource Repairs (DistiLRR), an approach that transfers the reasoning and code generation ability from a teacher model to a student model. Our results show that DistiLRR consistently outperforms baselines on low-resource languages, but has similar performance on high-resource languages. To investigate this behavior, we perform a further analysis and find that the correlation between rationale quality and code correctness is weaker than previously perceived. We hypothesize this weakness is magnified in low-resource settings where base models lack deep knowledge of a programming language, leading to wavering benefits of code repair between high-resource and low-resource languages.
翻訳日:2024-06-24 14:42:51 公開日:2024-06-21
# 言語エージェントの直接マルチツーリング選好最適化

Direct Multi-Turn Preference Optimization for Language Agents ( http://arxiv.org/abs/2406.14868v1 )

ライセンス: Link先を確認
Wentao Shi, Mengqi Yuan, Junkang Wu, Qifan Wang, Fuli Feng, (参考訳) エージェントタスクに対するLLM(Large Language Models)の適用は、言語エージェントの開発において重要である。 直接選好最適化(DPO)は、複合的エラーの緩和によるこの適応のための有望な手法であり、強化学習(RL)の目的を直接最適化する手段を提供する。 しかし、DPOをマルチターンタスクに適用すると、分割関数をキャンセルできないため、課題が生じる。 この障害を克服するには、パーティション関数を現在の状態から独立させ、好ましくない軌道と好ましくない軌道の間の長さ格差に対処することが含まれる。 この光で、我々は政策制約をRL目標における状態-作用占有度尺度制約に置き換え、Bradley-Terryモデルに長さ正規化を加え、理論的な説明を伴うマルチターンエージェントタスクにDMPOという新しい損失関数を与える。 3つのマルチターンエージェントタスクデータセットに対する大規模な実験により、DMPO損失の有効性と優位性が確認された。

Adapting Large Language Models (LLMs) for agent tasks is critical in developing language agents. Direct Preference Optimization (DPO) is a promising technique for this adaptation with the alleviation of compounding errors, offering a means to directly optimize Reinforcement Learning (RL) objectives. However, applying DPO to multi-turn tasks presents challenges due to the inability to cancel the partition function. Overcoming this obstacle involves making the partition function independent of the current state and addressing length disparities between preferred and dis-preferred trajectories. In this light, we replace the policy constraint with the state-action occupancy measure constraint in the RL objective and add length normalization to the Bradley-Terry model, yielding a novel loss function named DMPO for multi-turn agent tasks with theoretical explanations. Extensive experiments on three multi-turn agent task datasets confirm the effectiveness and superiority of the DMPO loss.
翻訳日:2024-06-24 14:42:51 公開日:2024-06-21
# 生徒のLLM使用が高等教育における講師・学生・トラストに及ぼす影響

I don't trust you (anymore)! -- The effect of students' LLM use on Lecturer-Student-Trust in Higher Education ( http://arxiv.org/abs/2406.14871v1 )

ライセンス: Link先を確認
Simon Kloker, Matthew Bazanya, Twaha Kateete, (参考訳) 信頼は教育と研究の側面を包含するレクチュラー・学生協力において重要な役割を担っている。 Open AIのChatGPTのようなプラットフォームにおけるLarge Language Models(LLM)の出現と、コスト効率と高品質な結果が相まって、大学生の間で急速に採用されている。 しかし、LLM出力からの真正の学生入力を識別することは、講師にとって課題となる。 このジレンマは、講師と学生の信頼関係を危うくし、大学下流の活動、特に共同研究イニシアチブに影響を及ぼす可能性がある。 学生のLCM利用のガイドラインを確立する試みにもかかわらず、高等教育の講師や学生にとって相互に有益である明確な枠組みは、いまだ解明されていない。 学生によるLLMの使用は、情報と手続きの正義にどのように影響し、チーム信頼と期待されるチームパフォーマンスに影響を与えるか? 構造方程式モデリング(PLS-SEM)の手法を用いて定量的な構造構造ベースサーベイを適用し,それらの構造間の潜在的な関係について検討した。 本研究は,Ndejje大学の23名の正解者を対象に,LLM使用の公正さを意識せず,学生利用の透明性を重視し,チームトラストに有意な影響を与えていることを示す。 本研究は,LLMとその後の教育モデルの統合と規制に関する世界的談話に寄与する。 我々は,チーム信頼とパフォーマンスを育むために,学習者と学生の協力関係の透明性を高めつつ,LCMの使用を支援するガイドラインを提案する。 本研究は、教育における倫理的かつ透明なLCMの使用を可能とし、協調学習環境の有効性を確保するための政策形成に有用な知見を提供する。

Trust plays a pivotal role in Lecturer-Student-Collaboration, encompassing teaching and research aspects. The advent of Large Language Models (LLMs) in platforms like Open AI's ChatGPT, coupled with their cost-effectiveness and high-quality results, has led to their rapid adoption among university students. However, discerning genuine student input from LLM-generated output poses a challenge for lecturers. This dilemma jeopardizes the trust relationship between lecturers and students, potentially impacting university downstream activities, particularly collaborative research initiatives. Despite attempts to establish guidelines for student LLM use, a clear framework mutually beneficial for lecturers and students in higher education remains elusive. This study addresses the research question: How does the use of LLMs by students impact Informational and Procedural Justice, influencing Team Trust and Expected Team Performance? Methodically, we applied a quantitative construct-based survey, evaluated using techniques of Structural Equation Modelling (PLS- SEM) to examine potential relationships among these constructs. Our findings based on 23 valid respondents from Ndejje University indicate that lecturers are less concerned about the fairness of LLM use per se but are more focused on the transparency of student utilization, which significantly influences Team Trust positively. This research contributes to the global discourse on integrating and regulating LLMs and subsequent models in education. We propose that guidelines should support LLM use while enforcing transparency in Lecturer-Student- Collaboration to foster Team Trust and Performance. The study contributes valuable insights for shaping policies enabling ethical and transparent LLMs usage in education to ensure effectiveness of collaborative learning environments.
翻訳日:2024-06-24 14:42:51 公開日:2024-06-21
# 事故と誤用を超えて:人工知能の構造的リスクダイナミクスをデコードする

Beyond Accidents and Misuse: Decoding the Structural Risk Dynamics of Artificial Intelligence ( http://arxiv.org/abs/2406.14873v1 )

ライセンス: Link先を確認
Kyle A Kilian, (参考訳) 現代産業における人工知能(AI)の統合は、単なる技術的アップグレードではなく、重要な構造的な意味を持つ変革である。 本稿では,社会・経済・政治システム間の高度AIシステムの迅速な統合に伴う構造的リスクの概念について考察する。 この枠組みは、事故や誤用などの直接的なAI脅威に主に焦点をあてる従来の視点に挑戦し、これらより近縁なリスクはより大きな社会技術システムによって相互に関連付けられ、影響されることを示唆している。 本研究は, 技術的進歩と社会的ダイナミクスの相互作用を分析することにより, 構造的リスクの3つの主要なカテゴリ, 先行的構造的原因, 先行的システム原因, 有害なフィードバックループを分離する。 これらのリスクを駆動する因果連鎖を理解するための包括的枠組みを提示し、構造的力の相互依存と、誤用やシステム障害のより近親的なリスクを強調した。 この論文は、未確認のAI進歩がパワーダイナミクス、信頼、インセンティブ構造を再形成し、深遠で予測不可能な変化につながることを明記している。 我々は、次世代AI技術がもたらす課題に対して、政策立案者や国家安全保障担当者を準備することを目的とした、これらのダイナミクスのマッピング、シミュレーション、ゲームのための方法論研究アジェンダを導入する。 論文は政策勧告で締めくくっている。

The integration of artificial intelligence (AI) across contemporary industries is not just a technological upgrade but a transformation with profound structural implications. This paper explores the concept of structural risks associated with the rapid integration of advanced AI systems across social, economic, and political systems. This framework challenges the conventional perspectives that primarily focus on direct AI threats such as accidents and misuse and suggests that these more proximate risks are interconnected and influenced by a larger sociotechnical system. By analyzing the interactions between technological advancements and social dynamics, this study isolates three primary categories of structural risk: antecedent structural causes, antecedent system causes, and deleterious feedback loops. We present a comprehensive framework to understand the causal chains that drive these risks, highlighting the interdependence between structural forces and the more proximate risks of misuse and system failures. The paper articulates how unchecked AI advancement can reshape power dynamics, trust, and incentive structures, leading to profound and often unpredictable shifts. We introduce a methodological research agenda for mapping, simulating, and gaming these dynamics aimed at preparing policymakers and national security officials for the challenges posed by next-generation AI technologies. The paper concludes with policy recommendations.
翻訳日:2024-06-24 14:42:51 公開日:2024-06-21
# TraceNet: ひとつのものを効率的に分割する

TraceNet: Segment one thing efficiently ( http://arxiv.org/abs/2406.14874v1 )

ライセンス: Link先を確認
Mingyuan Wu, Zichuan Liu, Haozhen Zheng, Hongpeng Guo, Bo Chen, Xin Lu, Klara Nahrstedt, (参考訳) 効率的な単一インスタンスセグメンテーションは、キャプチャや編集などのモバイルイメージングアプリケーションの機能をアンロックするために不可欠である。 既存のモバイル画像アプリケーションでは、計算上の制約により、ポートレートや有能な対象にセグメンテーションタスクを適用できる。 効率的なネットワークに向けた最近の進歩にもかかわらず、インスタンスセグメンテーションは、すべてのインスタンスを特定するための画像全体の計算コストのため、依然として重い。 そこで本稿では,ユーザが選択した単一インスタンスを正のタップで分割する,ワンタップ駆動の単一インスタンスセグメンテーションタスクを提案する。 このタスクは、Segment Anything Model \cite{sam}で提案されているような、より広範なセグメンテーションのタスクとは対照的に、ユーザが指定した単一インスタンスの効率的なセグメンテーションに焦点を当てます。 この問題を解決するためにTraceNetを提案する。このTraceNetは、選択したインスタンスを、受容的フィールドトレースによって明示的に特定する。 TraceNetは、ユーザのタップに関連する画像領域を特定し、重い計算は、画像の選択された領域でのみ実行される。 したがって、全体的な計算コストとメモリ消費は推論時に減少する。 我々は、例えばIoU平均におけるTraceNetの性能と、ユーザーがタップした領域の比率を、高品質なシングルインスタンスマスクで評価する。 MS-COCOとLVISの実験結果は,提案手法の有効性と有効性を示すものである。 TraceNetは、効率的なモバイル推論の必要性と、マルチモーダルおよびインタラクティブセグメンテーションモデルに向けた最近の研究トレンドの間のギャップを埋め、効率性と相互作用性を共同で達成することができる。

Efficient single instance segmentation is essential for unlocking features in the mobile imaging applications, such as capture or editing. Existing on-the-fly mobile imaging applications scope the segmentation task to portraits or the salient subject due to the computational constraints. Instance segmentation, despite its recent developments towards efficient networks, is still heavy due to the cost of computation on the entire image to identify all instances. To address this, we propose and formulate a one tap driven single instance segmentation task that segments a single instance selected by a user via a positive tap. This task, in contrast to the broader task of segmenting anything as suggested in the Segment Anything Model \cite{sam}, focuses on efficient segmentation of a single instance specified by the user. To solve this problem, we present TraceNet, which explicitly locates the selected instance by way of receptive field tracing. TraceNet identifies image regions that are related to the user tap and heavy computations are only performed on selected regions of the image. Therefore overall computation cost and memory consumption are reduced during inference. We evaluate the performance of TraceNet on instance IoU average over taps and the proportion of the region that a user tap can fall into for a high-quality single-instance mask. Experimental results on MS-COCO and LVIS demonstrate the effectiveness and efficiency of the proposed approach. TraceNet can jointly achieve the efficiency and interactivity, filling in the gap between needs for efficient mobile inference and recent research trend towards multimodal and interactive segmentation models.
翻訳日:2024-06-24 14:42:51 公開日:2024-06-21
# 包括的多目的組合せ最適化におけるバッチ選択のための学習欲求政策

Training Greedy Policy for Proposal Batch Selection in Expensive Multi-Objective Combinatorial Optimization ( http://arxiv.org/abs/2406.14876v1 )

ライセンス: Link先を確認
Deokjae Lee, Hyun Oh Song, Kyunghyun Cho, (参考訳) 能動学習は、高価な多目的組合せ最適化問題に対してますます採用されているが、これは、評価のためのバッチの良さを定量化するバッチ取得スコアを最適化する、挑戦的なサブセット選択問題を伴う。 サブセット選択問題の過剰な検索スペースのため、先行手法は、実際の空間と不一致な潜伏空間でのバッチ取得を最適化するか、バッチ取得を直接最適化するのではなく、バッチ内の候補間の依存関係を考慮せずに個別の取得スコアを最適化する。 広い探索空間を管理するために、単純で効果的な手法として、問題をより小さなサブプロブレムに分解するgreedy法があるが、各サブプロブレムが前のサブプロブレムの結果に依存するため並列化が困難である。 この目的のために,グリーディポリシから逐次グリーディサンプリングを行うことにより,組換え空間上で直接バッチ取得を最適化する,新しいグリーディスタイルのサブセット選択アルゴリズムを導入する。 特に, 赤蛍光タンパク質設計タスクにおける実験により, 提案手法は1.69倍少ないクエリでベースライン性能を達成し, その効率性を示した。

Active learning is increasingly adopted for expensive multi-objective combinatorial optimization problems, but it involves a challenging subset selection problem, optimizing the batch acquisition score that quantifies the goodness of a batch for evaluation. Due to the excessively large search space of the subset selection problem, prior methods optimize the batch acquisition on the latent space, which has discrepancies with the actual space, or optimize individual acquisition scores without considering the dependencies among candidates in a batch instead of directly optimizing the batch acquisition. To manage the vast search space, a simple and effective approach is the greedy method, which decomposes the problem into smaller subproblems, yet it has difficulty in parallelization since each subproblem depends on the outcome from the previous ones. To this end, we introduce a novel greedy-style subset selection algorithm that optimizes batch acquisition directly on the combinatorial space by sequential greedy sampling from the greedy policy, specifically trained to address all greedy subproblems concurrently. Notably, our experiments on the red fluorescent proteins design task show that our proposed method achieves the baseline performance in 1.69x fewer queries, demonstrating its efficiency.
翻訳日:2024-06-24 14:42:51 公開日:2024-06-21
# スポーツインテリジェンス:テキストからビデオへの質問応答による言語モデルのスポーツ理解能力の評価

Sports Intelligence: Assessing the Sports Understanding Capabilities of Language Models through Question Answering from Text to Video ( http://arxiv.org/abs/2406.14877v1 )

ライセンス: Link先を確認
Zhengbang Yang, Haotian Xia, Jingxi Li, Zezhi Chen, Zhuangdi Zhu, Weining Shen, (参考訳) スポーツを理解することは、その複雑でダイナミックな性質から、自然言語処理(NLP)の発展に不可欠である。 複雑なスポーツシナリオに対する推論は、高度な認知能力を必要とする現在のNLP技術に重大な課題を提起している。 NLP分野におけるスポーツ理解に関する既存のベンチマークの限界に対処するため,各種スポーツタスクにおける主要言語モデルを広範囲に評価した。 我々の評価は、基本的なルールや歴史的事実に関する単純なクエリから、複雑なコンテキスト固有の推論、ゼロショットから少数ショット学習までの戦略の活用、そしてチェーンオブ思考技術まで、多岐にわたる。 さらに,マルチモーダルスポーツ理解ベンチマークのギャップを埋めるために,主流のビデオ言語モデルのスポーツ推論能力について検討した。 以上の結果から,NLPにおけるスポーツ理解の重要な課題が浮き彫りになった。 我々は,既存のスポーツデータセットの包括的概要に基づく新しいベンチマークを提案し,この分野での今後の研究優先事項の特定に役立てられるよう,広範なエラー解析を行った。

Understanding sports is crucial for the advancement of Natural Language Processing (NLP) due to its intricate and dynamic nature. Reasoning over complex sports scenarios has posed significant challenges to current NLP technologies which require advanced cognitive capabilities. Toward addressing the limitations of existing benchmarks on sports understanding in the NLP field, we extensively evaluated mainstream large language models for various sports tasks. Our evaluation spans from simple queries on basic rules and historical facts to complex, context-specific reasoning, leveraging strategies from zero-shot to few-shot learning, and chain-of-thought techniques. In addition to unimodal analysis, we further assessed the sports reasoning capabilities of mainstream video language models to bridge the gap in multimodal sports understanding benchmarking. Our findings highlighted the critical challenges of sports understanding for NLP. We proposed a new benchmark based on a comprehensive overview of existing sports datasets and provided extensive error analysis which we hope can help identify future research priorities in this field.
翻訳日:2024-06-24 14:42:51 公開日:2024-06-21
# MOS:LiDARに基づく3次元物体検出におけるテスト時間適応のためのモデルシナジー

MOS: Model Synergy for Test-Time Adaptation on LiDAR-Based 3D Object Detection ( http://arxiv.org/abs/2406.14878v1 )

ライセンス: Link先を確認
Zhuoxiao Chen, Junjie Meng, Mahsa Baktashmotlagh, Zi Huang, Yadan Luo, (参考訳) LiDARベースの3Dオブジェクト検出は、多くのアプリケーションにおいて重要であるが、そのような検出システムの性能は、デプロイ後に劣化することが多い。 本研究では,MOS(Model Synergy)と呼ばれる検出器のオンライン適応フレームワークを提案する。 特に、MOSは、履歴チェックポイントのバンクからテストバッチ毎に最適なスーパーモデルを動的に組み立て、長期的知識を活用して、モデル更新を忘れずにガイドする。 モデルアセンブリは、合成スーパーモデルにおける冗長性を最小化するために選択されたチェックポイントの重み付け平均化に使用される、提案された相乗重み(SW)によって誘導される。 これらの重みは、テストデータ上の予測境界ボックスの類似度と、銀行内のモデルペア間の特徴独立性を評価することにより算出される。 情報的かつコンパクトなモデルバンクを維持するため、最小のSWスコアを持つチェックポイントをポップアップし、新たに更新されたモデルウェイトを挿入する。 提案手法は,3つのデータセットと8種類の汚職に対して,事前の試験時間領域適応戦略に対して厳格に検証し,シーンや条件の変化に対して優れた適応性を示した。 興味深いことに、当社のアプローチは、クロスデータセットの不整合と現実のシーンの破損を含む複雑な"クロス破壊"シナリオで67.3%のパフォーマンス向上を実現し、適応機能のより現実的なテストベッドを提供する。 コードはhttps://github.com/zhuoxiao-chen/MOSで公開されている。

LiDAR-based 3D object detection is pivotal across many applications, yet the performance of such detection systems often degrades after deployment, especially when faced with unseen test point clouds originating from diverse locations or subjected to corruption. In this work, we introduce a new online adaptation framework for detectors named Model Synergy (MOS). Specifically, MOS dynamically assembles best-fit supermodels for each test batch from a bank of historical checkpoints, leveraging long-term knowledge to guide model updates without forgetting. The model assembly is directed by the proposed synergy weights (SW), employed for weighted averaging of the selected checkpoints to minimize redundancy in the composite supermodel. These weights are calculated by evaluating the similarity of predicted bounding boxes on test data and the feature independence among model pairs in the bank. To maintain an informative yet compact model bank, we pop out checkpoints with the lowest average SW scores and insert newly updated model weights. Our method was rigorously tested against prior test-time domain adaptation strategies on three datasets and under eight types of corruptions, demonstrating its superior adaptability to changing scenes and conditions. Remarkably, our approach achieved a 67.3% increase in performance in a complex "cross-corruption" scenario, which involves cross-dataset inconsistencies and real-world scene corruptions, providing a more realistic testbed of adaptation capabilities. The code is available at https://github.com/zhuoxiao-chen/MOS.
翻訳日:2024-06-24 14:42:51 公開日:2024-06-21
# 量子非共有情報における改善された境界

Improved bounds on quantum uncommon information ( http://arxiv.org/abs/2406.14879v1 )

ライセンス: Link先を確認
Yonghae Lee, Joonwoo Bae, Hayata Yamasaki, Soojoon Lee, (参考訳) 量子非共通情報(quantum uncommon information)は、2つの当事者が共通に共有しない情報を意味する。 量子的非共有情報に対する閉形式表現を導き出すという長年にわたる挑戦にもかかわらず、大きな進歩はいまだに解明されていない。 本研究では、サブスペース交換戦略とレフェリー支援量子交換タスクを用いて、量子不共通情報に関する新たなバウンダリを示す。 どちらの手法も、従来の手法に比べてバウンダリが改善されている。 また、非自明な例を通して、これらの境界の有効性を示す。 提案手法は,様々なシナリオにおいて広く応用されており,特にサブスペース技術は,多人数シナリオにおける非共通情報のキャラクタリゼーションのための汎用的なツールである。

Quantum uncommon information signifies information that two parties do not share in common. Despite the long-standing challenge of deriving a closed-form expression for quantum uncommon information, significant progress has remained elusive. In this work, we present new bounds on quantum uncommon information using a subspace exchange strategy and a referee-assisted quantum exchange task. Both techniques offer improved bounds compared to previous methods. We also demonstrate the effectiveness of these bounds through non-trivial examples. Our results have broader applications in various scenarios, particularly, the subspace technique is a versatile tool for the characterization of uncommon information in multi-party scenarios.
翻訳日:2024-06-24 14:42:51 公開日:2024-06-21
# Pathformer: 複雑な論理的クエリアンサーのための再帰的パスクエリエンコーディング

Pathformer: Recursive Path Query Encoding for Complex Logical Query Answering ( http://arxiv.org/abs/2406.14880v1 )

ライセンス: Link先を確認
Chongzhi Zhang, Zhiping Peng, Junhao Zheng, Linghao Wang, Ruifeng Shi, Qianli Ma, (参考訳) 不完全な知識グラフに対する複雑な論理的クエリ解答(CLQA)は難しい課題です。 近年,マルチホップ論理推論によってCLQAを解くために,クエリ埋め込み(QE)手法が提案されている。 しかし、それらの多くは、将来の情報を無視しながら、過去のクエリコンテキスト情報しか考慮していないため、クエリの要素の背後にある複雑な依存関係をキャプチャできない。 近年、トランスフォーマーアーキテクチャは、単語間の長距離依存関係をモデル化する強力な能力を示している。 変換器が提案する双方向アテンション機構は、クエリコンテキストに関するこれらのQEメソッドの制限を解決することができる。 それでも、シーケンスモデルとして、分岐構造計算グラフを直接で複雑な論理的クエリをモデル化することは困難である。 そこで本研究では,木のような計算グラフ,すなわちクエリ計算木に基づく,Pathformerと呼ばれるニューラルネットワークによる一点埋め込み手法を提案する。 具体的には、Pathformerは、クエリ計算ツリーを分岐によってパスクエリシーケンスに分解し、変換器エンコーダを使用して、これらのパスクエリシーケンスを再帰的にエンコードして、最終的なクエリ埋め込みを取得する。 これにより、Pathformerは将来のコンテキスト情報を完全に活用して、パスクエリの様々な部分間の複雑な相互作用を明示的にモデル化することができる。 実験の結果、Pathformerは既存の競合型ニューラルネットワークQE法よりも優れており、Pathformerは非一点埋め込み空間に適用できる可能性があることが判明した。

Complex Logical Query Answering (CLQA) over incomplete knowledge graphs is a challenging task. Recently, Query Embedding (QE) methods are proposed to solve CLQA by performing multi-hop logical reasoning. However, most of them only consider historical query context information while ignoring future information, which leads to their failure to capture the complex dependencies behind the elements of a query. In recent years, the transformer architecture has shown a strong ability to model long-range dependencies between words. The bidirectional attention mechanism proposed by the transformer can solve the limitation of these QE methods regarding query context. Still, as a sequence model, it is difficult for the transformer to model complex logical queries with branch structure computation graphs directly. To this end, we propose a neural one-point embedding method called Pathformer based on the tree-like computation graph, i.e., query computation tree. Specifically, Pathformer decomposes the query computation tree into path query sequences by branches and then uses the transformer encoder to recursively encode these path query sequences to obtain the final query embedding. This allows Pathformer to fully utilize future context information to explicitly model the complex interactions between various parts of the path query. Experimental results show that Pathformer outperforms existing competitive neural QE methods, and we found that Pathformer has the potential to be applied to non-one-point embedding space.
翻訳日:2024-06-24 14:42:51 公開日:2024-06-21
# 70B-parameter large language model in Japanese medical question-wering

70B-parameter large language models in Japanese medical question-answering ( http://arxiv.org/abs/2406.14882v1 )

ライセンス: Link先を確認
Issey Sukeda, Risa Kishikawa, Satoshi Kodera, (参考訳) 大規模言語モデル(LLM)の台頭以来、ドメイン適応は様々な領域でホットなトピックの1つとなっている。 英国の医療データセットで訓練された多くの医療用LLMが最近公開された。 しかし、日本の医学分野のLLMには研究の欠如がある。 ここでは, 初めて複数の70BパラメータLPMを用いて, 日本語医学質問応答データセットを用いた指導指導が, 日本医学免許試験の解答能力を大幅に向上し, 精度が50%を超えていることを示す。 特に、日本語中心のモデルでは、英語中心のモデルに比べて、指導調律による改良が顕著に進んでいる。 このことは、我々の言語におけるトークン化の継続的な事前訓練と調整の重要性を浮き彫りにしている。 また、2つの異なるプロンプトフォーマットも検討し、非無視のパフォーマンス改善を実現した。

Since the rise of large language models (LLMs), the domain adaptation has been one of the hot topics in various domains. Many medical LLMs trained with English medical dataset have made public recently. However, Japanese LLMs in medical domain still lack its research. Here we utilize multiple 70B-parameter LLMs for the first time and show that instruction tuning using Japanese medical question-answering dataset significantly improves the ability of Japanese LLMs to solve Japanese medical license exams, surpassing 50\% in accuracy. In particular, the Japanese-centric models exhibit a more significant leap in improvement through instruction tuning compared to their English-centric counterparts. This underscores the importance of continual pretraining and the adjustment of the tokenizer in our local language. We also examine two slightly different prompt formats, resulting in non-negligible performance improvement.
翻訳日:2024-06-24 14:42:51 公開日:2024-06-21
# OATHフレーム:LLMアシスタントによるホームレスに対するオンライン態度の特徴付け

OATH-Frames: Characterizing Online Attitudes Towards Homelessness with LLM Assistants ( http://arxiv.org/abs/2406.14883v1 )

ライセンス: Link先を確認
Jaspreet Ranjit, Brihi Joshi, Rebecca Dorn, Laura Petry, Olga Koumoundouros, Jayne Bottarini, Peichen Liu, Eric Rice, Swabha Swayamdipta, (参考訳) 警告: この論文の内容は動揺しているかもしれない。 オンラインメディアで表現された重要な社会問題に対する大衆の態度は、政策や改革活動において大きな価値を持っているが、大規模に理解することは困難である。 われわれは、米国のホームレスについて、大規模言語モデルの驚くべき能力を活用して、Twitterから何百万もの投稿を解析するソーシャルワークの専門家を支援することで研究している。 フレーミング型について紹介する: オンライン態度(Online Attitudes Towards Homelessness, OATH)フレーム:9つの階層的なフレームが批判、反応、知覚を捉えている。 アノテーションのスピードアップは6.5倍ですが、ドメインの専門家にとってはパフォーマンスが3ポイントF1に低下します。 本実験は,OATHフレームを既存の感情と毒性分類器に比較してモデル化することの価値を実証する。 OATH-Frames on 2.4M post on 2.4M post on homelessness” による大規模分析では、州、期間、脆弱な人口に対する態度の重要さが示され、この問題に対する新たな洞察が得られました。 我々の研究は、ホームレス以外の問題に関して、大規模な公共の態度を理解するための一般的な枠組みを提供する。

Warning: Contents of this paper may be upsetting. Public attitudes towards key societal issues, expressed on online media, are of immense value in policy and reform efforts, yet challenging to understand at scale. We study one such social issue: homelessness in the U.S., by leveraging the remarkable capabilities of large language models to assist social work experts in analyzing millions of posts from Twitter. We introduce a framing typology: Online Attitudes Towards Homelessness (OATH) Frames: nine hierarchical frames capturing critiques, responses and perceptions. We release annotations with varying degrees of assistance from language models, with immense benefits in scaling: 6.5x speedup in annotation time while only incurring a 3 point F1 reduction in performance with respect to the domain experts. Our experiments demonstrate the value of modeling OATH-Frames over existing sentiment and toxicity classifiers. Our large-scale analysis with predicted OATH-Frames on 2.4M posts on homelessness reveal key trends in attitudes across states, time periods and vulnerable populations, enabling new insights on the issue. Our work provides a general framework to understand nuanced public attitudes at scale, on issues beyond homelessness.
翻訳日:2024-06-24 14:42:51 公開日:2024-06-21
# FlowBench: LLMベースのエージェントのためのワークフローガイドプランニングの再検討とベンチマーク

FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents ( http://arxiv.org/abs/2406.14884v1 )

ライセンス: Link先を確認
Ruixuan Xiao, Wentao Ma, Ke Wang, Yuchuan Wu, Junbo Zhao, Haobo Wang, Fei Huang, Yongbin Li, (参考訳) LLMベースのエージェントは、反復的な計画と行動によって複雑なタスクを遂行するために作られた有望なツールとして登場した。 しかし、これらのエージェントは専門知識に満ちたタスクの特定の知識が欠如している場合、望ましくない計画幻覚に陥る。 これを解決するために、外部ワークフロー関連の知識を組み込むことで、計画の信頼性を高めるための予備的な試みが行われた。 約束にもかかわらず、そのような注入された知識は、厳密な形式化と包括的な比較の欠如により、主に非組織化され、形式的に多様である。 これを受けて、ワークフロー知識の異なるフォーマットを形式化し、ワークフロー誘導計画の最初のベンチマークであるFlowBenchを提示します。 FlowBenchは6つのドメインから51のシナリオをカバーしている。 FlowBench上で異なるLCMを評価するために,多層評価フレームワークを設計する。 本研究は,複数のフォーマットにまたがるワークフロー知識の有効性を評価した結果,既存のLCMエージェントは良好な計画を立てるためにかなりの改善が必要であることが示唆された。 我々は、我々の挑戦的なベンチマークが将来のエージェント計画研究の道を開くことを願っている。

LLM-based agents have emerged as promising tools, which are crafted to fulfill complex tasks by iterative planning and action. However, these agents are susceptible to undesired planning hallucinations when lacking specific knowledge for expertise-intensive tasks. To address this, preliminary attempts are made to enhance planning reliability by incorporating external workflow-related knowledge. Despite the promise, such infused knowledge is mostly disorganized and diverse in formats, lacking rigorous formalization and comprehensive comparisons. Motivated by this, we formalize different formats of workflow knowledge and present FlowBench, the first benchmark for workflow-guided planning. FlowBench covers 51 different scenarios from 6 domains, with knowledge presented in diverse formats. To assess different LLMs on FlowBench, we design a multi-tiered evaluation framework. We evaluate the efficacy of workflow knowledge across multiple formats, and the results indicate that current LLM agents need considerable improvements for satisfactory planning. We hope that our challenging benchmark can pave the way for future agent planning research.
翻訳日:2024-06-24 14:33:07 公開日:2024-06-21
# InternLM-Law: オープンソースの中国の法律大言語モデル

InternLM-Law: An Open Source Chinese Legal Large Language Model ( http://arxiv.org/abs/2406.14887v1 )

ライセンス: Link先を確認
Zhiwei Fei, Songyang Zhang, Xiaoyu Shen, Dawei Zhu, Xiao Wang, Maosong Cao, Fengzhe Zhou, Yining Li, Wenwei Zhang, Dahua Lin, Kai Chen, Jidong Ge, (参考訳) 大きな言語モデル(LLM)は印象的な能力を示してきたが、法的分野に必要な複雑な複雑さと専門知識のために、法的クエリに対処するのに苦労している。 本稿では,中国法に関する多様な法的クエリに対処するための専門的なLLMであるInternLM-Lawを紹介する。 われわれは、中国法域内に100万以上のクエリを含むデータセットを慎重に構築し、その多様性と品質を確保するために、データフィルタリングと処理パイプラインを実装した。 当社のトレーニングアプローチでは,まず法的な内容と汎用コンテンツの両方を微調整し,より広い知識でモデルを調整し,続いて高品質な法データのみを微調整し,構造化された出力生成を向上させるという,新たな2段階のプロセスが採用されている。 InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。 InternLM-Lawと当社のデータセットを公開して,LLMを法域内で適用するための今後の研究を促進する。

While large language models (LLMs) have showcased impressive capabilities, they struggle with addressing legal queries due to the intricate complexities and specialized expertise required in the legal field. In this paper, we introduce InternLM-Law, a specialized LLM tailored for addressing diverse legal queries related to Chinese laws, spanning from responding to standard legal questions (e.g., legal exercises in textbooks) to analyzing complex real-world legal situations. We meticulously construct a dataset in the Chinese legal domain, encompassing over 1 million queries, and implement a data filtering and processing pipeline to ensure its diversity and quality. Our training approach involves a novel two-stage process: initially fine-tuning LLMs on both legal-specific and general-purpose content to equip the models with broad knowledge, followed by exclusive fine-tuning on high-quality legal data to enhance structured output generation. InternLM-Law achieves the highest average performance on LawBench, outperforming state-of-the-art models, including GPT-4, on 13 out of 20 subtasks. We make InternLM-Law and our dataset publicly available to facilitate future research in applying LLMs within the legal domain.
翻訳日:2024-06-24 14:33:07 公開日:2024-06-21
# InterBiasing: バイザリング中間予測による未知語認識の促進

InterBiasing: Boost Unseen Word Recognition through Biasing Intermediate Predictions ( http://arxiv.org/abs/2406.14890v1 )

ライセンス: Link先を確認
Yu Nakagome, Michael Hentschel, (参考訳) 近年のエンドツーエンド音声認識手法の進歩にもかかわらず、その出力はトレーニングデータの語彙に偏り、未知の用語や固有名詞の正確な認識が得られない。 そこで本稿では, 自己条件付きCTCに基づく適応パラメータフリー手法を提案する。 提案手法は, 誤認識対象キーワードの認識精度を向上させるため, 中間CTC予測を補正ラベルで置換し, 後続の層に渡す。 まず、Text-to-Speechと認識モデルを用いてキーワードリストに対して、正しいラベルと認識エラーのペアを作成する。 これらのペアを使って、ラベルによる中間予測エラーを置き換えます。 その後のエンコーダの層をラベルに条件付けすることで、ターゲットキーワードを音響的に評価することができる。 日本語を用いた実験により,未知語に対するF1スコアの改善が得られた。

Despite recent advances in end-to-end speech recognition methods, their output is biased to the training data's vocabulary, resulting in inaccurate recognition of unknown terms or proper nouns. To improve the recognition accuracy for a given set of such terms, we propose an adaptation parameter-free approach based on Self-conditioned CTC. Our method improves the recognition accuracy of misrecognized target keywords by substituting their intermediate CTC predictions with corrected labels, which are then passed on to the subsequent layers. First, we create pairs of correct labels and recognition error instances for a keyword list using Text-to-Speech and a recognition model. We use these pairs to replace intermediate prediction errors by the labels. Conditioning the subsequent layers of the encoder on the labels, it is possible to acoustically evaluate the target keywords. Experiments conducted in Japanese demonstrated that our method successfully improved the F1 score for unknown words.
翻訳日:2024-06-24 14:33:07 公開日:2024-06-21
# マルチホップ質問応答のための検索機能付きジェネレーションゲーム

Generate-then-Ground in Retrieval-Augmented Generation for Multi-hop Question Answering ( http://arxiv.org/abs/2406.14891v1 )

ライセンス: Link先を確認
Zhengliang Shi, Shuo Zhang, Weiwei Sun, Shen Gao, Pengjie Ren, Zhumin Chen, Zhaochun Ren, (参考訳) MHQA(Multi-Hop Question Answering)タスクは、大量の知識を必要とするため、大規模言語モデル(LLM)にとって大きな課題となる。 Retrieval-Augmented Generationのような現在のソリューションは、通常、外部のコーパスから潜在的なドキュメントを取得して、回答を読む。 しかし、この検索テーマのパラダイムの性能は、検索者によって制約され、検索された文書のノイズは避けられない。 これらの課題を軽減するために,LLMと外部文書のパラメトリック知識を相乗化して,マルチホップ問題を解決する新しい生成テーマ(GenGround)フレームワークを導入する。 GenGroundは、最終回答が導出されるまでLLMに2つのフェーズを交互に行う権限を与えている: 1) より単純でシングルホップな質問を定式化し、直接回答を生成する; (2) 検索した文書に質問と回答のペアを接地し、答えの間違った予測を修正する。 また,本手法をより小さなモデルに一般化する指導的接地蒸留法を提案する。 4つのデータセットで実施した大規模な実験は,本手法の優位性を示している。

Multi-Hop Question Answering (MHQA) tasks present a significant challenge for large language models (LLMs) due to the intensive knowledge required. Current solutions, like Retrieval-Augmented Generation, typically retrieve potential documents from an external corpus to read an answer. However, the performance of this retrieve-then-read paradigm is constrained by the retriever and the inevitable noise in the retrieved documents. To mitigate these challenges, we introduce a novel generate-then-ground (GenGround) framework, synergizing the parametric knowledge of LLMs and external documents to solve a multi-hop question. GenGround empowers LLMs to alternate two phases until the final answer is derived: (1) formulate a simpler, single-hop question and directly generate the answer; (2) ground the question-answer pair in retrieved documents, amending any wrong predictions in the answer. We also propose an instructional grounding distillation method to generalize our method into smaller models. Extensive experiments conducted on four datasets illustrate the superiority of our method.
翻訳日:2024-06-24 14:33:07 公開日:2024-06-21
# 会話はウォーキングを必要としない:語彙的包摂認識における大規模言語モデルの限界について

Talking the Talk Does Not Entail Walking the Walk: On the Limits of Large Language Models in Lexical Entailment Recognition ( http://arxiv.org/abs/2406.14894v1 )

ライセンス: Link先を確認
Candida M. Greco, Lucio La Cava, Andrea Tagarelli, (参考訳) 動詞は言語のバックボーンを形成し、文の構造と意味を提供する。 しかし、それらの複雑な意味的ニュアンスには、長年にわたる課題がある。 語彙的含意の概念による動詞関係の理解は、文の意味を理解し、動詞のダイナミクスを把握するために不可欠である。 本研究では,2つの語彙データベース,WordNet と HyperLex の動詞対に対して,異なる方法で考案されたプロンプト戦略とゼロ/フェーショット設定によって,動詞間の語彙関係を認識する8つの大規模言語モデルの能力について検討する。 本研究の結果から, 各モデルでは, 適度な性能で, 有効性や条件の相違はあるものの, 語彙内包認識タスクに適応できることが判明した。 また、数発のプロンプトを利用することで、モデルの性能を向上させることができる。 しかし、この課題を完璧に解決することは、全ての研究 LLM にとって未解決の課題として生じ、この話題に関するさらなる研究の進展を招きかねない。

Verbs form the backbone of language, providing the structure and meaning to sentences. Yet, their intricate semantic nuances pose a longstanding challenge. Understanding verb relations through the concept of lexical entailment is crucial for comprehending sentence meanings and grasping verb dynamics. This work investigates the capabilities of eight Large Language Models in recognizing lexical entailment relations among verbs through differently devised prompting strategies and zero-/few-shot settings over verb pairs from two lexical databases, namely WordNet and HyperLex. Our findings unveil that the models can tackle the lexical entailment recognition task with moderately good performance, although at varying degree of effectiveness and under different conditions. Also, utilizing few-shot prompting can enhance the models' performance. However, perfectly solving the task arises as an unmet challenge for all examined LLMs, which raises an emergence for further research developments on this topic.
翻訳日:2024-06-24 14:33:07 公開日:2024-06-21
# SelfReg-UNet: 医療画像セグメンテーションのための自己正規化UNet

SelfReg-UNet: Self-Regularized UNet for Medical Image Segmentation ( http://arxiv.org/abs/2406.14896v1 )

ライセンス: Link先を確認
Wenhui Zhu, Xiwen Chen, Peijie Qiu, Mohammad Farazi, Aristeidis Sotiras, Abolfazl Razi, Yalin Wang, (参考訳) 導入以来、UNetは様々な医療画像セグメンテーションタスクを率いてきた。 標準UNetの性能向上にも多くのフォローアップ研究が費やされているが、医用画像のセグメンテーションにおけるUNetの基本的な関心パターンを詳細に分析する研究は少ない。 本稿では、UNetで学んだパターンを調査し、その性能に影響を与える可能性のある2つの重要な要因を観察する。 一 非対称な監督によって学習された非対称的特徴 (ii)特徴写像における特徴冗長性。 そこで本研究では,エンコーダとデコーダのバランスをとるとともに,UNetにおける冗長な情報を削減することを提案する。 具体的には、最もセマンティックな情報(つまりデコーダの最後の層)を含む特徴マップを使用して、他のブロックに対する追加の監視を提供し、特徴蒸留を利用して、追加の監視と特徴の冗長性を低減する。 提案手法は,プラグアンドプレイ方式で既存のUNetアーキテクチャと容易に統合でき,計算コストは無視できる。 実験結果から,提案手法は4つの医用画像セグメンテーションデータセット上での標準UNETの性能を一貫して改善することが示された。 コードは \url{https://github.com/ChongQingNoSubway/SelfReg-UNet} で公開されている。

Since its introduction, UNet has been leading a variety of medical image segmentation tasks. Although numerous follow-up studies have also been dedicated to improving the performance of standard UNet, few have conducted in-depth analyses of the underlying interest pattern of UNet in medical image segmentation. In this paper, we explore the patterns learned in a UNet and observe two important factors that potentially affect its performance: (i) irrelative feature learned caused by asymmetric supervision; (ii) feature redundancy in the feature map. To this end, we propose to balance the supervision between encoder and decoder and reduce the redundant information in the UNet. Specifically, we use the feature map that contains the most semantic information (i.e., the last layer of the decoder) to provide additional supervision to other blocks to provide additional supervision and reduce feature redundancy by leveraging feature distillation. The proposed method can be easily integrated into existing UNet architecture in a plug-and-play fashion with negligible computational cost. The experimental results suggest that the proposed method consistently improves the performance of standard UNets on four medical image segmentation datasets. The code is available at \url{https://github.com/ChongQingNoSubway/SelfReg-UNet}
翻訳日:2024-06-24 14:33:07 公開日:2024-06-21
# プライベートデータによる安全な学習 - 大規模言語モデルのためのフェデレーション学習フレームワーク

Safely Learning with Private Data: A Federated Learning Framework for Large Language Model ( http://arxiv.org/abs/2406.14898v1 )

ライセンス: Link先を確認
JiaYing Zheng, HaiNan Zhang, LingXiang Wang, WangJie Qiu, HongWei Zheng, ZhiMing Zheng, (参考訳) 公開データよりも大きく、高品質なプライベートデータは、大きな言語モデル(LLM)を大幅に改善することができる。 しかし、プライバシー上の懸念から、このデータは複数のサイロに分散されることが多く、LLMトレーニングの安全な利用が課題となっている。 Federated Learning(FL)は、分散プライベートデータでモデルをトレーニングするのに理想的なソリューションだが、クライアントに対する高い計算要求のため、従来のFedAvgのようなフレームワークはLLMには適さない。 代替のスプリットラーニングでは、ほとんどのトレーニングパラメータをサーバにオフロードし、ローカルに埋め込み層と出力層をトレーニングすることで、LLMにもっと適している。 それでも、セキュリティと効率の面で大きな課題に直面している。 まず、埋め込みの勾配は攻撃を受けやすいため、プライベートデータのリバースエンジニアリングにつながる可能性がある。 さらに、サーバが一度にひとつのクライアントのトレーニング要求のみを処理することの制限は、並列トレーニングを妨げ、トレーニング効率に深刻な影響を与えます。 本稿では,FL-GLMというLDMのためのフェデレートラーニングフレームワークを提案する。このフレームワークは,サーバ側とピア側の両方の攻撃によるデータ漏洩を防止し,トレーニング効率を向上する。 具体的には、まず入力ブロックと出力ブロックをローカルクライアントに配置し、サーバからの埋め込み勾配攻撃を防止する。 第2に,クライアントサーバ間通信において,ピアクライアントからのリバースエンジニアリング攻撃を防止するために,キー暗号化を用いる。 最後に、クライアントバッチやサーバ階層といった最適化手法を採用し、サーバの実際の計算能力に基づいて異なる加速度手法を採用する。 NLUおよび生成タスクの実験結果から,FL-GLMは集中型チャットGLMモデルに匹敵する指標を達成し,フェデレートした学習フレームワークの有効性を検証した。

Private data, being larger and quality-higher than public data, can greatly improve large language models (LLM). However, due to privacy concerns, this data is often dispersed in multiple silos, making its secure utilization for LLM training a challenge. Federated learning (FL) is an ideal solution for training models with distributed private data, but traditional frameworks like FedAvg are unsuitable for LLM due to their high computational demands on clients. An alternative, split learning, offloads most training parameters to the server while training embedding and output layers locally, making it more suitable for LLM. Nonetheless, it faces significant challenges in security and efficiency. Firstly, the gradients of embeddings are prone to attacks, leading to potential reverse engineering of private data. Furthermore, the server's limitation of handle only one client's training request at a time hinders parallel training, severely impacting training efficiency. In this paper, we propose a Federated Learning framework for LLM, named FL-GLM, which prevents data leakage caused by both server-side and peer-client attacks while improving training efficiency. Specifically, we first place the input block and output block on local client to prevent embedding gradient attacks from server. Secondly, we employ key-encryption during client-server communication to prevent reverse engineering attacks from peer-clients. Lastly, we employ optimization methods like client-batching or server-hierarchical, adopting different acceleration methods based on the actual computational capabilities of the server. Experimental results on NLU and generation tasks demonstrate that FL-GLM achieves comparable metrics to centralized chatGLM model, validating the effectiveness of our federated learning framework.
翻訳日:2024-06-24 14:33:07 公開日:2024-06-21
# GIEBench:大規模言語モデルに対するグループ固有性に基づく共感の全体的評価に向けて

GIEBench: Towards Holistic Evaluation of Group Indentity-based Empathy for Large Language Models ( http://arxiv.org/abs/2406.14903v1 )

ライセンス: Link先を確認
Leyan Wang, Yonggang Jin, Tianhao Shen, Tianyu Zheng, Xinrun Du, Chenchen Zhang, Wenhao Huang, Jiaheng Liu, Shi Wang, Ge Zhang, Liuyu Xiang, Zhaofeng He, (参考訳) 大規模言語モデル (LLM) の発展と普及が進むにつれて, LLM が多様なグループアイデンティティに対して共感を示し,それらの視点を理解する能力はますます重要視されている。 LLMの共感評価のための既存のベンチマークのほとんどは、悲しみや痛みなどの普遍的な人間の感情に焦点を当てており、しばしば個人の集団のアイデンティティの文脈を見下ろしている。 このギャップに対処するために、GIEBenchという、11のアイデンティティディメンションを含む総合的なベンチマークを導入し、97のグループアイデンティティをカバーし、グループアイデンティティに関連する合計999のシングルチョイス質問をカバーした。 GIEBenchは、性別、年齢、職業、人種などの特定のグループのアイデンティティを提示するときのLLMの共感を評価するように設計されており、特定グループの立場から反応する能力を強調している。 これは、異なるアイデンティティを持つユーザに適した共感型LLMアプリケーションの開発を継続するのをサポートする。 LLMを23個評価したところ、これらのLCMは異なるアイデンティティの観点から理解されているものの、これらの視点を採用するための明示的な指示なしでは、同一の共感を連続的に示さないことが明らかとなった。 このことは、人間のアイデンティティの多面的性質をよりよく適合させるために、多様な値を持つLCMのアライメントを改善する必要性を強調している。 データセットはhttps://github.com/GIEBench/GIEBench.comで公開しています。

As large language models (LLMs) continue to develop and gain widespread application, the ability of LLMs to exhibit empathy towards diverse group identities and understand their perspectives is increasingly recognized as critical. Most existing benchmarks for empathy evaluation of LLMs focus primarily on universal human emotions, such as sadness and pain, often overlooking the context of individuals' group identities. To address this gap, we introduce GIEBench, a comprehensive benchmark that includes 11 identity dimensions, covering 97 group identities with a total of 999 single-choice questions related to specific group identities. GIEBench is designed to evaluate the empathy of LLMs when presented with specific group identities such as gender, age, occupation, and race, emphasizing their ability to respond from the standpoint of the identified group. This supports the ongoing development of empathetic LLM applications tailored to users with different identities. Our evaluation of 23 LLMs revealed that while these LLMs understand different identity standpoints, they fail to consistently exhibit equal empathy across these identities without explicit instructions to adopt those perspectives. This highlights the need for improved alignment of LLMs with diverse values to better accommodate the multifaceted nature of human identities. Our datasets are available at https://github.com/GIEBench/GIEBench.
翻訳日:2024-06-24 14:33:07 公開日:2024-06-21
# 点予測器を用いた予測区間の信頼性向上:ヘテロセダスティック量子回帰と幅適応等角推論

Enhancing reliability in prediction intervals using point forecasters: Heteroscedastic Quantile Regression and Width-Adaptive Conformal Inference ( http://arxiv.org/abs/2406.14904v1 )

ライセンス: Link先を確認
Carlos Sebastián, Carlos E. González-Guillén, Jesús Juan, (参考訳) 時系列予測問題に対する予測間隔を構築することは、特に業界の実践者にとって一般的なシナリオであるポイント予測にのみ依存する場合、複雑な課題を示す。 研究は主に効率のよい有効区間の達成に焦点を合わせてきたが、一組の間隔を評価する場合、従来の尺度だけでは不十分である、と我々は論じている。 間隔は長さによって変化し、この変化は予測の難易度に直接関連し、間隔のカバレッジは実用性予測の難易度とは独立に保たなければならない。 本稿では,HQRモデルとWidth-Adaptive Conformal Inference(WACI)手法を提案する。 これらの手法は, 電力価格予測と風力発電予測の文脈で評価され, 時系列予測における複雑なシナリオを表す。 その結果, HQR と WACI は, 有効性と効率の典型的な尺度を改良し, 達成するだけでなく, 一般的に言及されている特徴を満たすことができた。

Building prediction intervals for time series forecasting problems presents a complex challenge, particularly when relying solely on point predictors, a common scenario for practitioners in the industry. While research has primarily focused on achieving increasingly efficient valid intervals, we argue that, when evaluating a set of intervals, traditional measures alone are insufficient. There are additional crucial characteristics: the intervals must vary in length, with this variation directly linked to the difficulty of the prediction, and the coverage of the interval must remain independent of the difficulty of the prediction for practical utility. We propose the Heteroscedastic Quantile Regression (HQR) model and the Width-Adaptive Conformal Inference (WACI) method, providing theoretical coverage guarantees, to overcome those issues, respectively. The methodologies are evaluated in the context of Electricity Price Forecasting and Wind Power Forecasting, representing complex scenarios in time series forecasting. The results demonstrate that HQR and WACI not only improve or achieve typical measures of validity and efficiency but also successfully fulfil the commonly ignored mentioned characteristics.
翻訳日:2024-06-24 14:33:07 公開日:2024-06-21
# MoA: 自動大言語モデル圧縮のためのスパースアテンションの混合

MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression ( http://arxiv.org/abs/2406.14909v1 )

ライセンス: Link先を確認
Tianyu Fu, Haofeng Huang, Xuefei Ning, Genghan Zhang, Boju Chen, Tianqi Wu, Hongyi Wang, Zixiao Huang, Shiyao Li, Shengen Yan, Guohao Dai, Huazhong Yang, Yu Wang, (参考訳) スパースアテンションは、長期のコンテキストにおいて、LLM(Large Language Models)の重要なメモリとスループットの要求を効果的に軽減することができる。 既存の方法は、通常、均一なスパースアテンションマスクを使用し、異なるアテンションヘッドと入力長さに同じスパースパターンを適用している。 しかし、この均一なアプローチは、LLMに固有の様々な注意パターンを捉えることができず、異なる精度-遅延トレードオフを無視している。 この課題に対処するために、異なる頭や層に異なる注意配置を自動調整するMixture of Attention (MoA)を提案する。 MoAは、様々な注意パターンと、入力シーケンスの長さに対するスケーリングルールの検索空間を構築し、ナビゲートする。 モデルをプロファイルし、潜在的構成を評価し、最適のスパースアテンション圧縮計画をピンポイントする。 MoAは様々な入力サイズに対応し、いくつかの注意点がより長いシーケンスに対応するように焦点を拡大し、他のヘッドは固定長のローカルコンテキストに一貫して集中することを示した。 実験の結果、MoAは平均的な注意範囲で有効コンテキスト長を$3.9\times$で増加し、Vicuna-7B、Vicuna-13B、Llama3-8Bの各モデルにまたがる均一なアテンションベースラインに対して$1.5-7.1\times$で検索精度を1.5-7.1\times$で向上した。 さらに、MoAはスパースモデルと高密度モデルの間の能力ギャップを狭め、2つの長期コンテキスト理解ベンチマークにおいて、最大相対的な性能低下を9\%-36\%から5\%以内に削減する。 MoAは、GPUメモリの削減とデコードスループットの5.5-6.7 \times$を1つのGPU上で7Bと13Bの高密度モデルで達成し、パフォーマンスに最小限の影響を与える。

Sparse attention can effectively mitigate the significant memory and throughput demands of Large Language Models (LLMs) in long contexts. Existing methods typically employ a uniform sparse attention mask, applying the same sparse pattern across different attention heads and input lengths. However, this uniform approach fails to capture the diverse attention patterns inherent in LLMs, ignoring their distinct accuracy-latency trade-offs. To address this challenge, we propose the Mixture of Attention (MoA), which automatically tailors distinct sparse attention configurations to different heads and layers. MoA constructs and navigates a search space of various attention patterns and their scaling rules relative to input sequence lengths. It profiles the model, evaluates potential configurations, and pinpoints the optimal sparse attention compression plan. MoA adapts to varying input sizes, revealing that some attention heads expand their focus to accommodate longer sequences, while other heads consistently concentrate on fixed-length local contexts. Experiments show that MoA increases the effective context length by $3.9\times$ with the same average attention span, boosting retrieval accuracy by $1.5-7.1\times$ over the uniform-attention baseline across Vicuna-7B, Vicuna-13B, and Llama3-8B models. Moreover, MoA narrows the capability gaps between sparse and dense models, reducing the maximum relative performance drop from $9\%-36\%$ to within $5\%$ across two long-context understanding benchmarks. MoA achieves a $1.2-1.4\times$ GPU memory reduction and boosts decode throughput by $5.5-6.7 \times$ for 7B and 13B dense models on a single GPU, with minimal impact on performance.
翻訳日:2024-06-24 14:33:07 公開日:2024-06-21
# FC3DNet:効率的な復号化のための完全接続エンコーダデコーダ

FC3DNet: A Fully Connected Encoder-Decoder for Efficient Demoir'eing ( http://arxiv.org/abs/2406.14912v1 )

ライセンス: Link先を確認
Zhibo Du, Long Peng, Yang Wang, Yang Cao, Zheng-Jun Zha, (参考訳) Moir\eパターンは、画面の写真を撮るときによく見られる。 カメラデバイスは通常、ハードウェアの性能は限られているが、高解像度の写真を撮る。 しかし,利用者は写真処理時間に敏感であり,復刻法における効率性の課題がほとんど考慮されていない。 ネットワークの速度と結果の質のバランスをとるために, FC3DNet を用いた \textbf{F}ully \textbf{C}onnected en\textbf{C}oder-de\textbf{C}oder based \textbf{D}emoir\'eing \textbf{Net}work (FC3DNet) を提案する。 FC3DNetは、デコーダの各ステージに複数のスケールを持つ機能を利用して、長い範囲のパターンと、どちらもdemoir\eingの重要な側面である様々なローカルmoir\eスタイルを含む包括的情報を提供している。 さらに,複数の特徴をフル活用するために,各特徴の重要性を考慮し,効率よく圧縮するMFMAF (Multi-Feature Multi-Attention Fusion) モジュールを設計した。 これらの設計により、我々のネットワークは、少数のパラメータ、FLOP、ランタイムしか利用せずに、実世界のデータセットにおける最先端(SOTA)メソッドに匹敵するパフォーマンスを達成することができる。

Moir\'e patterns are commonly seen when taking photos of screens. Camera devices usually have limited hardware performance but take high-resolution photos. However, users are sensitive to the photo processing time, which presents a hardly considered challenge of efficiency for demoir\'eing methods. To balance the network speed and quality of results, we propose a \textbf{F}ully \textbf{C}onnected en\textbf{C}oder-de\textbf{C}oder based \textbf{D}emoir\'eing \textbf{Net}work (FC3DNet). FC3DNet utilizes features with multiple scales in each stage of the decoder for comprehensive information, which contains long-range patterns as well as various local moir\'e styles that both are crucial aspects in demoir\'eing. Besides, to make full use of multiple features, we design a Multi-Feature Multi-Attention Fusion (MFMAF) module to weigh the importance of each feature and compress them for efficiency. These designs enable our network to achieve performance comparable to state-of-the-art (SOTA) methods in real-world datasets while utilizing only a fraction of parameters, FLOPs, and runtime.
翻訳日:2024-06-24 14:33:07 公開日:2024-06-21
# 視覚課題におけるコルモゴロフ・アルノルドネットワークの有効性の実証

Demonstrating the Efficacy of Kolmogorov-Arnold Networks in Vision Tasks ( http://arxiv.org/abs/2406.14916v1 )

ライセンス: Link先を確認
Minjong Cheon, (参考訳) ディープラーニングの領域では、多層投影(MLP)の代替としてコルモゴロフ・アルノルドネットワーク(KAN)が出現している。 しかし、ビジョンタスクへの適用性は広く検証されていない。 本研究では,MNIST, CIFAR10, CIFAR100データセットの複数試行を通して, 視覚タスクにおけるkanの有効性を, トレーニングバッチサイズ32。 CIFAR10 と CIFAR100 の MLP-Mixer は,KAN が CIFAR10 と CIFAR100 の MLP-Mixer を上回り,最先端の ResNet-18 よりも若干悪い性能を示した。 まず、視覚タスクに対するkanベースのアルゴリズムの効率を実証し、次に、MLP-Mixer, CNNs, Vision Transformer (ViT) と比較し、さまざまな視覚ベンチマークにおいてkanの性能を広範囲に評価し、また、視覚タスクにおける自然の kan 層の利用を開拓し、従来の研究のギャップに対処する。 本稿では,画像分類タスクの信頼性のある代替手段としての可能性を強調し,今後のKANSA研究の基盤を定めている。

In the realm of deep learning, the Kolmogorov-Arnold Network (KAN) has emerged as a potential alternative to multilayer projections (MLPs). However, its applicability to vision tasks has not been extensively validated. In our study, we demonstrated the effectiveness of KAN for vision tasks through multiple trials on the MNIST, CIFAR10, and CIFAR100 datasets, using a training batch size of 32. Our results showed that while KAN outperformed the original MLP-Mixer on CIFAR10 and CIFAR100, it performed slightly worse than the state-of-the-art ResNet-18. These findings suggest that KAN holds significant promise for vision tasks, and further modifications could enhance its performance in future evaluations.Our contributions are threefold: first, we showcase the efficiency of KAN-based algorithms for visual tasks; second, we provide extensive empirical assessments across various vision benchmarks, comparing KAN's performance with MLP-Mixer, CNNs, and Vision Transformers (ViT); and third, we pioneer the use of natural KAN layers in visual tasks, addressing a gap in previous research. This paper lays the foundation for future studies on KANs, highlighting their potential as a reliable alternative for image classification tasks.
翻訳日:2024-06-24 14:33:07 公開日:2024-06-21
# LLM2FEA: 生成的進化的マルチタスクによる新しい設計の発見

LLM2FEA: Discover Novel Designs with Generative Evolutionary Multitasking ( http://arxiv.org/abs/2406.14917v1 )

ライセンス: Link先を確認
Melvin Wong, Jiao Liu, Thiago Rios, Stefan Menzel, Yew Soon Ong, (参考訳) 生成人工知能の急速な研究と開発により、テキストプロンプトから高品質な画像、テキスト、および3Dモデルの生成が可能になった。 この進歩は、これらのモデルを創造的および工学的アプリケーションの両方にデジタルアーティファクトを作成するために活用できるかどうかを問うものである。 他の領域から革新的なデザインを描くことは、人類が自然の模範的なデザインからインスピレーションを求める「バイオニクス」の歴史的実践とよく似ている。 これにより、生成モデルを使用して複数のドメインにまたがる設計課題に同時に取り組み、ドメイン間の学習を容易にし、一連の革新的な設計ソリューションをもたらすという興味深い可能性が高まっます。 本稿では,複数の領域にまたがる知識を伝達することにより,生成モデルにおける新しい設計を初めて発見する試みとしてLLM2FEAを提案する。 多要素進化アルゴリズム(MFEA)を用いて大きな言語モデルを駆動し、LLM2FEAは様々な分野からの知識を統合し、新規で実用的なオブジェクトを発見する際に生成モデルを導くプロンプトを生成する。 3次元空力設計の文脈における実験結果は、提案したLLM2FEAの発見能力を検証する。 LLM2FEAが生成した設計は、ある程度の実用性要件を満たすだけでなく、新規で美的な形状を特徴とし、LLM2FEAの発見タスクへの応用の可能性を示した。

The rapid research and development of generative artificial intelligence has enabled the generation of high-quality images, text, and 3D models from text prompts. This advancement impels an inquiry into whether these models can be leveraged to create digital artifacts for both creative and engineering applications. Drawing on innovative designs from other domains may be one answer to this question, much like the historical practice of ``bionics", where humans have sought inspiration from nature's exemplary designs. This raises the intriguing possibility of using generative models to simultaneously tackle design tasks across multiple domains, facilitating cross-domain learning and resulting in a series of innovative design solutions. In this paper, we propose LLM2FEA as the first attempt to discover novel designs in generative models by transferring knowledge across multiple domains. By utilizing a multi-factorial evolutionary algorithm (MFEA) to drive a large language model, LLM2FEA integrates knowledge from various fields to generate prompts that guide the generative model in discovering novel and practical objects. Experimental results in the context of 3D aerodynamic design verify the discovery capabilities of the proposed LLM2FEA. The designs generated by LLM2FEA not only satisfy practicality requirements to a certain degree but also feature novel and aesthetically pleasing shapes, demonstrating the potential applications of LLM2FEA in discovery tasks.
翻訳日:2024-06-24 14:33:07 公開日:2024-06-21
# 複雑な感染を伴う社会学習

Social learning with complex contagion ( http://arxiv.org/abs/2406.14922v1 )

ライセンス: Link先を確認
Hiroaki Chiba-Okabe, Joshua B. Plotkin, (参考訳) 複雑な感染の概念とペイオフバイアスの模倣を結合した数学的モデルを導入し、社会行動が集団を通してどのように広まるかを説明する。 模倣による社会学習の伝統的なモデルは、単純な伝染に基づいており、個人は単一の相互作用によってより成功した隣人を模倣することができる。 当社のフレームワークはこのプロセスを一般化し,個別に異なる行動を採用することを検討する前に複数の露光を必要とする複雑な感染を包含する。 これを有限集団における離散時間および状態確率過程として定式化し、進化ゲーム理論において最も広く用いられる力学モデルである複製子方程式を一般化する常微分方程式として連続極限を導出する。 線形周波数依存型ゲームに適用すると、複雑な感染を伴う社会学習は、従来の模倣力学とは異なる質的な結果をもたらす: 囚人のジレンマは、独特な全欠陥均衡から、集団における安定なコオペレータと欠陥の混合、または双安定システムへと移行できる; 単体から双安定平衡に変化する; そして、座標ゲームは、境界における不安定性から2つの内部平衡に変化する。 長期的な結果は、感染プロセスの複雑さと、より成功したタイプに模倣をバイアスする選択の強さのバランスに依存する。 我々の分析は、進化ゲーム理論の分野を複雑な感染とインターカレーションし、社会システムにおけるより現実的な行動変化の形式を記述するための合成フレームワークを提供する。

We introduce a mathematical model that combines the concepts of complex contagion with payoff-biased imitation, to describe how social behaviors spread through a population. Traditional models of social learning by imitation are based on simple contagion -- where an individual may imitate a more successful neighbor following a single interaction. Our framework generalizes this process to incorporate complex contagion, which requires multiple exposures before an individual considers adopting a different behavior. We formulate this as a discrete time and state stochastic process in a finite population, and we derive its continuum limit as an ordinary differential equation that generalizes the replicator equation, the most widely used dynamical model in evolutionary game theory. When applied to linear frequency-dependent games, our social learning with complex contagion produces qualitatively different outcomes than traditional imitation dynamics: it can shift the Prisoner's Dilemma from a unique all-defector equilibrium to either a stable mixture of cooperators and defectors in the population, or a bistable system; it changes the Snowdrift game from a single to a bistable equilibrium; and it can alter the Coordination game from bistability at the boundaries to two internal equilibria. The long-term outcome depends on the balance between the complexity of the contagion process and the strength of selection that biases imitation towards more successful types. Our analysis intercalates the fields of evolutionary game theory with complex contagions, and it provides a synthetic framework that describes more realistic forms of behavioral change in social systems.
翻訳日:2024-06-24 14:33:07 公開日:2024-06-21
# DiPEx: クラスに依存しないオブジェクト検出のためのプロンプト展開

DiPEx: Dispersing Prompt Expansion for Class-Agnostic Object Detection ( http://arxiv.org/abs/2406.14924v1 )

ライセンス: Link先を確認
Jia Syuen Lim, Zhuoxiao Chen, Mahsa Baktashmotlagh, Zhi Chen, Xin Yu, Zi Huang, Yadan Luo, (参考訳) クラスに依存しないオブジェクト検出(OD)は、多くの下流視覚タスクにおいて、基盤となるかボトルネックとなる可能性がある。 ボトムアップや多目的発見手法の進歩により、基本的な視覚的手がかりを生かして有能な物体を識別する手法が大幅に進歩したが、オブジェクトの多様性とコンテキストの複雑さのため、常に高いリコール率を達成することは困難である。 本研究では、視覚言語モデル(VLM)を用いて、自己教師付き即時学習戦略による物体検出を強化する。 最初の結果から,手作業によるテキストクエリによって検出されていないオブジェクトが検出されない場合が多く,クエリワードが意味的重複を示すと,検出の信頼性が低下することがわかった。 そこで本稿では,DiPEx(Dispersing Prompt Expansion)アプローチを提案する。 DiPExは徐々に、異なる非重複超球面プロンプトのセットを拡張してリコール率を高め、アウト・オブ・ディストリビューションODのような下流タスクのパフォーマンスを向上させることを学習している。 具体的には、DiPExは、ジェネリック親プロンプトを自己学習し、さらなる拡張のための最もセマンティックな不確実性を持つプロンプトを選択することによって、プロセスを開始する。 得られた子プロンプトは、よりきめ細かいセマンティックスをキャプチャしながら、親プロンプトからセマンティックスを継承することが期待されている。 分散損失を適用して,親子間の親子間の意味的一貫性を維持しつつ,親子間の親子間差を高く抑える。 プロンプト集合の過剰な成長を防止するため,セマンティック空間の最大角被覆(MAC)を早期終了の基準として利用する。 本研究は,MS-COCOおよびLVISにおけるクラス非依存ODおよびOD-OD実験によるDiPExの有効性を実証し,ARの20.1%まで向上し,SAMよりも21.3%のAP改善を実現した。 コードはhttps://github.com/jason-lim26/DiPExで入手できる。

Class-agnostic object detection (OD) can be a cornerstone or a bottleneck for many downstream vision tasks. Despite considerable advancements in bottom-up and multi-object discovery methods that leverage basic visual cues to identify salient objects, consistently achieving a high recall rate remains difficult due to the diversity of object types and their contextual complexity. In this work, we investigate using vision-language models (VLMs) to enhance object detection via a self-supervised prompt learning strategy. Our initial findings indicate that manually crafted text queries often result in undetected objects, primarily because detection confidence diminishes when the query words exhibit semantic overlap. To address this, we propose a Dispersing Prompt Expansion (DiPEx) approach. DiPEx progressively learns to expand a set of distinct, non-overlapping hyperspherical prompts to enhance recall rates, thereby improving performance in downstream tasks such as out-of-distribution OD. Specifically, DiPEx initiates the process by self-training generic parent prompts and selecting the one with the highest semantic uncertainty for further expansion. The resulting child prompts are expected to inherit semantics from their parent prompts while capturing more fine-grained semantics. We apply dispersion losses to ensure high inter-class discrepancy among child prompts while preserving semantic consistency between parent-child prompt pairs. To prevent excessive growth of the prompt sets, we utilize the maximum angular coverage (MAC) of the semantic space as a criterion for early termination. We demonstrate the effectiveness of DiPEx through extensive class-agnostic OD and OOD-OD experiments on MS-COCO and LVIS, surpassing other prompting methods by up to 20.1% in AR and achieving a 21.3% AP improvement over SAM. The code is available at https://github.com/jason-lim26/DiPEx.
翻訳日:2024-06-24 14:33:07 公開日:2024-06-21
# 2次元リアルタイムMRIによる下顎頭3次元軌跡の抽出

Extraction of 3D trajectories of mandibular condyles from 2D real-time MRI ( http://arxiv.org/abs/2406.14925v1 )

ライセンス: Link先を確認
Karyna Isaieva, Justine Leclère, Guillaume Paillart, Guillaume Drouot, Jacques Felblinger, Xavier Dubernard, Pierre-André Vuissoz, (参考訳) MRIから直接下顎頭の軌跡を計算することで、解剖学的および運動学的詳細の両方を抽出できる包括的な検査が可能になる。 本研究の目的は, 2次元リアルタイムMRIから3次元顆粒路を抽出し, その精度を評価することであり, 顎の開閉中に20名の健常者がリアルタイムMRIを行った。 U-Netアルゴリズムを用いて1軸と2軸のスライスを分割した。 得られたマスクの質量の中心は解剖学的マーカーに基づいて座標系に投影され、共通の投影を用いて時間的に調整された。 運動再現性, 頭部運動, スライス配置対称性を推定する指標を用いて, 計算軌道の質を評価し, 軸スライスのセグメンテーションは良好な品質を示したが, 矢状スライスのセグメンテーションには微調整が必要であった。 運動再現性はほとんどの場合許容されるが,頭部運動は平均1mmの軌跡を逸脱させた。 下顎位における下顎頭上内座標の差は平均1.7mmであったが, リアルタイムMRIでは下顎頭軌跡の抽出が可能であり, 下顎頭変位, トラジェクトリーアスペクト, 対称性などの臨床的に関係のあるパラメータを評価するのに十分な精度で, 下顎頭軌跡の抽出が可能であった。

Computing the trajectories of mandibular condyles directly from MRI could provide a comprehensive examination, allowing for the extraction of both anatomical and kinematic details. This study aimed to investigate the feasibility of extracting 3D condylar trajectories from 2D real-time MRI and to assess their precision.Twenty healthy subjects underwent real-time MRI while opening and closing their jaws. One axial and two sagittal slices were segmented using a U-Net-based algorithm. The centers of mass of the resulting masks were projected onto the coordinate system based on anatomical markers and temporally adjusted using a common projection. The quality of the computed trajectories was evaluated using metrics designed to estimate movement reproducibility, head motion, and slice placement symmetry.The segmentation of the axial slices demonstrated good-to-excellent quality; however, the segmentation of the sagittal slices required some fine-tuning. The movement reproducibility was acceptable for most cases; nevertheless, head motion displaced the trajectories by 1 mm on average. The difference in the superior-inferior coordinate of the condyles in the closed jaw position was 1.7 mm on average.Despite limitations in precision, real-time MRI enables the extraction of condylar trajectories with sufficient accuracy for evaluating clinically relevant parameters such as condyle displacement, trajectories aspect, and symmetry.
翻訳日:2024-06-24 14:23:19 公開日:2024-06-21
# 物性同定とシミュレーションのためのガウスインフォームド連続体

Gaussian-Informed Continuum for Physical Property Identification and Simulation ( http://arxiv.org/abs/2406.14927v1 )

ライセンス: Link先を確認
Junhao Cai, Yuji Yang, Weihao Yuan, Yisheng He, Zilong Dong, Liefeng Bo, Hui Cheng, Qifeng Chen, (参考訳) 本稿では,視覚的観察を通して物理特性(システム同定)を推定する問題について検討する。 物理特性推定における幾何学的ガイダンスを容易にするために,3次元ガウス表現を利用した新しいハイブリッドフレームワークを導入する。 運動因子化に基づく新しい動的3次元ガウスの枠組みを提案し、異なる時間状態における3次元ガウス点集合としてオブジェクトを復元する。 さらに,ガウス的再構成から物体の密度場を生成するための粗大で微細な充填戦略を開発し,対象の連続体とその表面を抽出し,ガウス的属性をこれらの連続体に統合する。 抽出した物体表面に加えて、ガウスインフォームド連続体はシミュレーション中の物体マスクのレンダリングを可能にし、物理的特性推定のための暗黙の形状ガイダンスとして機能する。 大規模な実験的評価は、パイプラインが複数のベンチマークとメトリクスで最先端のパフォーマンスを達成することを示している。 さらに,実世界の実演を通して提案手法の有効性を説明し,実用性を示す。 私たちのプロジェクトページはhttps://jukgei.github.io/project/gic.comです。

This paper studies the problem of estimating physical properties (system identification) through visual observations. To facilitate geometry-aware guidance in physical property estimation, we introduce a novel hybrid framework that leverages 3D Gaussian representation to not only capture explicit shapes but also enable the simulated continuum to deduce implicit shapes during training. We propose a new dynamic 3D Gaussian framework based on motion factorization to recover the object as 3D Gaussian point sets across different time states. Furthermore, we develop a coarse-to-fine filling strategy to generate the density fields of the object from the Gaussian reconstruction, allowing for the extraction of object continuums along with their surfaces and the integration of Gaussian attributes into these continuums. In addition to the extracted object surfaces, the Gaussian-informed continuum also enables the rendering of object masks during simulations, serving as implicit shape guidance for physical property estimation. Extensive experimental evaluations demonstrate that our pipeline achieves state-of-the-art performance across multiple benchmarks and metrics. Additionally, we illustrate the effectiveness of the proposed method through real-world demonstrations, showcasing its practical utility. Our project page is at https://jukgei.github.io/project/gic.
翻訳日:2024-06-24 14:23:19 公開日:2024-06-21
# 情報非対称性下における協調作業のための自律エージェント

Autonomous Agents for Collaborative Task under Information Asymmetry ( http://arxiv.org/abs/2406.14928v1 )

ライセンス: Link先を確認
Wei Liu, Chenxi Wang, Yifei Wang, Zihao Xie, Rennai Qiu, Yufan Dang, Zhuoyun Du, Weize Chen, Cheng Yang, Chen Qian, (参考訳) 大規模言語モデルマルチエージェントシステム(LLM-MAS)は複雑なタスクの解決において大きな進歩を遂げている。 共有情報の前提のもと、システム内のエージェント間でコミュニケーションを行い、協調的にタスクを解決します。 しかし,エージェントのコミュニケーションを活用すれば,情報の非対称性によって新たな課題が生じる。 以前のMASはこの条件下でタスクを完了するのに苦労した。 そこで我々は,iAgentsと呼ばれる新しいMASパラダイムを提案する。 iAgentsでは、人的ソーシャルネットワークがエージェントネットワークにミラーされ、エージェントはタスク解決に必要な人的情報を積極的に交換し、情報非対称性を克服する。 iAgentsは、エージェントの効果的な情報交換への通信をナビゲートするために、新しいエージェント推論メカニズムであるInfoNavを使用している。 iAgentsはInfoNavとともに、人的情報を混合メモリで整理し、エージェントに交換のための正確で包括的な情報を提供する。 さらに,情報非対称性下でのLLMエージェントのタスク解決能力を評価するための最初のベンチマークであるInformativeBenchを紹介する。 実験の結果、iAgentsは140人の個人と588人の関係を持つソーシャルネットワーク内で協力し、30ターン以上で自律的にコミュニケーションし、70万近いメッセージから情報を検索して3分以内にタスクを完了できることがわかった。

Large Language Model Multi-Agent Systems (LLM-MAS) have achieved great progress in solving complex tasks. It performs communication among agents within the system to collaboratively solve tasks, under the premise of shared information. However, when agents' communication is leveraged to enhance human cooperation, a new challenge arises due to information asymmetry, since each agent can only access the information of its human user. Previous MAS struggle to complete tasks under this condition. To address this, we propose a new MAS paradigm termed iAgents, which denotes Informative Multi-Agent Systems. In iAgents, the human social network is mirrored in the agent network, where agents proactively exchange human information necessary for task resolution, thereby overcoming information asymmetry. iAgents employs a novel agent reasoning mechanism, InfoNav, to navigate agents' communication towards effective information exchange. Together with InfoNav, iAgents organizes human information in a mixed memory to provide agents with accurate and comprehensive information for exchange. Additionally, we introduce InformativeBench, the first benchmark tailored for evaluating LLM agents' task-solving ability under information asymmetry. Experimental results show that iAgents can collaborate within a social network of 140 individuals and 588 relationships, autonomously communicate over 30 turns, and retrieve information from nearly 70,000 messages to complete tasks within 3 minutes.
翻訳日:2024-06-24 14:23:19 公開日:2024-06-21
# 配向正規化によるグラフ類似性計算の効率化

Efficient Graph Similarity Computation with Alignment Regularization ( http://arxiv.org/abs/2406.14929v1 )

ライセンス: Link先を確認
Wei Zhuo, Guang Tan, (参考訳) グラフ編集距離(GED)推定に基づいて,グラフ類似度計算(GSC)タスクを検討する。 GSCをグラフニューラルネットワーク(GNN)を用いた学習ベース予測タスクとして扱う。 ペアワイズグラフ間のきめ細かい相互作用を捉えるため、これらの手法は主にエンドツーエンドの学習パイプラインにノードレベルのマッチングモジュールを含んでおり、トレーニングと推論の段階で高い計算コストを発生させる。 我々は,高額なノード対ノードマッチングモジュールはGSCには必要ないことを示し,高品質な学習をシンプルながら強力な正規化技術で達成できることを示し,それをアライメント正規化(AReg)と呼ぶ。 トレーニング段階では、AReg項はGNNエンコーダにノードグラフ対応制約を課す。 推論段階では、GNNエンコーダによって学習されたグラフレベル表現は、ARegを再度使用せずに直接類似度スコアを計算するために使用される。 さらに,学習した表現の表現能力を高めるため,複数スケールのGED識別器を提案する。 実世界のデータセットに関する大規模な実験は、我々のアプローチの有効性、効率、転送可能性を示している。

We consider the graph similarity computation (GSC) task based on graph edit distance (GED) estimation. State-of-the-art methods treat GSC as a learning-based prediction task using Graph Neural Networks (GNNs). To capture fine-grained interactions between pair-wise graphs, these methods mostly contain a node-level matching module in the end-to-end learning pipeline, which causes high computational costs in both the training and inference stages. We show that the expensive node-to-node matching module is not necessary for GSC, and high-quality learning can be attained with a simple yet powerful regularization technique, which we call the Alignment Regularization (AReg). In the training stage, the AReg term imposes a node-graph correspondence constraint on the GNN encoder. In the inference stage, the graph-level representations learned by the GNN encoder are directly used to compute the similarity score without using AReg again to speed up inference. We further propose a multi-scale GED discriminator to enhance the expressive ability of the learned representations. Extensive experiments on real-world datasets demonstrate the effectiveness, efficiency and transferability of our approach.
翻訳日:2024-06-24 14:23:19 公開日:2024-06-21
# 大規模ビデオライブラリの検索向上に向けて

Towards Retrieval Augmented Generation over Large Video Libraries ( http://arxiv.org/abs/2406.14938v1 )

ライセンス: Link先を確認
Yannis Tevissen, Khalil Guetari, Frédéric Petitpont, (参考訳) ビデオコンテンツのクリエーターは、複雑な手作業や自動検索を必要とするタスクであるコンテンツを再利用するための効率的なツールを必要としている。 巨大なビデオライブラリーから新しいビデオを作るのはまだ難しい。 本稿では,ビデオライブラリにRAG(Retrieval Augmented Generation)を適用した相互運用型アーキテクチャによるVLQA(Video Library Question Answering)の課題を紹介する。 本稿では,大規模言語モデル(LLM)を用いて検索クエリを生成し,音声と視覚メタデータによってインデックス付けされた関連ビデオモーメントを検索するシステムを提案する。 回答生成モジュールは、ユーザクエリとメタデータを統合して、特定のビデオタイムスタンプでレスポンスを生成する。 このアプローチは、マルチメディアコンテンツ検索とAI支援ビデオコンテンツ作成において有望であることを示す。

Video content creators need efficient tools to repurpose content, a task that often requires complex manual or automated searches. Crafting a new video from large video libraries remains a challenge. In this paper we introduce the task of Video Library Question Answering (VLQA) through an interoperable architecture that applies Retrieval Augmented Generation (RAG) to video libraries. We propose a system that uses large language models (LLMs) to generate search queries, retrieving relevant video moments indexed by speech and visual metadata. An answer generation module then integrates user queries with this metadata to produce responses with specific video timestamps. This approach shows promise in multimedia content retrieval, and AI-assisted video content creation.
翻訳日:2024-06-24 14:23:19 公開日:2024-06-21
# ブライトアース道路:衛星画像からの完全自動道路網抽出を目指して

Brightearth roads: Towards fully automatic road network extraction from satellite imagery ( http://arxiv.org/abs/2406.14941v1 )

ライセンス: Link先を確認
Liuyun Duan, Willard Mapurisa, Maxime Leras, Leigh Lotter, Yuliya Tarabalka, (参考訳) 現代の道路網のトポロジは、道路網を自動的に再構築する際の複雑さをもたらす複雑な構造を包含している。 OpenStreetMap (OSM)のようなオープンなリソースは、明確に定義されたトポロジを持つロードネットワークを提供するが、常に世界中で最新であるとは限らない。 本稿では,超高解像度(VHR)衛星画像から道路網を抽出する完全自動パイプラインを提案する。 提案手法は, シームレスに接続し, 正確な位置決めを行う道路線路ストリングを直接生成する。 このプロセスには、道路分割のためのCNNベースのニューラルネットワーク、道路予測をベクトル行文字列に変換するグラフ最適化アルゴリズム、道路材料を分類する機械学習モデルという3つの重要なモジュールが含まれている。 また,OSMデータと比較すると,最新の道路レイアウトと道路セグメントの正確な位置を提供する可能性が示唆された。

The modern road network topology comprises intricately designed structures that introduce complexity when automatically reconstructing road networks. While open resources like OpenStreetMap (OSM) offer road networks with well-defined topology, they may not always be up to date worldwide. In this paper, we propose a fully automated pipeline for extracting road networks from very-high-resolution (VHR) satellite imagery. Our approach directly generates road line-strings that are seamlessly connected and precisely positioned. The process involves three key modules: a CNN-based neural network for road segmentation, a graph optimization algorithm to convert road predictions into vector line-strings, and a machine learning model for classifying road materials. Compared to OSM data, our results demonstrate significant potential for providing the latest road layouts and precise positions of road segments.
翻訳日:2024-06-24 14:23:19 公開日:2024-06-21
# 超伝導フラックス量子ビットを用いたシリコン基板中の不純物同定

Identifying impurities in a silicon substrate by using a superconducting flux qubit ( http://arxiv.org/abs/2406.14948v1 )

ライセンス: Link先を確認
Hiraku Toida, Kosuke Kakuyanagi, Leonid V. Abdurakhimov, Masahiro Hori, Yukinori Ono, Shiro Saito, (参考訳) 超伝導フラックス量子ビットに基づく磁力計を用いてビスマスドープシリコン基板を解析した。 磁化の温度依存性は、シリコン基板が少なくとも2つの信号源、意図的にドーピングされたビスマススピンと、0.873〜0.127のスピン1/2系を含むことを示している。 従来の電子スピン共鳴分光計と組み合わせて、スピン1/2系の候補起源をシリコン表面上のダングリング結合として同定した。 さらに、磁力計のスピン感度は最適化された分散読み出しを用いて12スピン/$\sqrt{\mathrm{Hz}}$と推定された。

A bismuth-doped silicon substrate was analyzed by using a magnetometer based on a superconducting flux qubit. The temperature dependence of the magnetization indicates that the silicon substrate contains at least two signal sources, intentionally doped bismuth spins and a spin 1/2 system with a ratio of 0.873 to 0.127. In combination with a conventional electron spin resonance spectrometer, a candidate origin of the spin 1/2 system was identified as a dangling bond on the silicon surface. In addition, the spin sensitivity of the magnetometer was also estimated to be 12 spins/$\sqrt{\mathrm{Hz}}$ by using optimized dispersive readout.
翻訳日:2024-06-24 14:23:19 公開日:2024-06-21
# CEASEFIRE:違法な銃身売買をAIで防ぐシステム

CEASEFIRE: An AI-powered system for combatting illicit firearms trafficking ( http://arxiv.org/abs/2406.14949v1 )

ライセンス: Link先を確認
Ioannis Mademlis, Jorgen Cani, Marina Mancuso, Caterina Paternoster, Emmanouil Adamakis, George Margetis, Sylvie Chambon, Alain Crouzil, Loubna Lechelek, Georgia Dede, Spyridon Evangelatos, George Lalas, Franck Mignet, Pantelis Linardatos, Konstantinos Kentrotis, Henryk Gierszal, Piotr Tyczka, Sophia Karagiorgou, George Pantelis, Georgios Stavropoulos, Konstantinos Votis, Georgios Th. Papadopoulos, (参考訳) 現代の技術は、違法な銃器が部分的にサイバー犯罪と合併し、同時にオフラインの側面がより洗練されたものになることを許している。 法執行官は、ハイテクソリューションを必要とする困難な課題に直面します。 本稿では,高度な人工知能を活用した実世界のシステムについて紹介する。

Modern technologies have led illicit firearms trafficking to partially merge with cybercrime, while simultaneously permitting its off-line aspects to become more sophisticated. Law enforcement officers face difficult challenges that require hi-tech solutions. This article presents a real-world system, powered by advanced Artificial Intelligence, for facilitating them in their everyday work.
翻訳日:2024-06-24 14:23:19 公開日:2024-06-21
# 強化学習における時間差分化の慣用性

An Idiosyncrasy of Time-discretization in Reinforcement Learning ( http://arxiv.org/abs/2406.14951v1 )

ライセンス: Link先を確認
Kris De Asis, Richard S. Sutton, (参考訳) 多くの強化学習アルゴリズムは、エージェントが固定的な時間ステップで環境と相互作用するという仮定に基づいて構築される。 しかし、物理系は時間的に連続しており、デジタル的に制御するには時間差の粒度を選択する必要がある。 さらに、このようなシステムは環境状態の進行に先立って決定が下されるのを待たず、離散化の選択が強化学習アルゴリズムにどのように影響するかを研究する必要がある。 本研究では,連続時間と離散時間の関係について考察する。 具体的には、離散時間アルゴリズムを離散化された連続時間環境に適用し、簡単な修正で戻り値の定義をよりよく整合させることができることに留意する。 この観察は、時間差の粒度が選択される環境や、そのような粒度が本質的に確率的な環境を扱う場合の実践的考察である。

Many reinforcement learning algorithms are built on an assumption that an agent interacts with an environment over fixed-duration, discrete time steps. However, physical systems are continuous in time, requiring a choice of time-discretization granularity when digitally controlling them. Furthermore, such systems do not wait for decisions to be made before advancing the environment state, necessitating the study of how the choice of discretization may affect a reinforcement learning algorithm. In this work, we consider the relationship between the definitions of the continuous-time and discrete-time returns. Specifically, we acknowledge an idiosyncrasy with naively applying a discrete-time algorithm to a discretized continuous-time environment, and note how a simple modification can better align the return definitions. This observation is of practical consideration when dealing with environments where time-discretization granularity is a choice, or situations where such granularity is inherently stochastic.
翻訳日:2024-06-24 14:23:19 公開日:2024-06-21
# ESC-Eval:大規模言語モデルにおける感情支援対話の評価

ESC-Eval: Evaluating Emotion Support Conversations in Large Language Models ( http://arxiv.org/abs/2406.14952v1 )

ライセンス: Link先を確認
Haiquan Zhao, Lingyu Li, Shisong Chen, Shuqi Kong, Jiaan Wang, Kexing Huang, Tianle Gu, Yixu Wang, Dandan Liang, Zhixu Li, Tan Teng, Yanghua Xiao, Yingchun Wang, (参考訳) 感情支援会話(Emotion Support Conversation、ESC)は、人間のストレスを減らし、感情的な指導を提供し、究極的には人間の精神的・身体的幸福を高めることを目的とした重要なアプリケーションである。 LLM(Large Language Models)の発展に伴い、多くの研究者がESCモデルとしてLLMを使用している。 しかし,これらのLCMを用いたESCの評価はいまだに不確実である。 ロールプレイングエージェントの開発に触発されて,ESCモデルとの対話にロールプレイングエージェントを使用するESC評価フレームワーク(ESC-Eval)を提案し,対話型対話を手動で評価する。 より詳しくは、7つの既存のデータセットから2,801個のロールプレイングカードを再編成し、ロールプレイングエージェントの役割を定義した。 第2に,GAT-4よりも混乱した人物のように振る舞うESC-Roleと呼ばれる特定のロールプレイングモデルを訓練する。 第3に,ESC-Role と組織化されたロールカードを通じて,汎用AI支援 LLM (ChatGPT) やESC指向 LLM (ExTES-Llama) を含む14 LLM をESCモデルとして,系統的に実験を行った。 異なるESCモデルの対話型マルチターン対話において、包括的なヒューマンアノテーションを行う。 その結果、ESC指向のLSMは一般のAI支援LSMよりも優れたESC能力を示すが、人間のパフォーマンスには差があることがわかった。 さらに,将来のESCモデルのスコアリングプロセスを自動化するために,注釈付きデータに基づいてトレーニングしたESC-RANKを開発し,GPT-4の35ポイントを超えるスコアリング性能を実現した。 私たちのデータとコードはhttps://github.com/haidequanbu/ESC-Eval.comで公開されています。

Emotion Support Conversation (ESC) is a crucial application, which aims to reduce human stress, offer emotional guidance, and ultimately enhance human mental and physical well-being. With the advancement of Large Language Models (LLMs), many researchers have employed LLMs as the ESC models. However, the evaluation of these LLM-based ESCs remains uncertain. Inspired by the awesome development of role-playing agents, we propose an ESC Evaluation framework (ESC-Eval), which uses a role-playing agent to interact with ESC models, followed by a manual evaluation of the interactive dialogues. In detail, we first re-organize 2,801 role-playing cards from seven existing datasets to define the roles of the role-playing agent. Second, we train a specific role-playing model called ESC-Role which behaves more like a confused person than GPT-4. Third, through ESC-Role and organized role cards, we systematically conduct experiments using 14 LLMs as the ESC models, including general AI-assistant LLMs (ChatGPT) and ESC-oriented LLMs (ExTES-Llama). We conduct comprehensive human annotations on interactive multi-turn dialogues of different ESC models. The results show that ESC-oriented LLMs exhibit superior ESC abilities compared to general AI-assistant LLMs, but there is still a gap behind human performance. Moreover, to automate the scoring process for future ESC models, we developed ESC-RANK, which trained on the annotated data, achieving a scoring performance surpassing 35 points of GPT-4. Our data and code are available at https://github.com/haidequanbu/ESC-Eval.
翻訳日:2024-06-24 14:23:19 公開日:2024-06-21
# PPGデータによる血管年齢推定への深い不均衡 : 心血管健康のための新しいバイオマーカー

Deep Imbalanced Regression to Estimate Vascular Age from PPG Data: a Novel Digital Biomarker for Cardiovascular Health ( http://arxiv.org/abs/2406.14953v1 )

ライセンス: Link先を確認
Guangkun Nie, Qinghao Zhao, Gongzheng Tang, Jun Li, Shenda Hong, (参考訳) Photoplethysmography(PPG)は、人間の血行動態をモニタリングする重要なツールとして登場しており、近年の研究は、深層学習による血管の老化を評価する可能性を強調している。 しかし、現実の年齢分布は、しばしば不均衡であり、ディープラーニングモデルにとって重要な課題となっている。 本稿では,離散損失関数(Dist Loss)と呼ばれる新しい,シンプルで効果的な損失関数を導入し,不均衡な回帰問題に対処する。 広義の英国バイオバンクデータセット(n=502,389)にDist Lossを組み込んだ1次元畳み込みニューラルネットワーク(Net1D)をトレーニングし,PPG信号から血管年齢を推定し,心血管の健康を特徴付ける効果を検証した。 モデルの性能は40%のホールドアウトテストセットで検証され、特にサンプルサイズが小さい地域では最先端の結果が得られた。 さらに,10歳未満,10歳以上,10歳以上という予測的血管年齢と年代年齢の差から,人口を3つのサブグループに分けた。 死亡, 冠状動脈疾患, 心不全など, 最大10年以上の経過観察期間において, 予測血管年齢といくつかの心血管イベントとの関係について検討した。 以上の結果より, 予測血管年齢は, 個人の心血管状態を反映する有意な可能性が示唆された。 私たちのコードはhttps://github.com/Ngk03/AI-vascular-age.comで公開されます。

Photoplethysmography (PPG) is emerging as a crucial tool for monitoring human hemodynamics, with recent studies highlighting its potential in assessing vascular aging through deep learning. However, real-world age distributions are often imbalanced, posing significant challenges for deep learning models. In this paper, we introduce a novel, simple, and effective loss function named the Dist Loss to address deep imbalanced regression tasks. We trained a one-dimensional convolutional neural network (Net1D) incorporating the Dist Loss on the extensive UK Biobank dataset (n=502,389) to estimate vascular age from PPG signals and validate its efficacy in characterizing cardiovascular health. The model's performance was validated on a 40% held-out test set, achieving state-of-the-art results, especially in regions with small sample sizes. Furthermore, we divided the population into three subgroups based on the difference between predicted vascular age and chronological age: less than -10 years, between -10 and 10 years, and greater than 10 years. We analyzed the relationship between predicted vascular age and several cardiovascular events over a follow-up period of up to 10 years, including death, coronary heart disease, and heart failure. Our results indicate that the predicted vascular age has significant potential to reflect an individual's cardiovascular health status. Our code will be available at https://github.com/Ngk03/AI-vascular-age.
翻訳日:2024-06-24 14:23:19 公開日:2024-06-21
# ハイブリッド核融合による多系列脳MRIの統一化フレームワーク

A Unified Framework for Synthesizing Multisequence Brain MRI via Hybrid Fusion ( http://arxiv.org/abs/2406.14954v1 )

ライセンス: Link先を確認
Jihoon Cho, Jonghye Woo, Jinah Park, (参考訳) MR(Multiquence Magnetic Resonance Imaging)は、臨床応用において、シーケンス内の相補的な情報を通じて信頼性の高い診断を提供する。 しかし、実際には、特定のMR配列が存在しないことは、矛盾する分析結果をもたらす一般的な問題である。 本研究では,HF-GAN(Hybrid Fusion GAN)と呼ばれる,マルチシーケンスMR画像を合成するための新しい統合フレームワークを提案する。 本稿では,相補的情報と相補的情報と相補的情報とのアンサングル抽出を保証するために設計されたハイブリッドフュージョンエンコーダと,それらの特徴を,アクセス可能なMRシーケンスの組み合わせから複雑な処理を行う共通潜在空間に統合するチャネルアテンションベースの特徴フュージョンモジュールを紹介する。 共通特徴表現は、欠落したMR配列を合成するために、モダリティ注入器を介してターゲット潜在空間に変換される。 健常人および脳腫瘍と診断された患者の脳MRIデータセットについて実験を行った。 実験結果から,本手法は定量比較と定性比較の両方において最先端の手法より優れていることがわかった。 さらに,本フレームワークの詳細な解析により,設計したモジュールの優越性と,データ計算タスクにおける有効性を示す。

Multisequence Magnetic Resonance Imaging (MRI) provides a reliable diagnosis in clinical applications through complementary information within sequences. However, in practice, the absence of certain MR sequences is a common problem that can lead to inconsistent analysis results. In this work, we propose a novel unified framework for synthesizing multisequence MR images, called Hybrid Fusion GAN (HF-GAN). We introduce a hybrid fusion encoder designed to ensure the disentangled extraction of complementary and modality-specific information, along with a channel attention-based feature fusion module that integrates the features into a common latent space handling the complexity from combinations of accessible MR sequences. Common feature representations are transformed into a target latent space via the modality infuser to synthesize missing MR sequences. We have performed experiments on multisequence brain MRI datasets from healthy individuals and patients diagnosed with brain tumors. Experimental results show that our method outperforms state-of-the-art methods in both quantitative and qualitative comparisons. In addition, a detailed analysis of our framework demonstrates the superiority of our designed modules and their effectiveness for use in data imputation tasks.
翻訳日:2024-06-24 14:23:19 公開日:2024-06-21
# ICLEval: 大規模言語モデルの文脈内学習能力の評価

ICLEval: Evaluating In-Context Learning Ability of Large Language Models ( http://arxiv.org/abs/2406.14955v1 )

ライセンス: Link先を確認
Wentong Chen, Yankai Lin, ZhenHao Zhou, HongYun Huang, Yantao Jia, Zhao Cao, Ji-Rong Wen, (参考訳) In-Context Learning (ICL) は大規模言語モデル(LLM)の重要な能力であり、相互接続された入力の理解と推論を可能にする。 LLMのICL能力の評価は、その利用性を高め、この能力がトレーニング段階でどのように獲得されるかの理解を深めることができます。 しかし、既存の評価フレームワークは主に言語能力と知識に焦点を当てており、しばしばICL能力の評価を見落としている。 本研究では,LLMのICL能力を評価するためのICLEvalベンチマークを導入する。 ICLEval ベンチマークを用いて、ICL の能力は異なる LLM に普遍的に存在し、モデルサイズはICL の有効性の唯一の決定要因ではないことを示した。 意外なことに、ICLの能力、特にコピーは、事前学習過程の早い段階で発達し、その後安定する。 ソースコードとベンチマークはhttps://github.com/yiye3/ICLEval.comで公開されています。

In-Context Learning (ICL) is a critical capability of Large Language Models (LLMs) as it empowers them to comprehend and reason across interconnected inputs. Evaluating the ICL ability of LLMs can enhance their utilization and deepen our understanding of how this ability is acquired at the training stage. However, existing evaluation frameworks primarily focus on language abilities and knowledge, often overlooking the assessment of ICL ability. In this work, we introduce the ICLEval benchmark to evaluate the ICL abilities of LLMs, which encompasses two key sub-abilities: exact copying and rule learning. Through the ICLEval benchmark, we demonstrate that ICL ability is universally present in different LLMs, and model size is not the sole determinant of ICL efficacy. Surprisingly, we observe that ICL abilities, particularly copying, develop early in the pretraining process and stabilize afterward. Our source codes and benchmark are released at https://github.com/yiye3/ICLEval.
翻訳日:2024-06-24 14:23:19 公開日:2024-06-21
# 低ランクアダプタにおけるグローバルシナジーの解錠

Unlocking the Global Synergies in Low-Rank Adapters ( http://arxiv.org/abs/2406.14956v1 )

ライセンス: Link先を確認
Zixi Zhang, Cheng Zhang, Xitong Gao, Robert D. Mullins, George A. Constantinides, Yiren Zhao, (参考訳) 低ランク適応(LoRA)は、大規模言語モデルのためのデファクトパラメータ効率の高い微調整技術である。 本稿では,ゼロコストプロキシを利用する軽量探索アルゴリズムHeteroLoRAを提案する。 標準のLoRA適応モデルへのアロケーションに加えて、LoRAモジュールやLoRA適応ショートカット接続を含むより困難な検索空間において、HeteroLoRAのアロケーションを実行することで、HeteroLoRAの有効性を実証する。 実験の結果、HeteroLoRAは同じパラメータの予算でモデルパフォーマンスを改善することができることがわかった。 例えば、MRPCでは、同様のトレーニングパラメータ予算による精度1.6%の改善が見られます。 論文が受け入れられ次第、我々のアルゴリズムをオープンソース化する。

Low-rank Adaption (LoRA) has been the de-facto parameter-efficient fine-tuning technique for large language models. We present HeteroLoRA, a light-weight search algorithm that leverages zero-cost proxies to allocate the limited LoRA trainable parameters across the model for better fine-tuned performance. In addition to the allocation for the standard LoRA-adapted models, we also demonstrate the efficacy of HeteroLoRA by performing the allocation in a more challenging search space that includes LoRA modules and LoRA-adapted shortcut connections. Experiments show that HeteroLoRA enables improvements in model performance given the same parameter budge. For example, on MRPC, we see an improvement of 1.6% in accuracy with similar training parameter budget. We will open-source our algorithm once the paper is accepted.
翻訳日:2024-06-24 14:23:19 公開日:2024-06-21
# Skip and Skip: プロンプトによる医用画像のセグメンテーション

Skip and Skip: Segmenting Medical Images with Prompts ( http://arxiv.org/abs/2406.14958v1 )

ライセンス: Link先を確認
Jiawei Chen, Dingkang Yang, Yuxuan Lei, Lihua Zhang, (参考訳) ほとんどの医学画像病変分割法は、教師あり学習のための手作りの原画像の正確なアノテーションに依存している。 近年,画素レベルのアノテーションへの依存を減らすために,弱い教師付き手法や教師なし手法が提案されている。 しかし、これらの手法は基本的にピクセルレベルのアノテーションに基づいており、現在の医用画像の画像レベルの診断結果を無視している。 本稿では,イメージレベルラベルを用いてセグメンテーションを促進する2つのU字型2段フレームワークを提案する。 第1段階では,画像レベルラベルを用いた分類ネットワークを事前学習し,階層的なピラミッドの特徴を抽出し,下流の枝の学習を指導する。 第2段階では, 分類枝から得られた階層的特徴を, 短軸, 長軸を通じて下流枝に供給し, 画素レベルラベルの教師付き学習の下で病変マスクを得る。 実験により,本フレームワークは,単にピクセルレベルのアノテーションを用いて,ネットワークよりも優れた結果が得られることが示された。

Most medical image lesion segmentation methods rely on hand-crafted accurate annotations of the original image for supervised learning. Recently, a series of weakly supervised or unsupervised methods have been proposed to reduce the dependence on pixel-level annotations. However, these methods are essentially based on pixel-level annotation, ignoring the image-level diagnostic results of the current massive medical images. In this paper, we propose a dual U-shaped two-stage framework that utilizes image-level labels to prompt the segmentation. In the first stage, we pre-train a classification network with image-level labels, which is used to obtain the hierarchical pyramid features and guide the learning of downstream branches. In the second stage, we feed the hierarchical features obtained from the classification branch into the downstream branch through short-skip and long-skip and get the lesion masks under the supervised learning of pixel-level labels. Experiments show that our framework achieves better results than networks simply using pixel-level annotations.
翻訳日:2024-06-24 14:23:19 公開日:2024-06-21
# 構成的ゼロショット学習のための原始的適応学習による文脈相互作用

Contextual Interaction via Primitive-based Adversarial Training For Compositional Zero-shot Learning ( http://arxiv.org/abs/2406.14962v1 )

ライセンス: Link先を確認
Suyi Li, Chenyi Jiang, Shidong Wang, Yang Long, Zheng Zhang, Haofeng Zhang, (参考訳) 合成ゼロショット学習(CZSL)は、既知の属性オブジェクト対を通じて新規な合成を識別することを目的としている。 CZSLタスクの最大の課題は、属性とオブジェクトの視覚的プリミティブ間の複雑な相互作用によって引き起こされる顕著な相違にある。 これまでの顕著な研究は、主にこの問題に対処し、引き離し戦略に焦点をあてたり、属性の選択空間を制限するためにオブジェクトベースの条件付き確率を利用することで解決した。 残念ながら、視覚的原始的相互作用のメカニズムをモデル化する観点からこの問題を探求する研究はほとんどない。 クロスドメインなFew-Shot Learningにおけるバニラ対人学習の成功に触発されて、さらに一歩進んで、モデルに依存しない原始的対人訓練(PBadv)法を考案し、この問題に対処する。 さらに、最新の研究は、データバランスの条件下でさえ硬質成分の知覚の弱さを強調している。 そこで本研究では,対象合成トレーニングデータを拡張するためのオブジェクト類似性ガイダンスを用いた新しいオーバーサンプリング手法を提案する。 我々は,UT-Zappos50K,MIT-States,C-GQAなど,確立されたデータセット上で詳細な定量的解析と検索実験を行い,提案手法の有効性を検証した。 コードはhttps://github.com/lisuyi/PBadv_czsl.comで公開されている。

Compositional Zero-shot Learning (CZSL) aims to identify novel compositions via known attribute-object pairs. The primary challenge in CZSL tasks lies in the significant discrepancies introduced by the complex interaction between the visual primitives of attribute and object, consequently decreasing the classification performance towards novel compositions. Previous remarkable works primarily addressed this issue by focusing on disentangling strategy or utilizing object-based conditional probabilities to constrain the selection space of attributes. Unfortunately, few studies have explored the problem from the perspective of modeling the mechanism of visual primitive interactions. Inspired by the success of vanilla adversarial learning in Cross-Domain Few-Shot Learning, we take a step further and devise a model-agnostic and Primitive-Based Adversarial training (PBadv) method to deal with this problem. Besides, the latest studies highlight the weakness of the perception of hard compositions even under data-balanced conditions. To this end, we propose a novel over-sampling strategy with object-similarity guidance to augment target compositional training data. We performed detailed quantitative analysis and retrieval experiments on well-established datasets, such as UT-Zappos50K, MIT-States, and C-GQA, to validate the effectiveness of our proposed method, and the state-of-the-art (SOTA) performance demonstrates the superiority of our approach. The code is available at https://github.com/lisuyi/PBadv_czsl.
翻訳日:2024-06-24 14:13:25 公開日:2024-06-21
# 変圧器におけるグループクエリアテンションの最適化

Optimised Grouped-Query Attention Mechanism for Transformers ( http://arxiv.org/abs/2406.14963v1 )

ライセンス: Link先を確認
Yuang Chen, Cheng Zhang, Xitong Gao, Robert D. Mullins, George A. Constantinides, Yiren Zhao, (参考訳) グループクエリアテンション(GQA)はマルチヘッドアテンション(MHA)の複雑さを軽減するためにLLMで広く採用されている。 MHAをGQAに変換するために、MHA内の隣接クエリは、各グループが値とキー層を共有するグループに均等に分割される。 本研究では,モデル性能を向上させるために,MHAをGQAに非対称にグループ化するアクティベーションインフォームドアプローチであるAsymGQAを提案する。 私たちのAsymGQAは、同じモデルサイズの予算内でGQAより優れています。 例えば、AsymGQA LLaMA-2-7Bは、隣接するグループに比べてMMLUの精度が7.5%向上している。 本手法は,GQAのモデル性能とハードウェア効率のトレードオフ問題に対処する。

Grouped-query attention (GQA) has been widely adopted in LLMs to mitigate the complexity of multi-head attention (MHA). To transform an MHA to a GQA, neighbour queries in MHA are evenly split into groups where each group shares the value and key layers. In this work, we propose AsymGQA, an activation-informed approach to asymmetrically grouping an MHA to a GQA for better model performance. Our AsymGQA outperforms the GQA within the same model size budget. For example, AsymGQA LLaMA-2-7B has an accuracy increase of 7.5% on MMLU compared to neighbour grouping. Our approach addresses the GQA's trade-off problem between model performance and hardware efficiency.
翻訳日:2024-06-24 14:13:25 公開日:2024-06-21
# VividDreamer:高忠実で効率的なテキスト・ツー・3D生成を目指して

VividDreamer: Towards High-Fidelity and Efficient Text-to-3D Generation ( http://arxiv.org/abs/2406.14964v1 )

ライセンス: Link先を確認
Zixuan Chen, Ruijie Su, Jiahao Zhu, Lingxiao Yang, Jian-Huang Lai, Xiaohua Xie, (参考訳) テキスト・ツー・3D生成は、テキスト・ツー・イメージ拡散モデルから3Dアセットを作成することを目的としている。 しかし、既存の手法は、SDS(Score Distillation Smpling)のような広く使われている目的が急速生成のためにU-Netヤコビアンを不適切に省略しているため、生成品質に固有のボトルネックに直面している。 このバイアスは、一貫性のない更新方向をもたらし、結果として、例えば、色偏差、ヤヌス問題、意味的に矛盾した詳細など、不確実な3D生成をもたらす。 本研究では, 拡散型3次元生成タスクの新規かつ効率的な目的である, Pose-dependent Consistency Distillation Sampling (PCDS) を提案する。 具体的には、PCDSは拡散軌道内でポーズ依存整合関数を構築し、最小サンプリングステップ(1-3)で真の勾配を近似することができる。 SDSと比較して、PCDSは同じサンプリング時間(1回のサンプリングステップ)でより正確な更新方向を取得でき、また、より高い世代品質で計算を交換するための数ステップ(2-3)サンプリングを可能にする。 そこで我々は,まず1ステップのPCDSを用いて3Dオブジェクトの基本構造を作成し,さらに徐々にPCDSのステップを拡大して細かな細部を生成する,粗大な最適化手法を提案する。 広汎な実験により, 提案手法は, 更新方向のずれによる不確実な3D生成問題を顕著に軽減し, 生成品質とトレーニング効率の最先端性に優れることが示された。 さらに、多くの3D生成アプリケーションに適用して、印象的な3Dアセットを得ることができます。

Text-to-3D generation aims to create 3D assets from text-to-image diffusion models. However, existing methods face an inherent bottleneck in generation quality because the widely-used objectives such as Score Distillation Sampling (SDS) inappropriately omit U-Net jacobians for swift generation, leading to significant bias compared to the "true" gradient obtained by full denoising sampling. This bias brings inconsistent updating direction, resulting in implausible 3D generation e.g., color deviation, Janus problem, and semantically inconsistent details). In this work, we propose Pose-dependent Consistency Distillation Sampling (PCDS), a novel yet efficient objective for diffusion-based 3D generation tasks. Specifically, PCDS builds the pose-dependent consistency function within diffusion trajectories, allowing to approximate true gradients through minimal sampling steps (1-3). Compared to SDS, PCDS can acquire a more accurate updating direction with the same sampling time (1 sampling step), while enabling few-step (2-3) sampling to trade compute for higher generation quality. For efficient generation, we propose a coarse-to-fine optimization strategy, which first utilizes 1-step PCDS to create the basic structure of 3D objects, and then gradually increases PCDS steps to generate fine-grained details. Extensive experiments demonstrate that our approach outperforms the state-of-the-art in generation quality and training efficiency, conspicuously alleviating the implausible 3D generation issues caused by the deviated updating direction. Moreover, it can be simply applied to many 3D generative applications to yield impressive 3D assets, please see our project page: https://narcissusex.github.io/VividDreamer.
翻訳日:2024-06-24 14:13:25 公開日:2024-06-21
# AIGC-Chain:AIGC製品著作権管理のためのブロックチェーン対応フルライフサイクル記録システム

AIGC-Chain: A Blockchain-Enabled Full Lifecycle Recording System for AIGC Product Copyright Management ( http://arxiv.org/abs/2406.14966v1 )

ライセンス: Link先を確認
Jiajia Jiang, Moting Su, Xiangli Xiao, Yushu Zhang, Yuming Fang, (参考訳) 人工知能技術がますます普及するにつれて、人工知能生成コンテンツ(AIGC)は様々な分野で採用されている。 AIGCはビジネスと文化においてますます重要な役割を担っているが、その著作権をめぐる疑問が広く議論されている。 現在の著作権と知的財産権に関する法的枠組みは、人間の著作者の概念に基づいているが、AIGCの作成において、人間の創造者は、主に概念的概念を提供しており、AIは表現的要素に独立して責任を負っている。 この切断は、既存の法律の下で著作権の所有権を決定する複雑さと困難を生じさせる。 そのため、著作権所有権の公平な配分を確保するため、AIGC作成に関わるすべての関係者の知的貢献を再評価することが不可欠である。 この課題に対処するために、AIGC製品の著作権を管理するために設計されたブロックチェーン対応のフルライフサイクル記録システムであるAIGC-Chainを紹介する。 AIGC製品の全ライフサイクルを注意深くドキュメント化するために設計されており、著作権管理のための透明で信頼性の高いプラットフォームを提供する。 さらに、ブロックチェーントランザクションクエリの効率を高め、AIGC製品に対する不正な著作権請求のリスクを大幅に低減する、識別不能なブルームフィルタであるIBFTに基づく著作権追跡手法を提案する。 このようにして、監査人はブロックチェーンから取得したすべての関連情報をレビューすることで、AIGC製品の著作権を分析することができる。

As artificial intelligence technology becomes increasingly prevalent, Artificial Intelligence Generated Content (AIGC) is being adopted across various sectors. Although AIGC is playing an increasingly significant role in business and culture, questions surrounding its copyright have sparked widespread debate. The current legal framework for copyright and intellectual property is grounded in the concept of human authorship, but in the creation of AIGC, human creators primarily provide conceptual ideas, with AI independently responsible for the expressive elements. This disconnect creates complexity and difficulty in determining copyright ownership under existing laws. Consequently, it is imperative to reassess the intellectual contributions of all parties involved in the creation of AIGC to ensure a fair allocation of copyright ownership. To address this challenge, we introduce AIGC-Chain, a blockchain-enabled full lifecycle recording system designed to manage the copyright of AIGC products. It is engineered to meticulously document the entire lifecycle of AIGC products, providing a transparent and dependable platform for copyright management. Furthermore, we propose a copyright tracing method based on an Indistinguishable Bloom Filter, named IBFT, which enhances the efficiency of blockchain transaction queries and significantly reduces the risk of fraudulent copyright claims for AIGC products. In this way, auditors can analyze the copyright of AIGC products by reviewing all relevant information retrieved from the blockchain.
翻訳日:2024-06-24 14:13:25 公開日:2024-06-21
# 超伝導量子ビットのためのマグノンを介する量子ゲート

Magnon-mediated quantum gates for superconducting qubits ( http://arxiv.org/abs/2406.14967v1 )

ライセンス: Link先を確認
Martijn Dols, Sanchar Sharma, Lenos Bechara, Yaroslav M. Blanter, Marios Kounalakis, Silvia Viola Kusminskiy, (参考訳) 2つの超伝導トランスモン量子ビットに誘導結合した磁性粒子からなるハイブリッド量子系を提案し、量子ビット-量子ビット相互作用はマグノンを介して媒介される。 このシステムは,3種類の実効量子ビット相互作用,すなわち横(XX+YY$),縦(ZZ$),非自明な$ZX$相互作用に調整可能であることを示す。 また, 楕円形磁石を用いて異方性磁気揺らぎを発生させることにより, 結合性の向上を図っている。 本研究では,2量子ゲートの実現手法を提案し,現実的な実験条件下での性能をシミュレートする。 iSWAP と CZ ゲートは平均フィデリティ $\gtrsim 99 \% $ で、iCNOT ゲートは平均フィデリティ $\gtrsim 88 \%$で適用できる。 提案するハイブリッド回路アーキテクチャは,超伝導量子ビット間の2量子ゲートを実現するための代替プラットフォームを提供し,マグノンをメディエータとする量子ビットネットワークの構築に利用することができる。

We propose a hybrid quantum system consisting of a magnetic particle inductively coupled to two superconducting transmon qubits, where qubit-qubit interactions are mediated via magnons. We show that the system can be tuned into three different regimes of effective qubit-qubit interactions, namely a transverse ($XX + YY$), a longitudinal ($ZZ$) and a non-trivial $ZX$ interaction. In addition, we show that an enhanced coupling can be achieved by employing an ellipsoidal magnet, carrying anisotropic magnetic fluctuations. We propose a scheme for realizing two-qubit gates, and simulate their performance under realistic experimental conditions. We find that iSWAP and CZ gates can be performed in this setup with an average fidelity $\gtrsim 99 \% $ , while an iCNOT gate can be applied with an average fidelity $\gtrsim 88 \%$. Our proposed hybrid circuit architecture offers an alternative platform for realizing two-qubit gates between superconducting qubits and could be employed for constructing qubit networks using magnons as mediators.
翻訳日:2024-06-24 14:13:25 公開日:2024-06-21
# トーリック符号のMin-Sum復号法におけるブラインドネス特性

A blindness property of the Min-Sum decoding for the toric code ( http://arxiv.org/abs/2406.14968v1 )

ライセンス: Link先を確認
Julien du Crest, Mehdi Mhalla, Valentin Savin, (参考訳) 北エフのトーリック符号は、フォールトトレラント量子計算の最も顕著なモデルの一つであり、現在は接続制約量子技術の先駆的解と見なされている。 メッセージパス復号におけるトーリック符号の誤り訂正性能は,従来の低密度パリティチェック符号の理論と実践において中心的な役割を果たす,低複素度反復復号アルゴリズムのクラスである。 ここでは、非巡回グラフで定義された符号に対して、局所的に最大様相復号問題を解くことで知られるメッセージパス復号アルゴリズムであるmin-sum(MS)デコーディングの下でのトーリック符号の理論的解析を行う。 本分析により,メッセージパッシング過程における局所情報の伝播を抑えるトーリック符号の本質的な制限が明らかになった。 エラーシンドロームの未満足なチェックが距離が大きいか,あるいは5に等しい場合,MS復号法は局所的に盲目となる。 さらに,MS非退化復号半径は,少なくとも4つの重みの誤差に対する復号失敗の原因として,距離が最大あるいは9のトーリック符号に対して3に等しいことを示す。 最後に,我々の理論解析を補完し,実践的妥当性の事前処理手法を提案する。 提案手法は, 線形複雑度を有し, 最大3までの重みの(縮退した)誤差を補正し, MS と比較して, 論理誤差率性能を2次的に改善する。

Kitaev's toric code is one of the most prominent models for fault-tolerant quantum computation, currently regarded as the leading solution for connectivity constrained quantum technologies. Significant effort has been recently devoted to improving the error correction performance of the toric code under message-passing decoding, a class of low-complexity, iterative decoding algorithms that play a central role in both theory and practice of classical low-density parity-check codes. Here, we provide a theoretical analysis of the toric code under min-sum (MS) decoding, a message-passing decoding algorithm known to solve the maximum-likelihood decoding problem in a localized manner, for codes defined by acyclic graphs. Our analysis reveals an intrinsic limitation of the toric code, which confines the propagation of local information during the message-passing process. We show that if the unsatisfied checks of an error syndrome are at distance greater or equal to 5 from each other, then the MS decoding is locally blind: the qubits in the direct neighborhood of an unsatisfied check are never aware of any other unsatisfied checks, except their direct neighbor. Moreover, we show that degeneracy is not the only cause of decoding failures for errors of weight at least 4, that is, the MS non-degenerate decoding radius is equal to 3, for any toric code of distance greater or equal to 9. Finally, complementing our theoretical analysis, we present a pre-processing method of practical relevance. The proposed method, referred to as stabiliser-blowup, has linear complexity and allows correcting all (degenerate) errors of weight up to 3, providing quadratic improvement in the logical error rate performance, as compared to MS only.
翻訳日:2024-06-24 14:13:25 公開日:2024-06-21
# Uni-Mol2: スケールでの分子プレトレーニングモデルを探る

Uni-Mol2: Exploring Molecular Pretraining Model at Scale ( http://arxiv.org/abs/2406.14969v1 )

ライセンス: Link先を確認
Xiaohong Ji, Wang Zhen, Zhifeng Gao, Hang Zheng, Linfeng Zhang, Guolin Ke, Weinan E, (参考訳) 近年、自然言語処理(NLP)、コンピュータビジョン(CV)、生命科学の分野で、事前学習モデルが大幅に進歩している。 NLPとCVの顕著な進歩は、主にモデルパラメータとデータサイズの拡大によって引き起こされるが、これは現在スケーリング法則として認識されている現象である。 しかし、分子プレトレーニングモデルにおけるスケーリング法則の研究は未解明のままである。 本研究では,2トラックトランスを用いた分子前訓練モデルUni-Mol2を提案し,原子レベル,グラフレベル,幾何学構造レベルでの機能を効果的に統合する。 これに伴い,分子プレトレーニングモデルにおけるスケーリングの法則を体系的に検討し,検証損失とモデルサイズ,データセットサイズ,計算資源の相関関係を特徴付ける。 その結果、Uni-Mol2を8億のコンフォメーションを事前学習することで、11億のパラメータに拡張し、これまでで最大の分子前訓練モデルとなった。 大規模な実験では、モデルのサイズが大きくなるにつれて下流のタスクが一貫した改善が示される。 1.1Bパラメータを持つUni-Mol2も既存の手法より優れており、QM9では平均27%、CompAS-1Dデータセットでは14%改善している。

In recent years, pretraining models have made significant advancements in the fields of natural language processing (NLP), computer vision (CV), and life sciences. The significant advancements in NLP and CV are predominantly driven by the expansion of model parameters and data size, a phenomenon now recognized as the scaling laws. However, research exploring scaling law in molecular pretraining models remains unexplored. In this work, we present Uni-Mol2 , an innovative molecular pretraining model that leverages a two-track transformer to effectively integrate features at the atomic level, graph level, and geometry structure level. Along with this, we systematically investigate the scaling law within molecular pretraining models, characterizing the power-law correlations between validation loss and model size, dataset size, and computational resources. Consequently, we successfully scale Uni-Mol2 to 1.1 billion parameters through pretraining on 800 million conformations, making it the largest molecular pretraining model to date. Extensive experiments show consistent improvement in the downstream tasks as the model size grows. The Uni-Mol2 with 1.1B parameters also outperforms existing methods, achieving an average 27% improvement on the QM9 and 14% on COMPAS-1D dataset.
翻訳日:2024-06-24 14:13:25 公開日:2024-06-21
# Llama3-70B-インストラクションのドメイン適応 : 総合的評価

Domain Adaptation of Llama3-70B-Instruct through Continual Pre-Training and Model Merging: A Comprehensive Evaluation ( http://arxiv.org/abs/2406.14971v1 )

ライセンス: Link先を確認
Shamane Siriwardhana, Mark McQuade, Thomas Gauthier, Lucas Atkins, Fernando Fernandes Neto, Luke Meyers, Anneketh Vij, Tyler Odenthal, Charles Goddard, Mary MacCarthy, Jacob Solawetz, (参考訳) SECデータに対するMeta-Llama-3-70B-Instructモデルのドメイン適応に関する広範囲な実験を行い,一般ベンチマークおよびドメイン固有ベンチマークの性能について検討した。 CPT(Continuous pre-training)とモデルマージ(Model merging)は,破滅的な忘れを軽減しつつ,モデルのドメイン固有能力を向上することを目的としている。 本研究では,金融規制データをロバスト言語モデルに統合することによる影響を評価し,モデル統合手法の有効性について検討した。 https://huggingface.co/arcee-ai/Llama-3-SEC-Base, arcee-ai/Llama-3-SEC-Base。 これは最終モデルの中間チェックポイントで、これまでに20億のトークンが見られます。 フルモデルはまだトレーニング中の段階です。 これは、プロセス全体を理解するための徹底的な評価を備えた、プレプリントの技術レポートです。

We conducted extensive experiments on domain adaptation of the Meta-Llama-3-70B-Instruct model on SEC data, exploring its performance on both general and domain-specific benchmarks. Our focus included continual pre-training (CPT) and model merging, aiming to enhance the model's domain-specific capabilities while mitigating catastrophic forgetting. Through this study, we evaluated the impact of integrating financial regulatory data into a robust language model and examined the effectiveness of our model merging techniques in preserving and improving the model's instructive abilities. The model is accessible at hugging face: https://huggingface.co/arcee-ai/Llama-3-SEC-Base, arcee-ai/Llama-3-SEC-Base. This is an intermediate checkpoint of our final model, which has seen 20B tokens so far. The full model is still in the process of training. This is a preprint technical report with thorough evaluations to understand the entire process.
翻訳日:2024-06-24 14:13:25 公開日:2024-06-21
# 信頼と正確さの物語:RAGシステムにおけるベース vs. インストラクション LLM

A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems ( http://arxiv.org/abs/2406.14972v1 )

ライセンス: Link先を確認
Florin Cuconasu, Giovanni Trappolini, Nicola Tonellotto, Fabrizio Silvestri, (参考訳) Retrieval Augmented Generation (RAG)は、検索フェーズと生成フェーズを組み合わせた人工知能において、大きな言語モデル(LLM)が典型例である。 RAGの現在の一般的な実践は、教師付きトレーニングで微調整され、指示に従う能力を高め、最先端の技術を使って人間の好みに合わせている「指導された」LLMを使用することである。 一般的な信念とは対照的に,本研究では,実験環境下でのRAGタスクにおいて,ベースモデルが指示されたタスクを平均20%上回っていることを示す。 この発見は、RAGアプリケーションにおける命令LDMの優越性に関する一般的な仮定に挑戦する。 さらなる調査では、RAGの基本的な側面に疑問を呈し、このトピックに関するより広範な議論の必要性を示唆している。

Retrieval Augmented Generation (RAG) represents a significant advancement in artificial intelligence combining a retrieval phase with a generative phase, with the latter typically being powered by large language models (LLMs). The current common practices in RAG involve using "instructed" LLMs, which are fine-tuned with supervised training to enhance their ability to follow instructions and are aligned with human preferences using state-of-the-art techniques. Contrary to popular belief, our study demonstrates that base models outperform their instructed counterparts in RAG tasks by 20% on average under our experimental settings. This finding challenges the prevailing assumptions about the superiority of instructed LLMs in RAG applications. Further investigations reveal a more nuanced situation, questioning fundamental aspects of RAG and suggesting the need for broader discussions on the topic; or, as Fromm would have it, "Seldom is a glance at the statistics enough to understand the meaning of the figures".
翻訳日:2024-06-24 14:13:25 公開日:2024-06-21
# LU2Net: リアルタイム水中画像強調のための軽量ネットワーク

LU2Net: A Lightweight Network for Real-time Underwater Image Enhancement ( http://arxiv.org/abs/2406.14973v1 )

ライセンス: Link先を確認
Haodong Yang, Jisheng Xu, Zhiliang Lin, Jianping He, (参考訳) コンピュータビジョン技術により、水中ロボットは、物体追跡や経路計画など、様々なタスクを効果的にこなすことができるようになった。 しかし、光屈折や吸収のような水中の光学的要因は、水中の視覚に課題をもたらし、水中画像の劣化を引き起こす。 水中視覚知覚の有効性を高めるため,水中画像強調法が提案されている。 それにもかかわらず、水中ロボットのリアルタイムビジョンタスクには、アルゴリズムの効率性やリアルタイム能力に関わる課題を克服する必要がある。 本稿では,水中画像のリアルタイムエンハンスメントに特化して設計された新しいU字型ネットワーク,LU2Netを紹介する。 提案モデルでは, 軸方向の畳み込みとチャネルアテンションモジュールを組み込んで, 計算要求やモデルパラメータを大幅に低減し, 処理速度を向上する。 データセットと実世界の水中ロボットを用いて行われた広範な実験は、提案されたモデルの性能と速度を実証している。 最先端の水中画像強調法よりも8倍の速度で、高精細な水中画像を提供することができる。 さらにLU2Netは、リアルタイム水中ビデオエンハンスメントを処理できる。

Computer vision techniques have empowered underwater robots to effectively undertake a multitude of tasks, including object tracking and path planning. However, underwater optical factors like light refraction and absorption present challenges to underwater vision, which cause degradation of underwater images. A variety of underwater image enhancement methods have been proposed to improve the effectiveness of underwater vision perception. Nevertheless, for real-time vision tasks on underwater robots, it is necessary to overcome the challenges associated with algorithmic efficiency and real-time capabilities. In this paper, we introduce Lightweight Underwater Unet (LU2Net), a novel U-shape network designed specifically for real-time enhancement of underwater images. The proposed model incorporates axial depthwise convolution and the channel attention module, enabling it to significantly reduce computational demands and model parameters, thereby improving processing speed. The extensive experiments conducted on the dataset and real-world underwater robots demonstrate the exceptional performance and speed of proposed model. It is capable of providing well-enhanced underwater images at a speed 8 times faster than the current state-of-the-art underwater image enhancement method. Moreover, LU2Net is able to handle real-time underwater video enhancement.
翻訳日:2024-06-24 14:13:25 公開日:2024-06-21
# CoCPF: Ill-Posed Inverse Problem in Imagingのための座標型連続射影場

CoCPF: Coordinate-based Continuous Projection Field for Ill-Posed Inverse Problem in Imaging ( http://arxiv.org/abs/2406.14976v1 )

ライセンス: Link先を確認
Zixuan Chen, Lingxiao Yang, Jian-Huang Lai, Xiaohua Xie, (参考訳) スパース・ビュー・コンピュート・トモグラフィー(SVCT)の再構成は,スパース・サンプリングによるCT画像の取得を目的としている。 これにより、被曝体は電離放射線を減らし、がんの発生リスクを軽減できる。 近年の研究では、暗黙の神経表現(INR)技術を用いて、単一のSVシングラムからCT画像を再構成している。 しかし、不合理性のため、これらのINRベースの手法はフィールドに相当な 'holes' (すなわち、未モデル化空間) を残し、準最適結果をもたらす可能性がある。 本稿では,SVCT再構成のためのホールフリー表現場を構築することを目的としたコーディネート型連続射影場(CoCPF)を提案する。 特に、穴を埋めるために、CoCPFはまずストリップベースの体積サンプリングモジュールを使用し、1D空間からストリップ(2D空間)へのラドン変換のサンプリング領域を広げ、SV射影の間の内部領域をうまくカバーできる。 そして, 提案した可変レンダリングモジュールにサンプリング領域を供給することにより, トレーニング中にホールを共同最適化し, 被照射レベルを低減できる。 その結果、CoCPFはSV投影(DVシングラム)間の内部測定を正確に推定し、再投影後の高画質CT画像を生成することができる。 シミュレーションおよび実射影データセットに関する大規模な実験により、CoCPFは、様々な投影数と測地の下で2次元および3次元SVCT再構成のための最先端の手法より優れており、きめ細かい細部と少ないアーティファクトが得られることが示された。 私たちのコードは公開されます。

Sparse-view computed tomography (SVCT) reconstruction aims to acquire CT images based on sparsely-sampled measurements. It allows the subjects exposed to less ionizing radiation, reducing the lifetime risk of developing cancers. Recent researches employ implicit neural representation (INR) techniques to reconstruct CT images from a single SV sinogram. However, due to ill-posedness, these INR-based methods may leave considerable ``holes'' (i.e., unmodeled spaces) in their fields, leading to sub-optimal results. In this paper, we propose the Coordinate-based Continuous Projection Field (CoCPF), which aims to build hole-free representation fields for SVCT reconstruction, achieving better reconstruction quality. Specifically, to fill the holes, CoCPF first employs the stripe-based volume sampling module to broaden the sampling regions of Radon transformation from rays (1D space) to stripes (2D space), which can well cover the internal regions between SV projections. Then, by feeding the sampling regions into the proposed differentiable rendering modules, the holes can be jointly optimized during training, reducing the ill-posed levels. As a result, CoCPF can accurately estimate the internal measurements between SV projections (i.e., DV sinograms), producing high-quality CT images after re-projection. Extensive experiments on simulated and real projection datasets demonstrate that CoCPF outperforms state-of-the-art methods for 2D and 3D SVCT reconstructions under various projection numbers and geometries, yielding fine-grained details and fewer artifacts. Our code will be publicly available.
翻訳日:2024-06-24 14:13:25 公開日:2024-06-21
# 脳画像トランスクリプトームデータを用いた多視点多モードアルツハイマー病の予測

Trustworthy Enhanced Multi-view Multi-modal Alzheimer's Disease Prediction with Brain-wide Imaging Transcriptomics Data ( http://arxiv.org/abs/2406.14977v1 )

ライセンス: Link先を確認
Shan Cong, Zhoujie Fan, Hongwei Liu, Yinghan Zhang, Xin Wang, Haoran Luo, Xiaohui Yao, (参考訳) 脳の転写学は、脳が機能や過程を調節する分子機構に関する洞察を与える。 しかし、アルツハイマー病(AD)を予測するための既存のマルチモーダル手法は、主に画像と時折遺伝データに依存しており、しばしば脳の転写学的基盤を無視している。 さらに、モーダル間の相補的な情報の統合を試みながら、ほとんどの研究はモーダル間の情報的相違を見落としている。 本稿では,多視点マルチモーダルグラフアテンションフレームワークであるTMMを提案する。 まず、生体分子とイメージングの両方の観点からの相互作用情報を組み込むために、転写学およびマルチモーダルラジオミクスデータからビュー固有脳局所共役ネットワーク(RRI)を構築した。 次に、各RRIネットワークにグラフアテンション(GAT)処理を適用し、グラフアテンディングを生成し、各画像由来の埋め込みとヒューズ・トランスクリプトミクス由来の埋め込みにクロスモーダルアテンションを用いる。 最後に、AD診断における各モードの予測信頼度を評価し、適応的に調整する新しい真偽調和型クラス確率(TFCP)戦略を設計する。 AHBAデータベースとADNIデータベースの3つの画像モダリティ(AV45-PET, FDG-PET, VBM-MRI)を用いてTMMを評価する。 その結果,AD法,EMCI法,LMCI法が最先端技術と比較して優れていることが示された。 コードとデータはhttps://github.com/Yaolab-fantastic/TMMで公開されている。

Brain transcriptomics provides insights into the molecular mechanisms by which the brain coordinates its functions and processes. However, existing multimodal methods for predicting Alzheimer's disease (AD) primarily rely on imaging and sometimes genetic data, often neglecting the transcriptomic basis of brain. Furthermore, while striving to integrate complementary information between modalities, most studies overlook the informativeness disparities between modalities. Here, we propose TMM, a trusted multiview multimodal graph attention framework for AD diagnosis, using extensive brain-wide transcriptomics and imaging data. First, we construct view-specific brain regional co-function networks (RRIs) from transcriptomics and multimodal radiomics data to incorporate interaction information from both biomolecular and imaging perspectives. Next, we apply graph attention (GAT) processing to each RRI network to produce graph embeddings and employ cross-modal attention to fuse transcriptomics-derived embedding with each imagingderived embedding. Finally, a novel true-false-harmonized class probability (TFCP) strategy is designed to assess and adaptively adjust the prediction confidence of each modality for AD diagnosis. We evaluate TMM using the AHBA database with brain-wide transcriptomics data and the ADNI database with three imaging modalities (AV45-PET, FDG-PET, and VBM-MRI). The results demonstrate the superiority of our method in identifying AD, EMCI, and LMCI compared to state-of-the-arts. Code and data are available at https://github.com/Yaolab-fantastic/TMM.
翻訳日:2024-06-24 14:13:25 公開日:2024-06-21
# E2GS: イベント強化ガウシアンスプレイティング

E2GS: Event Enhanced Gaussian Splatting ( http://arxiv.org/abs/2406.14978v1 )

ライセンス: Link先を確認
Hiroyuki Deguchi, Mana Masuda, Takuya Nakabayashi, Hideo Saito, (参考訳) イベントカメラは、高いダイナミックレンジ、動きのぼかしの欠如、エネルギー消費の低さで知られており、最近これらの属性のおかげで幅広い用途が発見されている。 過去数年間、事象に基づく3次元再構成の分野は顕著な進歩を遂げ、NeRF(Neural Radiance Field)ベースのアプローチがフォトリアリスティックなビュー合成結果を示している。 しかし、NeRFのボリュームレンダリングパラダイムは、広範なトレーニングとレンダリング時間を必要とする。 本稿では,イベントデータをガウス版に組み込む新しい手法であるイベント拡張ガウス版(E2GS)について紹介する。 我々のE2GSは、ぼやけた画像とイベントデータの両方を効果的に利用し、画像の劣化を著しく改善し、高品質の新規ビュー合成を生成する。 合成と実世界の両方のデータセットに関する包括的な実験は、E2GSがより高速なトレーニングとレンダリング速度(140 FPS)を提供しながら、視覚的に魅力的なレンダリングを生成することを実証しています。 私たちのコードはhttps://github.com/deguchihiroyuki/E2GS.comで公開されています。

Event cameras, known for their high dynamic range, absence of motion blur, and low energy usage, have recently found a wide range of applications thanks to these attributes. In the past few years, the field of event-based 3D reconstruction saw remarkable progress, with the Neural Radiance Field (NeRF) based approach demonstrating photorealistic view synthesis results. However, the volume rendering paradigm of NeRF necessitates extensive training and rendering times. In this paper, we introduce Event Enhanced Gaussian Splatting (E2GS), a novel method that incorporates event data into Gaussian Splatting, which has recently made significant advances in the field of novel view synthesis. Our E2GS effectively utilizes both blurry images and event data, significantly improving image deblurring and producing high-quality novel view synthesis. Our comprehensive experiments on both synthetic and real-world datasets demonstrate our E2GS can generate visually appealing renderings while offering faster training and rendering speed (140 FPS). Our code is available at https://github.com/deguchihiroyuki/E2GS.
翻訳日:2024-06-24 14:13:25 公開日:2024-06-21
# Retrieve-Plan-Generation:知識集中型LLM生成のための反復的計画と解答フレームワーク

Retrieve-Plan-Generation: An Iterative Planning and Answering Framework for Knowledge-Intensive LLM Generation ( http://arxiv.org/abs/2406.14979v1 )

ライセンス: Link先を確認
Yuanjie Lyu, Zihan Niu, Zheyong Xie, Chao Zhang, Tong Xu, Yang Wang, Enhong Chen, (参考訳) 様々なタスクにおいて大きな言語モデル(LLM)が著しく進歩しているにもかかわらず、内部知識が限られているため、しばしば事実エラーが発生する。 Retrieval-Augmented Generation (RAG)は、LLMを外部の知識ソースで拡張し、有望なソリューションを提供する。 しかし、これらの方法は検索された文書の無関係な段落によって誤解されることがある。 LLM生成における本質的な不確実性のため、文書全体を入力すると、オフトピック情報が導入され、モデルが中心トピックから逸脱し、生成された内容の関連性に影響を与える可能性がある。 これらの問題に対処するため、我々はRetrieve-Plan-Generation (RPG)フレームワークを提案する。 RPGはプラントークンを生成し、プランステージの後の世代をガイドする。 解答段階では、その計画に基づいて関連きめ細かい段落を選択し、さらに解答生成に使用する。 この計画回答プロセスは、完了まで反復的に繰り返され、特定のトピックに焦点をあてて生成関連性を高める。 このフレームワークを効率的に実装するために,既存のLCMが計画と回答の両方を扱えるように,シンプルで効果的なマルチタスクプロンプトチューニング手法を用いる。 RPGと5つの知識集約型タスクのベースラインを総合的に比較し、アプローチの有効性を実証する。

Despite the significant progress of large language models (LLMs) in various tasks, they often produce factual errors due to their limited internal knowledge. Retrieval-Augmented Generation (RAG), which enhances LLMs with external knowledge sources, offers a promising solution. However, these methods can be misled by irrelevant paragraphs in retrieved documents. Due to the inherent uncertainty in LLM generation, inputting the entire document may introduce off-topic information, causing the model to deviate from the central topic and affecting the relevance of the generated content. To address these issues, we propose the Retrieve-Plan-Generation (RPG) framework. RPG generates plan tokens to guide subsequent generation in the plan stage. In the answer stage, the model selects relevant fine-grained paragraphs based on the plan and uses them for further answer generation. This plan-answer process is repeated iteratively until completion, enhancing generation relevance by focusing on specific topics. To implement this framework efficiently, we utilize a simple but effective multi-task prompt-tuning method, enabling the existing LLMs to handle both planning and answering. We comprehensively compare RPG with baselines across 5 knowledge-intensive generation tasks, demonstrating the effectiveness of our approach.
翻訳日:2024-06-24 14:13:25 公開日:2024-06-21
# ヒト-AI集団は最も正確な鑑別診断を行う

Human-AI collectives produce the most accurate differential diagnoses ( http://arxiv.org/abs/2406.14981v1 )

ライセンス: Link先を確認
N. Zöller, J. Berger, I. Lin, N. Fu, J. Komarneni, G. Barabucci, K. Laskowski, V. Shia, B. Harack, E. A. Chu, V. Trianni, R. H. J. M. Kurvers, S. M. Herzog, (参考訳) 人工知能システム、特に大規模言語モデル(LLM)は、安全、品質、および株式を確保するための適切な保護がなければ、個人と社会の両方に大きな影響を及ぼす高い意思決定にますます採用されている。 しかし、LLMは幻覚を呈し、常識を欠き、偏見が偏っている - LLM固有の制限を反映している可能性があるため、より洗練されたアーキテクチャ、より多くのデータ、あるいはより人間のフィードバックによって修正されない可能性がある。 したがって、LLMにのみ焦点をあてて、複雑で高い判断を下すことは問題となる。 本稿では,人間体験の相補的強みとLLMが処理する膨大な情報を活用することで,これらのリスクを軽減するハイブリッド集団知能システムを提案する。 医師による40,762件の鑑別診断と,2,133件の当科5症例の鑑別を行った。 医師とLLMのハイブリッド集団は,単独の医師と医師の集団,および単一LLMとLLMのアンサンブルよりも優れていた。 この結果は、様々な医学的専門知識や専門的経験に及び、様々な種類のエラーにつながる人間やLSMの補完的な貢献に起因する可能性がある。 我々のアプローチは、医療診断のような複雑でオープンな領域における精度を向上させるための、人間と機械の集合的知性の可能性を強調します。

Artificial intelligence systems, particularly large language models (LLMs), are increasingly being employed in high-stakes decisions that impact both individuals and society at large, often without adequate safeguards to ensure safety, quality, and equity. Yet LLMs hallucinate, lack common sense, and are biased - shortcomings that may reflect LLMs' inherent limitations and thus may not be remedied by more sophisticated architectures, more data, or more human feedback. Relying solely on LLMs for complex, high-stakes decisions is therefore problematic. Here we present a hybrid collective intelligence system that mitigates these risks by leveraging the complementary strengths of human experience and the vast information processed by LLMs. We apply our method to open-ended medical diagnostics, combining 40,762 differential diagnoses made by physicians with the diagnoses of five state-of-the art LLMs across 2,133 medical cases. We show that hybrid collectives of physicians and LLMs outperform both single physicians and physician collectives, as well as single LLMs and LLM ensembles. This result holds across a range of medical specialties and professional experience, and can be attributed to humans' and LLMs' complementary contributions that lead to different kinds of errors. Our approach highlights the potential for collective human and machine intelligence to improve accuracy in complex, open-ended domains like medical diagnostics.
翻訳日:2024-06-24 14:13:25 公開日:2024-06-21
# 主要な会議手続の階層的テーマ分類

Hierarchical thematic classification of major conference proceedings ( http://arxiv.org/abs/2406.14983v1 )

ライセンス: Link先を確認
Arsentii Kuzmin, Alexander Aduenko, Vadim Strijov, (参考訳) 本稿では,階層型テキスト分類のための意思決定支援システムを開発する。 木という形態で専門家が与えるトピックの階層構造を固定したテキストコレクションを考察する。 システムは、ある文書に関連するトピックを分類する。 専門家は、分類を完了する最も関連性の高いトピックの1つを選択します。 トピック関連性を計算するために,重み付き階層的類似度関数を提案する。 関数は文書と木の枝の類似性を計算する。 この関数の重みは単語の重要性を決定する。 私たちは単語のエントロピーを使って重みを見積もる。 提案した階層的類似関数は,文書のトピック,パラメータ,ハイパーパラメータの階層的分類確率モデルを定式化する。 変分ベイズ予想は閉形式EMアルゴリズムを与える。 EMアルゴリズムはパラメータを推定し、与えられた文書のトピックの確率を算出する。 階層型マルチクラスSVM,適応正規化を伴う階層型PLSA,階層型ナイーブベイズに比べ,重み付き階層型類似性関数は,主要な会議であるEUROと産業企業のウェブサイトの要約コレクションにおいて,ランキング精度の向上を図っている。

In this paper, we develop a decision support system for the hierarchical text classification. We consider text collections with a fixed hierarchical structure of topics given by experts in the form of a tree. The system sorts the topics by relevance to a given document. The experts choose one of the most relevant topics to finish the classification. We propose a weighted hierarchical similarity function to calculate topic relevance. The function calculates the similarity of a document and a tree branch. The weights in this function determine word importance. We use the entropy of words to estimate the weights. The proposed hierarchical similarity function formulates a joint hierarchical thematic classification probability model of the document topics, parameters, and hyperparameters. The variational Bayesian inference gives a closed-form EM algorithm. The EM algorithm estimates the parameters and calculates the probability of a topic for a given document. Compared to hierarchical multiclass SVM, hierarchical PLSA with adaptive regularization, and hierarchical naive Bayes, the weighted hierarchical similarity function has better improvement in ranking accuracy in an abstract collection of a major conference EURO and a website collection of industrial companies.
翻訳日:2024-06-24 14:03:36 公開日:2024-06-21
# 大規模言語モデルは認知的不協和性を制限するか? : 回答と回答の相違について

Do Large Language Models Exhibit Cognitive Dissonance? Studying the Difference Between Revealed Beliefs and Stated Answers ( http://arxiv.org/abs/2406.14986v1 )

ライセンス: Link先を確認
Manuel Mondal, Ljiljana Dolamic, Gérôme Bovet, Philippe Cudré-Mauroux, (参考訳) Prompting and Multiple Choices Questions (MCQ) は、操作や評価の容易さから、LLM(Large Language Models)の能力を評価するために好まれるアプローチとなっている。 このような実験的な評価は、LSMが因果推論を行ったり、不確実性を把握する能力に向けられている。 本稿では,これらの能力が調整プロンプトの外部で測定可能かどうかについて検討し,これらの問題を直接テキスト補完(LCM)の基盤として再構成することでMCQについて検討する。 この目的を達成するために、複数の可能な結果を持つシナリオを定義し、次のトークン予測(Revealed Belief)において、それらの結果に対して計算した確率分布をプロンプト(ステートド・アンサー)することで、LCMが生成した予測と比較する。 以上の結果から,LSMの回答は,彼らの回答とは大きく異なることが示唆され,その信念が多くのシナリオや成果をもたらす可能性があるという複数のバイアスや誤表現が示唆された。 テキスト補完はLLMの中核にあるため、これらの結果は、共通評価手法は部分的な図のみを提供するものであり、それらの能力の程度と性質を評価するためにはより多くの研究が必要であることを示唆している。

Prompting and Multiple Choices Questions (MCQ) have become the preferred approach to assess the capabilities of Large Language Models (LLMs), due to their ease of manipulation and evaluation. Such experimental appraisals have pointed toward the LLMs' apparent ability to perform causal reasoning or to grasp uncertainty. In this paper, we investigate whether these abilities are measurable outside of tailored prompting and MCQ by reformulating these issues as direct text completion - the foundation of LLMs. To achieve this goal, we define scenarios with multiple possible outcomes and we compare the prediction made by the LLM through prompting (their Stated Answer) to the probability distributions they compute over these outcomes during next token prediction (their Revealed Belief). Our findings suggest that the Revealed Belief of LLMs significantly differs from their Stated Answer and hint at multiple biases and misrepresentations that their beliefs may yield in many scenarios and outcomes. As text completion is at the core of LLMs, these results suggest that common evaluation methods may only provide a partial picture and that more research is needed to assess the extent and nature of their capabilities.
翻訳日:2024-06-24 14:03:36 公開日:2024-06-21
# 緑内障におけるバイオメカニクス-ファンクション関係の導入:眼圧誘発性神経組織ひずみによる視野損失予測の改善

Introducing the Biomechanics-Function Relationship in Glaucoma: Improved Visual Field Loss Predictions from intraocular pressure-induced Neural Tissue Strains ( http://arxiv.org/abs/2406.14988v1 )

ライセンス: Link先を確認
Thanadet Chuangsuwanich, Monisha E. Nongpiur, Fabian A. Braeu, Tin A. Tun, Alexandre Thiery, Shamira Perera, Ching Lin Ho, Martin Buist, George Barbastathis, Tin Aung, Michaël J. A. Girard, (参考訳) 目的。 1) 緑内障の神経組織構造とバイオメカニクスが機能的損失を予測できるかどうかを評価すること, (2) バイオメカニクスの重要性を評価すること。 デザイン、設定、参加。 対象は緑内障238名であった。 各被験者の片眼では,(1)初視,(2)急性IOP上昇を伴う初視のスペクトル領域OCTを用いて視神経頭部(ONH)を画像化した。 主な成果: 視神経頭(ONH)組織の自動分画とDVC分析を用いて眼圧(IOP)誘発神経組織株を計算した。 ホールフリー24-2パターン標準偏差(PSD)の全地図をONH構造情報と生体力学情報から予測するために、ポイントネット(Point-Net)と呼ばれる頑健な幾何学的深層学習手法が採用された。 各PSDマップの各点について, PSD値が5%未満であったか, 欠陥がないか, あるいはPSD値が5%未満であったか予測した。 5倍のクロスバリデーションとF1スコアを用いて予測性能を評価した。 バイオメカニクスが予測精度に与える影響を評価するため,IOP誘発株を含まないモデルの性能を比較した。 結果: バイオメカニカル(IOP誘発神経組織株)と構造(組織形態および神経組織厚)情報の統合は, 構造情報のみに頼らず, 検証対象者間で有意に優れた予測モデル(F1スコア: 0.76+-0.02)が得られ, 結果としてF1スコアは 0.71+-0.02 (p < 0.05) となった。 結論: バイオメカニカルデータの統合は, 視野損失予測の精度を著しく向上させる可能性が示唆された。 これは緑内障における生体力学的-機能的関係の重要性を強調し、生体力学的が緑内障の発生と進展の重要な指標となることを示唆している。

Objective. (1) To assess whether neural tissue structure and biomechanics could predict functional loss in glaucoma; (2) To evaluate the importance of biomechanics in making such predictions. Design, Setting and Participants. We recruited 238 glaucoma subjects. For one eye of each subject, we imaged the optic nerve head (ONH) using spectral-domain OCT under the following conditions: (1) primary gaze and (2) primary gaze with acute IOP elevation. Main Outcomes: We utilized automatic segmentation of optic nerve head (ONH) tissues and digital volume correlation (DVC) analysis to compute intraocular pressure (IOP)-induced neural tissue strains. A robust geometric deep learning approach, known as Point-Net, was employed to predict the full Humphrey 24-2 pattern standard deviation (PSD) maps from ONH structural and biomechanical information. For each point in each PSD map, we predicted whether it exhibited no defect or a PSD value of less than 5%. Predictive performance was evaluated using 5-fold cross-validation and the F1-score. We compared the model's performance with and without the inclusion of IOP-induced strains to assess the impact of biomechanics on prediction accuracy. Results: Integrating biomechanical (IOP-induced neural tissue strains) and structural (tissue morphology and neural tissues thickness) information yielded a significantly better predictive model (F1-score: 0.76+-0.02) across validation subjects, as opposed to relying only on structural information, which resulted in a significantly lower F1-score of 0.71+-0.02 (p < 0.05). Conclusion: Our study has shown that the integration of biomechanical data can significantly improve the accuracy of visual field loss predictions. This highlights the importance of the biomechanics-function relationship in glaucoma, and suggests that biomechanics may serve as a crucial indicator for the development and progression of glaucoma.
翻訳日:2024-06-24 14:03:36 公開日:2024-06-21
# 2次元における量子臨界基底状態の不均一な断熱的準備

An inhomogeneous adiabatic preparation of a quantum critical ground state in two dimensions ( http://arxiv.org/abs/2406.14989v1 )

ライセンス: Link先を確認
Ihor Sokolov, Francis A. Bayocboc Jr., Marek M. Rams, Jacek Dziarmaga, (参考訳) 臨界基底状態の断熱的調製は、システムサイズが大きくなるにつれてエネルギーギャップの閉鎖によって妨げられる。 しかし、このギャップは、ハミルトニアンの制御パラメータが量子臨界点に向かって一様に調整される一様ランプにのみ直接関係している。 ここでは不均質なランプを2次元で考える: まず、パラメータは格子の中心で臨界となり、そこで臨界領域は一定の速度で膨張する。 1Dおよび2D量子イジングモデルでは、臨界点における音速が明確に定義された場合、ランプは亜音速で断熱する。 このサブソニックランプは、均一なランプよりも早く臨界状態を作成することができる。 さらに、$p$波対2Dフェルミオンモデルと北エフモデルの両方のモデルでは、臨界分散は異方性であり、一方は非ゼロ速度、もう一方は二次性を持つが、そのギャップは臨界領域の線形サイズに逆比例し、非ゼロ速度に比例する。 これにより、不均一ランプの断面積を有限交叉速度以下に抑え、同次ランプよりも優れている。

Adiabatic preparation of a critical ground state is hampered by the closing of its energy gap as the system size increases. However, this gap is directly relevant only for a uniform ramp, where a control parameter in the Hamiltonian is tuned uniformly in space towards the quantum critical point. Here, we consider inhomogeneous ramps in two dimensions: initially, the parameter is made critical at the center of a lattice, from where the critical region expands at a fixed velocity. In the 1D and 2D quantum Ising models, which have a well-defined speed of sound at the critical point, the ramp becomes adiabatic with a subsonic velocity. This subsonic ramp can prepare the critical state faster than a uniform one. Moreover, in both a model of $p$-wave paired 2D fermions and the Kitaev model, the critical dispersion is anisotropic -- linear with a nonzero velocity in one direction and quadratic in the other -- but the gap is still inversely proportional to the linear size of the critical region, with a coefficient proportional to the nonzero velocity. This suffices to make the inhomogeneous ramp adiabatic below a finite crossover velocity and superior to the homogeneous one.
翻訳日:2024-06-24 14:03:36 公開日:2024-06-21
# 触覚フィードバック遠隔操作システムを用いたバイマニアルロボットのための少数のデモから可変コンプライアンス制御を学習する

Learning Variable Compliance Control From a Few Demonstrations for Bimanual Robot with Haptic Feedback Teleoperation System ( http://arxiv.org/abs/2406.14990v1 )

ライセンス: Link先を確認
Tatsuya Kamijo, Cristian C. Beltran-Hernandez, Masashi Hamaya, (参考訳) 剛体ロボットを用いた、きめ細やかな、接触に富んだ操作タスクを自動化することは、ロボット工学において重要な課題である。 位置指示による動作によって定義された剛体ロボットは、環境との接触に適応できないため、過度の接触力の問題に直面し、潜在的に損傷を引き起こす可能性がある。 コンプライアンス制御スキームは、外部センサによる力の制御によってこれらの問題を緩和するために導入されているが、細調整されたタスク固有のコントローラパラメータの必要性により、それらが妨げられている。 デモから学ぶこと(LfD)は直感的な代替手段であり、ロボットは観察された動作を通じて操作を学ぶことができる。 そこで本研究では,剛体ロボットに対する,器用で接触に富んだ操作の教育を強化する新しいシステムを提案する。 まず,仮想現実感(VR)コントローラを用いた遠隔操作インタフェースを内蔵し,触覚フィードバックによるタスク実証のための直感的で費用対効果の高い方法を提案する。 第2にComp-ACT(Compliance Control via Action Chunking with Transformers)を提案する。 本手法は, ロボットに適応性や安全性を向上し, ロボットの巧妙な操作を指導する上で, 実環境とシミュレーション環境における単腕ロボットと人体ロボットのセットアップを用いて, 様々な複雑な接触操作タスクに対して検証されている。

Automating dexterous, contact-rich manipulation tasks using rigid robots is a significant challenge in robotics. Rigid robots, defined by their actuation through position commands, face issues of excessive contact forces due to their inability to adapt to contact with the environment, potentially causing damage. While compliance control schemes have been introduced to mitigate these issues by controlling forces via external sensors, they are hampered by the need for fine-tuning task-specific controller parameters. Learning from Demonstrations (LfD) offers an intuitive alternative, allowing robots to learn manipulations through observed actions. In this work, we introduce a novel system to enhance the teaching of dexterous, contact-rich manipulations to rigid robots. Our system is twofold: firstly, it incorporates a teleoperation interface utilizing Virtual Reality (VR) controllers, designed to provide an intuitive and cost-effective method for task demonstration with haptic feedback. Secondly, we present Comp-ACT (Compliance Control via Action Chunking with Transformers), a method that leverages the demonstrations to learn variable compliance control from a few demonstrations. Our methods have been validated across various complex contact-rich manipulation tasks using single-arm and bimanual robot setups in simulated and real-world environments, demonstrating the effectiveness of our system in teaching robots dexterous manipulations with enhanced adaptability and safety.
翻訳日:2024-06-24 14:03:36 公開日:2024-06-21
# SpreadsheetBench: リアルワールドのスプレッドシート操作に挑戦

SpreadsheetBench: Towards Challenging Real World Spreadsheet Manipulation ( http://arxiv.org/abs/2406.14991v1 )

ライセンス: Link先を確認
Zeyao Ma, Bohan Zhang, Jing Zhang, Jifan Yu, Xiaokang Zhang, Xiaohan Zhang, Sijia Luo, Xi Wang, Jie Tang, (参考訳) 本研究では,既存の大規模言語モデル(LLM)を,実際のスプレッドシートユーザのワークフローにマージするように設計された,現実シナリオから排他的に派生した,挑戦的なスプレッドシート操作ベンチマークであるSpreadsheetBenchを紹介する。 合成クエリと単純化されたスプレッドシートファイルに依存する既存のベンチマークとは異なり、SpreadsheetBenchはオンラインExcelフォーラムから収集された912の質問から構築されている。 フォーラムからの関連するスプレッドシートには、複数のテーブル、非標準リレーショナルテーブル、豊富な非テキスト要素など、さまざまな表データが含まれている。 さらに,オンライン判定プラットフォームに類似した信頼性の高い評価基準を提案し,複数のスプレッドシートファイルを各命令のテストケースとして作成し,異なる値でスプレッドシートを処理できる堅牢なソリューションの評価を確実にする。 単一ラウンドおよび複数ラウンドの推論条件下での様々なLCMの総合評価は、最新技術(SOTA)モデルと人為的性能の間に大きなギャップを生じさせ、ベンチマークの難しさを浮き彫りにしている。

We introduce SpreadsheetBench, a challenging spreadsheet manipulation benchmark exclusively derived from real-world scenarios, designed to immerse current large language models (LLMs) in the actual workflow of spreadsheet users. Unlike existing benchmarks that rely on synthesized queries and simplified spreadsheet files, SpreadsheetBench is built from 912 real questions gathered from online Excel forums, which reflect the intricate needs of users. The associated spreadsheets from the forums contain a variety of tabular data such as multiple tables, non-standard relational tables, and abundant non-textual elements. Furthermore, we propose a more reliable evaluation metric akin to online judge platforms, where multiple spreadsheet files are created as test cases for each instruction, ensuring the evaluation of robust solutions capable of handling spreadsheets with varying values. Our comprehensive evaluation of various LLMs under both single-round and multi-round inference settings reveals a substantial gap between the state-of-the-art (SOTA) models and human performance, highlighting the benchmark's difficulty.
翻訳日:2024-06-24 14:03:36 公開日:2024-06-21
# 障害表現: 自動画像生成におけるバイアスを見つける

Disability Representations: Finding Biases in Automatic Image Generation ( http://arxiv.org/abs/2406.14993v1 )

ライセンス: Link先を確認
Yannis Tevissen, (参考訳) 画像生成技術の最近の進歩は、AI生成画像への広範なアクセスを可能にしており、広告、エンターテイメント、そして視覚的コンテンツのあらゆる形態で顕著に利用されている。 しかし、これらの技術はしばしば社会的偏見を持続させる。 本研究では,障害者に対する画像生成モデルにおける表現バイアスについて検討した。 人気のテキスト・ツー・イメージモデルを含む包括的実験を通じて,障害の描写を分析した。 その結果、ほとんどの画像は、障害者を年老いて悲しく、主に手動車椅子で描いているという大きな偏見が示された。 これらの発見は、より包括的なAI開発の必要性を強調し、生成された画像におけるPWDの多様性と正確な表現を保証する。 この研究は、公平で現実的な表現を育むために、AIモデルにおけるバイアスへの対処と緩和の重要性を強調している。

Recent advancements in image generation technology have enabled widespread access to AI-generated imagery, prominently used in advertising, entertainment, and progressively in every form of visual content. However, these technologies often perpetuate societal biases. This study investigates the representation biases in popular image generation models towards people with disabilities (PWD). Through a comprehensive experiment involving several popular text-to-image models, we analyzed the depiction of disability. The results indicate a significant bias, with most generated images portraying disabled individuals as old, sad, and predominantly using manual wheelchairs. These findings highlight the urgent need for more inclusive AI development, ensuring diverse and accurate representation of PWD in generated images. This research underscores the importance of addressing and mitigating biases in AI models to foster equitable and realistic representations.
翻訳日:2024-06-24 14:03:36 公開日:2024-06-21
# クロスデータセットおよびクロスディスク一般化のための網膜血管分割モデルのベンチマーク

Benchmarking Retinal Blood Vessel Segmentation Models for Cross-Dataset and Cross-Disease Generalization ( http://arxiv.org/abs/2406.14994v1 )

ライセンス: Link先を確認
Jeremiah Fadugba, Patrick Köhler, Lisa Koch, Petru Manescu, Philipp Berens, (参考訳) 網膜血管セグメンテーションは、眼底画像から臨床的に関連のある情報を抽出することができる。 手動トレーシングが面倒なため、畳み込みニューラルネットワークに基づくアルゴリズムが開発されている。 このような研究は、トレーニングとパフォーマンス測定に利用可能な小さなデータセットを使用し、オーバーフィッティングのリスクを実行している。 ここでは、これまでに発行された最大のデータセットに関する文献で一般的に使用される様々なアーキテクチャおよびトレーニングの選択に関する厳密なベンチマークを提供する。 FIVESファウンダス画像データセットは,従来よりサイズと品質が優れており,また,糖尿病網膜症,加齢に伴う黄斑変性,緑内障などの眼科疾患の画像も含む。 異なる損失関数の異なるモデルアーキテクチャの性能,画像品質,眼科的条件のレベルを比較し,疾患誘発ドメインシフトに直面するそれらの能力を評価する。 十分なトレーニングデータがあれば、U-Netのような基本的なアーキテクチャは、より高度なアーキテクチャと同様に機能し、疾患によって引き起こされるドメインシフトを渡すことは、ほとんどのアーキテクチャでよく機能する。 しかし,画像の質がセグメンテーションの結果を決定する重要な要因であることがわかった。 セグメンテーションのパフォーマンスを最適化する場合、標準的なアーキテクチャをトレーニングするために、十分にキュレートされたデータセットに投資すると、より小さなデータセットやより低い画像品質で高度なアーキテクチャをチューニングするよりも、よりよい結果が得られる。 臨床現場の状況に応じて, モデル選択の実践的ガイダンスを提供するために, 臨床関連性の観点から, 建築的進歩の有用性を抽出した。

Retinal blood vessel segmentation can extract clinically relevant information from fundus images. As manual tracing is cumbersome, algorithms based on Convolution Neural Networks have been developed. Such studies have used small publicly available datasets for training and measuring performance, running the risk of overfitting. Here, we provide a rigorous benchmark for various architectural and training choices commonly used in the literature on the largest dataset published to date. We train and evaluate five published models on the publicly available FIVES fundus image dataset, which exceeds previous ones in size and quality and which contains also images from common ophthalmological conditions (diabetic retinopathy, age-related macular degeneration, glaucoma). We compare the performance of different model architectures across different loss functions, levels of image qualitiy and ophthalmological conditions and assess their ability to perform well in the face of disease-induced domain shifts. Given sufficient training data, basic architectures such as U-Net perform just as well as more advanced ones, and transfer across disease-induced domain shifts typically works well for most architectures. However, we find that image quality is a key factor determining segmentation outcomes. When optimizing for segmentation performance, investing into a well curated dataset to train a standard architecture yields better results than tuning a sophisticated architecture on a smaller dataset or one with lower image quality. We distilled the utility of architectural advances in terms of their clinical relevance therefore providing practical guidance for model choices depending on the circumstances of the clinical setting
翻訳日:2024-06-24 14:03:36 公開日:2024-06-21
# 幾何学変換器を用いた確率的・微分可能な無線シミュレーション

Probabilistic and Differentiable Wireless Simulation with Geometric Transformers ( http://arxiv.org/abs/2406.14995v1 )

ライセンス: Link先を確認
Thomas Hehn, Markus Peschl, Tribhuvanesh Orekondy, Arash Behboodi, Johann Brehmer, (参考訳) 電磁信号の伝搬をモデル化することは、現代の通信システムの設計に不可欠である。 レイトレーシングに基づく正確なシミュレータは存在するが、逆問題の解決や自動設計ループの統合には役に立たない。 本稿では,これらの課題を,問題の幾何学的側面を生かした,微分可能なニューラルサロゲートによって解決することを提案する。 まず,Wi-GATr(Wi-GATr)を導入した。これは3次元環境下での無線伝搬をシミュレーションするための汎用バックボーンアーキテクチャである。 幾何学的代数に基づく多元表現を使い、基礎となる物理学の対称性群 E(3) に対して同変である。 第2に、信号予測と逆問題に対する2つのアルゴリズム的アプローチを、微分可能な予測モデルと拡散モデルに基づいて検討する。 受信した電力を予測し、受信機をローカライズし、受信した信号から3D環境を再構築する方法について示す。 最後に,屋内シーンにおける無線信号の伝搬に関する2つの大規模・幾何学的なデータセットを紹介する。 実験では, 幾何フォワード法により, 各種ベースラインよりも少ないデータで高忠実度予測が達成されることを示した。

Modelling the propagation of electromagnetic signals is critical for designing modern communication systems. While there are precise simulators based on ray tracing, they do not lend themselves to solving inverse problems or the integration in an automated design loop. We propose to address these challenges through differentiable neural surrogates that exploit the geometric aspects of the problem. We first introduce the Wireless Geometric Algebra Transformer (Wi-GATr), a generic backbone architecture for simulating wireless propagation in a 3D environment. It uses versatile representations based on geometric algebra and is equivariant with respect to E(3), the symmetry group of the underlying physics. Second, we study two algorithmic approaches to signal prediction and inverse problems based on differentiable predictive modelling and diffusion models. We show how these let us predict received power, localize receivers, and reconstruct the 3D environment from the received signal. Finally, we introduce two large, geometry-focused datasets of wireless signal propagation in indoor scenes. In experiments, we show that our geometry-forward approach achieves higher-fidelity predictions with less data than various baselines.
翻訳日:2024-06-24 14:03:36 公開日:2024-06-21
# マルチモーダルインタラクションがユーザエンゲージメントに与える影響を明らかにする:AIによる会話における包括的評価

Unveiling the Impact of Multi-Modal Interactions on User Engagement: A Comprehensive Evaluation in AI-driven Conversations ( http://arxiv.org/abs/2406.15000v1 )

ライセンス: Link先を確認
Lichao Zhang, Jia Yu, Shuai Zhang, Long Li, Yangyang Zhong, Guanbao Liang, Yuming Yan, Qing Ma, Fangsheng Weng, Fayu Pan, Jing Li, Renjun Xu, Zhenzhong Lan, (参考訳) 大規模言語モデル(LLM)は、より複雑で一貫性のある対話を可能にするため、ユーザとボットの相互作用が大幅に進歩している。 しかし、テキストのみのモダリティは、効果的なユーザエンゲージメントの可能性を十分に活用していないかもしれない。 本稿では,マルチモーダルインタラクションがチャットボット会話におけるユーザエンゲージメントに与える影響について検討する。 各種チャットボットと実ユーザインタラクションデータを用いて包括的分析を行い、保持率や会話長などの指標を用いてユーザエンゲージメントを評価する。 本研究は,テキストのみの対話に比べて,マルチモーダルインタラクションによるユーザエンゲージメントが著しく向上していることを明らかにする。 特に、第3のモダリティの組み入れは、わずか2つのモダリティで観測される利益を超えるエンゲージメントを著しく増幅する。 これらの結果は、マルチモーダルインタラクションが認知処理を最適化し、より豊かな情報理解を促進することを示唆している。 この研究は、チャットボット設計におけるマルチモーダルの重要性を強調し、よりエンゲージメントで没入的なAIコミュニケーションエクスペリエンスを作成し、ユーザエンゲージメントを高めるためのマルチモーダルインタラクションのメリットについて、幅広いAIコミュニティに通知するための貴重な洞察を提供する。

Large Language Models (LLMs) have significantly advanced user-bot interactions, enabling more complex and coherent dialogues. However, the prevalent text-only modality might not fully exploit the potential for effective user engagement. This paper explores the impact of multi-modal interactions, which incorporate images and audio alongside text, on user engagement in chatbot conversations. We conduct a comprehensive analysis using a diverse set of chatbots and real-user interaction data, employing metrics such as retention rate and conversation length to evaluate user engagement. Our findings reveal a significant enhancement in user engagement with multi-modal interactions compared to text-only dialogues. Notably, the incorporation of a third modality significantly amplifies engagement beyond the benefits observed with just two modalities. These results suggest that multi-modal interactions optimize cognitive processing and facilitate richer information comprehension. This study underscores the importance of multi-modality in chatbot design, offering valuable insights for creating more engaging and immersive AI communication experiences and informing the broader AI community about the benefits of multi-modal interactions in enhancing user engagement.
翻訳日:2024-06-24 14:03:36 公開日:2024-06-21
# リアルタイムハンドジェスチャ認識:スケルトンベースデータフュージョンとマルチストリームCNNの統合

Real-Time Hand Gesture Recognition: Integrating Skeleton-Based Data Fusion and Multi-Stream CNN ( http://arxiv.org/abs/2406.15003v1 )

ライセンス: Link先を確認
Oluwaleke Yusuf, Maki Habib, Mohamed Moustafa, (参考訳) 本研究は,実世界の様々な文脈における知覚計算に不可欠なハンドジェスチャ認識(HGR)に焦点を当てた。 HGRドメインの最大の課題は、人間の手の形態に固有の個々のバリエーションを扱うことである。 この課題に対処するために,データレベルの融合とEnsemble Tuner Multi-stream CNNアーキテクチャを組み合わせた,革新的なHGRフレームワークを提案する。 この手法は,スケルトンモダリティからRGB画像への時空間的ジェスチャー情報を効果的に符号化し,意味的ジェスチャー理解を改善しつつ,雑音を最小限に抑える。 SHREC2017, DHG1428, FPHA, LMDHG, CNRなどのベンチマークデータセット上での競合性能を維持しながら, ハードウェア要件と計算複雑性を大幅に低減する。 このHGRの改善は堅牢性を示し、人間と機械の相互作用と環境知性のためにリソース制限されたデバイスを活用する実用的なリアルタイムアプリケーションのための道を開く。

This study focuses on Hand Gesture Recognition (HGR), which is vital for perceptual computing across various real-world contexts. The primary challenge in the HGR domain lies in dealing with the individual variations inherent in human hand morphology. To tackle this challenge, we introduce an innovative HGR framework that combines data-level fusion and an Ensemble Tuner Multi-stream CNN architecture. This approach effectively encodes spatiotemporal gesture information from the skeleton modality into RGB images, thereby minimizing noise while improving semantic gesture comprehension. Our framework operates in real-time, significantly reducing hardware requirements and computational complexity while maintaining competitive performance on benchmark datasets such as SHREC2017, DHG1428, FPHA, LMDHG and CNR. This improvement in HGR demonstrates robustness and paves the way for practical, real-time applications that leverage resource-limited devices for human-machine interaction and ambient intelligence.
翻訳日:2024-06-24 14:03:36 公開日:2024-06-21
# 転位地図:ユニークな指紋を持つ転位ネットワークの表現と教師なし分類

Dislocation cartography: Representations and unsupervised classification of dislocation networks with unique fingerprints ( http://arxiv.org/abs/2406.15004v1 )

ライセンス: Link先を確認
Benjamin Udofia, Tushar Jogi, Markus Stricker, (参考訳) データ構造を検出することは、システムにとって意味のある表現に到達するための最初のステップである。 これは結晶系の塑性変形の結果、転位ネットワークが進化する上で特に困難である。 本研究では,異なる圧縮軸からの転位構造の高次元密度場データの固有構造を明らかにするために,Isomapを用いた。 結果の地図は転位構造を定量的に比較するための体系的な枠組みを提供し、密度場に基づくユニークな指紋を提供する。 我々の新しい非偏見的アプローチは、体系的に拡張できる転位構造の定量的分類に寄与する。

Detecting structure in data is the first step to arrive at meaningful representations for systems. This is particularly challenging for dislocation networks evolving as a consequence of plastic deformation of crystalline systems. Our study employs Isomap, a manifold learning technique, to unveil the intrinsic structure of high-dimensional density field data of dislocation structures from different compression axis. The resulting maps provide a systematic framework for quantitatively comparing dislocation structures, offering unique fingerprints based on density fields. Our novel, unbiased approach contributes to the quantitative classification of dislocation structures which can be systematically extended.
翻訳日:2024-06-24 14:03:36 公開日:2024-06-21
# RouteFinder: 自動車経路問題の基礎モデルを目指して

RouteFinder: Towards Foundation Models for Vehicle Routing Problems ( http://arxiv.org/abs/2406.15007v1 )

ライセンス: Link先を確認
Federico Berto, Chuanbo Hua, Nayeli Gast Zepeda, André Hottung, Niels Wouda, Leon Lan, Kevin Tierney, Jinkyoo Park, (参考訳) 車両ルーティング問題(英: Vehicle Routing Problems、VRP)は、物流、輸送、サプライチェーン管理において、現実的に重要な意味を持つ最適化問題である。 個々のVRPの変種を解くための学習の最近の進歩にもかかわらず、様々なタスクに効果的に対処できる統一されたアプローチが欠如しており、これは現実世界への影響に不可欠である。 本稿ではVRPの基礎モデルを開発するためのフレームワークであるRouteFinderを紹介する。 我々のキーとなる考え方は、VRPの基盤モデルが、異なる属性を備えた大きなVRP問題のサブセットとして各変種を扱い、変種をモデル化できるべきだということです。 並列化環境では,任意の属性の組み合わせをバッチ処理で同時に処理できると同時に,各最適化ステップにおける問題の混在を学習するための効率的なサンプリング手順を導入し,収束堅牢性を大幅に向上させることができる。 我々はまた、インスタンスワイド属性を潜在空間に効率的に投影し、モデルが異なるVRP変種を理解するのに役立つ新しいグローバル機能埋め込みについても紹介する。 最後に、Efficient Adapter Layersを導入します。これは、トレーニング済みのRouteFinderモデルを微調整して、以前の特徴空間以外では見つからない属性を持つ新しい変種を解決するための、シンプルで効果的なテクニックです。 我々は,最近のマルチタスク学習モデルに対して,24種類のVRP変異体に関する広範な実験を行い,競合する結果を実証した。 コードはhttps://github.com/ai4co/routefinder.comで公開しています。

Vehicle Routing Problems (VRPs) are optimization problems with significant real-world implications in logistics, transportation, and supply chain management. Despite the recent progress made in learning to solve individual VRP variants, there is a lack of a unified approach that can effectively tackle a wide range of tasks, which is crucial for real-world impact. This paper introduces RouteFinder, a framework for developing foundation models for VRPs. Our key idea is that a foundation model for VRPs should be able to model variants by treating each variant as a subset of a larger VRP problem, equipped with different attributes. We introduce a parallelized environment that can handle any combination of attributes at the same time in a batched manner, and an efficient sampling procedure to train on a mix of problems at each optimization step that can greatly improve convergence robustness. We also introduce novel Global Feature Embeddings that project instance-wise attributes efficiently onto the latent space and help the model understand different VRP variants. Finally, we introduce Efficient Adapter Layers, a simple yet effective technique to finetune pre-trained RouteFinder models to solve novel variants with previously unseen attributes outside of the original feature space. We validate our approach through extensive experiments on 24 VRP variants, demonstrating competitive results over recent multi-task learning models. We make our code openly available at https://github.com/ai4co/routefinder.
翻訳日:2024-06-24 14:03:36 公開日:2024-06-21
# フェア, マニピュレーション・ロバスト, 透明ソリション

Fair, Manipulation-Robust, and Transparent Sortition ( http://arxiv.org/abs/2406.15009v1 )

ライセンス: Link先を確認
Carmel Baharav, Bailey Flanigan, (参考訳) 政治的代表者の無作為な選考であるソーティションは、市民集会のような熟考過程の参加者を選ぶために世界中でますます使われている。 近年,選別アルゴリズムの研究が盛んに行われており,その課題はボランティアのプールの中からパネルを選択することである。 このパネルは、キー集団の部分群の表現を強制するクォータを満たさなければならない。 過去の研究は、任意の凸等度目標によって測定されるように、ボランティアが選択する確率が最大に等しいことを保証しながら、このタスクを達成するためのアルゴリズム的なアプローチに貢献してきた。 問題は、どの平等目標が正しいか、ということです。 過去の研究は主にミニマックスとレキシミンの目的を研究しており、これは各ボランティアが与える最大選択率と最小選択確率を最大化している。 ミニマックスは操作に強いが、任意に不公平であり、反対に、レキシミンは極めて公平だが任意に操作可能である。 このギャップを考慮して、ボランティアが選択の機会が少なすぎることを保証することにより、これらの理想を同時に達成することを目的とした新しい平等目標であるGoldilocksを提案する。 我々は、Goldilocksがこれらのイデアルを達成する範囲を理論的に制限し、重要な意味では、Goldilocksは与えられた場合において最も有効な解のうちの1つを回復することを示した。 次に、Goldilocksの出力が変換され、第3のゴールであるTransparencyを達成するケースに境界を拡張します。 実データにおけるGoldilocksの実証分析は、さらに有望である: この目的は、ほとんどの実データインスタンスにおいて、ほぼインスタンス最適化の最小値と最大選択確率を同時に達成することである。

Sortition, the random selection of political representatives, is increasingly being used around the world to choose participants of deliberative processes like Citizens' Assemblies. Motivated by sortition's practical importance, there has been a recent flurry of research on sortition algorithms, whose task it is to select a panel from among a pool of volunteers. This panel must satisfy quotas enforcing representation of key population subgroups. Past work has contributed an algorithmic approach for fulfilling this task while ensuring that volunteers' chances of selection are maximally equal, as measured by any convex equality objective. The question, then, is: which equality objective is the right one? Past work has mainly studied the objectives Minimax and Leximin, which respectively minimize the maximum and maximize the minimum chance of selection given to any volunteer. Recent work showed that both of these objectives have key weaknesses: Minimax is highly robust to manipulation but is arbitrarily unfair; oppositely, Leximin is highly fair but arbitrarily manipulable. In light of this gap, we propose a new equality objective, Goldilocks, that aims to achieve these ideals simultaneously by ensuring that no volunteer receives too little or too much chance of selection. We theoretically bound the extent to which Goldilocks achieves these ideals, finding that in an important sense, Goldilocks recovers among the best available solutions in a given instance. We then extend our bounds to the case where the output of Goldilocks is transformed to achieve a third goal, Transparency. Our empirical analysis of Goldilocks in real data is even more promising: we find that this objective achieves nearly instance-optimal minimum and maximum selection probabilities simultaneously in most real instances -- an outcome not even guaranteed to be possible for any algorithm.
翻訳日:2024-06-24 14:03:36 公開日:2024-06-21
# 厳密な発見はスパース因果ベイズネットワークの多項式である

Exact discovery is polynomial for sparse causal Bayesian networks ( http://arxiv.org/abs/2406.15012v1 )

ライセンス: Link先を確認
Felix L. Rios, Giusi Moffa, Jack Kuipers, (参考訳) 因果ベイズネットワークは変数間の依存関係を要約し、それらの因果関係を解明するために広く利用されている。 データからネットワークを学習することは一般的には困難である。 正確な因果探索に対する現在の最先端のアプローチは、有向非巡回グラフの基礎空間上の整数線形計画法、トポロジカル順序空間上の動的計画法と最短パス探索法、両方を組み合わせた制約プログラミングである。 順序による動的プログラミングでは、計算複雑性はネットワーク内の変数数で指数基底2であることが知られている。 ベイジアンネットワークの特性を用いて探索空間を創り出し、正確な発見を保証しながら計算コストを下げる方法について実証する。 新たなパス探索と分数分解基準を含む場合、マッチングの2次時間と、対数的に有界な最大の連結成分を持つ任意のネットワーククラスに対する多項式時間で最適であることが証明される。 シミュレーション研究において、スパースネットワークの多項式依存を観察し、いくつかの臨界値を超えると、基底の対数がネットワーク密度とともに増加することを観察する。 そして、我々のアプローチは低い密度で最先端の手法に勝る。 これらの結果は、より大規模でスペーサーなネットワークにおいて、より高速な因果発見の道を開いた。

Causal Bayesian networks are widely used tools for summarising the dependencies between variables and elucidating their putative causal relationships. Learning networks from data is computationally hard in general. The current state-of-the-art approaches for exact causal discovery are integer linear programming over the underlying space of directed acyclic graphs, dynamic programming and shortest-path searches over the space of topological orders, and constraint programming combining both. For dynamic programming over orders, the computational complexity is known to be exponential base 2 in the number of variables in the network. We demonstrate how to use properties of Bayesian networks to prune the search space and lower the computational cost, while still guaranteeing exact discovery. When including new path-search and divide-and-conquer criteria, we prove optimality in quadratic time for matchings, and polynomial time for any network class with logarithmically-bound largest connected components. In simulation studies we observe the polynomial dependence for sparse networks and that, beyond some critical value, the logarithm of the base grows with the network density. Our approach then out-competes the state-of-the-art at lower densities. These results therefore pave the way for faster exact causal discovery in larger and sparser networks.
翻訳日:2024-06-24 14:03:36 公開日:2024-06-21
# GraLMatch: エンティティのグループとグラフと言語モデルとのマッチング

GraLMatch: Matching Groups of Entities with Graphs and Language Models ( http://arxiv.org/abs/2406.15015v1 )

ライセンス: Link先を確認
Fernando De Meer Pardo, Claude Lehmann, Dennis Gehrig, Andrea Nagy, Stefano Nicoli, Branka Hadji Misheva, Martin Braschler, Kurt Stockinger, (参考訳) 本稿では,エンティティグループマッチング(エンティティグループマッチング)と呼ぶ,エンドツーエンドのマルチソースエンティティマッチング問題を提案する。 ノードとエッジがレコードを表すグラフG = (V,E) のパスで接続されたレコードと、それらが一致しているかどうかという、推移的に一致したレコードの効果に焦点を当てる。 この問題の現実的な事例として、さまざまなデータプロバイダが生み出した企業や金融証券の記録と一致させることが課題である。 また、2つの新しいマルチソースベンチマークデータセットを導入し、実際の記録と類似した課題を提示する。 これらの記録の特徴は、実際の出来事に続いて定期的に更新されるが、更新はデータソース全体にわたって均一に適用されないことである。 この現象は、推移的な情報を利用することで、特定のレコードのグループのマッチングを可能にする。 提案実験では,有意な正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正 そこで本稿では,グラフベースの特性を用いて偽陽性のペアワイズ予測を部分的に検出・除去できるGraLMatchを提案する。 最後に、ラベル付きサンプルの少ない値に対してTransformer-based model(DistilBERT)を微調整すると、より多くのサンプルのトレーニングや微調整最適化を取り入れた場合よりも、最終的なエンティティグループマッチングの精度が向上し、大量のレコードのエンティティグループマッチングにおいて精度が決定要因となることを示す。

In this paper, we present an end-to-end multi-source Entity Matching problem, which we call entity group matching, where the goal is to assign to the same group, records originating from multiple data sources but representing the same real-world entity. We focus on the effects of transitively matched records, i.e. the records connected by paths in the graph G = (V,E) whose nodes and edges represent the records and whether they are a match or not. We present a real-world instance of this problem, where the challenge is to match records of companies and financial securities originating from different data providers. We also introduce two new multi-source benchmark datasets that present similar matching challenges as real-world records. A distinctive characteristic of these records is that they are regularly updated following real-world events, but updates are not applied uniformly across data sources. This phenomenon makes the matching of certain groups of records only possible through the use of transitive information. In our experiments, we illustrate how considering transitively matched records is challenging since a limited amount of false positive pairwise match predictions can throw off the group assignment of large quantities of records. Thus, we propose GraLMatch, a method that can partially detect and remove false positive pairwise predictions through graph-based properties. Finally, we showcase how fine-tuning a Transformer-based model (DistilBERT) on a reduced number of labeled samples yields a better final entity group matching than training on more samples and/or incorporating fine-tuning optimizations, illustrating how precision becomes the deciding factor in the entity group matching of large volumes of records.
翻訳日:2024-06-24 13:53:51 公開日:2024-06-21
# 出生と死を模擬した食品・運動行動に対する報酬の進化

Evolution of Rewards for Food and Motor Action by Simulating Birth and Death ( http://arxiv.org/abs/2406.15016v1 )

ライセンス: Link先を確認
Yuji Kanagawa, Kenji Doya, (参考訳) 報酬体系は動物行動の基本的要因の1つであり、生存と繁殖に不可欠である。 その重要性にもかかわらず、報酬体系の進化に関する問題は過小評価されている。 本稿では,生物学的に妥当な報酬関数の進化を再現し,環境条件が報酬関数の進化形に与える影響について検討する。 そこで我々は,より長生きし,より多くの子どもを産み出すために,エージェントがエネルギーレベルを維持できる,集団ベースの分散型進化シミュレーションフレームワークを開発した。 それぞれのエージェントは、突然変異の対象となる親から報酬機能を継承し、その生涯を通じて強化学習を通じて報酬を得る。 以上の結果から, 食物摂取に対する生物学的に合理的な正の報奨と, 運動行動に対する負の報奨が, ランダムに初期化した報奨から進化する可能性が示唆された。 しかし,運動行動に対する報酬は,主に肯定的,わずかに否定的な2つのモードに分けられる。 ポジティブな運動行動報酬の出現は、飼料の摂取においてエージェントがあまりにも活発で非効率になる可能性があるため、驚くべきことである。 貧しく有毒な食品を持つ環境では、重要でない食品に対する報酬の進化は不安定になりがちであるが、通常の食品に対する報酬は依然として安定している。 これらの結果は,シミュレーション環境とエネルギー依存の出生・死亡モデルの有用性を示し,報奨制度の起源についてさらなる研究を行った。

The reward system is one of the fundamental drivers of animal behaviors and is critical for survival and reproduction. Despite its importance, the problem of how the reward system has evolved is underexplored. In this paper, we try to replicate the evolution of biologically plausible reward functions and investigate how environmental conditions affect evolved rewards' shape. For this purpose, we developed a population-based decentralized evolutionary simulation framework, where agents maintain their energy level to live longer and produce more children. Each agent inherits its reward function from its parent subject to mutation and learns to get rewards via reinforcement learning throughout its lifetime. Our results show that biologically reasonable positive rewards for food acquisition and negative rewards for motor action can evolve from randomly initialized ones. However, we also find that the rewards for motor action diverge into two modes: largely positive and slightly negative. The emergence of positive motor action rewards is surprising because it can make agents too active and inefficient in foraging. In environments with poor and poisonous foods, the evolution of rewards for less important foods tends to be unstable, while rewards for normal foods are still stable. These results demonstrate the usefulness of our simulation environment and energy-dependent birth and death model for further studies of the origin of reward systems.
翻訳日:2024-06-24 13:53:51 公開日:2024-06-21
# MedOdyssey: 2万トンまでの長期コンテキスト評価のための医療ドメインベンチマーク

MedOdyssey: A Medical Domain Benchmark for Long Context Evaluation Up to 200K Tokens ( http://arxiv.org/abs/2406.15019v1 )

ライセンス: Link先を確認
Yongqi Fan, Hongli Sun, Kui Xue, Xiaofan Zhang, Shaoting Zhang, Tong Ruan, (参考訳) 多数の高度な大規模言語モデル(LLM)がコンテキスト長を128Kまでサポートし、いくつかは200Kまで拡張されている。 ジェネリックドメインのいくつかのベンチマークも、ロングコンテキスト機能の評価に追随している。 医学領域では、タスクは独自のコンテキストとドメインの専門知識を必要とするため、さらなる評価を必要とする。 しかし、医学的シナリオに長いテキストが頻繁に存在するにもかかわらず、この分野でのLLMの長文能力の評価ベンチマークはいまだに稀である。 本稿では,4Kトークンから200Kトークンまでの7つの長さレベルを持つ,最初の医用長文ベンチマークであるMedOdysseyを提案する。 MedOdysseyは、2つの主要なコンポーネントで構成されている。医療コンテキストは「干し草のスタックに潜む」タスクと、10つのデータセットからなる医療応用に特化した一連のタスクである。 第1のコンポーネントは、反直感的推論や、知識リークを軽減し、LLMのデータ汚染を緩和する新しい(未知の)事実注入といった課題を含む。 第2の要素は、専門的な専門知識を必要とするという課題に直面している。 特に,異なるLLMが可能な限り多くの同一コンテキストを観測することを保証することにより,公平性を向上させるために, ``maximum Identical Context'' 原理を設計する。 本実験では,長いコンテキストの処理に適した,プロプライエタリかつオープンソースのLLMを評価し,詳細な性能解析を行う。 このことはLLMが依然として課題に直面しており、この分野のさらなる研究の必要性を浮き彫りにしている。 私たちのコードとデータは、リポジトリでリリースされます。 ※

Numerous advanced Large Language Models (LLMs) now support context lengths up to 128K, and some extend to 200K. Some benchmarks in the generic domain have also followed up on evaluating long-context capabilities. In the medical domain, tasks are distinctive due to the unique contexts and need for domain expertise, necessitating further evaluation. However, despite the frequent presence of long texts in medical scenarios, evaluation benchmarks of long-context capabilities for LLMs in this field are still rare. In this paper, we propose MedOdyssey, the first medical long-context benchmark with seven length levels ranging from 4K to 200K tokens. MedOdyssey consists of two primary components: the medical-context "needles in a haystack" task and a series of tasks specific to medical applications, together comprising 10 datasets. The first component includes challenges such as counter-intuitive reasoning and novel (unknown) facts injection to mitigate knowledge leakage and data contamination of LLMs. The second component confronts the challenge of requiring professional medical expertise. Especially, we design the ``Maximum Identical Context'' principle to improve fairness by guaranteeing that different LLMs observe as many identical contexts as possible. Our experiment evaluates advanced proprietary and open-source LLMs tailored for processing long contexts and presents detailed performance analyses. This highlights that LLMs still face challenges and need for further research in this area. Our code and data are released in the repository: \url{https://github.com/JOHNNY-fans/MedOdyssey.}
翻訳日:2024-06-24 13:53:51 公開日:2024-06-21
# A3D: 拡散は3Dアライメントを夢見るか?

A3D: Does Diffusion Dream about 3D Alignment? ( http://arxiv.org/abs/2406.15020v1 )

ライセンス: Link先を確認
Savva Ignatyev, Nina Konovalova, Daniil Selikhanovych, Nikolay Patakin, Oleg Voynov, Dmitry Senushkin, Alexander Filippov, Anton Konushin, Peter Wonka, Evgeny Burnaev, (参考訳) 幾何学的アライメントの観点からテキスト駆動型3D生成の問題に取り組む。 セマンティクスや幾何学的に一貫した複数のオブジェクトの生成を目指しています。 近年のスコア蒸留法は, 2次元拡散モデルから3次元神経放射場に代表される高品質な物体への知識の蒸留に成功している。 これらの方法は、複数のテキストクエリを別々に扱うため、オブジェクトのポーズや構造に高いばらつきがある。 しかし、幾何編集などの応用においては、整列オブジェクトを得るのが望ましい。 本研究では, テキスト埋め込みの線形対補間空間を1つのNeRF表現でモデル化することにより, 整列オブジェクト間の連続的な軌跡を最適化することを提案する。 意味的に対応する部分からなる類似したオブジェクトは、生成プロセスにコストがかかることなく、3次元空間で適切に整列できることを実証する。 メッシュ編集やオブジェクトのハイブリダイゼーションなど,幾何学的アライメントの恩恵を受けながら,提案手法の有効性を実験的に実証する,いくつかの実用的なシナリオを提供する。 https://voyleg.github.io/a3d/

We tackle the problem of text-driven 3D generation from a geometry alignment perspective. We aim at the generation of multiple objects which are consistent in terms of semantics and geometry. Recent methods based on Score Distillation have succeeded in distilling the knowledge from 2D diffusion models to high-quality objects represented by 3D neural radiance fields. These methods handle multiple text queries separately, and therefore, the resulting objects have a high variability in object pose and structure. However, in some applications such as geometry editing, it is desirable to obtain aligned objects. In order to achieve alignment, we propose to optimize the continuous trajectories between the aligned objects, by modeling a space of linear pairwise interpolations of the textual embeddings with a single NeRF representation. We demonstrate that similar objects, consisting of semantically corresponding parts, can be well aligned in 3D space without costly modifications to the generation process. We provide several practical scenarios including mesh editing and object hybridization that benefit from geometry alignment and experimentally demonstrate the efficiency of our method. https://voyleg.github.io/a3d/
翻訳日:2024-06-24 13:53:51 公開日:2024-06-21
# SiT: 強化学習における一般化のための対称性不変変換器

SiT: Symmetry-Invariant Transformers for Generalisation in Reinforcement Learning ( http://arxiv.org/abs/2406.15025v1 )

ライセンス: Link先を確認
Matthias Weissenbacher, Rishabh Agarwal, Yoshinobu Kawahara, (参考訳) 強化学習(RL)におけるオープンな課題は、訓練されたポリシーを、新しい、またはわずかに異なる状況や意味的に類似した環境に効果的に展開することである。 我々は、局所的およびグローバルなデータパターンを自己管理的に活用し、一般化を改善するスケーラブルな視覚変換器(ViT)であるSymmetry-Invariant Transformer(SiT)を紹介する。 グラフ対称性アテンション(Graph Symmetric Attention)は、グラフ対称性を保存するための従来の自己アテンション機構を洗練し、不変かつ同変な潜在表現をもたらす。 我々は、MiniGridおよびProcgen RLベンチマーク上でのSiTのViTに対する優れた一般化と、Atari 100kおよびCIFAR10上でのサンプル効率を示す。

An open challenge in reinforcement learning (RL) is the effective deployment of a trained policy to new or slightly different situations as well as semantically-similar environments. We introduce Symmetry-Invariant Transformer (SiT), a scalable vision transformer (ViT) that leverages both local and global data patterns in a self-supervised manner to improve generalisation. Central to our approach is Graph Symmetric Attention, which refines the traditional self-attention mechanism to preserve graph symmetries, resulting in invariant and equivariant latent representations. We showcase SiT's superior generalization over ViTs on MiniGrid and Procgen RL benchmarks, and its sample efficiency on Atari 100k and CIFAR10.
翻訳日:2024-06-24 13:53:51 公開日:2024-06-21
# ニューラルネットワークによる気象データセットのデータクリーニング

Using Neural Networks for Data Cleaning in Weather Datasets ( http://arxiv.org/abs/2406.15027v1 )

ライセンス: Link先を確認
Jack R. P. Hanslope, Laurence Aitchison, (参考訳) 気候科学では、さまざまなデータセットを比較したい場合が多い。 このような困難は、観測データと再分析データの間に生じる必然的なミスマッチ、あるいは異なる再解析の間に生じることによる可能性がある。 このミスアライメントは、あるデータセットを別のデータセットから推論しようとする作業に対して問題を引き起こす可能性がある。 本研究では,大気条件 (ERA5) とストームトラック (IBTrACS) を提供する1つのデータセットを例として,熱帯サイクロンの位置を例に挙げた。 例はよく一致しているのに、かなりの割合(約25%)がうまく一致していないことが分かりました。 この設定では、データセットのミスアライメントは"ラベルノイズ"(すなわち、ラベル付きストーム位置は、下層の風速に対応しない)として現れる。 このニューラルネットワークは、IBTrACSからしばしばノイズの多いラベルにのみトレーニングされ、人間の嗜好によって測定されたIBTrACSラベルよりも優れた性能を示した。 興味深いことに、これはトレーニングポイントにも当てはまり、ネットワークがIBTrACSの予測に過度に適合することを期待していたかもしれない。

In climate science, we often want to compare across different datasets. Difficulties can arise in doing this due to inevitable mismatches that arise between observational and reanalysis data, or even between different reanalyses. This misalignment can raise problems for any work that seeks to make inferences about one dataset from another. We considered tropical cyclone location as an example task with one dataset providing atmospheric conditions (ERA5) and another providing storm tracks (IBTrACS). We found that while the examples often aligned well, there were a considerable proportion (around 25%) which were not well aligned. We trained a neural network to map from the wind field to the storm location; in this setting misalignment in the datasets appears as "label noise" (i.e. the labelled storm location does not correspond to the underlying wind field). We found that this neural network trained only on the often noisy labels from IBTrACS had a denoising effect, and performed better than the IBTrACS labels themselves, as measured by human preferences. Remarkably, this even held true for training points, on which we might have expected the network to overfit to the IBTrACS predictions.
翻訳日:2024-06-24 13:53:51 公開日:2024-06-21
# GiusBERTo: イタリアの監査裁判所における個人データ特定のための法的言語モデル

GiusBERTo: A Legal Language Model for Personal Data De-identification in Italian Court of Auditors Decisions ( http://arxiv.org/abs/2406.15032v1 )

ライセンス: Link先を確認
Giulio Salierno, Rosamaria Bertè, Luca Attias, Carla Morrone, Dario Pettazzoni, Daniela Battisti, (参考訳) 自然言語処理の最近の進歩は、様々な下流タスクにおいてBERTのような事前訓練された言語モデルの有効性を実証している。 GiusBERToは、イタリアの法律文書における個人データの匿名化に特化した、BERTベースの最初のモデルである。 GiusBERToはCourt of Auditorsの決定の大規模なデータセットに基づいてトレーニングされており、名前、日付、場所など、エンティティを匿名化すると同時に、コンテキスト関連性を保持する。 我々はGiusBERToをホールドアウトテストセットで評価し,97%のトークンレベルの精度を実現した。 GiusBERToは、プライバシとデータ保護のバランスをとるための正確で調整されたBERTモデルを提供する。

Recent advances in Natural Language Processing have demonstrated the effectiveness of pretrained language models like BERT for a variety of downstream tasks. We present GiusBERTo, the first BERT-based model specialized for anonymizing personal data in Italian legal documents. GiusBERTo is trained on a large dataset of Court of Auditors decisions to recognize entities to anonymize, including names, dates, locations, while retaining contextual relevance. We evaluate GiusBERTo on a held-out test set and achieve 97% token-level accuracy. GiusBERTo provides the Italian legal community with an accurate and tailored BERT model for de-identification, balancing privacy and data protection.
翻訳日:2024-06-24 13:53:51 公開日:2024-06-21
# SVFormer: 効果的なビデオアクション認識のためのダイレクトトレーニングスパイキング変換器

SVFormer: A Direct Training Spiking Transformer for Efficient Video Action Recognition ( http://arxiv.org/abs/2406.15034v1 )

ライセンス: Link先を確認
Liutao Yu, Liwei Huang, Chenlin Zhou, Han Zhang, Zhengyu Ma, Huihui Zhou, Yonghong Tian, (参考訳) ビデオ行動認識(VAR)は、監視、医療、産業自動化といった様々な領域において重要な役割を担っており、社会にとって非常に重要である。 そのため、コンピュータビジョンの分野では長い間研究の場であった。 人工ニューラルネットワーク(ANN)が盛んになると、2D-CNNや3D-CNNを含む畳み込みニューラルネットワーク(CNN)や、視覚トランスフォーマー(ViT)の変種は、VARで顕著なパフォーマンスを示した。 しかし、それらは通常、時間次元によって導入された大きなデータボリュームと重い情報冗長性のために、膨大な計算コストを必要とする。 この課題に対処するために、一部の研究者は脳にインスパイアされたスパイクニューラルネットワーク(SNN)に目を向けた。 しかしながら、現在のVAR用SNNは、非自明な入力前処理、複雑なネットワーク構築/トレーニング、同じビデオクリップの反復処理の必要性といった制限に直面するため、実際のデプロイメントを妨げている。 本研究では,VARのためのSVFormer(Spiking Video transFormer)を革新的に提案する。 SVFormerは、局所的特徴抽出、大域的自己注意、SNNの内在的ダイナミクス、空間性、スパイク駆動性を統合し、時空間的特徴を効率的かつ効果的に抽出する。 SVFormerを2つのRGBデータセット (UCF101, NTU-RGBD60) と1つのニューロモルフィックデータセット (DVS128-Gesture) で評価し、主流モデルと同等の性能をより効率的に示す。 特にSVFormerは、UCF101上の超低消費電力(21 mJ/ビデオ)で84.03%というトップ1の精度を実現している。

Video action recognition (VAR) plays crucial roles in various domains such as surveillance, healthcare, and industrial automation, making it highly significant for the society. Consequently, it has long been a research spot in the computer vision field. As artificial neural networks (ANNs) are flourishing, convolution neural networks (CNNs), including 2D-CNNs and 3D-CNNs, as well as variants of the vision transformer (ViT), have shown impressive performance on VAR. However, they usually demand huge computational cost due to the large data volume and heavy information redundancy introduced by the temporal dimension. To address this challenge, some researchers have turned to brain-inspired spiking neural networks (SNNs), such as recurrent SNNs and ANN-converted SNNs, leveraging their inherent temporal dynamics and energy efficiency. Yet, current SNNs for VAR also encounter limitations, such as nontrivial input preprocessing, intricate network construction/training, and the need for repetitive processing of the same video clip, hindering their practical deployment. In this study, we innovatively propose the directly trained SVFormer (Spiking Video transFormer) for VAR. SVFormer integrates local feature extraction, global self-attention, and the intrinsic dynamics, sparsity, and spike-driven nature of SNNs, to efficiently and effectively extract spatio-temporal features. We evaluate SVFormer on two RGB datasets (UCF101, NTU-RGBD60) and one neuromorphic dataset (DVS128-Gesture), demonstrating comparable performance to the mainstream models in a more efficient way. Notably, SVFormer achieves a top-1 accuracy of 84.03% with ultra-low power consumption (21 mJ/video) on UCF101, which is state-of-the-art among directly trained deep SNNs, showcasing significant advantages over prior models.
翻訳日:2024-06-24 13:53:51 公開日:2024-06-21
# AI生成画像の検出における解釈可能性とロバスト性の改善

Improving Interpretability and Robustness for the Detection of AI-Generated Images ( http://arxiv.org/abs/2406.15035v1 )

ライセンス: Link先を確認
Tatiana Gaintseva, Laida Kushnareva, German Magai, Irina Piontkovskaya, Sergey Nikolenko, Martin Benning, Serguei Barannikov, Gregory Slabaugh, (参考訳) 生成モデルの能力の増大に伴い、人工的コンテンツ検出はますます重要で難しい課題となる。 しかし、この問題に対するすべての一般的なアプローチは、ドメインと生成モデル間の一般化の欠如に悩まされている。 本研究では,AIGI検出器の堅牢性に着目した。 凍結したCLIP埋め込みに基づいて、既存の最先端AIGI検出手法を分析し、それらを解釈する方法を示し、様々なAIジェネレータが生成する画像が実際のものとどのように異なるかに光を当てる。 次に,埋め込みベクトルの有害成分を除去する手法と,画像エンコーダモデルにおける最高のアテンションヘッドの選択方法の2つを提案する。 本手法は, モデル間移動において平均分布外分布(OOD)分類スコアを最大6%向上させる。 また、AIGI検出のための新しいデータセットを提案し、評価に使用し、このデータセットがさらなる研究を促進すると信じています。 データセットとコードはサプリメントとして提供される。

With growing abilities of generative models, artificial content detection becomes an increasingly important and difficult task. However, all popular approaches to this problem suffer from poor generalization across domains and generative models. In this work, we focus on the robustness of AI-generated image (AIGI) detectors. We analyze existing state-of-the-art AIGI detection methods based on frozen CLIP embeddings and show how to interpret them, shedding light on how images produced by various AI generators differ from real ones. Next we propose two ways to improve robustness: based on removing harmful components of the embedding vector and based on selecting the best performing attention heads in the image encoder model. Our methods increase the mean out-of-distribution (OOD) classification score by up to 6% for cross-model transfer. We also propose a new dataset for AIGI detection and use it in our evaluation; we believe this dataset will help boost further research. The dataset and code are provided as a supplement.
翻訳日:2024-06-24 13:53:51 公開日:2024-06-21
# データドリフト適応によるスパムレビューのオンライン検出とインフォグラフィック説明

Online detection and infographic explanation of spam reviews with data drift adaptation ( http://arxiv.org/abs/2406.15038v1 )

ライセンス: Link先を確認
Francisco de Arriba-Pérez, Silvia García-Méndez, Fátima Leal, Benedita Malheiro, J. C. Burguillo, (参考訳) スパムレビューは、評判に大きな影響を与えているため、オンラインプラットフォーム上で広範囲にわたる問題である。 しかし、データストリームにおけるスパム検出の研究は少ない。 もうひとつの懸念は、透明性の必要性だ。 そこで本稿では,スパムレビューを識別・説明するためのオンラインソリューションを提案し,データドリフト適応を取り入れた。 統合する (i)漸進的なプロファイリング 二 データドリフトの検出及び適応、及び 三 機械学習を利用したスパムレビューの識別 説明可能なメカニズムは、ダッシュボードに視覚的およびテキスト的予測説明を表示する。 その結果,87%のスパムF測定値が得られた。

Spam reviews are a pervasive problem on online platforms due to its significant impact on reputation. However, research into spam detection in data streams is scarce. Another concern lies in their need for transparency. Consequently, this paper addresses those problems by proposing an online solution for identifying and explaining spam reviews, incorporating data drift adaptation. It integrates (i) incremental profiling, (ii) data drift detection & adaptation, and (iii) identification of spam reviews employing Machine Learning. The explainable mechanism displays a visual and textual prediction explanation in a dashboard. The best results obtained reached up to 87 % spam F-measure.
翻訳日:2024-06-24 13:53:51 公開日:2024-06-21
# ビヘイビア蒸留

Behaviour Distillation ( http://arxiv.org/abs/2406.15042v1 )

ライセンス: Link先を確認
Andrei Lupu, Chris Lu, Jarek Liesen, Robert Tjarko Lange, Jakob Foerster, (参考訳) データセット蒸留は、大規模なデータセットを少数の合成例にまとめることを目的としており、新しいモデルをトレーニングする際にドロップイン代替として使用できる。 解釈可能性、ニューラルアーキテクチャ検索、プライバシ、継続的な学習に応用できる。 教師付きドメインでの強い成功にもかかわらず、そのような手法はまだ強化学習に拡張されておらず、固定されたデータセットの欠如がほとんどの蒸留法を使用不可能にしている。 このギャップを埋めて、私たちは、専門家のポリシーを訓練するために必要な情報を、専門家のデータにアクセスすることなく、ステートアクションペアの合成データセットに格納する、行動蒸留を形式化します。 次に,Halucinating Datasets with Evolution Strategies (HaDES)を紹介した。これは,4つの状態-作用ペアのデータセットを探索し,教師付き学習の下で,連続制御タスクにおける競合的なパフォーマンスレベルにエージェントを訓練する,行動蒸留の手法である。 これらのデータセットは分散から多岐にわたるアーキテクチャとハイパーパラメータによるトレーニングポリシへと一般化されていることを示す。 また、下流タスク、すなわちゼロショット方式でマルチタスクエージェントを訓練するアプリケーションの実演を行う。 行動蒸留以外にも、HaDESは以前のアプローチよりもRLの神経進化を著しく改善し、1つの標準教師付きデータセット蒸留タスクでSoTA結果を達成する。 最後に、合成データセットを可視化することで、人間の解釈可能なタスクの洞察が得られることを示す。

Dataset distillation aims to condense large datasets into a small number of synthetic examples that can be used as drop-in replacements when training new models. It has applications to interpretability, neural architecture search, privacy, and continual learning. Despite strong successes in supervised domains, such methods have not yet been extended to reinforcement learning, where the lack of a fixed dataset renders most distillation methods unusable. Filling the gap, we formalize behaviour distillation, a setting that aims to discover and then condense the information required for training an expert policy into a synthetic dataset of state-action pairs, without access to expert data. We then introduce Hallucinating Datasets with Evolution Strategies (HaDES), a method for behaviour distillation that can discover datasets of just four state-action pairs which, under supervised learning, train agents to competitive performance levels in continuous control tasks. We show that these datasets generalize out of distribution to training policies with a wide range of architectures and hyperparameters. We also demonstrate application to a downstream task, namely training multi-task agents in a zero-shot fashion. Beyond behaviour distillation, HaDES provides significant improvements in neuroevolution for RL over previous approaches and achieves SoTA results on one standard supervised dataset distillation task. Finally, we show that visualizing the synthetic datasets can provide human-interpretable task insights.
翻訳日:2024-06-24 13:53:51 公開日:2024-06-21
# マルチビューデータにおける共通情報の発見

Discovering Common Information in Multi-view Data ( http://arxiv.org/abs/2406.15043v1 )

ライセンス: Link先を確認
Qi Zhang, Mingfei Lu, Shujian Yu, Jingmin Xin, Badong Chen, (参考訳) 我々は多視点データから共通情報を計算するための革新的で数学的に厳密な定義を導入し、G\'acs-K\ からインスピレーションを得た。 この定義を活用することで、共通情報と一意情報の両方をキャプチャする教師付き多視点学習フレームワークを開発する。 全相関項を明示的に最小化することにより、抽出された共通情報と各視点からのユニークな情報を互いに独立させ、理論的に我々のフレームワークの有効性を保証します。 情報理論量の推定には行列ベースの R{\'e}nyi の$\alpha$-order entropy 関数を用いる。 提案手法は,多視点データから共通情報と一意情報の両方を忠実に発見できることを理論的に証明する。 合成および7つのベンチマーク実世界のデータセットの実験は、最先端のアプローチよりも提案したフレームワークの優れた性能を示している。

We introduce an innovative and mathematically rigorous definition for computing common information from multi-view data, drawing inspiration from G\'acs-K\"orner common information in information theory. Leveraging this definition, we develop a novel supervised multi-view learning framework to capture both common and unique information. By explicitly minimizing a total correlation term, the extracted common information and the unique information from each view are forced to be independent of each other, which, in turn, theoretically guarantees the effectiveness of our framework. To estimate information-theoretic quantities, our framework employs matrix-based R{\'e}nyi's $\alpha$-order entropy functional, which forgoes the need for variational approximation and distributional estimation in high-dimensional space. Theoretical proof is provided that our framework can faithfully discover both common and unique information from multi-view data. Experiments on synthetic and seven benchmark real-world datasets demonstrate the superior performance of our proposed framework over state-of-the-art approaches.
翻訳日:2024-06-24 13:53:51 公開日:2024-06-21
# 過剰適合からロバストネス:グラフコントラスト学習における量,品質,多様性指向の負のサンプル選択

From Overfitting to Robustness: Quantity, Quality, and Variety Oriented Negative Sample Selection in Graph Contrastive Learning ( http://arxiv.org/abs/2406.15044v1 )

ライセンス: Link先を確認
Adnan Ali, Jinlong Li, Huanhuan Chen, Ali Kashif Bashir, (参考訳) グラフコントラスト学習(GCL)は,ノード埋め込みを学習するために正の負の負の負の負の値と対比することを目的としており,グラフデータ拡張法はこれらの正の負のサンプルを生成するために用いられる。 ノード分類下流タスクにおける有意義な埋め込み学習において, 正のサンプルと比較して, 負のサンプルの変化, 量, 品質が重要な役割を担っている。 変化の少ない、過剰な量、低品質な負のサンプルは、モデルを特定のノードに過度に適合させ、ロバストなモデルを減らす。 本研究は,GCLパラダイムのオーバーフィッティング問題を解決するために,負のサンプルの品質,バリエーション,量を包括的に考慮し,新しい累積サンプル選択(CSS)アルゴリズムを提案する。 当初は3つの負のサンプルプールが構築されており、それぞれ25%、50%、25%の正のサンプルを含む、簡単、中、硬い負のサンプルである。 そして、これらの3つの負のサンプルプールから10%の負のサンプルを選択してモデルを訓練する。 その後、判定エージェントモジュールはモデルトレーニング結果を評価し、3つの負のサンプルプールからより多くの負のサンプルを探索するか、または現在のサンプリング比を利用し続けるかを決定する。 提案アルゴリズムはNegAmplifyというグラフコントラスト学習フレームワークに統合される。 NegAmplifyは9つのグラフノード分類データセットのSOTA法と比較され、7つのノード分類精度が最大2.86%向上した。

Graph contrastive learning (GCL) aims to contrast positive-negative counterparts to learn the node embeddings, whereas graph data augmentation methods are employed to generate these positive-negative samples. The variation, quantity, and quality of negative samples compared to positive samples play crucial roles in learning meaningful embeddings for node classification downstream tasks. Less variation, excessive quantity, and low-quality negative samples cause the model to be overfitted for particular nodes, resulting in less robust models. To solve the overfitting problem in the GCL paradigm, this study proposes a novel Cumulative Sample Selection (CSS) algorithm by comprehensively considering negative samples' quality, variations, and quantity. Initially, three negative sample pools are constructed: easy, medium, and hard negative samples, which contain 25%, 50%, and 25% of the total available negative samples, respectively. Then, 10% negative samples are selected from each of these three negative sample pools for training the model. After that, a decision agent module evaluates model training results and decides whether to explore more negative samples from three negative sample pools by increasing the ratio or keep exploiting the current sampling ratio. The proposed algorithm is integrated into a proposed graph contrastive learning framework named NegAmplify. NegAmplify is compared with the SOTA methods on nine graph node classification datasets, with seven achieving better node classification accuracy with up to 2.86% improvement.
翻訳日:2024-06-24 13:53:51 公開日:2024-06-21
# 臨床報告誤り訂正のための大規模言語モデルによる知識検索

Harnessing Knowledge Retrieval with Large Language Models for Clinical Report Error Correction ( http://arxiv.org/abs/2406.15045v1 )

ライセンス: Link先を確認
Jinge Wu, Zhaolong Wu, Abul Hasan, Yunsoo Kim, Jason P. Y. Cheung, Teng Zhang, Honghan Wu, (参考訳) 本研究では,大言語モデル(LLM)と検索拡張生成(RAG)技術を活用した臨床放射線学報告における誤り訂正手法を提案する。 提案フレームワークは,内外の検索機構を用いて,報告や外部知識ソースから関連する医療機関や関係を抽出する。 3段階の推論プロセスを導入し、タスクをエラー検出、ローカライゼーション、修正サブタスクに分解することで、システムの説明可能性と性能を向上させる。 アプローチの有効性は、ドメインの専門家がガイドした現実的なエラーで実世界の放射線学レポートを破損させたベンチマークデータセットを用いて評価される。 実験により, 提案手法の利点を実証し, 内部および外部検索の組み合わせにより, 誤り検出, 局所化, 補正の精度を大幅に向上させることができた。 この知見は、より堅牢で信頼性の高い臨床文書の誤り訂正システムの開発に寄与する。

This study proposes an approach for error correction in clinical radiology reports, leveraging large language models (LLMs) and retrieval-augmented generation (RAG) techniques. The proposed framework employs internal and external retrieval mechanisms to extract relevant medical entities and relations from the report and external knowledge sources. A three-stage inference process is introduced, decomposing the task into error detection, localization, and correction subtasks, which enhances the explainability and performance of the system. The effectiveness of the approach is evaluated using a benchmark dataset created by corrupting real-world radiology reports with realistic errors, guided by domain experts. Experimental results demonstrate the benefits of the proposed methods, with the combination of internal and external retrieval significantly improving the accuracy of error detection, localization, and correction across various state-of-the-art LLMs. The findings contribute to the development of more robust and reliable error correction systems for clinical documentation.
翻訳日:2024-06-24 13:53:51 公開日:2024-06-21
# Tri-VQA:多属性分析のための医用視覚質問応答の三角形推論

Tri-VQA: Triangular Reasoning Medical Visual Question Answering for Multi-Attribute Analysis ( http://arxiv.org/abs/2406.15050v1 )

ライセンス: Link先を確認
Lin Fan, Xun Gong, Cenyang Zheng, Yafei Ou, (参考訳) 医学的視覚質問応答(Med-VQA)の交わりは、患者関与や臨床専門家による二次的意見の関与を含む、困難な研究課題である。 しかし, 既存のMed-VQA法では, VQAの解答の信頼性を損なうような, 正しい解法と偶然解法に基づいて得られる結果が説明できない。 本稿では,より密着性が高く安定なMed-VQA構造の構築について検討する。 因果効果によって動機付けられた新しい三角形推論VQA(Tri-VQA)フレームワークを提案する。 本手法は,5施設から得られたEUSマルチ属性アノテートデータセットについて評価し,医療用VQAデータセットで検証した。 実験の結果,既存手法よりも提案手法の方が優れていることが示された。 私たちのコードと事前訓練済みモデルはhttps://anonymous.4open.science/r/Tri_VQA.comで利用可能です。

The intersection of medical Visual Question Answering (Med-VQA) is a challenging research topic with advantages including patient engagement and clinical expert involvement for second opinions. However, existing Med-VQA methods based on joint embedding fail to explain whether their provided results are based on correct reasoning or coincidental answers, which undermines the credibility of VQA answers. In this paper, we investigate the construction of a more cohesive and stable Med-VQA structure. Motivated by causal effect, we propose a novel Triangular Reasoning VQA (Tri-VQA) framework, which constructs reverse causal questions from the perspective of "Why this answer?" to elucidate the source of the answer and stimulate more reasonable forward reasoning processes. We evaluate our method on the Endoscopic Ultrasound (EUS) multi-attribute annotated dataset from five centers, and test it on medical VQA datasets. Experimental results demonstrate the superiority of our approach over existing methods. Our codes and pre-trained models are available at https://anonymous.4open.science/r/Tri_VQA.
翻訳日:2024-06-24 13:53:51 公開日:2024-06-21
# PARIKSHA : 多言語・多文化データにおける人間-LLM評価者合意の大規模検討

PARIKSHA : A Large-Scale Investigation of Human-LLM Evaluator Agreement on Multilingual and Multi-Cultural Data ( http://arxiv.org/abs/2406.15053v1 )

ライセンス: Link先を確認
Ishaan Watts, Varun Gumma, Aditya Yadavalli, Vivek Seshadri, Manohar Swaminathan, Sunayana Sitaram, (参考訳) 多言語大言語モデル(LLM)の評価は、十分な言語多様性を持つベンチマークの欠如、LLM事前学習データへの人気のあるベンチマークの汚染、翻訳されたベンチマークにおける局所的、文化的ニュアンス欠如など、さまざまな要因により難しい。 本研究では,多言語・多文化的な環境下での人間とLLMによる評価について検討する。 GPT-4o や Llama-3 70B などのモデルでは,90K の人的評価と 30K の LLM に基づく評価を行うことで,10 言語にまたがる30 のモデルを評価する。 我々は、ペアワイズ比較と直接評価という2つの評価設定のためのリーダーボードを構築し、人間とLLMの合意を分析する。 しかし,ベンガル語やオディア語などの言語では,人間とLLMが相互に一致していることが確認できた。 また,人間とLLMによる評価における様々なバイアスを確認し,GPTによる評価において自己バイアスの証拠を見いだす。 本研究は,LLMの多言語評価のスケールアップに向けた重要なステップを示す。

Evaluation of multilingual Large Language Models (LLMs) is challenging due to a variety of factors -- the lack of benchmarks with sufficient linguistic diversity, contamination of popular benchmarks into LLM pre-training data and the lack of local, cultural nuances in translated benchmarks. In this work, we study human and LLM-based evaluation in a multilingual, multi-cultural setting. We evaluate 30 models across 10 Indic languages by conducting 90K human evaluations and 30K LLM-based evaluations and find that models such as GPT-4o and Llama-3 70B consistently perform best for most Indic languages. We build leaderboards for two evaluation settings - pairwise comparison and direct assessment and analyse the agreement between humans and LLMs. We find that humans and LLMs agree fairly well in the pairwise setting but the agreement drops for direct assessment evaluation especially for languages such as Bengali and Odia. We also check for various biases in human and LLM-based evaluation and find evidence of self-bias in the GPT-based evaluator. Our work presents a significant step towards scaling up multilingual evaluation of LLMs.
翻訳日:2024-06-24 13:42:28 公開日:2024-06-21
# 逆相対射影による潜時空間翻訳

Latent Space Translation via Inverse Relative Projection ( http://arxiv.org/abs/2406.15057v1 )

ライセンス: Link先を確認
Valentino Maiorca, Luca Moschella, Marco Fumero, Francesco Locatello, Emanuele Rodolà, (参考訳) 独立に訓練されたニューラルモデル間の類似した表現の出現は、表現学習コミュニティに大きな関心を喚起し、潜在空間間のコミュニケーションを得るための様々な方法の開発につながった。 「ラテン・スペース・コミュニケーション」は2つの方法で達成できる。 一 元の空間を共有又は相対的な空間に独立してマッピングすること 二 ソース潜時空間からターゲット空間への変換を直接推定すること。 本研究では,この2つを,相対空間を通して潜在空間変換を得るための新しい手法に結合する。 角度保存された相対表現の可逆性を形式化し、ニューラルモデルにおけるデコーダ加群のスケール不変性を仮定することにより、相対空間を仲介体として有効に利用し、他の意味的に類似した空間に独立に投影することができる。 様々なアーキテクチャやデータセットに対する大規模な実験は、我々のスケール不変性の仮定を検証し、潜在空間変換における我々の手法の高精度を実証する。 また、任意の事前訓練されたテキストと画像エンコーダとそれらの分類器間のゼロショット縫合にも適用する。 提案手法は,構成性によるモデル再利用を現実的に促進するための重要な可能性を持っている。

The emergence of similar representations between independently trained neural models has sparked significant interest in the representation learning community, leading to the development of various methods to obtain communication between latent spaces. "Latent space communication" can be achieved in two ways: i) by independently mapping the original spaces to a shared or relative one; ii) by directly estimating a transformation from a source latent space to a target one. In this work, we combine the two into a novel method to obtain latent space translation through the relative space. By formalizing the invertibility of angle-preserving relative representations and assuming the scale invariance of decoder modules in neural models, we can effectively use the relative space as an intermediary, independently projecting onto and from other semantically similar spaces. Extensive experiments over various architectures and datasets validate our scale invariance assumption and demonstrate the high accuracy of our method in latent space translation. We also apply our method to zero-shot stitching between arbitrary pre-trained text and image encoders and their classifiers, even across modalities. Our method has significant potential for facilitating the reuse of models in a practical manner via compositionality.
翻訳日:2024-06-24 13:42:28 公開日:2024-06-21
# 言語間パラフレーズの同定

Cross-lingual paraphrase identification ( http://arxiv.org/abs/2406.15066v1 )

ライセンス: Link先を確認
Inessa Fedorova, Aleksei Musatow, (参考訳) パラフレーズ識別タスクは、2つの短い文間の意味的類似度を測定することを含む。 これは難しい作業であり、多言語パラフレーズの識別はさらに難しい。 本研究では,複数の言語にまたがるハードパラフレーズを検出するために,両エンコーダモデルを対照的に訓練する。 このアプローチにより、セマンティックサーチなどの様々なタスクにモデル生成の埋め込みを使用することができる。 下流タスクのモデルを評価するとともに,組込み空間の質を評価する。 私たちのパフォーマンスは最先端のクロスエンコーダに匹敵するもので、選択したデータセットで7~10%の相対的な低下しかありません。

The paraphrase identification task involves measuring semantic similarity between two short sentences. It is a tricky task, and multilingual paraphrase identification is even more challenging. In this work, we train a bi-encoder model in a contrastive manner to detect hard paraphrases across multiple languages. This approach allows us to use model-produced embeddings for various tasks, such as semantic search. We evaluate our model on downstream tasks and also assess embedding space quality. Our performance is comparable to state-of-the-art cross-encoders, with only a minimal relative drop of 7-10% on the chosen dataset, while keeping decent quality of embeddings.
翻訳日:2024-06-24 13:42:28 公開日:2024-06-21
# 高速な正則線形結合型時間差プラグ

Tempora-Fusion: Time-Lock Puzzle with Efficient Verifiable Homomorphic Linear Combination ( http://arxiv.org/abs/2406.15070v1 )

ライセンス: Link先を確認
Aydin Abadi, (参考訳) 将来、機密情報を確実に送信するために、TLP(Time-Lock Puzzles)が開発された。 彼らのアプリケーションには、定期的な支払い、期限付きコミットメント、電子投票、封印された入札が含まれる。 ホモモルフィック TLP は、異なるクライアントのパズルの計算を可能にする TLP の重要な変種である。 これにより、ソルバ/サーバは計算結果を符号化する1つのパズルのみに取り組むことができる。 しかし、既存の同型TLPは、計算結果の正しさを検証するためのサポートを欠いている。 計算精度の検証を確実にしながら、サーバが異なるクライアントからパズルの同型線形結合を実行することができるTLPであるTempora-Fusionを導入することで、この制限に対処する。 この方式は、検証のための非対称鍵暗号を回避し、効率的な実装の道を開く。 我々は,フェデレートラーニング,オンラインバンキングにおける定期的な支払い,電子投票など,様々な分野における我々のスキームの適用について論じる。

To securely transmit sensitive information into the future, Time-Lock Puzzles (TLPs) have been developed. Their applications include scheduled payments, timed commitments, e-voting, and sealed-bid auctions. Homomorphic TLP is a key variant of TLP that enables computation on puzzles from different clients. This allows a solver/server to tackle only a single puzzle encoding the computation's result. However, existing homomorphic TLPs lack support for verifying the correctness of the computation results. We address this limitation by introducing Tempora-Fusion, a TLP that allows a server to perform homomorphic linear combinations of puzzles from different clients while ensuring verification of computation correctness. This scheme avoids asymmetric-key cryptography for verification, thus paving the way for efficient implementations. We discuss our scheme's application in various domains, such as federated learning, scheduled payments in online banking, and e-voting.
翻訳日:2024-06-24 13:42:28 公開日:2024-06-21
# SoK:DAO攻撃

SoK: Attacks on DAOs ( http://arxiv.org/abs/2406.15071v1 )

ライセンス: Link先を確認
Rainer Feichtinger, Robin Fritsch, Lioba Heimbach, Yann Vonlanthen, Roger Wattenhofer, (参考訳) 分散自律組織(DAO)は、分散型ガバナンスを促進するブロックチェーンベースの組織である。 現在、DAOは銀行に数十億ドルを保有するだけでなく、最も人気のある分散ファイナンス(DeFi)プロトコルの多くも管理している。 本稿では,セキュリティの脅威をDAOに体系的に分析し,それらが直面する攻撃の種類に着目した。 我々は,過去に発生したDAOに対する攻撃,可能と仮定された攻撃,および監査において発見され防止された潜在的攻撃について検討した。 これらの攻撃(潜在的攻撃)について、攻撃ベクトルを4つのカテゴリに分類する。 これは、DAOに対する多くの攻撃が、ガバナンスにかかわるより具体的で複雑な人間の特性を生かしているが、監査はコードとプロトコルの脆弱性に焦点を当てる傾向があることを示している。 さらに、DAOの脆弱性に関する実証データを調べ、これらの攻撃に影響を及ぼすリスク要因を概説し、そのような脆弱性に対して防御するための緩和戦略を提案する。

Decentralized Autonomous Organizations (DAOs) are blockchain-based organizations that facilitate decentralized governance. Today, DAOs not only hold billions of dollars in their treasury but also govern many of the most popular Decentralized Finance (DeFi) protocols. This paper systematically analyses security threats to DAOs, focusing on the types of attacks they face. We study attacks on DAOs that took place in the past, attacks that have been theorized to be possible, and potential attacks that were uncovered and prevented in audits. For each of these (potential) attacks, we describe and categorize the attack vectors utilized into four categories. This reveals that while many attacks on DAOs take advantage of the less tangible and more complex human nature involved in governance, audits tend to focus on code and protocol vulnerabilities. Thus, additionally, the paper examines empirical data on DAO vulnerabilities, outlines risk factors contributing to these attacks, and suggests mitigation strategies to safeguard against such vulnerabilities.
翻訳日:2024-06-24 13:42:28 公開日:2024-06-21
# KnobTree: 説明可能な強化学習によるインテリジェントデータベースパラメータ構成

KnobTree: Intelligent Database Parameter Configuration via Explainable Reinforcement Learning ( http://arxiv.org/abs/2406.15073v1 )

ライセンス: Link先を確認
Jiahan Chen, Shuhan Qi, Yifan Li, Zeyu Dong, Mingfeng Ding, Yulin Wu, Xuan Wang, (参考訳) データベースは現代の情報システムの基本であるが、従来のルールベースの構成手法は、数百の調整可能なパラメータを持つ現実世界のアプリケーションの複雑さを管理するのに苦労している。 認識と意思決定を組み合わせた深層強化学習(DRL)は、インテリジェントなデータベース構成チューニングのための潜在的なソリューションを提供する。 しかし、RL方式のブラックボックス特性のため、生成したデータベースチューニング戦略は、説明可能性の欠如という緊急の問題に直面している。 さらに、大規模データベースにおける冗長なパラメータは、戦略学習を不安定にする。 本稿では,データベースパラメータ設定の最適化のために設計された対話型フレームワークであるKnobTreeを提案する。 本稿では,RLをベースとした微分木に基づく対話型データベースチューニングアルゴリズムを提案し,説明可能なデータベースチューニング戦略を生成するために,透過的ツリーベースモデルを構築した。 大規模パラメータの問題に対処するため,データベースの性能に重大な影響を及ぼすパラメータを特定するために,Shapley Valuesを用いたパラメータ重要度評価のための説明可能な手法も導入した。 MySQLとGbase8sデータベースで実施された実験は、KnobTreeモデルの例外的な透明性と解釈可能性を証明した。 優れたプロパティによって生成された戦略は、アルゴリズムデザイナやデータベース管理者に実践的なガイダンスを提供することができる。 さらに,スループットやレイテンシ,処理時間といった面で,既存のRLベースのチューニングアルゴリズムよりも若干優れています。

Databases are fundamental to contemporary information systems, yet traditional rule-based configuration methods struggle to manage the complexity of real-world applications with hundreds of tunable parameters. Deep reinforcement learning (DRL), which combines perception and decision-making, presents a potential solution for intelligent database configuration tuning. However, due to black-box property of RL-based method, the generated database tuning strategies still face the urgent problem of lack explainability. Besides, the redundant parameters in large scale database always make the strategy learning become unstable. This paper proposes KnobTree, an interpertable framework designed for the optimization of database parameter configuration. In this framework, an interpertable database tuning algorithm based on RL-based differentatial tree is proposed, which building a transparent tree-based model to generate explainable database tuning strategies. To address the problem of large-scale parameters, We also introduce a explainable method for parameter importance assessment, by utilizing Shapley Values to identify parameters that have significant impacts on database performance. Experiments conducted on MySQL and Gbase8s databases have verified exceptional transparency and interpretability of the KnobTree model. The good property makes generated strategies can offer practical guidance to algorithm designers and database administrators. Moreover, our approach also slightly outperforms the existing RL-based tuning algorithms in aspects such as throughput, latency, and processing time.
翻訳日:2024-06-24 13:42:28 公開日:2024-06-21
# ニューラルインクリメンタルデータ同化

Neural Incremental Data Assimilation ( http://arxiv.org/abs/2406.15076v1 )

ライセンス: Link先を確認
Matthieu Blanke, Ronan Fablet, Marc Lelarge, (参考訳) データ同化は、天気予報などの多くの物理応用において中心的な問題である。 これは、大気のような潜在的に大きなシステムの状態を、以前の物理的知識によって補足されたスパース観測から推定することを目的としている。 関係するシステムのサイズと基礎となる物理方程式の複雑さは、計算の観点からは難しい課題である。 ニューラルネットワークは、物理学を低コストでエミュレートする有望な方法であり、したがってデータ同化を大幅に改善し、加速する可能性がある。 本研究では,ニューラルネットワークによってパラメータ化された粗大なガウス分布の列として物理系をモデル化する深層学習手法を提案する。 これにより、観測過程の異なるデータセットにおける再構成誤差を最小限に抑えるために、エンドツーエンドで訓練された同化演算子を定義することができる。 本稿では,疎度観測によるカオス力学系へのアプローチについて述べるとともに,従来の変分データ同化法と比較する。

Data assimilation is a central problem in many geophysical applications, such as weather forecasting. It aims to estimate the state of a potentially large system, such as the atmosphere, from sparse observations, supplemented by prior physical knowledge. The size of the systems involved and the complexity of the underlying physical equations make it a challenging task from a computational point of view. Neural networks represent a promising method of emulating the physics at low cost, and therefore have the potential to considerably improve and accelerate data assimilation. In this work, we introduce a deep learning approach where the physical system is modeled as a sequence of coarse-to-fine Gaussian prior distributions parametrized by a neural network. This allows us to define an assimilation operator, which is trained in an end-to-end fashion to minimize the reconstruction error on a dataset with different observation processes. We illustrate our approach on chaotic dynamical physical systems with sparse observations, and compare it to traditional variational data assimilation methods.
翻訳日:2024-06-24 13:42:28 公開日:2024-06-21
# GOAL: 総合的な組合せ最適化エージェント学習者

GOAL: A Generalist Combinatorial Optimization Agent Learner ( http://arxiv.org/abs/2406.15079v1 )

ライセンス: Link先を確認
Darko Drakulic, Sofia Michel, Jean-Marc Andreoli, (参考訳) 機械学習ベースのヒューリスティックスは、最近、様々なハード組合せ最適化問題(COP)の解決において、素晴らしいパフォーマンスを示している。 しかし、それらは一般的に、個々の問題に特化して訓練された、別々のニューラルモデルに依存している。 問題のあらゆるバリエーションは、モデルを調整し、スクラッチから再トレーニングする必要があります。 本稿では,複数のCOPを効率的に解ける汎用モデルであるGOAL(Generalist combinatorial Optimization Agent Learning)を提案する。 GOALは1つのバックボーンと、主に入力および出力処理のための軽量な問題固有のアダプタで構成されている。 バックボーンは、ノード、エッジ、インスタンスレベルの任意の組み合わせでグラフ上で定義された問題を処理することができる、ミックスアテンションブロックの新たな形式に基づいている。 さらに、マルチパーティトグラフのような異種ノードやエッジを含む問題は、新しいマルチタイプトランスフォーマーアーキテクチャによって処理される。 GOALはルーティングやスケジューリング,古典グラフといった一連の問題に対してトレーニングを行い,様々なCOPを解く最初のマルチタスクモデルであると同時に,特定のベースラインよりもわずかに劣っていることを示す。 最後に,新たな問題に対するアダプタの微調整や学習によって,GOALの強い伝達学習能力を示す。

Machine Learning-based heuristics have recently shown impressive performance in solving a variety of hard combinatorial optimization problems (COPs). However they generally rely on a separate neural model, specialized and trained for each single problem. Any variation of a problem requires adjustment of its model and re-training from scratch. In this paper, we propose GOAL (for Generalist combinatorial Optimization Agent Learning), a generalist model capable of efficiently solving multiple COPs and which can be fine-tuned to solve new COPs. GOAL consists of a single backbone plus light-weight problem-specific adapters, mostly for input and output processing. The backbone is based on a new form of mixed-attention blocks which allows to handle problems defined on graphs with arbitrary combinations of node, edge and instance-level features. Additionally, problems which involve heterogeneous nodes or edges, such as in multi-partite graphs, are handled through a novel multi-type transformer architecture, where the attention blocks are duplicated to attend only the relevant combination of types while relying on the same shared parameters. We train GOAL on a set of routing, scheduling and classic graph problems and show that it is only slightly inferior to the specialized baselines while being the first multi-task model that solves a variety of COPs. Finally, we showcase the strong transfer learning capacity of GOAL by fine-tuning or learning the adapters for new problems, with only few shots and little data.
翻訳日:2024-06-24 13:42:28 公開日:2024-06-21
# 入力特徴属性分析のための統一フレームワーク

A Unified Framework for Input Feature Attribution Analysis ( http://arxiv.org/abs/2406.15085v1 )

ライセンス: Link先を確認
Jingyi Sun, Pepa Atanasova, Isabelle Augenstein, (参考訳) 機械学習モデルの意思決定プロセスを説明することは、信頼性と公平性の確保に不可欠である。 1つの一般的な説明形式は、例えば、重要な入力機能を強調します。 一 トークン(例えば、共有価値及び統合グラディエント) 二 トークン間の相互作用(例えば、二変量軸法及び注意に基づく方法) 三 入力の幅(例えば、ルービン・スパンの相互作用)間の相互作用 しかし、これらの説明型は単独でのみ研究されており、それぞれの適用性を判断することは困難である。 このギャップを埋めるために,4つの診断特性からなるハイライトと対話的説明の直接比較を容易にする統一的なフレームワークを提案する。 2つのデータセットと2つのモデルにまたがる3つの異なる説明手法を用いて、これらの3種類の入力特徴説明を広範囲に分析することにより、それぞれの説明型が異なる診断特性で優れていることを明らかにする。 我々の実験では、強調説明はモデルの予測に最も忠実であり、対話的な説明はモデルの予測をシミュレートする学習に役立つ。 これらの知見は、将来の研究の必要性をさらに強調し、全ての診断特性を高める統合手法の開発の必要性を強調している。

Explaining the decision-making process of machine learning models is crucial for ensuring their reliability and fairness. One popular explanation form highlights key input features, such as i) tokens (e.g., Shapley Values and Integrated Gradients), ii) interactions between tokens (e.g., Bivariate Shapley and Attention-based methods), or iii) interactions between spans of the input (e.g., Louvain Span Interactions). However, these explanation types have only been studied in isolation, making it difficult to judge their respective applicability. To bridge this gap, we propose a unified framework that facilitates a direct comparison between highlight and interactive explanations comprised of four diagnostic properties. Through extensive analysis across these three types of input feature explanations--each utilizing three different explanation techniques--across two datasets and two models, we reveal that each explanation type excels in terms of different diagnostic properties. In our experiments, highlight explanations are the most faithful to a model's prediction, and interactive explanations provide better utility for learning to simulate a model's predictions. These insights further highlight the need for future research to develop combined methods that enhance all diagnostic properties.
翻訳日:2024-06-24 13:42:28 公開日:2024-06-21
# スピン鎖材料における巨大カロリー効果

Giant caloric effects in spin chain materials ( http://arxiv.org/abs/2406.15092v1 )

ライセンス: Link先を確認
A. A. Zvyagin, V. V. Slavin, (参考訳) スピン鎖材料における巨大電気・エラストカロリック効果を予測した。 この理論は問題の正確な量子力学的解に基づいている。 エントロピーに巨星が飛び込み、カロリー効果によって引き起こされる温度が初期温度に弱いことが示されている。 この効果は、新しい量子デバイス(量子コンピュータの量子ビットのシステムのような)の冷却に利用できる。 一方、臨界点の狭い近傍では大きな変化が予測されるので、この予測効果は現代のマイクロエレクトロニクスのための超感度電気・応力センサに利用することができる。

The giant electro- and elasto-caloric effects in spin chain materials are predicted. The theory is based on the exact quantum mechanical solution of the problem. It is shown that the giant jumps in the entropy and the temperature caused by the caloric effect are weakly affected by the initial temperature. The effect can be used for the cooling of new quantum devices (like systems of qubits in quantum computers). On the other hand, since large changes are predicted in the narrow neighborhood of the critical point, the predicted effect can be used in ultra-sensitive electric and stress sensors for modern microelectronics.
翻訳日:2024-06-24 13:42:28 公開日:2024-06-21
# ECLIPSE:スパース拡散精製によるクリーンラベル不識別毒素の伸長

ECLIPSE: Expunging Clean-label Indiscriminate Poisons via Sparse Diffusion Purification ( http://arxiv.org/abs/2406.15093v1 )

ライセンス: Link先を確認
Xianlong Wang, Shengshan Hu, Yechao Zhang, Ziqi Zhou, Leo Yu Zhang, Peng Xu, Wei Wan, Hai Jin, (参考訳) クリーンラベル無差別中毒攻撃は、正しくラベル付けされた訓練画像に目に見えない摂動を付加し、犠牲者モデルの一般化能力を劇的に低下させる。 近年, 対人訓練, 画像変換技術, 画像浄化などの防御機構が提案されている。 しかしながら、これらのスキームは適応的な攻撃を受けやすく、非現実的な仮定に基づいて構築されるか、特定の毒の種類に対してのみ有効であり、普遍的な適用性が制限される。 本研究では,ECLIPSEと呼ばれる,より普遍的で実用的で堅牢な防衛手法を提案する。 まず, ガウスノイズが毒に与える影響について検討し, 十分なランダムノイズを与えると, あらゆる種類の毒がほぼ同化されることを理論的に証明する。 これを踏まえ、被害者は極めて限られた数のクリーンイメージ(より実用的なシーン)にアクセスでき、その後、このスパースセットを拡大して、認知確率モデルを訓練する(普遍的認知型ツール)。 まず、毒を吸収するためにガウスノイズを導入し、デノナイズのためのモデルを適用し、大まかに精製されたデータセットを作成する。 最後に,ガウスノイズによる各種毒素の同化感受性の不整合のトレードオフに対処するため,残留毒素を効果的に除去する軽量な汚濁補償モジュールを提案し,より普遍的な防御手法を提案する。 大規模な実験により、我々の防衛アプローチは10の最先端防衛よりも優れていることが示された。 また,ECLIPSEに対する適応攻撃を提案し,防衛計画の堅牢性を検証する。 私たちのコードはhttps://github.com/CGCL-codes/ECLIPSEで利用可能です。

Clean-label indiscriminate poisoning attacks add invisible perturbations to correctly labeled training images, thus dramatically reducing the generalization capability of the victim models. Recently, some defense mechanisms have been proposed such as adversarial training, image transformation techniques, and image purification. However, these schemes are either susceptible to adaptive attacks, built on unrealistic assumptions, or only effective against specific poison types, limiting their universal applicability. In this research, we propose a more universally effective, practical, and robust defense scheme called ECLIPSE. We first investigate the impact of Gaussian noise on the poisons and theoretically prove that any kind of poison will be largely assimilated when imposing sufficient random noise. In light of this, we assume the victim has access to an extremely limited number of clean images (a more practical scene) and subsequently enlarge this sparse set for training a denoising probabilistic model (a universal denoising tool). We then begin by introducing Gaussian noise to absorb the poisons and then apply the model for denoising, resulting in a roughly purified dataset. Finally, to address the trade-off of the inconsistency in the assimilation sensitivity of different poisons by Gaussian noise, we propose a lightweight corruption compensation module to effectively eliminate residual poisons, providing a more universal defense approach. Extensive experiments demonstrate that our defense approach outperforms 10 state-of-the-art defenses. We also propose an adaptive attack against ECLIPSE and verify the robustness of our defense scheme. Our code is available at https://github.com/CGCL-codes/ECLIPSE.
翻訳日:2024-06-24 13:42:28 公開日:2024-06-21
# エンド・ツー・エンド強化学習による一般的なネゴシエーション戦略に向けて

Towards General Negotiation Strategies with End-to-End Reinforcement Learning ( http://arxiv.org/abs/2406.15096v1 )

ライセンス: Link先を確認
Bram M. Renting, Thomas M. Moerland, Holger H. Hoos, Catholijn M. Jonker, (参考訳) 自動交渉の研究分野には、他のエージェントと交渉できるエージェントを設計する長い歴史がある。 このような交渉戦略は伝統的に手動設計とヒューリスティックに基づいている。 最近では、エージェントの交渉訓練にも強化学習アプローチが使われている。 しかし、交渉問題は多様であり、観測と行動の次元が変化し、デフォルトの線形ポリシーネットワークでは処理できない。 交渉課題の解決、交渉問題間の政策の伝達不能化、あるいは観察・行動の定型的表現への抽象化、特徴設計による情報の喪失、表現力の喪失などにより、この問題を回避してきた。 そこで我々は,グラフとして観測と動作を表現し,そのポリシーにグラフニューラルネットワークを適用することにより,多様な交渉問題に対するエンドツーエンド強化学習手法を開発した。 実証的な評価により,本手法は有効であり,これまでなかった交渉問題に対して,他のエージェントと交渉することを学ぶことができることを示す。 交渉員の強化学習の新たな機会が開ける。

The research field of automated negotiation has a long history of designing agents that can negotiate with other agents. Such negotiation strategies are traditionally based on manual design and heuristics. More recently, reinforcement learning approaches have also been used to train agents to negotiate. However, negotiation problems are diverse, causing observation and action dimensions to change, which cannot be handled by default linear policy networks. Previous work on this topic has circumvented this issue either by fixing the negotiation problem, causing policies to be non-transferable between negotiation problems or by abstracting the observations and actions into fixed-size representations, causing loss of information and expressiveness due to feature design. We developed an end-to-end reinforcement learning method for diverse negotiation problems by representing observations and actions as a graph and applying graph neural networks in the policy. With empirical evaluations, we show that our method is effective and that we can learn to negotiate with other agents on never-before-seen negotiation problems. Our result opens up new opportunities for reinforcement learning in negotiation agents.
翻訳日:2024-06-24 13:42:28 公開日:2024-06-21
# 混合型時系列の深層マルチモーダル核融合の性能に及ぼすモーダル間相互作用の影響

How Intermodal Interaction Affects the Performance of Deep Multimodal Fusion for Mixed-Type Time Series ( http://arxiv.org/abs/2406.15098v1 )

ライセンス: Link先を確認
Simon Dietz, Thomas Altstidl, Dario Zanca, Björn Eskofier, An Nguyen, (参考訳) MTTS(Mixed-type Time Series)は、医療、金融、環境モニタリング、ソーシャルメディアなど、多くの分野で一般的なバイモーダルデータである。 定期的にサンプリングされた連続時系列と不規則にサンプリングされたカテゴリーイベントシーケンスから構成される。 マルチモーダル融合による両モードの統合はMTTSの処理において有望なアプローチである。 しかし、両方のモダリティを効果的に融合する方法の問題は未解決のままである。 本稿では,MTTS予測のための深層多モード融合手法の総合評価を行う。 比較対象は,3種類の融合型(早期,中期,後期)と5種類の融合法(結合,重み付き平均,相関付き重み付き平均,ゲーティング,特徴共有)である。 これらの融合手法を3つの異なるデータセットに対して評価し,そのうちの1つを新しいフレームワークを用いて生成した。 このフレームワークは、モーダル間相互作用の強さや方向、モダリティの不均衡、各モーダルにおけるランダムネスの度合いなどの重要なデータ特性の制御を可能にし、融合アプローチをテストするためのより制御された環境を提供する。 本研究により, 異なる融合法の性能は, モーダル間相互作用の方向や強度に大きく影響されることが示唆された。 実験の結果, 初期核融合法と中間核融合法は, 微粒化, 粗粒化に優れていた。 これらの結果は,MTTS予測において最も効果的な融合戦略を決定する上で,モーダル間相互作用が重要な役割を担っていることを裏付けるものである。

Mixed-type time series (MTTS) is a bimodal data type that is common in many domains, such as healthcare, finance, environmental monitoring, and social media. It consists of regularly sampled continuous time series and irregularly sampled categorical event sequences. The integration of both modalities through multimodal fusion is a promising approach for processing MTTS. However, the question of how to effectively fuse both modalities remains open. In this paper, we present a comprehensive evaluation of several deep multimodal fusion approaches for MTTS forecasting. Our comparison includes three fusion types (early, intermediate, and late) and five fusion methods (concatenation, weighted mean, weighted mean with correlation, gating, and feature sharing). We evaluate these fusion approaches on three distinct datasets, one of which was generated using a novel framework. This framework allows for the control of key data properties, such as the strength and direction of intermodal interactions, modality imbalance, and the degree of randomness in each modality, providing a more controlled environment for testing fusion approaches. Our findings show that the performance of different fusion approaches can be substantially influenced by the direction and strength of intermodal interactions. The study reveals that early and intermediate fusion approaches excel at capturing fine-grained and coarse-grained cross-modal features, respectively. These findings underscore the crucial role of intermodal interactions in determining the most effective fusion strategy for MTTS forecasting.
翻訳日:2024-06-24 13:42:28 公開日:2024-06-21
# HLQ:アダマール低ランク量子化による高速かつ効率的なバックプロパゲーション

HLQ: Fast and Efficient Backpropagation via Hadamard Low-rank Quantization ( http://arxiv.org/abs/2406.15102v1 )

ライセンス: Link先を確認
Seonggon Kim, Eunhyeok Park, (参考訳) モデルサイズが急速に増加し、様々な微調整アプリケーションの重要性が高まっているため、軽量なトレーニングが重要になっている。 後方通過は前方通過の2倍の費用がかかるため、後方伝播の最適化は特に重要である。 しかし、このプロセスの変更は最適下限収束をもたらす可能性があるため、トレーニング最適化は摂動を最小限に抑えるべきである。 本研究では,畳み込み層および線形層におけるバックプロパゲーションコストの低減に着目し,ハダマール低ランク量子化(HLQ)と呼ばれる新しい最適化手法を提案する。 まず,アクティベーションとウェイトに関する勾配計算の感度を解析し,アクティベーション勾配に4ビットアダマール量子化を適用し,ウェイト勾配にアダマール低ランク近似を適用したHLQパイプラインを任意に設計する。 この組み合わせは利点の最大化に最適であることが判明し、我々の広範な実験は、スクラッチと微調整の両方のトレーニングにおいて、HLQの卓越した性能を実証し、無視できる品質劣化の実際のGPU上でのメモリ節約とアクセラレーションを実現した。

With the rapid increase in model size and the growing importance of various fine-tuning applications, lightweight training has become crucial. Since the backward pass is twice as expensive as the forward pass, optimizing backpropagation is particularly important. However, modifications to this process can lead to suboptimal convergence, so training optimization should minimize perturbations, which is a highly challenging task. In this study, we introduce a novel optimization strategy called Hadamard Low-rank Quantization (HLQ), focusing on reducing the cost of backpropagation in convolutional and linear layers. We first analyze the sensitivity of gradient computation with respect to activation and weight, and judiciously design the HLQ pipeline to apply 4-bit Hadamard quantization to the activation gradient and Hadamard low-rank approximation to the weight gradient. This combination was found to be the best for maximizing benefits, and our extensive experiments demonstrate the outstanding performance of HLQ in both training from scratch and fine-tuning, achieving significant memory savings and acceleration on real GPUs with negligible quality degradation.
翻訳日:2024-06-24 13:42:28 公開日:2024-06-21
# ポストホックOOD検出器の逆ロバスト性定義の解読

Deciphering the Definition of Adversarial Robustness for post-hoc OOD Detectors ( http://arxiv.org/abs/2406.15104v1 )

ライセンス: Link先を確認
Peter Lorenz, Mario Fernandez, Jens Müller, Ullrich Köthe, (参考訳) 現実世界のシナリオでディープラーニングモデルを安全にデプロイするには、アウト・オブ・ディストリビューション(OOD)インプットを検出することが重要です。 近年、多くのOOD検出器が開発され、ベンチマークさえ標準化されている。 ポストホック検出器の数は急速に増加しており、訓練済みの分類器を自然分布シフトから保護するオプションも示している。 しかし、敵の例を扱う効果は、ほとんどの研究で無視されている。 本稿では,16個のポストホック検出器のいくつかの回避攻撃に対する対角的堅牢性について検討し,OOD検出器の対角的防御に向けたロードマップについて議論する。

Detecting out-of-distribution (OOD) inputs is critical for safely deploying deep learning models in real-world scenarios. In recent years, many OOD detectors have been developed, and even the benchmarking has been standardized, i.e. OpenOOD. The number of post-hoc detectors is growing fast and showing an option to protect a pre-trained classifier against natural distribution shifts, claiming to be ready for real-world scenarios. However, its efficacy in handling adversarial examples has been neglected in the majority of studies. This paper investigates the adversarial robustness of the 16 post-hoc detectors on several evasion attacks and discuss a roadmap towards adversarial defense in OOD detectors.
翻訳日:2024-06-24 13:42:28 公開日:2024-06-21
# 浅層学習型マルチヘッドアテンションネットワークによる脳内言語処理

Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network ( http://arxiv.org/abs/2406.15109v1 )

ライセンス: Link先を確認
Badr AlKhamissi, Greta Tuckute, Antoine Bosselut, Martin Schrimpf, (参考訳) 大規模言語モデル(LLM)は人間の言語システムの効果的なモデルであることが示されており、いくつかのモデルは現在のデータセットで最も説明可能な脳活動のばらつきを予測している。 トレーニングされていないモデルであっても、アーキテクチャの先行によって引き起こされる表現は、脳データに合理的に一致していることを示すことができる。 本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。 LLM-to-Brainの類似性を推定するために、神経科学者が人間の脳内の言語ネットワークを識別する方法と同様、まずLLM内の言語選択単位を選択した。 次に、これらのLCMユニットの脳のアライメントを、5つの異なる脳記録データセットでベンチマークします。 トランスフォーマーアーキテクチャの重要なコンポーネントを分離することにより、トークン化戦略とマルチヘッドアテンションを脳のアライメントを駆動する2つの主要コンポーネントとして識別する。 単純な再発はアライメントをさらに改善する。 さらに我々は、言語神経科学分野のランドマーク研究を再現し、人間の脳で経験的に測定された言語ボクセルと同様に、このモデルの定量的な脳アライメントを実証し、同じ実験条件下での同様の反応プロファイルを示す。 最後に、言語モデリングにおけるモデル表現の有用性を実証し、比較したアーキテクチャよりも優れたサンプルおよびパラメータ効率を実現する。 我々のモデルでは、人間の読書時間に対する行動的アライメントの新たな最先端を推定する。 本稿では,人間の言語システムを非訓練的浅層特徴エンコーダとして概念化し,学習したデコーダと組み合わせて,効率的かつ高性能な言語処理を実現する,高度に脳と行動に整合したモデルを提案する。

Large Language Models (LLMs) have been shown to be effective models of the human language system, with some models predicting most explainable variance of brain activity in current datasets. Even in untrained models, the representations induced by architectural priors can exhibit reasonable alignment to brain data. In this work, we investigate the key architectural components driving the surprising alignment of untrained models. To estimate LLM-to-brain similarity, we first select language-selective units within an LLM, similar to how neuroscientists identify the language network in the human brain. We then benchmark the brain alignment of these LLM units across five different brain recording datasets. By isolating critical components of the Transformer architecture, we identify tokenization strategy and multihead attention as the two major components driving brain alignment. A simple form of recurrence further improves alignment. We further demonstrate this quantitative brain alignment of our model by reproducing landmark studies in the language neuroscience field, showing that localized model units -- just like language voxels measured empirically in the human brain -- discriminate more reliably between lexical than syntactic differences, and exhibit similar response profiles under the same experimental conditions. Finally, we demonstrate the utility of our model's representations for language modeling, achieving improved sample and parameter efficiency over comparable architectures. Our model's estimates of surprisal sets a new state-of-the-art in the behavioral alignment to human reading times. Taken together, we propose a highly brain- and behaviorally-aligned model that conceptualizes the human language system as an untrained shallow feature encoder, with structural priors, combined with a trained decoder to achieve efficient and performant language processing.
翻訳日:2024-06-24 13:32:37 公開日:2024-06-21
# 音声合成における2次元ジェスチャー表現の効果の検討

Investigating the impact of 2D gesture representation on co-speech gesture generation ( http://arxiv.org/abs/2406.15111v1 )

ライセンス: Link先を確認
Teo Guichoux, Laure Soulier, Nicolas Obin, Catherine Pelachaud, (参考訳) 共同音声ジェスチャーは、人間と体現的会話エージェント(ECA)の相互作用において重要な役割を果たす。 近年の深層学習手法は, 音声と同期した現実的, 自然な音声ジェスチャーを生成することができるが, 大量の訓練データを必要とする。 人間のポーズ検出モデルを通じてYouTubeなどのソースから動画をコンパイルする"In-the-Wild"データセットは、音声と組み合わせた2Dスケルトンシーケンスを提供することで、解決策を提供する。 同時に、革新的なリフトモデルが登場し、これらの2Dポーズシーケンスを3D対応に変換できるようになり、3Dジェスチャーの大規模で多様なデータセットが生まれる。 しかし、導出した3Dポーズ推定は基本的に擬似基底真理であり、実際の基底真理は2Dモーションデータである。 この区別は、ジェスチャ表現の次元性が生成した動きの質に与える影響についての疑問を提起する。 本研究では,訓練データの次元性,2次元あるいは3次元の関節座標がマルチモーダル音声合成モデルの性能に及ぼす影響を評価する。 体ポーズの2次元生成配列を3次元に変換するために揚力モデルを用いる。 そして、3Dで直接生成されたジェスチャー列と2Dで生成されたジェスチャー列を比較し、後処理として3Dにリフトする。

Co-speech gestures play a crucial role in the interactions between humans and embodied conversational agents (ECA). Recent deep learning methods enable the generation of realistic, natural co-speech gestures synchronized with speech, but such approaches require large amounts of training data. "In-the-wild" datasets, which compile videos from sources such as YouTube through human pose detection models, offer a solution by providing 2D skeleton sequences that are paired with speech. Concurrently, innovative lifting models have emerged, capable of transforming these 2D pose sequences into their 3D counterparts, leading to large and diverse datasets of 3D gestures. However, the derived 3D pose estimation is essentially a pseudo-ground truth, with the actual ground truth being the 2D motion data. This distinction raises questions about the impact of gesture representation dimensionality on the quality of generated motions, a topic that, to our knowledge, remains largely unexplored. In this work, we evaluate the impact of the dimensionality of the training data, 2D or 3D joint coordinates, on the performance of a multimodal speech-to-gesture deep generative model. We use a lifting model to convert 2D-generated sequences of body pose to 3D. Then, we compare the sequence of gestures generated directly in 3D to the gestures generated in 2D and lifted to 3D as post-processing.
翻訳日:2024-06-24 13:32:37 公開日:2024-06-21
# Xylo Audio 2におけるマイクロパワー音声キーワードスポッティング

Micro-power spoken keyword spotting on Xylo Audio 2 ( http://arxiv.org/abs/2406.15112v1 )

ライセンス: Link先を確認
Hannah Bos, Dylan R. Muir, (参考訳) 長年にわたり、"Neuromorphic" や "Neuromorphic" などのプロセッサの設計は、von-Neumann や Tenor プロセッサと比較して、極端エネルギー効率を達成することによって動機づけられてきた。 設計言語の一部として、ニューロモルフィックプロセッサは重量、パラメータ、状態、活動空間を生かしている。 極端な場合、これらの原理に基づくニューラルネットワークは、 '`Spiking Neural Networks'' (SNNs) において、生物学的神経系の疎活動を模倣する。 ニューロモルフィックプロセッサは、ニューロモルフィックおよび非ニューロモルフィックプラットフォーム向けに実装されているため、ニューロモルフィックプロセッサの設計のエネルギー的利点を示すことができる。 本稿では,Xylo Audio 2 (SYNS61210) のニューロモーフィックプロセッサデバイス上での音声キーワードスポッティング(KWS)ベンチマーク "Aloha" の実装について述べる。 95%) の高展開量化タスクの精度が, ベンチマークタスクの精度を上回った。 我々は、Xylo上にデプロイされたアプリケーションの実際の連続的なパワーを測定した。 最良クラスの動的推論パワー (291\mu$W) と最良クラスの推論効率 (6.6\mu$J / Inf) を得た。 XyloはAloha KWSベンチマークに新たな最小電力を設定し、ニューロモルフィックプロセッサの設計で達成可能な極端エネルギー効率を強調している。 以上の結果から,ニューロモルフィック設計はエッジデバイス上でのリアルタイム近距離およびセンサ内処理に適していることがわかった。

For many years, designs for "Neuromorphic" or brain-like processors have been motivated by achieving extreme energy efficiency, compared with von-Neumann and tensor processor devices. As part of their design language, Neuromorphic processors take advantage of weight, parameter, state and activity sparsity. In the extreme case, neural networks based on these principles mimic the sparse activity oof biological nervous systems, in ``Spiking Neural Networks'' (SNNs). Few benchmarks are available for Neuromorphic processors, that have been implemented for a range of Neuromorphic and non-Neuromorphic platforms, which can therefore demonstrate the energy benefits of Neuromorphic processor designs. Here we describes the implementation of a spoken audio keyword-spotting (KWS) benchmark "Aloha" on the Xylo Audio 2 (SYNS61210) Neuromorphic processor device. We obtained high deployed quantized task accuracy, (95%), exceeding the benchmark task accuracy. We measured real continuous power of the deployed application on Xylo. We obtained best-in-class dynamic inference power ($291\mu$W) and best-in-class inference efficiency ($6.6\mu$J / Inf). Xylo sets a new minimum power for the Aloha KWS benchmark, and highlights the extreme energy efficiency achievable with Neuromorphic processor designs. Our results show that Neuromorphic designs are well-suited for real-time near- and in-sensor processing on edge devices.
翻訳日:2024-06-24 13:32:37 公開日:2024-06-21
# 眼底画像からの緑内障の分類のための二重注意支援DenseNet-121

A Dual Attention-aided DenseNet-121 for Classification of Glaucoma from Fundus Images ( http://arxiv.org/abs/2406.15113v1 )

ライセンス: Link先を確認
Soham Chakraborty, Ayush Roy, Payel Pramanik, Daria Valenkova, Ram Sarkar, (参考訳) 深層学習とコンピュータビジョンの手法は、現在では眼科領域で主に使われている。 本稿では,眼底画像から正常眼と緑内障眼を分類するための注意支援型DenseNet-121を提案する。 畳み込みブロックアテンションモジュールは、DenseNet-121によって抽出された関連する空間的特徴とチャネル的特徴を強調する。 チャネル再校正モジュールは、空間次元の統計的特徴とともにエッジ情報を活用することにより、さらに特徴を充実させる。 実験では、RIM-ONEとACRIMAという2つの標準データセットが使用されている。 提案手法は最先端モデルよりも優れた結果を示した。 それぞれの成分の有効性を示すアブレーション研究も行われている。 提案された作業のコードは、https://github.com/Soham 2004GitHub/DADGCで公開されている。

Deep learning and computer vision methods are nowadays predominantly used in the field of ophthalmology. In this paper, we present an attention-aided DenseNet-121 for classifying normal and glaucomatous eyes from fundus images. It involves the convolutional block attention module to highlight relevant spatial and channel features extracted by DenseNet-121. The channel recalibration module further enriches the features by utilizing edge information along with the statistical features of the spatial dimension. For the experiments, two standard datasets, namely RIM-ONE and ACRIMA, have been used. Our method has shown superior results than state-of-the-art models. An ablation study has also been conducted to show the effectiveness of each of the components. The code of the proposed work is available at: https://github.com/Soham2004GitHub/DADGC.
翻訳日:2024-06-24 13:32:37 公開日:2024-06-21
# FA-Net:胸部X線における肺炎検出のためのファジィ注意支援型ディープニューラルネットワーク

FA-Net: A Fuzzy Attention-aided Deep Neural Network for Pneumonia Detection in Chest X-Rays ( http://arxiv.org/abs/2406.15117v1 )

ライセンス: Link先を確認
Ayush Roy, Anurag Bhattacharjee, Diego Oliva, Oscar Ramos-Soto, Francisco J. Alvarez-Padilla, Ram Sarkar, (参考訳) 肺炎(Pneumonia)は、細菌、真菌、ウイルスによって引き起こされる呼吸器感染症である。 多くの人々、特に高い汚染レベル、不衛生な生活環境、過密化、医療インフラの不十分な発展途上国に影響を及ぼす。 肺炎は胸水を引き起こし、肺に液体が充満し呼吸困難を引き起こす。 早期診断は有効治療の確保と生存率の向上に不可欠である。 胸部X線像は肺炎の診断に最もよく用いられる方法である。 しかし,胸部X線検査は困難であり,主観的であった。 本研究では,胸部X線画像を用いた自動肺炎検出のためのコンピュータ支援診断システムを開発した。 DenseNet-121 と ResNet50 を2次分類(肺炎,正常)と多型分類(肺炎,ウイルス性肺炎,正常)のバックボーンとして使用した。 また,FCSSAM(Fuzzy Channel Selective Space Attention Module)と呼ばれるチャネル固有の空間アテンション機構を実装し,抽出した特徴の無関係なチャネルをバックボーンによって取り除きながら,関連するチャネルの特定の空間領域をハイライトする。 提案手法を,バイナリおよびマルチクラス分類設定を用いて,公開されている胸部X線データセット上で評価した。 提案手法は,2進法と多進法でそれぞれ97.15\%,79.79\%の精度を実現する。 提案手法は最先端技術(SOTA)法よりも優れている。 提案されたモデルのコードは、https://github.com/AyushRoy2001/FA-Net.comで公開される。

Pneumonia is a respiratory infection caused by bacteria, fungi, or viruses. It affects many people, particularly those in developing or underdeveloped nations with high pollution levels, unhygienic living conditions, overcrowding, and insufficient medical infrastructure. Pneumonia can cause pleural effusion, where fluids fill the lungs, leading to respiratory difficulty. Early diagnosis is crucial to ensure effective treatment and increase survival rates. Chest X-ray imaging is the most commonly used method for diagnosing pneumonia. However, visual examination of chest X-rays can be difficult and subjective. In this study, we have developed a computer-aided diagnosis system for automatic pneumonia detection using chest X-ray images. We have used DenseNet-121 and ResNet50 as the backbone for the binary class (pneumonia and normal) and multi-class (bacterial pneumonia, viral pneumonia, and normal) classification tasks, respectively. We have also implemented a channel-specific spatial attention mechanism, called Fuzzy Channel Selective Spatial Attention Module (FCSSAM), to highlight the specific spatial regions of relevant channels while removing the irrelevant channels of the extracted features by the backbone. We evaluated the proposed approach on a publicly available chest X-ray dataset, using binary and multi-class classification setups. Our proposed method achieves accuracy rates of 97.15\% and 79.79\% for the binary and multi-class classification setups, respectively. The results of our proposed method are superior to state-of-the-art (SOTA) methods. The code of the proposed model will be available at: https://github.com/AyushRoy2001/FA-Net.
翻訳日:2024-06-24 13:32:37 公開日:2024-06-21
# 偏光Unetによる表面正規化

Surface Normal Reconstruction Using Polarization-Unet ( http://arxiv.org/abs/2406.15118v1 )

ライセンス: Link先を確認
F. S. Mortazavi, S. Dajkhosh, M. Saadatseresht, (参考訳) 現在、物体の3次元再構成は様々な分野で多くの応用がなされており、高分解能3次元再構成に適した方法を選択することは重要な問題であり、3次元モデルに高次元の詳細を表示することは、この分野において深刻な課題である。 これまで高分解能な3次元再構成法が用いられてきた。 しかし、アクティブな3次元再構成手法の問題点は、物体に近い光源を必要とすることである。 偏光からの形状(SfP)は、物体の高分解能な3次元再構成のための最良の解の1つであり、受動的手法であり、アクティブな手法の欠点を持たない。 物体からの反射光の偏光変化は、デジタルカメラの前で偏光カメラまたは偏光フィルタを用いて分析し、フィルタを回転させることで解析することができる。 この情報を用いることで、表面の正常度を高精度に再構成することができ、表面の細部を局所的に再構築することができる。 本稿では,物体の表面正規化を実現するために,エンドツーエンドのディープラーニング手法を提案する。 この方法では、ニューラルネットワークをトレーニングし、その結果を評価するためにベンチマークデータセットが使用されている。 その結果、他の方法や異なる照明条件下で定量的に定性的に評価されている。 結果評価にはMAE値(Mean-Angular-Error)が使用されている。 提案手法は,従来の41.44度から49.03度の物理に基づく手法と比較して,データセット全体のMAE値が18.06度以下である物体の表面の正規化を正確に再現できることを示した。

Today, three-dimensional reconstruction of objects has many applications in various fields, and therefore, choosing a suitable method for high resolution three-dimensional reconstruction is an important issue and displaying high-level details in three-dimensional models is a serious challenge in this field. Until now, active methods have been used for high-resolution three-dimensional reconstruction. But the problem of active three-dimensional reconstruction methods is that they require a light source close to the object. Shape from polarization (SfP) is one of the best solutions for high-resolution three-dimensional reconstruction of objects, which is a passive method and does not have the drawbacks of active methods. The changes in polarization of the reflected light from an object can be analyzed by using a polarization camera or locating polarizing filter in front of the digital camera and rotating the filter. Using this information, the surface normal can be reconstructed with high accuracy, which will lead to local reconstruction of the surface details. In this paper, an end-to-end deep learning approach has been presented to produce the surface normal of objects. In this method a benchmark dataset has been used to train the neural network and evaluate the results. The results have been evaluated quantitatively and qualitatively by other methods and under different lighting conditions. The MAE value (Mean-Angular-Error) has been used for results evaluation. The evaluations showed that the proposed method could accurately reconstruct the surface normal of objects with the lowest MAE value which is equal to 18.06 degree on the whole dataset, in comparison to previous physics-based methods which are between 41.44 and 49.03 degree.
翻訳日:2024-06-24 13:32:37 公開日:2024-06-21
# データ蒸留による資源制約下における音声感情認識

Speech Emotion Recognition under Resource Constraints with Data Distillation ( http://arxiv.org/abs/2406.15119v1 )

ライセンス: Link先を確認
Yi Chang, Zhao Ren, Zhonghao Zhao, Thanh Tam Nguyen, Kun Qian, Tanja Schultz, Björn W. Schuller, (参考訳) 音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす。 IoT(Internet of Things)におけるエッジデバイスの出現は、メモリと計算リソースの制約により、複雑なディープラーニングモデルを構築する上での課題を示している。 さらに、感情的な音声データは、しばしばプライベート情報を含んでおり、SERモデルのデプロイ時のプライバシー漏洩に関する懸念を提起する。 これらの課題に対処するため、我々は、合成され、小さく、蒸留されたデータセットを使用して、IoTアプリケーションにおけるSERモデルの効率的な開発を容易にするデータ蒸留フレームワークを提案する。 実験により, 蒸留したデータセットは, SERモデルに一定の初期化を施し, 元の完全感情音声データセットに匹敵する性能が得られることを示した。

Speech emotion recognition (SER) plays a crucial role in human-computer interaction. The emergence of edge devices in the Internet of Things (IoT) presents challenges in constructing intricate deep learning models due to constraints in memory and computational resources. Moreover, emotional speech data often contains private information, raising concerns about privacy leakage during the deployment of SER models. To address these challenges, we propose a data distillation framework to facilitate efficient development of SER models in IoT applications using a synthesised, smaller, and distilled dataset. Our experiments demonstrate that the distilled dataset can be effectively utilised to train SER models with fixed initialisation, achieving performances comparable to those developed using the original full emotional speech dataset.
翻訳日:2024-06-24 13:32:37 公開日:2024-06-21
# 偏光法による文化財の高分解能表面改質

High Resolution Surface Reconstruction of Cultural Heritage Objects Using Shape from Polarization Method ( http://arxiv.org/abs/2406.15121v1 )

ライセンス: Link先を確認
F. S. Mortazavi, M. Saadatseresht, (参考訳) 今日では、コンピュータビジョン、コンピュータグラフィックス、複合現実感、デジタルツインといった様々な分野で3次元再構成が使われている。 文化遺産の3次元再構築は、通常、近距離写真撮影によって達成される、この地域で最も重要な応用の1つである。 ここでの問題は、画像がしばしばうるさいことであり、密集した画像マッチング法は、実際には文化的遺産の幾何学的詳細を再構築する上で、重大な制限があることである。 したがって、特に文化遺産の3次元モデルに高精細度を表示することは、この分野において深刻な課題である。 本稿では, アクティブな手法の欠点のないパッシブ手法として, 偏光法からの形状について検討した。 この方法では、デジタルカメラの前で線形偏光フィルタを回転させることにより、偏光から得られる情報を用いて、深度マップの解像度を劇的に向上させることができる。 これらの偏光画像を通して、物体の表面の詳細を高精度で局所的に再構成することができる。 偏光法と光グラム法の融合は高分解能な3次元再構成を実現するための適切な解である。 表面再構成評価は視覚的,定量的に行われている。 提案手法は,3次元モデルにおける表面の細部を,10倍の深度分解能を持つフォトグラム法と比較して有意に再現できることを示した。

Nowadays, three-dimensional reconstruction is used in various fields like computer vision, computer graphics, mixed reality and digital twin. The three-dimensional reconstruction of cultural heritage objects is one of the most important applications in this area which is usually accomplished by close range photogrammetry. The problem here is that the images are often noisy, and the dense image matching method has significant limitations to reconstruct the geometric details of cultural heritage objects in practice. Therefore, displaying high-level details in three-dimensional models, especially for cultural heritage objects, is a severe challenge in this field. In this paper, the shape from polarization method has been investigated, a passive method with no drawbacks of active methods. In this method, the resolution of the depth maps can be dramatically increased using the information obtained from the polarization light by rotating a linear polarizing filter in front of a digital camera. Through these polarized images, the surface details of the object can be reconstructed locally with high accuracy. The fusion of polarization and photogrammetric methods is an appropriate solution for achieving high resolution three-dimensional reconstruction. The surface reconstruction assessments have been performed visually and quantitatively. The evaluations showed that the proposed method could significantly reconstruct the surfaces' details in the three-dimensional model compared to the photogrammetric method with 10 times higher depth resolution.
翻訳日:2024-06-24 13:32:37 公開日:2024-06-21
# 高レベル学習と低レベル学習の双方に有効なオプションベースアルゴリズム

A Provably Efficient Option-Based Algorithm for both High-Level and Low-Level Learning ( http://arxiv.org/abs/2406.15124v1 )

ライセンス: Link先を確認
Gianluca Drappo, Alberto Maria Metelli, Marcello Restelli, (参考訳) Hierarchical Reinforcement Learning (HRL)アプローチは、多種多様な複雑な構造化された長期水平問題の解決に成功している。 しかしながら、この経験的証拠に関する完全な理論的理解は、現在欠落している。 emph{option}フレームワークのコンテキストにおいて、事前の研究は、オプションが固定されたシナリオのための効率的なアルゴリズムを考案し、オプションの中から選択される高レベルなポリシーを学習する必要がある。 しかし、高レベルの政策と低レベルの政策の両方が学習される完全に現実的なシナリオは、理論的な観点から驚くほど無視されている。 この研究は後者のシナリオを理解するための一歩となる。 有限ホライゾン問題に焦点をあてて、異なる(高低低)時間的抽象化に代表される後悔最小化アルゴリズムを交互に扱うメタアルゴリズムを提案する。 高いレベルでは、半マルコフ決定プロセス(SMDP)として、固定された低レベルポリシーで、低いレベルでは内部オプションポリシーを固定された高レベルポリシーで学習する。 導出された境界は、非階層的有限水平問題に対する下界と比較され、事前訓練された選択肢がなくても、階層的アプローチが証明可能であれば特徴付けることができる。

Hierarchical Reinforcement Learning (HRL) approaches have shown successful results in solving a large variety of complex, structured, long-horizon problems. Nevertheless, a full theoretical understanding of this empirical evidence is currently missing. In the context of the \emph{option} framework, prior research has devised efficient algorithms for scenarios where options are fixed, and the high-level policy selecting among options only has to be learned. However, the fully realistic scenario in which both the high-level and the low-level policies are learned is surprisingly disregarded from a theoretical perspective. This work makes a step towards the understanding of this latter scenario. Focusing on the finite-horizon problem, we present a meta-algorithm alternating between regret minimization algorithms instanced at different (high and low) temporal abstractions. At the higher level, we treat the problem as a Semi-Markov Decision Process (SMDP), with fixed low-level policies, while at a lower level, inner option policies are learned with a fixed high-level policy. The bounds derived are compared with the lower bound for non-hierarchical finite-horizon problems, allowing to characterize when a hierarchical approach is provably preferable, even without pre-trained options.
翻訳日:2024-06-24 13:32:37 公開日:2024-06-21
# フェデレートラーニングの導入:部分モデルトレーニングによる弱クライアント参加の実現

Embracing Federated Learning: Enabling Weak Client Participation via Partial Model Training ( http://arxiv.org/abs/2406.15125v1 )

ライセンス: Link先を確認
Sunwoo Lee, Tuo Zhang, Saurav Prakash, Yue Niu, Salman Avestimehr, (参考訳) フェデレートラーニング(FL)では、クライアントは完全なモデルをトレーニングしたり、メモリ空間に保持することができない弱いデバイスを持っているかもしれない。 大規模FLアプリケーションを実装するためには,このような弱いクライアントの参加を可能にする分散学習手法を開発することが重要である。 本稿では,システムリソースの容量に関わらず,すべての利用可能なクライアントが分散トレーニングに参加することを可能にする,一般的なFLフレームワークであるEnbracingFLを提案する。 このフレームワークは、各クライアントがシステムリソースが許容する連続的な出力側レイヤをトレーニングする、新しい形式の部分モデルトレーニング手法に基づいて構築されている。 本研究は,各レイヤがクライアント間で同様のデータ表現を行うことを奨励し,FL効率を向上することを示す。 提案手法は,非凸および滑らかな問題に対する定常点近傍への収束を保証する。 本研究では,強い(~40%のメモリ),弱い(~15%のメモリ)クライアント,データセット(CIFAR-10,FEMNIST,IMDB),モデル(ResNet20,CNN,LSTM)を混在させた各種環境下でのFL導入の有効性を評価する。 実験により,EmbingFLは,すべてのクライアントが強いように常に高い精度を実現し,最先端の幅低減法(HeteroFL,FjORD)よりも優れていた。

In Federated Learning (FL), clients may have weak devices that cannot train the full model or even hold it in their memory space. To implement large-scale FL applications, thus, it is crucial to develop a distributed learning method that enables the participation of such weak clients. We propose EmbracingFL, a general FL framework that allows all available clients to join the distributed training regardless of their system resource capacity. The framework is built upon a novel form of partial model training method in which each client trains as many consecutive output-side layers as its system resources allow. Our study demonstrates that EmbracingFL encourages each layer to have similar data representations across clients, improving FL efficiency. The proposed partial model training method guarantees convergence to a neighbor of stationary points for non-convex and smooth problems. We evaluate the efficacy of EmbracingFL under a variety of settings with a mixed number of strong, moderate (~40% memory), and weak (~15% memory) clients, datasets (CIFAR-10, FEMNIST, and IMDB), and models (ResNet20, CNN, and LSTM). Our empirical study shows that EmbracingFL consistently achieves high accuracy as like all clients are strong, outperforming the state-of-the-art width reduction methods (i.e. HeteroFL and FjORD).
翻訳日:2024-06-24 13:32:37 公開日:2024-06-21
# Wavelet Guided Attention Module for Skin Cancer Classification with Gradient-based Feature Fusion (特集:平成11年度日本皮膚科学会学術講演会講演要旨)

A Wavelet Guided Attention Module for Skin Cancer Classification with Gradient-based Feature Fusion ( http://arxiv.org/abs/2406.15128v1 )

ライセンス: Link先を確認
Ayush Roy, Sujan Sarkar, Sohom Ghosal, Dmitrii Kaplun, Asya Lyanova, Ram Sarkar, (参考訳) 皮膚がんは、経験豊富な医師から正確な診断を必要とする非常に危険な種類のがんである。 医師が皮膚がんをより効率的に診断できるように、コンピュータ支援診断システム(CAD)が有用である。 本稿では,新しいアテンション機構を用いて,病変の空間的次元と対称性の相違を識別し,対称性,テクスチャ,色彩の均一性などに基づく様々なクラスの相違点に着目したモデルを提案する。 また, 皮膚病変の境界情報の抽出には, ウェーブレットとソフトアテンションエイドを併用する。 我々は、HAM10000と呼ばれるマルチクラスで高いクラスバランスのデータセットでモデルをテストし、91.17\%のF1スコアと90.75\%の精度で有望な結果を得た。 コードはhttps://github.com/AyushRoy2001/WAGF-Fusion.comで公開されている。

Skin cancer is a highly dangerous type of cancer that requires an accurate diagnosis from experienced physicians. To help physicians diagnose skin cancer more efficiently, a computer-aided diagnosis (CAD) system can be very helpful. In this paper, we propose a novel model, which uses a novel attention mechanism to pinpoint the differences in features across the spatial dimensions and symmetry of the lesion, thereby focusing on the dissimilarities of various classes based on symmetry, uniformity in texture and color, etc. Additionally, to take into account the variations in the boundaries of the lesions for different classes, we employ a gradient-based fusion of wavelet and soft attention-aided features to extract boundary information of skin lesions. We have tested our model on the multi-class and highly class-imbalanced dataset, called HAM10000, and achieved promising results, with a 91.17\% F1-score and 90.75\% accuracy. The code is made available at: https://github.com/AyushRoy2001/WAGF-Fusion.
翻訳日:2024-06-24 13:32:37 公開日:2024-06-21
# ChatGPTが生み出した良質・悪質・悪質な問題の評価--新しいデータセットとその方法論と関連する課題

Assessing Good, Bad and Ugly Arguments Generated by ChatGPT: a New Dataset, its Methodology and Associated Tasks ( http://arxiv.org/abs/2406.15130v1 )

ライセンス: Link先を確認
Victor Hugo Nascimento Rocha, Igor Cataneo Silveira, Paulo Pirozelli, Denis Deratani Mauá, Fabio Gagliardi Cozman, (参考訳) 最近のLLM(Large Language Models)の成功は、誤った情報を広める可能性への懸念を引き起こしている。 結果として、そのようなモデルによって生成された ``fake arguments'' を識別するためのツールが必要である。 これらのツールを作成するには、LLMによって生成されたテキストの例が必要である。 本稿では,OpenAI の LLM である ChatGPT による論証から,良質で悪質な論証を得る手法を提案する。 次に、多様な引数の集合であるArGPTを含む新しいデータセットについて述べる。 我々は,データセットの有効性を評価し,いくつかの議論関連タスクのベースラインを確立する。 最後に, 人工的に生成したデータは, 人間の議論によく関連しており, 定義したタスクに対するシステムの訓練とテストを行うツールとして有用であることを示す。

The recent success of Large Language Models (LLMs) has sparked concerns about their potential to spread misinformation. As a result, there is a pressing need for tools to identify ``fake arguments'' generated by such models. To create these tools, examples of texts generated by LLMs are needed. This paper introduces a methodology to obtain good, bad and ugly arguments from argumentative essays produced by ChatGPT, OpenAI's LLM. We then describe a novel dataset containing a set of diverse arguments, ArGPT. We assess the effectiveness of our dataset and establish baselines for several argumentation-related tasks. Finally, we show that the artificially generated data relates well to human argumentation and thus is useful as a tool to train and test systems for the defined tasks.
翻訳日:2024-06-24 13:32:37 公開日:2024-06-21
# KalMamba: 不確実性下でのRLの効率的な確率的状態空間モデルを目指して

KalMamba: Towards Efficient Probabilistic State Space Models for RL under Uncertainty ( http://arxiv.org/abs/2406.15131v1 )

ライセンス: Link先を確認
Philipp Becker, Niklas Freymuth, Gerhard Neumann, (参考訳) 確率的状態空間モデル(SSM)は、制御のための簡潔な表現を提供するため、高次元部分的な情報から強化学習(RL)に不可欠である。 しかし、S4 や Mamba のような最近の決定論的手法の計算効率は欠如している。 本稿では,確率的SSMの強度と決定論的SSMのスケーラビリティを組み合わせたRLの表現を効率よく学習するKalMambaを提案する。 KalMamba はMamba を利用して線形ガウス SSM の動的パラメータを潜在空間で学習する。 この潜在空間における推論は、標準カルマンフィルタリングと滑らか化に相当する。 パラレル・アソシエイト・スキャニング(英語版)を用いたこれらの操作は、Mambaと同様、原理的、高効率でスケーラブルな確率的SSMを得るために実現した。 実験の結果、KalMambaはRLの最先端SSMアプローチと競合する一方で、特に長い相互作用シーケンスにおいて計算効率を著しく向上することがわかった。

Probabilistic State Space Models (SSMs) are essential for Reinforcement Learning (RL) from high-dimensional, partial information as they provide concise representations for control. Yet, they lack the computational efficiency of their recent deterministic counterparts such as S4 or Mamba. We propose KalMamba, an efficient architecture to learn representations for RL that combines the strengths of probabilistic SSMs with the scalability of deterministic SSMs. KalMamba leverages Mamba to learn the dynamics parameters of a linear Gaussian SSM in a latent space. Inference in this latent space amounts to standard Kalman filtering and smoothing. We realize these operations using parallel associative scanning, similar to Mamba, to obtain a principled, highly efficient, and scalable probabilistic SSM. Our experiments show that KalMamba competes with state-of-the-art SSM approaches in RL while significantly improving computational efficiency, especially on longer interaction sequences.
翻訳日:2024-06-24 13:32:37 公開日:2024-06-21
# 開放量子系における忠実性の非線形性:高次元量子コンピューティングにおけるゲートとノイズ依存性

Nonlinearity of the Fidelity in Open Qudit Systems: Gate and Noise Dependence in High-dimensional Quantum Computing ( http://arxiv.org/abs/2406.15141v1 )

ライセンス: Link先を確認
Jean-Gabriel Hartmann, Denis Janković, Rémi Pasquier, Mario Ruben, Paul-Antoine Hervieux, (参考訳) 高次元量子コンピューティングは、従来の量子ビットベースのシステムで直面するスケーラビリティとエラー訂正の問題に対処する可能性から、大きな関心を集めている。 本稿では、リンドブラッド形式におけるマルコフ雑音下での単一キューディット系の平均ゲート忠実度(AGF)について検討し、高次補正項の計算のための包括的な理論的枠組みを開発することにより、これまでの研究を拡張した。 環境結合係数の観点から平均ゲート不整合(AGI)の摂動膨張に関する一般表現を導出し,これらを広範囲の数値シミュレーションにより検証し,強い結合状態における線形な挙動から非線形な挙動への遷移を強調する。 本研究は,AGIがQudit次元,量子ゲート選択,ノイズ強度に依存していることに注目し,量子ゲート設計と誤り訂正プロトコルを最適化するための重要な洞察を提供する。 さらに,本フレームワークは,強結合系におけるAGIの普遍的バウンダリの同定と,近距離キュートアーキテクチャの性能向上のための実践的意義について検討する。 この研究は、高次元量子コンピューティングにおける将来の研究と発展のための堅牢な基盤を提供し、ロバストで高忠実な量子演算の発展に寄与する。

High-dimensional quantum computing has generated significant interest due to its potential to address scalability and error correction challenges faced by traditional qubit-based systems. This paper investigates the Average Gate Fidelity (AGF) of single qudit systems under Markovian noise in the Lindblad formalism, extending previous work by developing a comprehensive theoretical framework for the calculation of higher-order correction terms. We derive general expressions for the perturbative expansion of the Average Gate Infidelity (AGI) in terms of the environmental coupling coefficient and validate these with extensive numerical simulations, emphasizing the transition from linear to nonlinear behaviour in the strong coupling regime. Our findings highlight the dependence of AGI on qudit dimensionality, quantum gate choice, and noise strength, providing critical insights for optimising quantum gate design and error correction protocols. Additionally, we utilise our framework to identify universal bounds for the AGI in the strong coupling regime and explore the practical implications for enhancing the performance of near-term qudit architectures. This study offers a robust foundation for future research and development in high-dimensional quantum computing, contributing to the advancement of robust, high-fidelity quantum operations.
翻訳日:2024-06-24 13:32:37 公開日:2024-06-21
# 液体ネットワークを用いた実世界飛行航法へのガウススプラッティング

Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks ( http://arxiv.org/abs/2406.15149v1 )

ライセンス: Link先を確認
Alex Quach, Makram Chahine, Alexander Amini, Ramin Hasani, Daniela Rus, (参考訳) シミュレータは、スケーラブルなデータ生成、柔軟な設計、軌道の最適化を提供するため、自律的なロボット学習のための強力なツールである。 しかし、シミュレーションデータから実世界へ学習した振る舞いの伝達は困難であることが証明され、通常は計算量の多い領域ランダム化法やモデル微調整によって緩和される。 本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。 そこで我々はまず,ガウススプラッティングと4次元飛行力学を統合したシミュレータを構築し,その後,液状ニューラルネットワークを用いたロバストナビゲーションポリシーの訓練を行った。 このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリングの進歩、専門家による実演訓練データの巧妙なプログラミング、およびLiquid Networkのタスク理解能力を組み合わせたフルスタックの模倣学習プロトコルを得る。 一連の定量的飛行試験を通じて, シミュレーションシーンで学んだナビゲーションスキルを実世界に直接移動させることを実証した。 さらに, 大規模分布および物理的環境変化下でのトレーニング環境を超えて, 性能を維持する能力を示す。 我々の学習したLiquidポリシは、光リアルな室内飛行のみからキュレートされた単一のターゲット操作に基づいて訓練され、屋外のハードウェアプラットフォーム上でのマルチステップハイキングに一般化されました。

Simulators are powerful tools for autonomous robot learning as they offer scalable data generation, flexible design, and optimization of trajectories. However, transferring behavior learned from simulation data into the real world proves to be difficult, usually mitigated with compute-heavy domain randomization methods or further model fine-tuning. We present a method to improve generalization and robustness to distribution shifts in sim-to-real visual quadrotor navigation tasks. To this end, we first build a simulator by integrating Gaussian Splatting with quadrotor flight dynamics, and then, train robust navigation policies using Liquid neural networks. In this way, we obtain a full-stack imitation learning protocol that combines advances in 3D Gaussian splatting radiance field rendering, crafty programming of expert demonstration training data, and the task understanding capabilities of Liquid networks. Through a series of quantitative flight tests, we demonstrate the robust transfer of navigation skills learned in a single simulation scene directly to the real world. We further show the ability to maintain performance beyond the training environment under drastic distribution and physical environment changes. Our learned Liquid policies, trained on single target manoeuvres curated from a photorealistic simulated indoor flight only, generalize to multi-step hikes onboard a real hardware platform outdoors.
翻訳日:2024-06-24 13:22:51 公開日:2024-06-21
# 2次元量子環における幾何誘起磁気抵抗振動

Magnetoresistance oscillations induced by geometry in a two-dimensional quantum ring ( http://arxiv.org/abs/2406.15151v1 )

ライセンス: Link先を確認
Francisco A. G. de Lira, Edilberto O. Silva, Christian D. Santangelo, (参考訳) 本研究では、制御された円錐形状がエミッタとコレクタの両方に弱結合された2次元量子環を経由する電荷輸送に与える影響について検討する。 これらのメソスコピック系は、物質の定義領域で高度に移動した電子を閉じ込めることが知られている。 特に,非零温度でのサブバンド占有の異なる条件下での平均半径が800\hspace{0.05cm}\text{nm}$のGaAsデバイスを,弱かつ均一な背景磁場の影響下で検討する。 共振トンネルとエネルギー固有値に適応したランダウアー公式を用いて、変形表面が異なる周波数のアハロノフ・ボーム振動によって生じるファン・フーブ導電率特異点と磁気抵抗干渉パターンにどのように影響するかを探索する。 回転強度のみに依存する磁気抵抗振動を報告し、その形状を調整してデバイスを通しての輸送を最適化する代替の方法を示す新しい特徴を提供する。

In this work, we investigate the effects of a controlled conical geometry on the electric charge transport through a two-dimensional quantum ring weakly coupled to both the emitter and the collector. These mesoscopic systems are known for being able to confine highly mobile electrons in a defined region of matter. Particularly, we consider a GaAs device having an average radius of $800\hspace{0.05cm}\text{nm}$ in different regimes of subband occupation at non-zero temperature and under the influence of a weak and uniform background magnetic field. Using the adapted Landauer formula for the resonant tunneling and the energy eigenvalues, we explore how the modified surface affects the Van-Hoove conductance singularities and the magnetoresistance interference patterns resulting from the Aharonov-Bohm oscillations of different frequencies. Magnetoresistance oscillations depending only on the curvature intensity are reported, providing a new feature that represents an alternative way to optimize the transport through the device by tuning its geometry.
翻訳日:2024-06-24 13:22:51 公開日:2024-06-21
# 生成的トポロジカルネットワーク

Generative Topological Networks ( http://arxiv.org/abs/2406.15152v1 )

ライセンス: Link先を確認
Alona Levy-Jurgenson, Zohar Yakhini, (参考訳) 生成モデルは近年大きな進歩を遂げているが、しばしば訓練や使用には困難で費用がかかる。 生成的トポロジカルネットワーク(GTN)は,これらの欠点に対処する新たな生成モデルである。 GTNはトポロジー理論に基づく単純な教師付き学習アプローチを用いて決定的に訓練される。 GTNは訓練が速く、サンプルを生成するために標準フィードフォワードニューラルネットワークに1つのフォワードパスしか必要としない。 我々は、MNIST、celebA、Hands and Palm Imagesデータセットなど、いくつかのデータセットでGTNの強度を実証する。 最後に、GTNsの背後にある理論は、パフォーマンスを改善するために生成モデルのトレーニング方法に関する洞察を提供する。

Generative models have seen significant advancements in recent years, yet often remain challenging and costly to train and use. We introduce Generative Topological Networks (GTNs) -- a new class of generative models that addresses these shortcomings. GTNs are trained deterministically using a simple supervised learning approach grounded in topology theory. GTNs are fast to train, and require only a single forward pass in a standard feedforward neural network to generate samples. We demonstrate the strengths of GTNs in several datasets, including MNIST, celebA and the Hands and Palm Images dataset. Finally, the theory behind GTNs offers insights into how to train generative models for improved performance.
翻訳日:2024-06-24 13:22:51 公開日:2024-06-21
# 正規, 自己説明可能, ドメイン不変GNNにおけるパークと信仰の落とし穴

Perks and Pitfalls of Faithfulness in Regular, Self-Explainable and Domain Invariant GNNs ( http://arxiv.org/abs/2406.15156v1 )

ライセンス: Link先を確認
Steve Azzolin, Antonio Longa, Stefano Teso, Andrea Passerini, (参考訳) グラフニューラルネットワーク(GNN)が普及するにつれて、予測の説明を計算するための堅牢なツールを構築することが最重要となる。 これらの説明は忠実であり、すなわち、GNNの推論過程の正確な描写である。 多くの異なる忠実度指標が存在しており、忠実度とは何か、その性質は何かという疑問を提起している。 まず、既存のメトリクスが交換可能でないこと、すなわち、あるメトリックに従って高い忠実性を達成する説明は、他のメトリクスによっては不誠実である可能性があることを示し、その説明の重要な性質に体系的に無関心であることを示し、これらの問題にどのように対処するかを提案します。 私たちは、驚くべきことに、誠実さを最適化することは、必ずしも合理的な設計目標であるとは限らないことを示そうとしています。 具体的には、インジェクティブな正規GNNアーキテクチャでは、完全に忠実な説明は完全に非形式的であることを示す。 自己説明可能なアーキテクチャやドメイン不変なアーキテクチャなど、モジュール型GNNでは状況が異なり、忠実さの最適化は情報提供性を損なうものではなく、また予期せぬアウト・オブ・ディストリビューションの一般化と結びついている。

As Graph Neural Networks (GNNs) become more pervasive, it becomes paramount to build robust tools for computing explanations of their predictions. A key desideratum is that these explanations are faithful, i.e., that they portray an accurate picture of the GNN's reasoning process. A number of different faithfulness metrics exist, begging the question of what faithfulness is exactly, and what its properties are. We begin by showing that existing metrics are not interchangeable -- i.e., explanations attaining high faithfulness according to one metric may be unfaithful according to others -- and can be systematically insensitive to important properties of the explanation, and suggest how to address these issues. We proceed to show that, surprisingly, optimizing for faithfulness is not always a sensible design goal. Specifically, we show that for injective regular GNN architectures, perfectly faithful explanations are completely uninformative. The situation is different for modular GNNs, such as self-explainable and domain-invariant architectures, where optimizing faithfulness does not compromise informativeness, and is also unexpectedly tied to out-of-distribution generalization.
翻訳日:2024-06-24 13:22:51 公開日:2024-06-21
# 高速かつ高精度な感性分析のための構文注入手法

A Syntax-Injected Approach for Faster and More Accurate Sentiment Analysis ( http://arxiv.org/abs/2406.15163v1 )

ライセンス: Link先を確認
Muhammad Imran, Olga Kellert, Carlos Gómez-Rodríguez, (参考訳) 感性分析(SA)は自然言語処理(NLP)の重要な側面であり、テキストコンテンツにおける主観的評価に対処する。 構文解析は、説明可能性を提供しながら、明確な構文情報により精度を向上させることができるため、SAでは有用であるが、解析アルゴリズムの遅さのため、実際は計算ボトルネックとなる傾向がある。 本稿では、SELSP(Sequence Labeling Syntactic Parser)を用いて、SAに構文を注入することでボトルネックに対処する。 依存関係解析をシーケンスラベリング問題として扱うことにより,構文ベースSAの高速化を実現した。 SELSPは3次極性分類タスクで訓練され評価され、Stanzaのような従来のパーサーやVADERのようなSAの浅い構文規則を使用するヒューリスティックアプローチと比較して、その性能と極性予測タスクの精度が向上した。 このスピードの向上と精度の向上により、SELSPは特に研究と産業の両方のSA実践者にアピールする。 さらに、SELSP上で複数の感情辞書をテストし、どの感情辞書が極性予測タスクの性能を改善するかを検証した。 さらに,SELSP と Transformer を用いたモデルとの比較を行った。 その結果, 極性判定変動を捉える辞書の方が, 極性判定変動を無視する辞書よりも優れた結果が得られることがわかった。 さらに,SELSP は極性予測タスクにおいて Transformer ベースのモデルよりもかなり高速であることを示す。

Sentiment Analysis (SA) is a crucial aspect of Natural Language Processing (NLP), addressing subjective assessments in textual content. Syntactic parsing is useful in SA because explicit syntactic information can improve accuracy while providing explainability, but it tends to be a computational bottleneck in practice due to the slowness of parsing algorithms. This paper addresses said bottleneck by using a SEquence Labeling Syntactic Parser (SELSP) to inject syntax into SA. By treating dependency parsing as a sequence labeling problem, we greatly enhance the speed of syntax-based SA. SELSP is trained and evaluated on a ternary polarity classification task, demonstrating its faster performance and better accuracy in polarity prediction tasks compared to conventional parsers like Stanza and to heuristic approaches that use shallow syntactic rules for SA like VADER. This increased speed and improved accuracy make SELSP particularly appealing to SA practitioners in both research and industry. In addition, we test several sentiment dictionaries on our SELSP to see which one improves the performance in polarity prediction tasks. Moreover, we compare the SELSP with Transformer-based models trained on a 5-label classification task. The results show that dictionaries that capture polarity judgment variation provide better results than dictionaries that ignore polarity judgment variation. Moreover, we show that SELSP is considerably faster than Transformer-based models in polarity prediction tasks.
翻訳日:2024-06-24 13:22:51 公開日:2024-06-21
# ローカルおよびグローバルな解釈可能性のためのProto-BagNets-by-design

This actually looks like that: Proto-BagNets for local and global interpretability-by-design ( http://arxiv.org/abs/2406.15168v1 )

ライセンス: Link先を確認
Kerol Djoumessi, Bubacarr Bah, Laura Kühlewein, Philipp Berens, Lisa Koch, (参考訳) 解釈可能性(Interpretability)は、医療診断を含む高度な応用において、機械学習モデルを使用するための重要な要件である。 ブラックボックスモデルの説明は主に、モデルの振る舞いを忠実に反映しないポストホックメソッドに依存している。 本稿では,局所的特徴モデルとプロトタイプ学習の利点を組み合わせた解釈可能なプロトタイプベースモデルであるProto-BagNetsを紹介する。 網膜CTデータを用いたDrusen検出のためのProto-BagNetの評価を行った。 Proto-BagNetは、最先端の解釈可能な非解釈可能なモデルと互換性があり、忠実で正確で臨床的に意味のある局所的およびグローバルな説明を提供する。 コードはhttps://github.com/kdjoumessi/Proto-BagNetsで公開されている。

Interpretability is a key requirement for the use of machine learning models in high-stakes applications, including medical diagnosis. Explaining black-box models mostly relies on post-hoc methods that do not faithfully reflect the model's behavior. As a remedy, prototype-based networks have been proposed, but their interpretability is limited as they have been shown to provide coarse, unreliable, and imprecise explanations.In this work, we introduce Proto-BagNets, an interpretable-by-design prototype-based model that combines the advantages of bag-of-local feature models and prototype learning to provide meaningful, coherent, and relevant prototypical parts needed for accurate and interpretable image classification tasks. We evaluated the Proto-BagNet for drusen detection on publicly available retinal OCT data. The Proto-BagNet performed comparably to the state-of-the-art interpretable and non-interpretable models while providing faithful, accurate, and clinically meaningful local and global explanations. The code is available at https://github.com/kdjoumessi/Proto-BagNets.
翻訳日:2024-06-24 13:22:51 公開日:2024-06-21
# 室温量子技術のための量子エミッタの近接場強結合と絡み合い

Near-field Strong Coupling and Entanglement of Quantum Emitters for Room-temperature Quantum Technologies ( http://arxiv.org/abs/2406.15171v1 )

ライセンス: Link先を確認
Daniel D. A. Clarke, Ortwin Hess, (参考訳) 近年、量子ナノフォトニクスはナノテクノロジーの豊富なネクサスにフォトニック量子情報処理を導入し、物理的コンパクト性、エネルギー効率、動作速度、温度堅牢性、スケーラビリティの観点から、現在の技術的限界を超えて量子技術の進歩を目覚ましい見込みを与えている。 この観点からは、ナノプラズマ空洞の量子電磁力学がナノスケールの空間的および超高速の時間的状態まで量子技術を駆動し、それを周囲の温度まで上昇させるという、特に説得力のある可能性を明らかにする最近の研究をいくつか取り上げる。 我々の視点は、量子プラズモンバイオセンシングの革新的な提案、超高速単一光子放出の推進、強いカップリング体制における近接場多粒子の絡み合いの実現、産業レベルのデバイスの使用に重点を置いている。 我々は,超高速で室温の量子ナノテクノロジーにおいて,プラズモニックデバイスの特徴と機能がどのように現代の研究指令を形作っているかを強調した展望で結論付けた。

In recent years, quantum nanophotonics has forged a rich nexus of nanotechnology with photonic quantum information processing, offering remarkable prospects for advancing quantum technologies beyond their current technical limits in terms of physical compactness, energy efficiency, operation speed, temperature robustness and scalability. In this perspective, we highlight a number of recent studies that reveal the especially compelling potential of nanoplasmonic cavity quantum electrodynamics for driving quantum technologies down to nanoscale spatial and ultrafast temporal regimes, whilst elevating them to ambient temperatures. Our perspective encompasses innovative proposals for quantum plasmonic biosensing, driving ultrafast single-photon emission and achieving near-field multipartite entanglement in the strong coupling regime, with a notable emphasis on the use of industry-grade devices. We conclude with an outlook emphasizing how the bespoke characteristics and functionalities of plasmonic devices are shaping contemporary research directives in ultrafast and room-temperature quantum nanotechnologies.
翻訳日:2024-06-24 13:22:51 公開日:2024-06-21
# プログレッシブアライメントとマルチパースペクティブロスに基づく長期新型コロナウイルス解析のためのマルチモーダルデフォルマブルイメージレジストレーション

Multimodal Deformable Image Registration for Long-COVID Analysis Based on Progressive Alignment and Multi-perspective Loss ( http://arxiv.org/abs/2406.15172v1 )

ライセンス: Link先を確認
Jiahua Li, James T. Grist, Fergus V. Gleeson, Bartłomiej W. Papież, (参考訳) Long COVIDは、持続的な症状、特に肺障害が特徴であり、正確な診断のために高度な画像診断を必要とする。 超分極Xenon-129 MRI(XeMRI)は、肺換気、灌流、およびガス移動を可視化することで、有望な道を提供する。 XeMRIの機能データとCT(Computed Tomography)の構造データを統合することは、長い新型コロナウイルスの包括的解析と効果的な治療戦略に不可欠であり、補完的な画像モダリティと正確なデータアライメントを必要とする。 この目的のために、CT-MRIとXe-MRIの直接アライメントによって生じる重要な課題を考えると、CT-MRIの登録は必須の中間段階である。 そこで本研究では,長期肺CTとプロトン密度MRI(pMRI)データの整合性に優れた画像登録手法を提案する。 さらに,本手法では,新しいMPL(Multi-perspective Loss)機能を導入し,マルチモーダルタスクに適応させることで,モノモーダル登録のための最先端のディープラーニング手法を強化する。 登録結果はDice係数スコア0.913を達成し、最先端のマルチモーダル画像登録技術よりも大幅に改善されたことを示す。 XeMRIとpMRIの画像は同じセッションで取得され、概ね一致させることができるので、XeMRIとCTのその後の登録が促進され、長期にわたる新型コロナウイルス治療のための臨床的意思決定が促進される可能性がある。

Long COVID is characterized by persistent symptoms, particularly pulmonary impairment, which necessitates advanced imaging for accurate diagnosis. Hyperpolarised Xenon-129 MRI (XeMRI) offers a promising avenue by visualising lung ventilation, perfusion, as well as gas transfer. Integrating functional data from XeMRI with structural data from Computed Tomography (CT) is crucial for comprehensive analysis and effective treatment strategies in long COVID, requiring precise data alignment from those complementary imaging modalities. To this end, CT-MRI registration is an essential intermediate step, given the significant challenges posed by the direct alignment of CT and Xe-MRI. Therefore, we proposed an end-to-end multimodal deformable image registration method that achieves superior performance for aligning long-COVID lung CT and proton density MRI (pMRI) data. Moreover, our method incorporates a novel Multi-perspective Loss (MPL) function, enhancing state-of-the-art deep learning methods for monomodal registration by making them adaptable for multimodal tasks. The registration results achieve a Dice coefficient score of 0.913, indicating a substantial improvement over the state-of-the-art multimodal image registration techniques. Since the XeMRI and pMRI images are acquired in the same sessions and can be roughly aligned, our results facilitate subsequent registration between XeMRI and CT, thereby potentially enhancing clinical decision-making for long COVID management.
翻訳日:2024-06-24 13:22:51 公開日:2024-06-21
# 大規模言語学(LLM)における研究課題の評価

Évaluation des capacités de réponse de larges modèles de langage (LLM) pour des questions d'historiens ( http://arxiv.org/abs/2406.15173v1 )

ライセンス: Link先を確認
Mathieu Chartier, Nabil Dakkoune, Guillaume Bourgeois, Stéphane Jean, (参考訳) ChatGPTやBardのような大規模言語モデル(LLM)は、情報検索に革命をもたらし、トピックに関係なく、記録時間でカスタムレスポンスを生成する能力で聴衆を魅了した。 本稿では,フランス語の歴史的事実に対する信頼性,包括的,かつ十分に関連する応答を生み出す上で,様々なLLMの能力を評価する。 そこで我々は,様々な種類,テーマ,難易度など,歴史にまつわる多くの質問をまとめたテストベッドを構築した。 選択した10個のLSMからの反応を評価した結果, 物質および形態の相違点が多数見出された。 全体としては精度が不十分なだけでなく、フランス語の不均一な扱いや、LLMによる応答の冗長性や不整合に関する問題も強調する。

Large Language Models (LLMs) like ChatGPT or Bard have revolutionized information retrieval and captivated the audience with their ability to generate custom responses in record time, regardless of the topic. In this article, we assess the capabilities of various LLMs in producing reliable, comprehensive, and sufficiently relevant responses about historical facts in French. To achieve this, we constructed a testbed comprising numerous history-related questions of varying types, themes, and levels of difficulty. Our evaluation of responses from ten selected LLMs reveals numerous shortcomings in both substance and form. Beyond an overall insufficient accuracy rate, we highlight uneven treatment of the French language, as well as issues related to verbosity and inconsistency in the responses provided by LLMs.
翻訳日:2024-06-24 13:22:51 公開日:2024-06-21
# 適応的コントラスト三重項損失による複数言語における慣用的表現の強化

Enhancing Idiomatic Representation in Multiple Languages via an Adaptive Contrastive Triplet Loss ( http://arxiv.org/abs/2406.15175v1 )

ライセンス: Link先を確認
Wei He, Marco Idiart, Carolina Scarton, Aline Villavicencio, (参考訳) 慣用的あるいは非構成的言語を正確にモデル化することは、自然言語処理(NLP)における長年にわたる課題である。 これは、これらの表現が、構成語だけでなく、関連するデータリソースの不足や、機械翻訳や単純化といった下流タスクのパフォーマンスへの影響からもたらされるものである。 本稿では, 適応的コントラスト学習と再サンプリングにより, 単語の非対称的な寄与を取り入れた三重項損失を効果的にモデル化する手法を提案する。 提案手法はSemEvalの課題に基づいて評価され,多くの指標において従来の手法よりも優れていた。

Accurately modeling idiomatic or non-compositional language has been a longstanding challenge in Natural Language Processing (NLP). This is partly because these expressions do not derive their meanings solely from their constituent words, but also due to the scarcity of relevant data resources, and their impact on the performance of downstream tasks such as machine translation and simplification. In this paper we propose an approach to model idiomaticity effectively using a triplet loss that incorporates the asymmetric contribution of components words to an idiomatic meaning for training language models by using adaptive contrastive learning and resampling miners to build an idiomatic-aware learning objective. Our proposed method is evaluated on a SemEval challenge and outperforms previous alternatives significantly in many metrics.
翻訳日:2024-06-24 13:22:51 公開日:2024-06-21
# 大規模言語モデルのためのハイブリッドアライメントトレーニング

Hybrid Alignment Training for Large Language Models ( http://arxiv.org/abs/2406.15178v1 )

ライセンス: Link先を確認
Chenglong Wang, Hang Zhou, Kaiyan Chang, Bei Li, Yongyu Mu, Tong Xiao, Tongran Liu, Jingbo Zhu, (参考訳) 調整トレーニングは、人間の意図や好みに合わせて大きな言語モデル(LLM)を可能にするために不可欠である。 典型的には、命令追従アライメントと人間の参照アライメントという、異なる目的を持つ2つのステージに基づいて実行される。 しかし、LLMとこれらの目的を連続的に整列させることは、固有の問題に悩まされる: 目的が矛盾する可能性があり、LLMは命令と人間の好みを同時に整列することを保証できない。 これに対応するために, 交互アライメントと変形弾性重み強化法に基づくハイブリッドアライメントトレーニング(Hbat)手法を提案する。 基本的な考え方は、アライメントトレーニング中に異なる目的を交互に行うことで、2つのアライメントタスク間の協調性を向上することであり、我々は、要約タスクと対話タスクについてHbatを用いて実験する。 実験結果から,提案した \textsc{Hbat} はすべてのベースラインを大幅に上回ることを示す。 特にHbatは、近似ポリシー最適化と直接選好最適化の両方を使用する場合、従来の2段階アライメントトレーニングよりも一貫したパフォーマンス向上が得られる。

Alignment training is crucial for enabling large language models (LLMs) to cater to human intentions and preferences. It is typically performed based on two stages with different objectives: instruction-following alignment and human-preference alignment. However, aligning LLMs with these objectives in sequence suffers from an inherent problem: the objectives may conflict, and the LLMs cannot guarantee to simultaneously align with the instructions and human preferences well. To response to these, in this work, we propose a Hybrid Alignment Training (Hbat) approach, based on alternating alignment and modified elastic weight consolidation methods. The basic idea is to alternate between different objectives during alignment training, so that better collaboration can be achieved between the two alignment tasks.We experiment with Hbat on summarization and dialogue tasks. Experimental results show that the proposed \textsc{Hbat} can significantly outperform all baselines. Notably, Hbat yields consistent performance gains over the traditional two-stage alignment training when using both proximal policy optimization and direct preference optimization.
翻訳日:2024-06-24 13:22:51 公開日:2024-06-21
# キュービットチャネル上のチャネル計測における確率の上界とその応用

Upper bounds on probabilities in channel measurements on qubit channels and their applications ( http://arxiv.org/abs/2406.15179v1 )

ライセンス: Link先を確認
Taihei Kimoto, Takayuki Miyadera, (参考訳) 量子情報処理の基本的な課題の1つは、量子チャネルを測定することである。 量子状態の測定と同様に、量子チャネルの測定は本質的に確率的であり、量子論は結果を得る確率を計算する公式を提供する。 量子チャネルの測定結果に関連する各確率上の上限は、基本的かつ重要な量である。 本研究では,量子チャネルの特定のクラスに対するチャネル測定において,確率の上限を導出した。 また、上界に対する2つの応用を示す。 1つはアルベルトとウルマンが考える可換性の概念であり、もう1つは量子チャネルの検出問題である。 これらの応用は得られた上界の重要性を示す。

One of the fundamental tasks in quantum information processing is to measure the quantum channels. Similar to measurements of quantum states, measurements of quantum channels are inherently stochastic, that is, quantum theory provides a formula to calculate the probability of obtaining an outcome. The upper bound on each probability associated with the measurement outcome of the quantum channels is a fundamental and important quantity. In this study, we derived the upper bounds of the probability in a channel measurement for specific classes of quantum channels. We also present two applications for the upper bounds. The first is the notion of convertibility considered by Alberti and Uhlmann and the second is the detection problem of a quantum channel. These applications demonstrate the significance of the obtained upper bounds.
翻訳日:2024-06-24 13:22:51 公開日:2024-06-21
# DiffExplainer:ブラックボックスのモデルを発表

DiffExplainer: Unveiling Black Box Models Via Counterfactual Generation ( http://arxiv.org/abs/2406.15182v1 )

ライセンス: Link先を確認
Yingying Fang, Shuang Wu, Zihao Jin, Caiwen Xu, Shiyi Wang, Simon Walsh, Guang Yang, (参考訳) 医療画像の分野では、特に早期疾患の検出や予後に関連するタスクにおいて、AIモデル予測の背後にある理由を理解することは、その信頼性を評価するのに不可欠である。 医用画像分類における決定的特徴を識別する従来の説明法は、特に識別的特徴が微妙であるか、即時に明らかでない場合に問題となる。 この制限に対処するために,ブラックボックスモデルに接続した場合に異なる決定を誘導する反ファクト画像を生成するエージェントモデルを提案する。 このエージェントモデルを用いることで、ブラックモデルの最終予測に影響を与える影響のあるイメージパターンを明らかにすることができる。 提案手法により,深いブラックボックスの決定に影響を及ぼす特徴を効率的に同定する。 我々は,医学的予後タスクの厳密な領域におけるアプローチを検証し,既存の解釈法と比較して,医用画像分類における深層学習モデルの信頼性を高める効果と可能性を示した。 コードはhttps://github.com/ayanglab/DiffExplainer.comで公開される。

In the field of medical imaging, particularly in tasks related to early disease detection and prognosis, understanding the reasoning behind AI model predictions is imperative for assessing their reliability. Conventional explanation methods encounter challenges in identifying decisive features in medical image classifications, especially when discriminative features are subtle or not immediately evident. To address this limitation, we propose an agent model capable of generating counterfactual images that prompt different decisions when plugged into a black box model. By employing this agent model, we can uncover influential image patterns that impact the black model's final predictions. Through our methodology, we efficiently identify features that influence decisions of the deep black box. We validated our approach in the rigorous domain of medical prognosis tasks, showcasing its efficacy and potential to enhance the reliability of deep learning models in medical image classification compared to existing interpretation methods. The code will be publicly available at https://github.com/ayanglab/DiffExplainer.
翻訳日:2024-06-24 13:22:51 公開日:2024-06-21
# UDA: 実世界の文書分析における検索拡張生成のためのベンチマークスイート

UDA: A Benchmark Suite for Retrieval Augmented Generation in Real-world Document Analysis ( http://arxiv.org/abs/2406.15187v1 )

ライセンス: Link先を確認
Yulong Hui, Yao Lu, Huanchen Zhang, (参考訳) Retrieval-Augmented Generation (RAG)の使用は、外部データとのコラボレーションにおいてLarge Language Models (LLM)を改善したが、現実のシナリオでは大きな課題がある。 学術文献や財務質問応答などの分野では、データはHTMLやPDF形式の生のテキストや表によく見られるが、長大で非構造化である。 本稿では,2,965の現実世界の文書と29,590のエキスパートによるQ&AペアからなるベンチマークスイートであるUnstructured Document Analysis (UDA)を紹介する。 文書分析のためのLLMおよびRAGベースの一般的なソリューションを再検討し、複数の文書ドメインと多様なクエリタイプにまたがる設計選択と回答品質を評価した。 我々の評価は興味深い結果をもたらし、データ解析と検索の重要性を強調している。 当社のベンチマークが、現実の文書分析アプリケーションに対して、より軽量で優れた機能を提供できることを願っています。 ベンチマークスイートとコードはhttps://github.com/qinchuanhui/UDA-Benchmarkで見ることができる。

The use of Retrieval-Augmented Generation (RAG) has improved Large Language Models (LLMs) in collaborating with external data, yet significant challenges exist in real-world scenarios. In areas such as academic literature and finance question answering, data are often found in raw text and tables in HTML or PDF formats, which can be lengthy and highly unstructured. In this paper, we introduce a benchmark suite, namely Unstructured Document Analysis (UDA), that involves 2,965 real-world documents and 29,590 expert-annotated Q&A pairs. We revisit popular LLM- and RAG-based solutions for document analysis and evaluate the design choices and answer qualities across multiple document domains and diverse query types. Our evaluation yields interesting findings and highlights the importance of data parsing and retrieval. We hope our benchmark can shed light and better serve real-world document analysis applications. The benchmark suite and code can be found at https://github.com/qinchuanhui/UDA-Benchmark.
翻訳日:2024-06-24 13:22:51 公開日:2024-06-21
# 医学応用における因果学習

Causal Learning in Biomedical Applications ( http://arxiv.org/abs/2406.15189v1 )

ライセンス: Link先を確認
Petr Ryšavý, Xiaoyu He, Jakub Mareček, (参考訳) 因果学習における手法のベンチマークを示す。 具体的には、時系列データからリッチな因果モデルのトレーニングを検討し、クレーブサイクルと代謝モデルをより広範囲に利用することを提案する。

We present a benchmark for methods in causal learning. Specifically, we consider training a rich class of causal models from time-series data, and we suggest the use of the Krebs cycle and models of metabolism more broadly.
翻訳日:2024-06-24 13:22:51 公開日:2024-06-21
# 復号時間アライメントのための進化的ヒューリスティックスを用いたリワードステアリング

Reward Steering with Evolutionary Heuristics for Decoding-time Alignment ( http://arxiv.org/abs/2406.15193v1 )

ライセンス: Link先を確認
Chia-Yu Hung, Navonil Majumder, Ambuj Mehrish, Soujanya Poria, (参考訳) LLMの広範な適用性と全義性の向上は、LLMの反応をユーザやステークホルダーの好みに合わせる必要性を示唆している。 良好なアライメントを実現するために、微調整LDMパラメータを最適化する多くの最適化手法が提案されている。 しかし、そのようなパラメータチューニングは多くのタスクにおけるモデル性能に干渉することが知られている。 さらに、このような状況では、ユーザの好みの変化に追随するのは難しい。 報酬モデルガイダンスによる復号時間アライメントは、推論時間の増加を犠牲にしてこれらの問題を解決する。 しかし、そのような手法のほとんどは、探索と報酬の搾取の間に適切なバランスを取らない(多くの場合、これら2つの側面が混ざった定式化のために)。 この2つの側面を分離し、進化的な方法で実装する: 探索は、変更された命令から復号することで実施され、搾取は、不利益な世代を、よく回復した世代に周期的に置き換えるものとして表現される。 実証的な証拠は、この戦略が広く受け入れられている2つのアライメントベンチマークAlpacaEval 2 と MT-Bench において、多くの選好最適化とデコードタイムアライメントアプローチより優れていることを示している。 私たちの実装は、https://darwin-alignment.github.io.comで利用可能です。

The widespread applicability and increasing omnipresence of LLMs have instigated a need to align LLM responses to user and stakeholder preferences. Many preference optimization approaches have been proposed that fine-tune LLM parameters to achieve good alignment. However, such parameter tuning is known to interfere with model performance on many tasks. Moreover, keeping up with shifting user preferences is tricky in such a situation. Decoding-time alignment with reward model guidance solves these issues at the cost of increased inference time. However, most of such methods fail to strike the right balance between exploration and exploitation of reward -- often due to the conflated formulation of these two aspects - to give well-aligned responses. To remedy this we decouple these two aspects and implement them in an evolutionary fashion: exploration is enforced by decoding from mutated instructions and exploitation is represented as the periodic replacement of poorly-rewarded generations with well-rewarded ones. Empirical evidences indicate that this strategy outperforms many preference optimization and decode-time alignment approaches on two widely accepted alignment benchmarks AlpacaEval 2 and MT-Bench. Our implementation will be available at: https://darwin-alignment.github.io.
翻訳日:2024-06-24 13:13:07 公開日:2024-06-21
# ADHD治療の強化におけるChatGPTとクロードを用いたロボットアシスタントの有効性を探る:治療パラダイムの革新

Exploring the Efficacy of Robotic Assistants with ChatGPT and Claude in Enhancing ADHD Therapy: Innovating Treatment Paradigms ( http://arxiv.org/abs/2406.15198v1 )

ライセンス: Link先を確認
Santiago Berrezueta-Guzman, Mohanad Kandil, María-Luisa Martín-Ruiz, Iván Pau-de-la-Cruz, Stephan Krusche, (参考訳) 注意欠陥多動性障害(ADHD)は、意図的・過動性・衝動性を特徴とする神経発達障害であり、個人の日常生活機能や生活の質に大きな影響を及ぼす。 職業療法は、日常生活に必要なスキルの発達を促進し、学校、家庭、社会状況に完全に参加する個人の能力を高めることにより、ADHDの管理において重要な役割を担っている。 近年の研究では、ChatGPT や Socially Assistive Robots (SAR) のような大規模言語モデル (LLM) を統合し、心理的治療を改善する可能性を強調している。 この統合は、精神保健療法における既存の限界を克服し、適切な支援を提供し、このセンシティブなグループのユニークなニーズに適応することを目的としている。 しかし、ADHD治療におけるこれらの先進技術の併用を探求する研究において、大きなギャップが残っており、新しい治療アプローチの機会が示唆されている。 そこで我々は,ChatGPT-4 TurboとClaude-3 Opusという2つの先進言語モデルをロボットアシスタントに統合し,ロボット支援インタラクションにおける各モデルの性能について検討した。 さらに, 臨床評価モデルと比較し, その効果を評価するために, 模擬治療シナリオでそれらの性能を比較した。 本研究の結果から,ChatGPT-4 Turboは性能と応答性に優れており,時間依存性の応用に適していることがわかった。 一方、クロード3オプスは、安全で係わる相互作用を優先し、理解、一貫性、倫理的考察の強さを示した。 どちらのモデルも革新性と適応性を示したが、ChatGPT-4 Turboは統合の容易さとより広範な言語サポートを提供した。 それらの選択はADHD療法の特定の要求に左右される。

Attention Deficit Hyperactivity Disorder (ADHD) is a neurodevelopmental condition characterized by inattention, hyperactivity, and impulsivity, which can significantly impact an individual's daily functioning and quality of life. Occupational therapy plays a crucial role in managing ADHD by fostering the development of skills needed for daily living and enhancing an individual's ability to participate fully in school, home, and social situations. Recent studies highlight the potential of integrating Large Language Models (LLMs) like ChatGPT and Socially Assistive Robots (SAR) to improve psychological treatments. This integration aims to overcome existing limitations in mental health therapy by providing tailored support and adapting to the unique needs of this sensitive group. However, there remains a significant gap in research exploring the combined use of these advanced technologies in ADHD therapy, suggesting an opportunity for novel therapeutic approaches. Thus, we integrated two advanced language models, ChatGPT-4 Turbo and Claude-3 Opus, into a robotic assistant to explore how well each model performs in robot-assisted interactions. Additionally, we have compared their performance in a simulated therapy scenario to gauge their effectiveness against a clinically validated customized model. The results of this study show that ChatGPT-4 Turbo excelled in performance and responsiveness, making it suitable for time-sensitive applications. Claude-3 Opus, on the other hand, showed strengths in understanding, coherence, and ethical considerations, prioritizing safe and engaging interactions. Both models demonstrated innovation and adaptability, but ChatGPT-4 Turbo offered greater ease of integration and broader language support. The selection between them hinges on the specific demands of ADHD therapy.
翻訳日:2024-06-24 13:13:07 公開日:2024-06-21
# ランドスケープはポートレートよりも安全か? デジタル画像の方向性とセキュリティの影響

Landscape More Secure Than Portrait? Zooming Into the Directionality of Digital Images With Security Implications ( http://arxiv.org/abs/2406.15206v1 )

ライセンス: Link先を確認
Benedikt Lorch, Rainer Böhme, (参考訳) ソースイメージがキャプチャされる方向は、ダウンストリームアプリケーションのセキュリティに影響を及ぼす可能性がある。 この理由の1つは、メディアセキュリティにおける多くの最先端の手法が、画像統計が水平方向と垂直方向に類似していると仮定し、係数をマージすることで特徴量(またはトレーニング可能な重量)を減らすことができる。 この人工対称性は、自然画像や共通処理操作の重要な特性を抑え、性能を損なう傾向があることを示す。 また、非適応的な方向性が学習に基づく手法を1つの方向に過度に適合させるという、逆の問題も観察する。 敵があまり一般的でない向きで入力を選択する場合、これらは操作に弱い。 本稿では,典型的な獲得パイプラインのいくつかの段階における方向性の要因を特定し,その効果を計測し,その方向性を適切に考慮し,現状の手法の性能をいかに改善できるかを3つのセキュリティアプリケーション(ステガナリシス,法医学的ソース識別,合成画像の検出)に対して示す。

The orientation in which a source image is captured can affect the resulting security in downstream applications. One reason for this is that many state-of-the-art methods in media security assume that image statistics are similar in the horizontal and vertical directions, allowing them to reduce the number of features (or trainable weights) by merging coefficients. We show that this artificial symmetrization tends to suppress important properties of natural images and common processing operations, causing a loss of performance. We also observe the opposite problem, where unaddressed directionality causes learning-based methods to overfit to a single orientation. These are vulnerable to manipulation if an adversary chooses inputs with the less common orientation. This paper takes a comprehensive approach, identifies and systematizes causes of directionality at several stages of a typical acquisition pipeline, measures their effect, and demonstrates for three selected security applications (steganalysis, forensic source identification, and the detection of synthetic images) how the performance of state-of-the-art methods can be improved by properly accounting for directionality.
翻訳日:2024-06-24 13:13:07 公開日:2024-06-21
# GPT-4ターボはブルームの改訂分類に基づく教科書から学校レベルの質問を生成するのにどの程度有効か?

How Effective is GPT-4 Turbo in Generating School-Level Questions from Textbooks Based on Bloom's Revised Taxonomy? ( http://arxiv.org/abs/2406.15211v1 )

ライセンス: Link先を確認
Subhankar Maity, Aniket Deroy, Sudeshna Sarkar, (参考訳) ゼロショットモードにおけるNCERT教科書からの教育質問生成におけるGPT-4 Turboの有効性を評価する。 本研究は,高次思考能力を必要とする質問を,特にブルームの改訂分類学に基づく「理解」レベルで生成する能力について述べる。 GPT-4Turboが生成した質問と人間によって評価された質問との間には、複雑性という点で顕著な一貫性があるが、時折違いがある。 また,人間と機械が質問品質を評価する方法にも変化が見られ,その傾向はブルームの改訂分類レベルと逆相関している。 これらの結果から, GPT-4 Turboは教育的質問生成に有望なツールであるが, その有効性は認知レベルによって異なることが示唆され, 教育基準を完全に満たすためのさらなる改善の必要性が示唆された。

We evaluate the effectiveness of GPT-4 Turbo in generating educational questions from NCERT textbooks in zero-shot mode. Our study highlights GPT-4 Turbo's ability to generate questions that require higher-order thinking skills, especially at the "understanding" level according to Bloom's Revised Taxonomy. While we find a notable consistency between questions generated by GPT-4 Turbo and those assessed by humans in terms of complexity, there are occasional differences. Our evaluation also uncovers variations in how humans and machines evaluate question quality, with a trend inversely related to Bloom's Revised Taxonomy levels. These findings suggest that while GPT-4 Turbo is a promising tool for educational question generation, its efficacy varies across different cognitive levels, indicating a need for further refinement to fully meet educational standards.
翻訳日:2024-06-24 13:13:07 公開日:2024-06-21
# 複合トリガーバックドアによるテキスト・ツー・イメージモデルへのバイアス注入

Injecting Bias in Text-To-Image Models via Composite-Trigger Backdoors ( http://arxiv.org/abs/2406.15213v1 )

ライセンス: Link先を確認
Ali Naseh, Jaechul Roh, Eugene Bagdasaryan, Amir Houmansadr, (参考訳) 安定拡散、Midjourney、DALL-E 3といった大規模テキスト条件画像生成モデルの最近の進歩は、画像生成の分野に革命をもたらし、ユーザーはテキストプロンプトから高品質でリアルな画像を作成することができるようになった。 これらの発展は、芸術的創造性と視覚的コミュニケーションを増強する一方で、敵が生成した画像に偏見を誘導する可能性、例えば、社会に影響を与えプロパガンダを広める可能性など、未発見の攻撃機会も提示している。 本稿では,少数の悪意のあるデータサンプルでそのようなモデルにバックドアを施した相手による,そのようなバイアス注入の脅威の可能性を示し,バックドアモデル入力プロンプトに特別なトリガーが存在する場合に,実装されたバックドアが起動されることを示す。 一方、モデルの実用性はトリガーがない状態で保持され、攻撃を極めて検出不能にする。 本稿では,このような攻撃に対して複合(複数単語)トリガーを用いた毒素試料の効率的な生成を可能にする新しい枠組みを提案する。 100万以上の画像と何百もの微調整されたモデルを用いた大規模な実験は、提示されたバックドア攻撃の可能性を示している。 これらのバイアスが従来の検出メカニズムを回避し、運用上の制約の中でバイアスの存在を証明する上での課題を明らかにする。 当社のコスト分析では、テキスト・ツー・画像生成モデルにおいて、このような脆弱性に対する堅牢な防御戦略の必要性が強調され、このような攻撃の実行に対する財務上の障壁が低いことが確認されている。

Recent advances in large text-conditional image generative models such as Stable Diffusion, Midjourney, and DALL-E 3 have revolutionized the field of image generation, allowing users to produce high-quality, realistic images from textual prompts. While these developments have enhanced artistic creation and visual communication, they also present an underexplored attack opportunity: the possibility of inducing biases by an adversary into the generated images for malicious intentions, e.g., to influence society and spread propaganda. In this paper, we demonstrate the possibility of such a bias injection threat by an adversary who backdoors such models with a small number of malicious data samples; the implemented backdoor is activated when special triggers exist in the input prompt of the backdoored models. On the other hand, the model's utility is preserved in the absence of the triggers, making the attack highly undetectable. We present a novel framework that enables efficient generation of poisoning samples with composite (multi-word) triggers for such an attack. Our extensive experiments using over 1 million generated images and against hundreds of fine-tuned models demonstrate the feasibility of the presented backdoor attack. We illustrate how these biases can bypass conventional detection mechanisms, highlighting the challenges in proving the existence of biases within operational constraints. Our cost analysis confirms the low financial barrier to executing such attacks, underscoring the need for robust defensive strategies against such vulnerabilities in text-to-image generation models.
翻訳日:2024-06-24 13:13:07 公開日:2024-06-21
# 会話からの対話ポリシーの教師なし抽出

Unsupervised Extraction of Dialogue Policies from Conversations ( http://arxiv.org/abs/2406.15214v1 )

ライセンス: Link先を確認
Makesh Narsimhan Sreedhar, Traian Rebedea, Christopher Parisien, (参考訳) 対話ポリシーは、タスク指向対話システムの開発において重要な役割を担っているが、その開発と保守は困難であり、典型的には対話モデリングの専門家による相当な努力を必要とする。 多くの状況において、現在進行中のタスクに対して大量の会話データが利用可能であるが、このデータから対話ポリシーを抽出できる効果的なソリューションが欠如している。 本稿では,大言語モデル(LLM)がデータセットから対話ポリシーを抽出し,会話を標準形式からなる統一中間表現に変換することで,このギャップに対処する。 そこで我々は,制御可能かつ解釈可能なグラフベースの手法を用いて対話ポリシーを生成する新しい手法を提案する。 対話間の標準形式をフローネットワークに組み合わせることで、グラフトラバースアルゴリズムの実行が対話フローの抽出に有効であることが分かる。 これらの流れはLLMによって抽出された流れよりも基礎となる相互作用のより良い表現である。 本技術は,会話設計者に対して,対話ポリシーの策定プロセスを改善するための生産性向上ツールを提供することに重点を置いている。

Dialogue policies play a crucial role in developing task-oriented dialogue systems, yet their development and maintenance are challenging and typically require substantial effort from experts in dialogue modeling. While in many situations, large amounts of conversational data are available for the task at hand, people lack an effective solution able to extract dialogue policies from this data. In this paper, we address this gap by first illustrating how Large Language Models (LLMs) can be instrumental in extracting dialogue policies from datasets, through the conversion of conversations into a unified intermediate representation consisting of canonical forms. We then propose a novel method for generating dialogue policies utilizing a controllable and interpretable graph-based methodology. By combining canonical forms across conversations into a flow network, we find that running graph traversal algorithms helps in extracting dialogue flows. These flows are a better representation of the underlying interactions than flows extracted by prompting LLMs. Our technique focuses on giving conversation designers greater control, offering a productivity tool to improve the process of developing dialogue policies.
翻訳日:2024-06-24 13:13:07 公開日:2024-06-21
# 音と怒りと無意味感 : データ漏洩開示法の影響

Sound and Fury, Signifying Nothing? Impact of Data Breach Disclosure Laws ( http://arxiv.org/abs/2406.15215v1 )

ライセンス: Link先を確認
Muhammad Zia Hydari, Yangfan Liang, Rahul Telang, (参考訳) データ漏洩開示(DBD)は、その後の収益損失を恐れて企業のサイバーセキュリティプラクティスを改善すると推定されている。 この収益損失は、顧客が不当な会社から購入を拒否することで罰せられ、DBD法が強硬な行為を除外する主要なメカニズムであると考えられている場合に発生する。 しかし、米国小売店での大規模データ流出の分析では、売上減少の証拠は示されていない。 流出開示前後の20週間にわたって302店舗の収益データに差分設計を適用した結果、全店舗にまたがる減少の証拠や、前回の収益規模によるサブサンプリング(前回の収益規模の不均一性を考慮すると)の証拠は見つからなかった。 したがって、我々は、DBD法の前提となる主要なメカニズムを仮定し、これらの法則は非効率であり、単に「音と怒り」を多く含み、何の意味も持たない」と仮定する。

Data breach disclosure (DBD) is presumed to improve firms' cybersecurity practices by inducing fear of subsequent revenue loss. This revenue loss, the theory goes, will occur if customers punish an offending firm by refusing to buy from them and is assumed to be the primary mechanism through which DBD laws will change firm behavior ex ante. However, our analysis of a large-scale data breach at a US retailer reveals no evidence of a decline in revenue. Using a difference-in-difference design on revenue data from 302 stores over a 20-week period around the breach disclosure, we found no evidence of a decline either across all stores or when sub-sampling by prior revenue size (to account for any heterogeneity in prior revenue size). Therefore, we posit that the presumed primary mechanism of DBD laws, and thus these laws may be ineffective and merely a lot of "sound and fury, signifying nothing."
翻訳日:2024-06-24 13:13:07 公開日:2024-06-21
# セネガルにおける携帯電話データから得られた高粒度一時移動データセット

A Highly Granular Temporary Migration Dataset Derived From Mobile Phone Data in Senegal ( http://arxiv.org/abs/2406.15216v1 )

ライセンス: Link先を確認
Paul Blanchard, Stefania Rubrichi, (参考訳) 開発途上国の様々な社会・経済・環境問題に対処するためには、一時的な移住を理解することが不可欠である。 しかし、伝統的な調査ではそのような動きを効果的に捉えられず、特にサハラ以南のアフリカでは信頼性の高いデータが不足している。 本稿では,セネガルにおける一時的な移動を,前例のない時空間的詳細で捉えるために携帯電話データを活用する,詳細なオープンアクセスデータセットを紹介する。 このデータセットは、全国151カ所と、2013年から2015年までの半月ごとに、20日から180日間の移動に焦点を当てたマイグレーションフローと在庫の指標を提供する。 本稿では,デジタルトレースにおける一時的なマイグレーションイベントを検出するアルゴリズム手法を含むだけでなく,個々のトラジェクトリをコヒーレントなマイグレーション統計に集約する上でも重要な課題に対処する手法について述べる。 これらの方法論の進歩は、データセットの本質的な価値だけでなく、他の文脈における他のデジタルトレースデータセットから体系的なマイグレーション統計を生成するためにも適応できる。

Understanding temporary migration is crucial for addressing various socio-economic and environmental challenges in developing countries. However, traditional surveys often fail to capture such movements effectively, leading to a scarcity of reliable data, particularly in sub-Saharan Africa. This article introduces a detailed and open-access dataset that leverages mobile phone data to capture temporary migration in Senegal with unprecedented spatio-temporal detail. The dataset provides measures of migration flows and stock across 151 locations across the country and for each half-month period from 2013 to 2015, with a specific focus on movements lasting between 20 and 180 days. The article presents a suite of methodological tools that not only include algorithmic methods for the detection of temporary migration events in digital traces, but also addresses key challenges in aggregating individual trajectories into coherent migration statistics. These methodological advancements are not only pivotal for the intrinsic value of the dataset but also adaptable for generating systematic migration statistics from other digital trace datasets in other contexts.
翻訳日:2024-06-24 13:13:07 公開日:2024-06-21
# 密集市街地における接続性を確保した深度UAV経路計画

Deep UAV Path Planning with Assured Connectivity in Dense Urban Setting ( http://arxiv.org/abs/2406.15225v1 )

ライセンス: Link先を確認
Jiyong Oh, Syed M. Raza, Lusungu J. Mwasinga, Moonseong Kim, Hyunseung Choo, (参考訳) 5G接続を備えた無人アリエル車両(UAV)サービスは、多くのアプリケーションを持つ新興分野である。 オペレーターが制御するUAV飛行と手動の静的飛行構成は、UAVサービスのスケーラビリティを広く採用する上で大きな制限となる。 いくつかのサービスは、セルラーネットワークとの優れたUAV接続に依存し、それを維持することは、所定の飛行経路において困難である。 本稿では,接続性を確保したUAV経路計画のためのDRL(Deep Reinforcement Learning)フレームワークを提案することにより,これらの制約に対処する。 UAV飛行中、DUPACは、定義されたソースから目的地への最良のルートを、距離と信号品質の観点から決定する。 DUPACの実用性と性能は、Unityフレームワークを用いて実世界の都市シナリオをシミュレーションして評価する。 その結果、DUPACは、飛行を通して平均9%の接続品質を維持しながら、2%の増分しか持たないベース方式に類似した自律型UAV飛行経路を達成できることを確認した。

Unmanned Ariel Vehicle (UAV) services with 5G connectivity is an emerging field with numerous applications. Operator-controlled UAV flights and manual static flight configurations are major limitations for the wide adoption of scalability of UAV services. Several services depend on excellent UAV connectivity with a cellular network and maintaining it is challenging in predetermined flight paths. This paper addresses these limitations by proposing a Deep Reinforcement Learning (DRL) framework for UAV path planning with assured connectivity (DUPAC). During UAV flight, DUPAC determines the best route from a defined source to the destination in terms of distance and signal quality. The viability and performance of DUPAC are evaluated under simulated real-world urban scenarios using the Unity framework. The results confirm that DUPAC achieves an autonomous UAV flight path similar to base method with only 2% increment while maintaining an average 9% better connection quality throughout the flight.
翻訳日:2024-06-24 13:13:07 公開日:2024-06-21
# ワンショットミニエントロピー計算と量子暗号への応用

One-Shot Min-Entropy Calculation And Its Application To Quantum Cryptography ( http://arxiv.org/abs/2406.15226v1 )

ライセンス: Link先を確認
Rong Wang, H. F. Chau, (参考訳) 量子シャノン理論では、ノイズのある物理系の容量を特徴づけるために様々な種類の量子エントロピーが用いられる。 特に量子暗号の分野では、敵が得た情報のバインドに利用できるため、ミニエントロピーとそのスムーズなバージョンが幅広い関心を集めている。 しかし、合成系次元はその部分系の次元と指数関数的にスケールするので、正確な値や非自明なエントロピーの境界を計算することは極めて困難である。 そこで,古典量子状態のミニエントロピーに対する一発下界計算法を開発し,有限次元と無限次元の量子状態の両方に適用する。 さらに,本手法は少なくとも2つの状況において実用的関心を持つことを示す。 まず、よく知られたBB84量子鍵分配プロトコルに対して、より厳密な有限データ解析を与える。 さらに重要なのは、新しいソースに依存しない連続変数の量子乱数生成プロトコルのセキュリティ証明を提供することだ。 これらは我々のアプローチの有効性と適用性を示している。

In quantum Shannon theory, various kinds of quantum entropies are used to characterize the capacities of noisy physical systems. Among them, min-entropy and its smooth version attract wide interest especially in the field of quantum cryptography as they can be used to bound the information obtained by an adversary. However, calculating the exact value or non-trivial bounds of min-entropy are extremely difficult because the composite system dimension may scale exponentially with the dimension of its subsystem. Here, we develop a one-shot lower bound calculation technique for the min-entropy of a classical-quantum state that is applicable to both finite and infinite dimensional reduced quantum states. Moreover, we show our technique is of practical interest in at least two situations. First, it gives an alternative tight finite-data analysis for the well-known BB84 quantum key distribution protocol. More importantly, it provides a security proof for a novel source-independent continuous-variable quantum random number generation protocol. These show the effectiveness and wide applicability of our approach.
翻訳日:2024-06-24 13:13:06 公開日:2024-06-21
# 自動カウンタ・ナラレーティブ生成評価のためのLLMに基づくランク付け法

A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation ( http://arxiv.org/abs/2406.15227v1 )

ライセンス: Link先を確認
Irune Zubiaga, Aitor Soroa, Rodrigo Agerri, (参考訳) オンライン談話における誤報や有害な物語の拡散は、効果的なカウンタナラティブ(CN)生成技術にとって重要な必要性を浮き彫りにした。 しかし、既存の自動評価手法は解釈可能性に欠けることが多く、生成したCNと人間の知覚とのニュアンスな関係を捉えることができない。 本稿では,人間の判断と高い相関性を実現するために,Large Language Model (LLM) を評価対象として用いたCNのアセスメント手法を提案する。 トーナメント方式で生成したCNを相互に比較することにより、人間の嗜好と0.88ドルの相関を達成できるモデルランキングパイプラインを確立する。 さらに,LLMをゼロショット(ZS)CNジェネレータとして利用し,チャット,インストラクション,ベースモデルの比較分析を行い,それぞれの強みと限界を探索する。 微調整実験を含む精巧な評価により、ドメイン固有のデータに対する性能と応答性の違いを解明する。 セキュリティ上の懸念から回答を得られなかった場合,ZSのチャットアライメントモデルはタスクを実行する上で最善の選択肢である,と結論付けている。

The proliferation of misinformation and harmful narratives in online discourse has underscored the critical need for effective Counter Narrative (CN) generation techniques. However, existing automatic evaluation methods often lack interpretability and fail to capture the nuanced relationship between generated CNs and human perception. Aiming to achieve a higher correlation with human judgments, this paper proposes a novel approach to asses generated CNs that consists on the use of a Large Language Model (LLM) as a evaluator. By comparing generated CNs pairwise in a tournament-style format, we establish a model ranking pipeline that achieves a correlation of $0.88$ with human preference. As an additional contribution, we leverage LLMs as zero-shot (ZS) CN generators and conduct a comparative analysis of chat, instruct, and base models, exploring their respective strengths and limitations. Through meticulous evaluation, including fine-tuning experiments, we elucidate the differences in performance and responsiveness to domain-specific data. We conclude that chat-aligned models in ZS are the best option for carrying out the task, provided they do not refuse to generate an answer due to security concerns.
翻訳日:2024-06-24 13:13:06 公開日:2024-06-21
# 制約付きQAOAによるプロダクトブレークダウン構造問題の解決

Solving the Product Breakdown Structure Problem with constrained QAOA ( http://arxiv.org/abs/2406.15228v1 )

ライセンス: Link先を確認
René Zander, Raphael Seidel, Matteo Inajetovic, Niklas Steinmann, Matic Petrič, (参考訳) 全ての可能な変数割り当てが実現可能なソリューションではないような制約付き最適化問題は、トラベルセールスマン問題(TSP)やポートフォリオ最適化など、多くの実用的な最適化問題を構成する。 量子アニーリング (quantum annealing) やバニラQAOA (vanilla QAOA) のような確立された手法は通常、QUBO(Quadratic Unconstrained Binary Optimization) 形式に変換される。 したがって、そのような手法は制約によって提供される付加的な構造を利用できない。 本稿では,産業関連製品破壊構造問題の解法を提案する。 我々の解は制約付きQAOAに基づいており、これは構成上、問題制約によって禁止される解を表すヒルベルト空間の一部を探ることはない。 これにより、探索空間のサイズが大幅に縮小される。 実験により,本手法はスケーリング行動に非常に有利なだけでなく,バレン高原の負の効果も抑制できることが示された。

Constrained optimization problems, where not all possible variable assignments are feasible solutions, comprise numerous practically relevant optimization problems such as the Traveling Salesman Problem (TSP), or portfolio optimization. Established methods such as quantum annealing or vanilla QAOA usually transform the problem statement into a QUBO (Quadratic Unconstrained Binary Optimization) form, where the constraints are enforced by auxiliary terms in the QUBO objective. Consequently, such approaches fail to utilize the additional structure provided by the constraints. In this paper, we present a method for solving the industry relevant Product Breakdown Structure problem. Our solution is based on constrained QAOA, which by construction never explores the part of the Hilbert space that represents solutions forbidden by the problem constraints. The size of the search space is thereby reduced significantly. We experimentally show that this approach has not only a very favorable scaling behavior, but also appears to suppress the negative effects of Barren Plateaus.
翻訳日:2024-06-24 13:13:06 公開日:2024-06-21
# ExDAG:DAGの実践的学習

ExDAG: Exact learning of DAGs ( http://arxiv.org/abs/2406.15229v1 )

ライセンス: Link先を確認
Pavel Rytíř, Aleš Wodecki, Jakub Mareček, (参考訳) 近年、因果学習への関心が高まっている。 ベイズネットワークや構造方程式モデル(SEM)などの因果構造の一般的な表現は、有向非巡回グラフ(DAG)の形式をとる。 本稿では,最大50頂点のDAGを同定し,それらが識別可能な新しい混合整数2次プログラミング定式化および関連アルゴリズムを提案する。 我々はこの手法を,DAGのエクササイズ学習を意味する ExDAG と呼ぶ。 サイクルの形成を阻止する制約は極端に多いが、アルゴリズムはそれぞれの連続的な値の緩和に全ての制約を課すのではなく、見いだされた解に反する制約を加える。 実験結果から,ExDAGは局所的最先端の解法よりも精度が高く,ガウス雑音を考慮した場合,スケールに関して最先端のグローバルな解法よりも優れていた。 また、他の雑音分布についても検証を行う。

There has been a growing interest in causal learning in recent years. Commonly used representations of causal structures, including Bayesian networks and structural equation models (SEM), take the form of directed acyclic graphs (DAGs). We provide a novel mixed-integer quadratic programming formulation and associated algorithm that identifies DAGs on up to 50 vertices, where these are identifiable. We call this method ExDAG, which stands for Exact learning of DAGs. Although there is a superexponential number of constraints that prevent the formation of cycles, the algorithm adds constraints violated by solutions found, rather than imposing all constraints in each continuous-valued relaxation. Our empirical results show that ExDAG outperforms local state-of-the-art solvers in terms of precision and outperforms state-of-the-art global solvers with respect to scaling, when considering Gaussian noise. We also provide validation with respect to other noise distributions.
翻訳日:2024-06-24 13:13:06 公開日:2024-06-21
# Few-Shot推論による合成歌詞の検出

Detecting Synthetic Lyrics with Few-Shot Inference ( http://arxiv.org/abs/2406.15231v1 )

ライセンス: Link先を確認
Yanis Labrak, Gabriel Meseguer-Brocal, Elena V. Epure, (参考訳) 近年、音楽の創作されたコンテンツは、様々なスタイル、テーマ、言語構造において人間に似た歌詞を作るために、大きな言語モデルが効果的に活用され、大きな人気を集めている。 この技術進歩は、アーティストが創造的なプロセスで支援するだけでなく、著作権侵害、消費者満足度、コンテンツスパムの問題を提起する。 これらの課題に対処するためには、生成された歌詞を検出する方法が必要である。 しかし、既存の研究は、この特定のモダリティや、機械生成コンテンツ検出方法やデータセットに関する創造的なテキストにまだ焦点を当てていない。 そこで我々は,高品質な合成歌詞の最初のデータセットをキュレートし,多種多様な映像コンテンツ検出手法の包括的定量的評価を行い,その一般化能力を検証し,それを人間による評価で補完した。 LLM2Vecをベースとした我々の最も優れた数発検出器は、機械生成コンテンツと人間の書き起こしを区別する他の領域で競合する、構造的および統計的手法を超越している。 また、新しいアーティストやモデルに優れた一般化能力を示し、ポストジェネレーションのパラフレーズを効果的に検出する。 本研究は、特に、より大きな楽曲カタログによる一般化とスケーラビリティの観点から、創造的コンテンツ検出に関するさらなる研究の必要性を強調する。 すべてのデータセット、前処理スクリプト、コードはGitHubとHugging FaceでApache 2.0ライセンス下で公開されている。

In recent years, generated content in music has gained significant popularity, with large language models being effectively utilized to produce human-like lyrics in various styles, themes, and linguistic structures. This technological advancement supports artists in their creative processes but also raises issues of authorship infringement, consumer satisfaction and content spamming. To address these challenges, methods for detecting generated lyrics are necessary. However, existing works have not yet focused on this specific modality or on creative text in general regarding machine-generated content detection methods and datasets. In response, we have curated the first dataset of high-quality synthetic lyrics and conducted a comprehensive quantitative evaluation of various few-shot content detection approaches, testing their generalization capabilities and complementing this with a human evaluation. Our best few-shot detector, based on LLM2Vec, surpasses stylistic and statistical methods, which are shown competitive in other domains at distinguishing human-written from machine-generated content. It also shows good generalization capabilities to new artists and models, and effectively detects post-generation paraphrasing. This study emphasizes the need for further research on creative content detection, particularly in terms of generalization and scalability with larger song catalogs. All datasets, pre-processing scripts, and code are available publicly on GitHub and Hugging Face under the Apache 2.0 license.
翻訳日:2024-06-24 13:13:06 公開日:2024-06-21
# 異方性スムースネス下におけるAdagradの大規模バッチ解析

Large Batch Analysis for Adagrad Under Anisotropic Smoothness ( http://arxiv.org/abs/2406.15244v1 )

ライセンス: Link先を確認
Yuxing Liu, Rui Pan, Tong Zhang, (参考訳) 適応勾配アルゴリズムは大規模ディープニューラルネットワーク、特に大規模基盤モデルのトレーニングに広く採用されている。 実際には大きな成功にもかかわらず、確率勾配降下(SGD)に対する理論上の優位性は理解されていない。 これは、AdagradのSGDに対するメリットを証明できる唯一の理論的結果が、非滑らかな目的関数に対するAdagradの原論文で得られたためである。 しかし,非滑らかな目的関数の場合,バッチサイズが大きくなると収束が線形に遅くなるため,非滑らかな仮定に基づく収束解析は大規模バッチアルゴリズムでは利用できない。 本研究では, 大規模バッチ設定に適した凸面および非凸面の滑らかな目的に対して, Adagrad の新たな解析を行うことにより, 理論と実践のギャップを解消する。 異方性スムーズ性および雑音条件下では, バッチサイズの増加はAdagradの収束を遅くするものではなく, 大規模なバッチ設定においてもSGDよりも早く収束を保証できることが示されている。 本稿では,適応勾配法の利点をよりよく理解するために,SGDとAdagradの比較を行った。 微調整タスクによるロジスティック回帰と命令の実験は、我々の理論解析を支持する強力な証拠となる。

Adaptive gradient algorithms have been widely adopted in training large-scale deep neural networks, especially large foundation models. Despite their huge success in practice, their theoretical advantages over stochastic gradient descent (SGD) have not been fully understood, especially in the large batch-size setting commonly used in practice. This is because the only theoretical result that can demonstrate the benefit of Adagrad over SGD was obtained in the original paper of Adagrad for nonsmooth objective functions. However, for nonsmooth objective functions, there can be a linear slowdown of convergence when batch size increases, and thus a convergence analysis based on nonsmooth assumption cannot be used for large batch algorithms. In this work, we resolve this gap between theory and practice by providing a new analysis of Adagrad on both convex and nonconvex smooth objectives suitable for the large batch setting. It is shown that under the anisotropic smoothness and noise conditions, increased batch size does not slow down convergence for Adagrad, and thus it can still achieve a faster convergence guarantee over SGD even in the large batch setting. We present detailed comparisons between SGD and Adagrad to provide a better understanding of the benefits of adaptive gradient methods. Experiments in logistic regression and instruction following fine-tuning tasks provide strong evidence to support our theoretical analysis.
翻訳日:2024-06-24 13:13:06 公開日:2024-06-21
# 教師なしモルフォロジーツリートケナイザ

Unsupervised Morphological Tree Tokenizer ( http://arxiv.org/abs/2406.15245v1 )

ライセンス: Link先を確認
Qingyang Zhu, Xiang Hu, Pengyu Ji, Wei Wu, Kewei Tu, (参考訳) 言語モデリングの基盤として、トークン化はテキスト入力を事前に定義された原子単位に分割する。 従来の統計トークン化器は、しばしば単語の構成要素の境界を乱し、意味情報を損なう。 この欠点に対処するために、トークン化のための形態的構造ガイダンスを導入し、単語の文字レベル構造を誘導する深層モデルを提案する。 具体的には、ディープモデルは単語の内部構造と表現を$\textit{MorphOverriding}$というメカニズムで共同で符号化し、モルヒムの非分解性を保証する。 本手法は,自己教師対象モデルを用いて学習することにより,アノテートしたトレーニングデータなしで形態的規則に整合した文字レベルの構造を誘導することができる。 提案アルゴリズムは,提案手法により,単語をトップダウン方式で語彙マッチングによりトークン化する。 実験結果から,提案手法は,BPE や WordPiece など広く採用されている手法を,形態的セグメンテーションタスクと言語モデリングタスクの両方で効果的に維持し,性能を向上することが示された。 コードは後でリリースされる。

As a cornerstone in language modeling, tokenization involves segmenting text inputs into pre-defined atomic units. Conventional statistical tokenizers often disrupt constituent boundaries within words, thereby corrupting semantic information. To address this drawback, we introduce morphological structure guidance to tokenization and propose a deep model to induce character-level structures of words. Specifically, the deep model jointly encodes internal structures and representations of words with a mechanism named $\textit{MorphOverriding}$ to ensure the indecomposability of morphemes. By training the model with self-supervised objectives, our method is capable of inducing character-level structures that align with morphological rules without annotated training data. Based on the induced structures, our algorithm tokenizes words through vocabulary matching in a top-down manner. Empirical results indicate that the proposed method effectively retains complete morphemes and outperforms widely adopted methods such as BPE and WordPiece on both morphological segmentation tasks and language modeling tasks. The code will be released later.
翻訳日:2024-06-24 13:03:22 公開日:2024-06-21
# 開問題:カーネルベース強化学習のための順序最適レグレト境界

Open Problem: Order Optimal Regret Bounds for Kernel-Based Reinforcement Learning ( http://arxiv.org/abs/2406.15250v1 )

ライセンス: Link先を確認
Sattar Vakili, (参考訳) 強化学習(Reinforcement Learning, RL)は、様々なアプリケーション領域で大きな成功を収めている。 この問題の理論的側面は、特に表層および線形マルコフ決定過程構造の下で、過去数十年にわたって広く研究されてきた。 近年,カーネルベースの予測を用いた非線形関数近似が注目されている。 このアプローチは、線形構造を自然に拡張し、無限の幅制限でニューラルネットワークベースのモデルの振る舞いを説明するのに役立つため、特に興味深い。 しかし、解析結果は、このケースのパフォーマンス保証に適切に対処しない。 このオープンな問題を強調し、既存の部分的な結果を概説し、関連する課題について議論する。

Reinforcement Learning (RL) has shown great empirical success in various application domains. The theoretical aspects of the problem have been extensively studied over past decades, particularly under tabular and linear Markov Decision Process structures. Recently, non-linear function approximation using kernel-based prediction has gained traction. This approach is particularly interesting as it naturally extends the linear structure, and helps explain the behavior of neural-network-based models at their infinite width limit. The analytical results however do not adequately address the performance guarantees for this case. We will highlight this open problem, overview existing partial results, and discuss related challenges.
翻訳日:2024-06-24 13:03:22 公開日:2024-06-21
# MantisScore:ビデオ生成のための微粒な人間のフィードバックをシミュレートする自動メトリクスを作る

MantisScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation ( http://arxiv.org/abs/2406.15252v1 )

ライセンス: Link先を確認
Xuan He, Dongfu Jiang, Ge Zhang, Max Ku, Achint Soni, Sherman Siu, Haonan Chen, Abhranil Chandra, Ziyan Jiang, Aaran Arulraj, Kai Wang, Quy Duc Do, Yuansheng Ni, Bohan Lyu, Yaswanth Narsupalli, Rongqi Fan, Zhiheng Lyu, Yuchen Lin, Wenhu Chen, (参考訳) 近年、ビデオ生成の進歩が目覚ましい。 しかし、自動ビデオメトリクスの開発は大幅に遅れている。 既存のメトリクスでは、生成されたビデオに対して信頼できるスコアを提供することはできません。 主な障壁は、大規模なヒューマンアノテートデータセットの欠如である。 本稿では,既存の11種類のビデオ生成モデルから合成した37.6K以上の人為的マルチアスペクトスコアを含む,最初の大規模データセットであるVideoFeedbackをリリースする。 ビデオ品質の自動評価を可能にするために,ビデオFeedbackに基づいてMantisScore(Mantisから初期化)をトレーニングする。 実験によると、マンティススコアと人間の間のスピアマンの相関は、VideoFeedback-testで77.1に達し、以前の最高の指標を約50ポイント上回っている。 他のホールドアウトされたEvalCrafter、GenAI-Bench、VBenchのさらなる結果は、MantisScoreが他のメトリクスよりもはるかに高い相関性を持っていることを示している。 これらの結果から,マンティススコアは,(1)進行追跡のために異なる動画モデルをレートする;(2)人間フィードバックを用いた強化学習(RLHF)におけるきめ細かい人間のフィードバックをシミュレートし,現在の映像生成モデルを改善するための優れたプロキシとして機能すると考えている。

The recent years have witnessed great advances in video generation. However, the development of automatic video metrics is lagging significantly behind. None of the existing metric is able to provide reliable scores over generated videos. The main barrier is the lack of large-scale human-annotated dataset. In this paper, we release VideoFeedback, the first large-scale dataset containing human-provided multi-aspect score over 37.6K synthesized videos from 11 existing video generative models. We train MantisScore (initialized from Mantis) based on VideoFeedback to enable automatic video quality assessment. Experiments show that the Spearman correlation between MantisScore and humans can reach 77.1 on VideoFeedback-test, beating the prior best metrics by about 50 points. Further result on other held-out EvalCrafter, GenAI-Bench, and VBench show that MantisScore has consistently much higher correlation with human judges than other metrics. Due to these results, we believe MantisScore can serve as a great proxy for human raters to (1) rate different video models to track progress (2) simulate fine-grained human feedback in Reinforcement Learning with Human Feedback (RLHF) to improve current video generation models.
翻訳日:2024-06-24 13:03:22 公開日:2024-06-21
# 生成的敵ネットワークに対するフィンガープリントメンバーシップとアイデンティティ推定

Fingerprint Membership and Identity Inference Against Generative Adversarial Networks ( http://arxiv.org/abs/2406.15253v1 )

ライセンス: Link先を確認
Saverio Cavasin, Daniele Mari, Simone Milani, Mauro Conti, (参考訳) 生産モデルは、新しい産業革命の触媒として大きな注目を集めている。 自動サンプル生成は、通常、学習された生体モデルに影響を与えるプライバシーやデータ不足の問題を解決するのに有用であるため、この分野ではそのような技術が広く普及した。 本稿では, 識別保護に関する生成機械学習モデルの脆弱性を, 生成逆ネットワークを用いて生成した指紋データセットに対する識別推測攻撃を設計し, テストすることによって評価する。 実験結果から, 提案法は異なる構成で有効であり, 生体計測に容易に拡張可能であることが示された。

Generative models are gaining significant attention as potential catalysts for a novel industrial revolution. Since automated sample generation can be useful to solve privacy and data scarcity issues that usually affect learned biometric models, such technologies became widely spread in this field. In this paper, we assess the vulnerabilities of generative machine learning models concerning identity protection by designing and testing an identity inference attack on fingerprint datasets created by means of a generative adversarial network. Experimental results show that the proposed solution proves to be effective under different configurations and easily extendable to other biometric measurements.
翻訳日:2024-06-24 13:03:22 公開日:2024-06-21
# 低コストLCM4VISレコメンダV-RECSの解説, キャプション, 提案

V-RECS, a Low-Cost LLM4VIS Recommender with Explanations, Captioning and Suggestions ( http://arxiv.org/abs/2406.15259v1 )

ライセンス: Link先を確認
Luca Podo, Marco Angelini, Paola Velardi, (参考訳) NL2VIS(自然言語からビジュアライゼーションまで)は、自然言語クエリを解釈し、基礎となるデータを正確に表現する視覚化に変換する、有望で最近の研究分野である。 ビッグデータの時代を旅する中で、NL2VISは、専門家でないユーザによるデータ探索を大いに促進するので、アプリケーションの可能性はかなり高い。 NL2VISアプリケーションにおける生成AIの利用がますます広まる中で,本論文では,説明文(E),キャプション(C),提案文(S)を付加した最初のLCMベースのビジュアルレコメンダであるV-RECSについて述べる。 V-RECSの視覚化は、専門家でないユーザによる応答検証とデータ探索の両方を容易にする。 さらに,提案手法は,小型モデルを効果的に微調整する手法を活用することにより,強力なLCMの使用に伴う計算,制御可能性,コスト問題を緩和する。 洞察に富んだ視覚化の物語を生成するために,我々は,LLMが正しい回答を得るための論理的ステップを識別し生成するのに役立つ,迅速なエンジニアリング技術であるChain-of-Thoughts (CoT) を用いている。 そこで我々は,教師として働く大規模LLM(GPT-4)が,小さなモデルであるLlama-2-7Bを微調整するためのCoTベースの命令を生成する戦略を採用した。 AIに基づく可視化の定量的評価のためのフレームワークと、参加者のグループによる手作業による評価に基づく大規模な実験により、より低コストで、V-RECSがGPT-4に匹敵するパフォーマンススコアを達成できることを示す。 V-RECSの教師-学生パラダイムの有効性は、未調整のLlamaがほとんどのテストケースでそのタスクを実行できないという事実によっても証明されている。 我々はビジュアライゼーションコミュニティ向けにV-RECSをリリースし、ビジュアライゼーション生成プロセス全体を通してビジュアライゼーションデザイナーを支援する。

NL2VIS (natural language to visualization) is a promising and recent research area that involves interpreting natural language queries and translating them into visualizations that accurately represent the underlying data. As we navigate the era of big data, NL2VIS holds considerable application potential since it greatly facilitates data exploration by non-expert users. Following the increasingly widespread usage of generative AI in NL2VIS applications, in this paper we present V-RECS, the first LLM-based Visual Recommender augmented with explanations(E), captioning(C), and suggestions(S) for further data exploration. V-RECS' visualization narratives facilitate both response verification and data exploration by non-expert users. Furthermore, our proposed solution mitigates computational, controllability, and cost issues associated with using powerful LLMs by leveraging a methodology to effectively fine-tune small models. To generate insightful visualization narratives, we use Chain-of-Thoughts (CoT), a prompt engineering technique to help LLM identify and generate the logical steps to produce a correct answer. Since CoT is reported to perform poorly with small LLMs, we adopted a strategy in which a large LLM (GPT-4), acting as a Teacher, generates CoT-based instructions to fine-tune a small model, Llama-2-7B, which plays the role of a Student. Extensive experiments-based on a framework for the quantitative evaluation of AI-based visualizations and on manual assessment by a group of participants-show that V-RECS achieves performance scores comparable to GPT-4, at a much lower cost. The efficacy of the V-RECS teacher-student paradigm is also demonstrated by the fact that the un-tuned Llama fails to perform the task in the vast majority of test cases. We release V-RECS for the visualization community to assist visualization designers throughout the entire visualization generation process.
翻訳日:2024-06-24 13:03:22 公開日:2024-06-21
# 生成テキストの微粒化評価に向けて : 忠実度尺度の比較分析

Towards Fine-Grained Citation Evaluation in Generated Text: A Comparative Analysis of Faithfulness Metrics ( http://arxiv.org/abs/2406.15264v1 )

ライセンス: Link先を確認
Weijia Zhang, Mohammad Aliannejadi, Yifei Yuan, Jiahuan Pei, Jia-Hong Huang, Evangelos Kanoulas, (参考訳) 大型言語モデル (LLMs) は、しばしば「幻覚 (hallucinations)」として知られる、サポートされていない、または検証できない情報を生成する。 これを軽減するために、検索拡張LDMは引用を取り入れ、検証可能なソースにその内容を埋め込む。 このような発展にもかかわらず、引用が関連するステートメントをどの程度うまくサポートしているかを手作業で評価することは、依然として大きな課題である。 従来の研究では、信頼度測定を用いて、引用支援を自動的に見積もっているが、現実的なシナリオにおいて、きめ細かい引用支援を見越して二分分類に限られている。 細粒度シナリオにおける忠実度指標の有効性を検討するため, 完全, 部分, サポートなしの3段階のサポートレベル間での引用を識別する上で, メトリクスの有効性を評価するための比較評価フレームワークを提案する。 本研究では, 相関分析, 分類評価, 検索評価を用いて, 測定値と人的判断のアライメントを総合的に測定する。 以上の結果から,全ての評価において一貫した指標が得られず,きめ細かな支援評価の複雑さが明らかとなった。 この結果をもとに,より効果的なメトリクスを開発するための実践的なレコメンデーションを提供する。

Large language models (LLMs) often produce unsupported or unverifiable information, known as "hallucinations." To mitigate this, retrieval-augmented LLMs incorporate citations, grounding the content in verifiable sources. Despite such developments, manually assessing how well a citation supports the associated statement remains a major challenge. Previous studies use faithfulness metrics to estimate citation support automatically but are limited to binary classification, overlooking fine-grained citation support in practical scenarios. To investigate the effectiveness of faithfulness metrics in fine-grained scenarios, we propose a comparative evaluation framework that assesses the metric effectiveness in distinguishinging citations between three-category support levels: full, partial, and no support. Our framework employs correlation analysis, classification evaluation, and retrieval evaluation to measure the alignment between metric scores and human judgments comprehensively. Our results show no single metric consistently excels across all evaluations, revealing the complexity of assessing fine-grained support. Based on the findings, we provide practical recommendations for developing more effective metrics.
翻訳日:2024-06-24 13:03:22 公開日:2024-06-21
# ニューラル音声認識モデルによる音韻同化の知覚

Perception of Phonological Assimilation by Neural Speech Recognition Models ( http://arxiv.org/abs/2406.15265v1 )

ライセンス: Link先を確認
Charlotte Pouw, Marianne de Heer Kloots, Afra Alishahi, Willem Zuidema, (参考訳) 人間の聴取者は、音声知覚中の音韻学的変化に対して努力的に補償し、しばしば意図した音を無意識に推測する。 例えば、聞き手は「clea[m] pan」のような発声を聴くと、下層の/n/を推測する。 本稿では、ニューラルネットワークモデルWav2Vec2が、同化音をどう知覚するかを考察し、自動音声認識(ASR)における同化を補うためにモデルによって実装された言語知識を特定する。 心理言語学的な刺激を用いて、様々な言語文脈がモデル出力の補償パターンにどのように影響するかを系統的に分析する。 これらの動作実験を補完し,本実験により,同化音の解釈を音響的形態から最終形態へとシフトさせることが示唆された。 最後に、我々の因果介入実験は、この変化を達成するには最小の音韻論的文脈に依存することを示唆している。 これらの知見は、ニューラルASRモデルとヒトの音韻処理の類似性と相違をよりよく理解するための一歩である。

Human listeners effortlessly compensate for phonological changes during speech perception, often unconsciously inferring the intended sounds. For example, listeners infer the underlying /n/ when hearing an utterance such as "clea[m] pan", where [m] arises from place assimilation to the following labial [p]. This article explores how the neural speech recognition model Wav2Vec2 perceives assimilated sounds, and identifies the linguistic knowledge that is implemented by the model to compensate for assimilation during Automatic Speech Recognition (ASR). Using psycholinguistic stimuli, we systematically analyze how various linguistic context cues influence compensation patterns in the model's output. Complementing these behavioral experiments, our probing experiments indicate that the model shifts its interpretation of assimilated sounds from their acoustic form to their underlying form in its final layers. Finally, our causal intervention experiments suggest that the model relies on minimal phonological context cues to accomplish this shift. These findings represent a step towards better understanding the similarities and differences in phonological processing between neural ASR models and humans.
翻訳日:2024-06-24 13:03:22 公開日:2024-06-21
# 自動詩生成における多様性の評価

Evaluating Diversity in Automatic Poetry Generation ( http://arxiv.org/abs/2406.15267v1 )

ライセンス: Link先を確認
Yanran Chen, Hannes Gröner, Sina Zarrieß, Steffen Eger, (参考訳) 自然言語生成(NLG)、より一般的には生成型AIは、現在最も影響力のある研究分野である。 自動詩生成のような創造的なNLGは、この分野では魅力的なニッチである。 筆者らは, 自動詩生成におけるチューリングテストの形式に着目し, 自動詩と人文詩の区別が可能であり, 生成した詩の分布を, 構造的, 語彙的, 意味的, 構造的次元に沿った人間の詩の分布と比較し, 異なるモデルタイプ(単語レベル, 文字レベル, 汎用LLM, 詩特有のモデル) の評価を行い, ごく最近のLLaMA3, および微調整タイプ(条件付き対無条件)について検討した。 現在の自動詩体系は, 韻律が十分でない場合が多く, 意味的に不均一であり, 人間の詩の長さ分布と一致しない場合が多い。 しかし,本実験により,スタイル条件とキャラクタレベルのモデリングにより,探索対象のほぼすべての次元における多様性が明らかに向上することが判明した。 我々の特定された制限は、より真に多様な未来の詩生成モデルの基礎となるかもしれない。

Natural Language Generation (NLG), and more generally generative AI, are among the currently most impactful research fields. Creative NLG, such as automatic poetry generation, is a fascinating niche in this area. While most previous research has focused on forms of the Turing test when evaluating automatic poetry generation - can humans distinguish between automatic and human generated poetry - we evaluate the diversity of automatically generated poetry, by comparing distributions of generated poetry to distributions of human poetry along structural, lexical, semantic and stylistic dimensions, assessing different model types (word vs. character-level, general purpose LLMs vs. poetry-specific models), including the very recent LLaMA3, and types of fine-tuning (conditioned vs. unconditioned). We find that current automatic poetry systems are considerably underdiverse along multiple dimensions - they often do not rhyme sufficiently, are semantically too uniform and even do not match the length distribution of human poetry. Our experiments reveal, however, that style-conditioning and character-level modeling clearly increases diversity across virtually all dimensions we explore. Our identified limitations may serve as the basis for more genuinely diverse future poetry generation models.
翻訳日:2024-06-24 13:03:22 公開日:2024-06-21
# オントロジーを用いた機械学習のためのロバストトレーニングデータセットに向けて:緊急道路車両検出を事例として

Towards Robust Training Datasets for Machine Learning with Ontologies: A Case Study for Emergency Road Vehicle Detection ( http://arxiv.org/abs/2406.15268v1 )

ライセンス: Link先を確認
Lynn Vonderhaar, Timothy Elvira, Tyler Procko, Omar Ochoa, (参考訳) 多数のドメインが機械学習(ML)モデルに依存しており、自律運転のような安全クリティカルなドメインが注目されている。 MLのブラックボックスの性質は、安全クリティカルなドメインでは単に厄介なものだが、MLモデルを信頼し難いものにしている。 安全クリティカルな領域でMLモデルを十分に活用するためには、人間の専門家がそれぞれの決定をチェックすることなく、モデルの堅牢性と正確性に対する信頼性を向上させる方法を持つことが有益である。 本研究は、モデルトレーニングデータセットの堅牢性と完全性を保証することにより、安全クリティカルドメインで使用されるMLモデルの信頼性を高める手法を提案する。 MLモデルはトレーニング対象を具現化しているため、トレーニングデータセットの完全性を保証することは、MLモデルのトレーニングに対する信頼を高めるのに役立つ。 そこで本研究では,ドメインオントロジーと画像品質特性オントロジーを用いて,トレーニングデータセットの領域完全性と画像品質の堅牢性を検証する。 本研究は, 緊急道路車両領域のオントロジーを構築するための概念実証実験である。

Countless domains rely on Machine Learning (ML) models, including safety-critical domains, such as autonomous driving, which this paper focuses on. While the black box nature of ML is simply a nuisance in some domains, in safety-critical domains, this makes ML models difficult to trust. To fully utilize ML models in safety-critical domains, it would be beneficial to have a method to improve trust in model robustness and accuracy without human experts checking each decision. This research proposes a method to increase trust in ML models used in safety-critical domains by ensuring the robustness and completeness of the model's training dataset. Because ML models embody what they are trained with, ensuring the completeness of training datasets can help to increase the trust in the training of ML models. To this end, this paper proposes the use of a domain ontology and an image quality characteristic ontology to validate the domain completeness and image quality robustness of a training dataset. This research also presents an experiment as a proof of concept for this method, where ontologies are built for the emergency road vehicle domain.
翻訳日:2024-06-24 13:03:22 公開日:2024-06-21
# 疎チャネル(YOAS)のみを取得する:Dense-channel EEG 生成のための統一フレームワーク

You Only Acquire Sparse-channel (YOAS): A Unified Framework for Dense-channel EEG Generation ( http://arxiv.org/abs/2406.15269v1 )

ライセンス: Link先を確認
Hongyu Chen, Weiming Zeng, Luhui Cai, Yueyang Li, Lei Wang, Jia Lu, Hongjie Yan, Wai Ting Siok, Nizhuan Wang, (参考訳) 密度チャネル脳波(EEG)信号の高精度取得は、しばしば設備のコストと可搬性の欠如によって妨げられる。 対照的に、疎チャネルから効果的に高密度チャネル脳波信号を生成することは、約束と経済的生存性を示す。 しかし、スパースチャネル脳波は、空間分解能の低下、情報損失、信号混合、ノイズや干渉に対する感受性の増大といった課題を生んでいる。 これらの課題に対処するために、我々はまず、一組のチャネル横断脳波信号生成問題を最適化することにより、密チャネル脳波発生問題を理論的に定式化する。 そこで我々は,疎チャネル脳波信号から高密度チャネルデータを生成するためのYOASフレームワークを提案する。 YOASは、データ準備、データ前処理、バイアス-EEG生成、合成EEG生成の4段階からなる。 データ作成と前処理は、脳波電極の分布と脳波信号の低信号-雑音比問題を慎重に検討する。 Biased-EEG 生成には BiasEEGanFormer と BiasEEGDiffFormer のサブモジュールが含まれる。 合成脳波生成は最終信号を合成し、マルチチャネル脳波生成のための導出パラダイムを用いる。 大規模な実験により、YOASの有効性、効率性、理論上の妥当性が確認され、データの識別性も著しく向上した。 疎チャネルデータから高密度チャネルEEG信号を生成するこのブレークスルーは、EEG信号処理と応用の新たな道を開く。

High-precision acquisition of dense-channel electroencephalogram (EEG) signals is often impeded by the costliness and lack of portability of equipment. In contrast, generating dense-channel EEG signals effectively from sparse channels shows promise and economic viability. However, sparse-channel EEG poses challenges such as reduced spatial resolution, information loss, signal mixing, and heightened susceptibility to noise and interference. To address these challenges, we first theoretically formulate the dense-channel EEG generation problem as by optimizing a set of cross-channel EEG signal generation problems. Then, we propose the YOAS framework for generating dense-channel data from sparse-channel EEG signals. The YOAS totally consists of four sequential stages: Data Preparation, Data Preprocessing, Biased-EEG Generation, and Synthetic EEG Generation. Data Preparation and Preprocessing carefully consider the distribution of EEG electrodes and low signal-to-noise ratio problem of EEG signals. Biased-EEG Generation includes sub-modules of BiasEEGGanFormer and BiasEEGDiffFormer, which facilitate long-term feature extraction with attention and generate signals by combining electrode position alignment with diffusion model, respectively. Synthetic EEG Generation synthesizes the final signals, employing a deduction paradigm for multi-channel EEG generation. Extensive experiments confirmed YOAS's feasibility, efficiency, and theoretical validity, even remarkably enhancing data discernibility. This breakthrough in dense-channel EEG signal generation from sparse-channel data opens new avenues for exploration in EEG signal processing and application.
翻訳日:2024-06-24 13:03:22 公開日:2024-06-21
# 反断熱力学による量子バッテリスーパーチャージ

Quantum battery supercharging via counter-diabatic dynamics ( http://arxiv.org/abs/2406.15274v1 )

ライセンス: Link先を確認
L. F. C. de Moraes, Alan C. Duriez, A. Saguia, Alan C. Santos, Marcelo S. Sarandy, (参考訳) スーパーチャージ可能な量子電池(QBs)をモデル化するハミルトン多様体を導出するための反断熱的手法を提案する。 スーパーチャージプロセスに必要な要件は、電池のセル間でのマルチパーティライト相互作用の存在である。 顕著なことに、この条件はハミルトニアンにおける多部項の数によらず不十分である。 本稿では,Grover 探索問題に対する断熱バージョンに基づくQBモデルを用いて,このような不整合を解析的に説明する。 一方、QBスーパーチャージでは、システム内のグローバルな接続がわずかに少ないだけである。 この目的のために、Ising多部相互作用の存在下で$n$のサイトを持つスピン-$1/2$連鎖を考える。 次に、アディバティック近似の妥当性を考慮し、$(n-1)$-site 相互作用の$n$ 項を加えることで、正規化された進化時間に関して最大 QB パワーを示すハミルトニアンは、$n$ で二次的に成長することを示す。 したがって、スーパーチャージは多部接続の$O(n)$項によって達成される。 アディバティック近似で要求される時間制約は、元ハミルトニアンのゲージポテンシャルの観点から反ディバティック展開を考慮し、反ディバティック実装のためにフロケットアプローチによって保証される限定$O(n)$多体相互作用項を考慮すれば超えることができる。

We introduce a counter-diabatic approach for deriving Hamiltonians modeling superchargable quantum batteries (QBs). A necessary requirement for the supercharging process is the existence of multipartite interactions among the cells of the battery. Remarkably, this condition may be insufficient no matter the number of multipartite terms in the Hamiltonian. We analytically illustrate this kind of insufficiency through a model of QB based on the adiabatic version for the Grover search problem. On the other hand, we provide QB supercharging with just a mild number of global connections in the system. To this aim, we consider a spin-$1/2$ chain with $n$ sites in the presence of Ising multipartite interactions. We then show that, by considering the validity of the adiabatic approximation and by adding $n$ terms of $(n-1)$-site interactions, we can achieve a Hamiltonian exhibiting maximum QB power, with respect to a normalized evolution time, growing quadratically with $n$. Therefore, supercharging can be achieved by $O(n)$ terms of multipartite connections. The time constraint required by the adiabatic approximation can be surpassed by considering a counter-diabatic expansion in terms of the gauge potential for the original Hamiltonian, with a limited $O(n)$ many-body interaction terms assured via a Floquet approach for the counter-diabatic implementation.
翻訳日:2024-06-24 13:03:22 公開日:2024-06-21
# 言語モデルのための認知地図:世界モデルを垂直に表現する最適な計画法

Cognitive Map for Language Models: Optimal Planning via Verbally Representing the World Model ( http://arxiv.org/abs/2406.15275v1 )

ライセンス: Link先を確認
Doyoung Kim, Jongwon Lee, Jinho Park, Minjoon Seo, (参考訳) 言語モデルは、様々な自然言語処理タスクにおいて印象的な能力を示してきたが、多段階シミュレーションを必要とする計画タスクには苦労している。 本稿では,人間の認知過程に触発されて,与えられた環境の認知マップを構築することができる言語モデルの最適計画能力について検討する。 本実験は,Gridworldパス計画タスクにおいて,認知マップが最適かつ到達可能な計画生成能力の両方の性能を著しく向上することを示す。 本稿では,人間の認知に類似した2つの重要な特徴として,環境外挿における計画能力の一般化と,限られたトレーニングデータによる迅速な適応を示す。 言語モデルにおける人間の認知プロセスのモデル化に関する洞察を提供するGridworldタスクにおける私たちの発見が、人間の認知によく似た、より高度で堅牢なシステムの開発につながることを願っています。

Language models have demonstrated impressive capabilities across various natural language processing tasks, yet they struggle with planning tasks requiring multi-step simulations. Inspired by human cognitive processes, this paper investigates the optimal planning power of language models that can construct a cognitive map of a given environment. Our experiments demonstrate that cognitive map significantly enhances the performance of both optimal and reachable planning generation ability in the Gridworld path planning task. We observe that our method showcases two key characteristics similar to human cognition: \textbf{generalization of its planning ability to extrapolated environments and rapid adaptation with limited training data.} We hope our findings in the Gridworld task provide insights into modeling human cognitive processes in language models, potentially leading to the development of more advanced and robust systems that better resemble human cognition.
翻訳日:2024-06-24 13:03:22 公開日:2024-06-21
# クロスモダリティ安全アライメント

Cross-Modality Safety Alignment ( http://arxiv.org/abs/2406.15279v1 )

ライセンス: Link先を確認
Siyin Wang, Xingsong Ye, Qinyuan Cheng, Junwen Duan, Shimin Li, Jinlan Fu, Xipeng Qiu, Xuanjing Huang, (参考訳) 人工知能(AGI)が人間の生活の様々な側面に統合されるにつれて、そのようなシステムの安全性と倫理的整合性が最優先される。 従来の研究は主に単一モダリティの脅威に焦点が当てられていたが、これは相互モダリティ相互作用の統合的で複雑な性質を考えると十分ではないかもしれない。 我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。 具体的には、単一のモダリティが独立して安全であるが、組み合わせると安全でない、あるいは非倫理的なアウトプットにつながる可能性がある場合を考える。 この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。 GPT-4V や LLaVA などのオープンソース LVLM の安全性の重大な脆弱性が明らかになった。

As Artificial General Intelligence (AGI) becomes increasingly integrated into various facets of human life, ensuring the safety and ethical alignment of such systems is paramount. Previous studies primarily focus on single-modality threats, which may not suffice given the integrated and complex nature of cross-modality interactions. We introduce a novel safety alignment challenge called Safe Inputs but Unsafe Output (SIUO) to evaluate cross-modality safety alignment. Specifically, it considers cases where single modalities are safe independently but could potentially lead to unsafe or unethical outputs when combined. To empirically investigate this problem, we developed the SIUO, a cross-modality benchmark encompassing 9 critical safety domains, such as self-harm, illegal activities, and privacy violations. Our findings reveal substantial safety vulnerabilities in both closed- and open-source LVLMs, such as GPT-4V and LLaVA, underscoring the inadequacy of current models to reliably interpret and respond to complex, real-world scenarios.
翻訳日:2024-06-24 13:03:22 公開日:2024-06-21
# 産業用BMCソフトウェア検証における区間解析--事例研究

Interval Analysis in Industrial-Scale BMC Software Verifiers: A Case Study ( http://arxiv.org/abs/2406.15281v1 )

ライセンス: Link先を確認
Rafael Sá Menezes, Edoardo Manino, Fedor Shmarov, Mohannad Aldughaim, Rosiane de Freitas, Lucas C. Cordeiro, (参考訳) BMC(Bunded Model Checking)は、広く使われているソフトウェア検証手法である。 その成功にもかかわらず、この技術には、状態空間の爆発から完全性の欠如まで、いくつかの制限要因がある。 長年にわたり、これらの制限に対する部分解として区間解析が何度も提案されてきた。 本研究では,時間間隔解析の計算コストがBMCの性能を大幅に向上させ,その使用を正当化するか否かを評価する。 より詳しくは、Intel Core Power Managementファームウェアと、International Competition on Software VerificationのReachSafetyカテゴリの9537プログラムの2つのベンチマークでインターバル分析の利点を定量化する。 その結果,203個のベンチマークを解くには区間解析が不可欠であることが示唆された。

Bounded Model Checking (BMC) is a widely used software verification technique. Despite its successes, the technique has several limiting factors, from state-space explosion to lack of completeness. Over the years, interval analysis has repeatedly been proposed as a partial solution to these limitations. In this work, we evaluate whether the computational cost of interval analysis yields significant enough improvements in BMC's performance to justify its use. In more detail, we quantify the benefits of interval analysis on two benchmarks: the Intel Core Power Management firmware and 9537 programs in the ReachSafety category of the International Competition on Software Verification. Our results show that interval analysis is essential in solving 203 unique benchmarks.
翻訳日:2024-06-24 13:03:22 公開日:2024-06-21
# FT-AED:早期高速道路交通異常事象検出のためのベンチマークデータセット

FT-AED: Benchmark Dataset for Early Freeway Traffic Anomalous Event Detection ( http://arxiv.org/abs/2406.15283v1 )

ライセンス: Link先を確認
Austin Coursey, Junyi Ji, Marcos Quinones-Grueiro, William Barbour, Yuhang Zhang, Tyler Derr, Gautam Biswas, (参考訳) 事故などの高速道路上の異常事象の早期かつ正確な検出は、緊急応答とクリアランスを改善することができる。 しかし、イベント識別や報告における既存の遅延やエラーは、解決が難しい問題である。 現在の大規模高速道路交通データセットは、異常検出のために設計されておらず、これらの課題を無視している。 本稿では,自動検出のための大規模レーンレベル高速道路交通データセットについて紹介する。 当社のデータセットは、ナッシュビルに向かう州間高速道路24号線の18マイル延長に沿って、4車線で収集された1週間のレーダー検知センサーデータからできており、計370万件以上のセンサーが測定されている。 また、ナッシュビル交通管理センターから公式のクラッシュレポートを収集し、データセット内の他のあらゆる潜在的な異常を手動でラベル付けします。 将来の機械学習とトラフィック研究でデータセットが使用される可能性を示すため、データセット上の多数のディープラーニング異常検出モデルをベンチマークした。 教師なしグラフニューラルネットワークオートエンコーダは,この問題に対して有望な解決策であり,空間的関係を無視すると性能が低下することがわかった。 我々は,事故の75%を検知しながら,報告遅延を平均10分以上低減できることを実証した。 私たちのデータセットと開始に必要なすべての前処理コードは、将来の研究を促進するためにhttps://vu.edu/ft-aed/で公開されています。

Early and accurate detection of anomalous events on the freeway, such as accidents, can improve emergency response and clearance. However, existing delays and errors in event identification and reporting make it a difficult problem to solve. Current large-scale freeway traffic datasets are not designed for anomaly detection and ignore these challenges. In this paper, we introduce the first large-scale lane-level freeway traffic dataset for anomaly detection. Our dataset consists of a month of weekday radar detection sensor data collected in 4 lanes along an 18-mile stretch of Interstate 24 heading toward Nashville, TN, comprising over 3.7 million sensor measurements. We also collect official crash reports from the Nashville Traffic Management Center and manually label all other potential anomalies in the dataset. To show the potential for our dataset to be used in future machine learning and traffic research, we benchmark numerous deep learning anomaly detection models on our dataset. We find that unsupervised graph neural network autoencoders are a promising solution for this problem and that ignoring spatial relationships leads to decreased performance. We demonstrate that our methods can reduce reporting delays by over 10 minutes on average while detecting 75% of crashes. Our dataset and all preprocessing code needed to get started are publicly released at https://vu.edu/ft-aed/ to facilitate future research.
翻訳日:2024-06-24 12:53:38 公開日:2024-06-21
# ギリシャ語ポッドキャストコーパス:弱教師付きデータを用いた低リソース言語のための競合音声モデル

The Greek podcast corpus: Competitive speech models for low-resourced languages with weakly supervised data ( http://arxiv.org/abs/2406.15284v1 )

ライセンス: Link先を確認
Georgios Paraskevopoulos, Chara Tsoukala, Athanasios Katsamanis, Vassilis Katsouros, (参考訳) デジタル表現が限られている言語のための音声技術の開発は、主に利用可能なデータの不足のために大きな課題となっている。 この問題は、大規模なデータ集約型モデルの時代において悪化している。 最近の研究は、弱い監督を利用して利用可能なデータのプールを拡大する可能性を強調している。 本研究では、ポッドキャストから800時間の現代ギリシア語コーパスをコンパイルし、Whisper large-v3を用いて銀の転写を生成する。 このコーパスをモデル微調整に利用し、ASR性能向上におけるこのアプローチの有効性を評価することを目的としている。 我々の分析は16の異なるポッドキャストドメインにまたがっており、また現代ギリシャの確立したデータセットの評価も行っている。 この結果は、データボリュームとモデルサイズの両方の増加に関連する、一貫したWERの改善を示している。 本研究は,大規模・弱教師付きコーパスを組み立てることが,低リソース言語における音声技術の進歩に費用対効果をもたらすことを確認した。

The development of speech technologies for languages with limited digital representation poses significant challenges, primarily due to the scarcity of available data. This issue is exacerbated in the era of large, data-intensive models. Recent research has underscored the potential of leveraging weak supervision to augment the pool of available data. In this study, we compile an 800-hour corpus of Modern Greek from podcasts and employ Whisper large-v3 to generate silver transcriptions. This corpus is utilized to fine-tune our models, aiming to assess the efficacy of this approach in enhancing ASR performance. Our analysis spans 16 distinct podcast domains, alongside evaluations on established datasets for Modern Greek. The findings indicate consistent WER improvements, correlating with increases in both data volume and model size. Our study confirms that assembling large, weakly supervised corpora serves as a cost-effective strategy for advancing speech technologies in under-resourced languages.
翻訳日:2024-06-24 12:53:38 公開日:2024-06-21
# 直径4の木の状態伝達と読み出し時間

State Transfer and Readout Times for Trees of Diameter 4 ( http://arxiv.org/abs/2406.15289v1 )

ライセンス: Link先を確認
Stephen Kirkland, Christopher M. van Bommel, (参考訳) 連続時間量子ウォークの直径4の木上における状態伝達特性について考察する。 我々は、直径4の木の強いスペクトルの頂点の全ての対を特徴付け、それらが3つの異なるタイプの対に落ちることを発見した。 それぞれのタイプに対して、一対の強スペクトル頂点の間にかなり良い状態遷移が存在するような、無限の直径 4 本の木の族を構築する。 さらに、これらの2つのタイプに対して、無限族の各木に対して、状態移動の忠実度が1ドルに収束する明示的な読み出し時間列を与える。 残りの型の強いコスペクトルの頂点に対して、木列と明示的な読み出し時間を特定して、強いコスペクトルの頂点間の状態移動の忠実さが1.$に近づき、独立な関心の結果としても証明する: 時刻が t_k$ の頂点間の状態移動の忠実度が $k \rightarrow \infty に収束すると、$t_k$ の忠実度微分は $k \rightarrow \infty として$0$に収束する。 $

We consider the state transfer properties of continuous time quantum walks on trees of diameter 4. We characterize all pairs of strongly cospectral vertices in trees of diameter 4, finding that they fall into pairs of three different types. For each type, we construct an infinite family of diameter 4 trees for which there is pretty good state transfer between the pair of strongly cospectral vertices. Moreover, for two of those types, for each tree in the infinite family, we give an explicit sequence of readout times at which the fidelity of state transfer converges to $1$. For strongly cospectral vertices of the remaining type, we identify a sequence of trees and explicit readout times so that the fidelity of state transfer between the strongly cospectral vertices approaches $1.$ We also prove a result of independent interest: for a graph with the property that the fidelity of state transfer between a pair of vertices at time $t_k$ converges to $1$ as $k \rightarrow \infty,$ then the derivative of the fidelity at $t_k$ converges to $0$ as $k \rightarrow \infty. $
翻訳日:2024-06-24 12:53:38 公開日:2024-06-21
# ハイコストベイズ最適化における悲観的非同期サンプリング

Pessimistic asynchronous sampling in high-cost Bayesian optimization ( http://arxiv.org/abs/2406.15291v1 )

ライセンス: Link先を確認
Amanda A. Volk, Kristofer G. Reyes, Jeffrey G. Ethier, Luke A. Baldwin, (参考訳) 非同期ベイズ最適化(英: Asynchronous Bayesian optimization)は、実験システムと非結合ワークフローの並列操作を可能にする、最近実装された手法である。 各実験で測定を行った後、個別に実験を1回ずつ選択するシリアルベイズ最適化とは対照的に、非同期ポリシは測定を行う前に連続的に複数の実験を割り当て、新しい測定を利用できるようにし、継続的に評価する。 この技術はデータ生成を高速化し、実験空間の最適化を高速化する。 この研究は、トレーニングデータセットに悲観的な予測を組み込んだ4つの追加ポリシーを評価することで、先行研究を超えて非同期最適化手法の能力を拡張した。 従来のグリーディポリシと組み合わせて, シミュレーション環境で5つの合計ポリシを評価し, シリアルサンプリングでベンチマークした。 いくつかの条件とパラメータ空間次元の下では、悲観的非同期ポリシーは等価なシリアルポリシーよりもはるかに少ない実験で最適実験条件に達し、より高次元の局所的最適性への収束に弱いことが証明された。 この研究で示された悲観的非同期アルゴリズムは、より高速なサンプリングレートを考慮せずに、より効率的なアルゴリズム駆動による高コスト実験空間の最適化をもたらす可能性がある。 サンプリングレートを考慮すると、提案した非同期アルゴリズムは、結果が収集される前に複数の実験を実行できる実験空間において、より高速な最適化を可能にする。

Asynchronous Bayesian optimization is a recently implemented technique that allows for parallel operation of experimental systems and disjointed workflows. Contrasting with serial Bayesian optimization which individually selects experiments one at a time after conducting a measurement for each experiment, asynchronous policies sequentially assign multiple experiments before measurements can be taken and evaluate new measurements continuously as they are made available. This technique allows for faster data generation and therefore faster optimization of an experimental space. This work extends the capabilities of asynchronous optimization methods beyond prior studies by evaluating four additional policies that incorporate pessimistic predictions in the training data set. Combined with a conventional greedy policy, the five total policies were evaluated in a simulated environment and benchmarked with serial sampling. Under some conditions and parameter space dimensionalities, the pessimistic asynchronous policy reached optimum experimental conditions in significantly fewer experiments than equivalent serial policies and proved to be less susceptible to convergence onto local optima at higher dimensions. Without accounting for the faster sampling rate, the pessimistic asynchronous algorithm presented in this work could result in more efficient algorithm driven optimization of high-cost experimental spaces. Accounting for sampling rate, the presented asynchronous algorithm could allow for faster optimization in experimental spaces where multiple experiments can be run before results are collected.
翻訳日:2024-06-24 12:53:38 公開日:2024-06-21
# Grants4Companies: Applying Declarative Methods for Recommending and Reasoning about Business Grants in the Austrian Public Administration (System Description)

Grants4Companies: Applying Declarative Methods for Recommending and Reasoning About Business Grants in the Austrian Public Administration (System Description) ( http://arxiv.org/abs/2406.15293v1 )

ライセンス: Link先を確認
Björn Lellmann, Philipp Marek, Markus Triska, (参考訳) アプリケーションGrants4Companiesの基盤となる手法と技術について述べる。 アプリケーションはロジックベースのエキスパートシステムを使用して、ログインしたビジネスに適したビジネス補助金のリストを表示する。 認可の適合性を評価するため、オーストリアの行政機関の登録簿から取得した事業の財産に対して、その条件の形式的表現を評価する。 付与条件の表現のための論理言語は、S-表現に基づいている。 さらに、形式化された認可条件に対する推論の証明的実装について述べる。 概念実証はCommon LispとScryer Prologで実装された推論エンジンで実装されている。 この申請は最近実演され、オーストリア連邦大蔵省のビジネスサービスポータルの一部として提供されている。

We describe the methods and technologies underlying the application Grants4Companies. The application uses a logic-based expert system to display a list of business grants suitable for the logged-in business. To evaluate suitability of the grants, formal representations of their conditions are evaluated against properties of the business, taken from the registers of the Austrian public administration. The logical language for the representations of the grant conditions is based on S-expressions. We further describe a Proof of Concept implementation of reasoning over the formalised grant conditions. The proof of concept is implemented in Common Lisp and interfaces with a reasoning engine implemented in Scryer Prolog. The application has recently gone live and is provided as part of the Business Service Portal by the Austrian Federal Ministry of Finance.
翻訳日:2024-06-24 12:53:38 公開日:2024-06-21
# 自然言語処理における科学文献探索システムNLP-KG

NLP-KG: A System for Exploratory Search of Scientific Literature in Natural Language Processing ( http://arxiv.org/abs/2406.15294v1 )

ライセンス: Link先を確認
Tim Schopf, Florian Matthes, (参考訳) 科学文献の検索はしばしば探索的であり、ユーザーは特定の分野や概念に慣れていないが、それについてもっと学ぶことに興味がある。 しかし、科学文献検索のための既存のシステムは、通常キーワードベースのルックアップ検索に適合し、探索の可能性を制限する。 本研究では,NLP分野の研究文献の探索を支援する機能豊富なシステムであるNLP-KGを提案する。 セマンティック検索に加えて、NLP-KGは興味のある分野への簡単な紹介を提供する調査論文を簡単に見つけることができる。 さらに、フィールド・オブ・スタディ(Fields of Study)階層グラフにより、ユーザーはフィールドとその関連領域に慣れることができる。 最後に、チャットインタフェースにより、NLPにおける馴染みのない概念や特定の記事について質問し、科学的出版物から検索した知識に基づく回答を得ることができる。 本システムは,ユーザに対して,さまざまな分野間の関係の調査,NLPにおける馴染みのない概念の理解,研究文献の検索など,包括的な探索可能性を提供する。 デモ、ビデオ、コードは、https://github.com/NLP-Knowledge-Graph/NLP-KG-WebAppで入手できる。

Scientific literature searches are often exploratory, whereby users are not yet familiar with a particular field or concept but are interested in learning more about it. However, existing systems for scientific literature search are typically tailored to keyword-based lookup searches, limiting the possibilities for exploration. We propose NLP-KG, a feature-rich system designed to support the exploration of research literature in unfamiliar natural language processing (NLP) fields. In addition to a semantic search, NLP-KG allows users to easily find survey papers that provide a quick introduction to a field of interest. Further, a Fields of Study hierarchy graph enables users to familiarize themselves with a field and its related areas. Finally, a chat interface allows users to ask questions about unfamiliar concepts or specific articles in NLP and obtain answers grounded in knowledge retrieved from scientific publications. Our system provides users with comprehensive exploration possibilities, supporting them in investigating the relationships between different fields, understanding unfamiliar concepts in NLP, and finding relevant research literature. Demo, video, and code are available at: https://github.com/NLP-Knowledge-Graph/NLP-KG-WebApp.
翻訳日:2024-06-24 12:53:38 公開日:2024-06-21
# 高構成システムの進化過程における特徴指向テストケースの選択と優先順位付け

Feature-oriented Test Case Selection and Prioritization During the Evolution of Highly-Configurable Systems ( http://arxiv.org/abs/2406.15296v1 )

ライセンス: Link先を確認
Willian D. F. Mendonça, Wesley K. G. Assunção, Silvia R. Vergilio, (参考訳) 高度に構成可能なシステム(HCS)をテストすることは、特に機能の追加、変更、削除といった進化シナリオにおいて、テストケースの選択と優先順位付けを妨げている課題である。 既存の作業は通常、変分モデルに基づいています。 しかし、いくつかの既存のアプローチでは、テストケースと変更ファイル(またはコード行)のリンクに依存しており、機能がどのように実装されているかは考慮していない。 これらの制限を克服するために,機能指向のテストケース選択とHCSの優先順位付けアプローチであるFeaTestSelPrioを紹介した。 このアプローチは、テストケースをHCSプリプロセッサディレクティブを使用して機能実装にリンクし、コミット毎に変更によって影響を受ける機能に基づいてテストケースを選択する。 その後、テストケースは、カバーする機能の数に応じて優先順位付けされる。 当社のアプローチでは,多数のテストを選択し,ベースラインとして使用される変更ファイル指向アプローチよりも実行に時間がかかるが,検出された障害に関して,FeaTestSelPrioの方がパフォーマンスがよい。 選択したテストケースの実行時間にアプローチの実行時間を追加することで、retest-allと比較して$\approx$50%削減しました。 優先順位付けのステップでは、失敗するコミットの86%で、平均的なテスト予算を削減できます。

Testing Highly Configurable Systems (HCSs) is a challenging task, especially in an evolution scenario where features are added, changed, or removed, which hampers test case selection and prioritization. Existing work is usually based on the variability model, which is not always available or updated. Yet, the few existing approaches rely on links between test cases and changed files (or lines of code), not considering how features are implemented, usually spread over several and unchanged files. To overcome these limitations, we introduce FeaTestSelPrio, a feature-oriented test case selection and prioritization approach for HCSs. The approach links test cases to feature implementations, using HCS pre-processor directives, to select test cases based on features affected by changes in each commit. After, the test cases are prioritized according to the number of features they cover. Our approach selects a greater number of tests and takes longer to execute than a changed-file-oriented approach, used as baseline, but FeaTestSelPrio performs better regarding detected failures. By adding the approach execution time to the execution time of the selected test cases, we reached a reduction of $\approx$50%, in comparison with retest-all. The prioritization step allows reducing the average test budget in 86% of the failed commits.
翻訳日:2024-06-24 12:53:38 公開日:2024-06-21
# 物理インフォームドグラフニューラルネットワークによる極氷層の時空間パターンの学習

Learning Spatio-Temporal Patterns of Polar Ice Layers With Physics-Informed Graph Neural Network ( http://arxiv.org/abs/2406.15299v1 )

ライセンス: Link先を確認
Zesheng Liu, Maryam Rahnemoonfar, (参考訳) 極氷層の時空間パターンの学習は,氷床のバランスの変化を監視し,氷の動的過程を評価する上で重要である。 数人の研究者が、異なる畳み込みニューラルネットワークを介して、空中雪レーダーセンサーが捉えたエコー画像から、氷の層パターンを学ぶことに集中しているが、エコー画像のノイズは大きな障害であることが証明されている。 代わりに、グラフニューラルネットワークに基づく幾何学的深層学習に注目し、浅い氷層の厚さ情報から時空間パターンを学習し、深層予測を行う。 本稿では、グラフ特徴学習のためのGraphSAGEフレームワークと、時間変化を学習するための長期記憶(LSTM)構造を組み合わせた物理インフォーマルなハイブリッドグラフニューラルネットワークを提案し、物理ノードの特徴としてモデル大気地域(MAR)気象モデルから物理氷特性の測定を導入する。 提案するネットワークは,氷層厚の予測において,現在の非誘導的あるいは非物理的モデルより一貫して優れていることがわかった。

Learning spatio-temporal patterns of polar ice layers is crucial for monitoring the change in ice sheet balance and evaluating ice dynamic processes. While a few researchers focus on learning ice layer patterns from echogram images captured by airborne snow radar sensors via different convolutional neural networks, the noise in the echogram images proves to be a major obstacle. Instead, we focus on geometric deep learning based on graph neural networks to learn the spatio-temporal patterns from thickness information of shallow ice layers and make predictions for deep layers. In this paper, we propose a physics-informed hybrid graph neural network that combines the GraphSAGE framework for graph feature learning with the long short-term memory (LSTM) structure for learning temporal changes, and introduce measurements of physical ice properties from Model Atmospheric Regional (MAR) weather model as physical node features. We found that our proposed network can consistently outperform the current non-inductive or non-physical model in predicting deep ice layer thickness.
翻訳日:2024-06-24 12:53:38 公開日:2024-06-21
# 高速28画素パラレルSNSPDを用いた高光子数効率

High photon-number efficiencies with a fast 28-pixel parallel SNSPD ( http://arxiv.org/abs/2406.15312v1 )

ライセンス: Link先を確認
Lorenzo Stasi, Towsif Taher, Giovanni V. Resta, Hugo Zbinden, Rob Thew, Félix Bussières, (参考訳) その誕生以来、超伝導ナノワイヤ単光子検出器は量子光学応用とフォトニック量子産業の興隆を可能にしてきた。 検出器の設計と読み出し戦略の進化により、複数の独立画素を持つデバイスが導入され、高速なシステム検出効率で動作し、光子数分解能もサポートした。 しかし、これは、配列の各ピクセルに1つの同軸ケーブルを必要とする複雑な読み出しのコストが伴う。 本稿では,1本の同軸線で単純な読み出しを保ちながら,低性能で高速に動作できる28画素のSNSPDを報告する。 デバイスは最大1光子効率(SDE)が88%で、SDEを50%以上維持でき、80〜ps未満のタイミングジッタと、検出レートが2億秒/秒(Mcps)に達する。 検出器はまた、2光子効率75%、3光子効率60%の最先端のPNR性能も提供する。

Since their inception, superconducting nanowire single-photon detectors have been enabling quantum optical applications and the rise of the photonic quantum industry. The evolution in the detector design and read-out strategies has led to the introduction of devices with a plurality of independent pixels, which have been able to operate with high system detection efficiency at high speed while also supporting photon number resolution capabilities. However, this comes at the cost of a complex readout that requires one coaxial cable for each pixel of the array. Here, we report a 28-pixel SNSPD with a dedicated parallel architecture that, while maintaining a simple readout with a single coaxial line, enables the detector to operate at high speed with low-performance degradation. The device shows a maximum single-photon efficiency (SDE) of 88% and is able to maintain its SDE above 50%, coupled with a timing jitter lower than 80~ps, up to a detection rate of 200 million counts per second (Mcps). The detector also provides state-of-the-art PNR performances with a 2-photon efficiency of 75% and a 3-photon efficiency of 60%.
翻訳日:2024-06-24 12:53:38 公開日:2024-06-21
# STARD: 非プロフェッショナルが発行したリアルなクエリを備えた中国の統計検索データセット

STARD: A Chinese Statute Retrieval Dataset with Real Queries Issued by Non-professionals ( http://arxiv.org/abs/2406.15313v1 )

ライセンス: Link先を確認
Weihang Su, Yiran Hu, Anzhe Xie, Qingyao Ai, Zibing Que, Ning Zheng, Yun Liu, Weixing Shen, Yiqun Liu, (参考訳) ルール検索は、特定のクエリに関する関連する法定項目を見つけることを目的としている。 このプロセスは、法的な助言、自動化された司法判断、法的文書の起草など、幅広い法的応用の基礎となっている。 既存の法定検索ベンチマークでは、司法試験や訴訟文書などのソースからの正式なクエリと専門的なクエリに焦点が当てられている。 このギャップに対処するために,現実世界の法的協議から収集された1,543のクエリケースと,55,348の候補法定項目からなる中国語データセットであるSTAtute Retrieval Dataset (STARD)を紹介した。 専門的な法的クエリに重点を置く既存の法定検索データセットとは異なり、STARDは一般からの実際のクエリの複雑さと多様性をキャプチャする。 各種検索基準を総合的に評価することにより, 既存の検索手法は, プロでないユーザによる実際のクエリには及ばないことが明らかとなった。 最良の方法は0.907のRecall@100しか達成せず、さらなる探査とさらなる研究の必要性を示唆している。 https://github.com/oneal2000/STARD/tree/main

Statute retrieval aims to find relevant statutory articles for specific queries. This process is the basis of a wide range of legal applications such as legal advice, automated judicial decisions, legal document drafting, etc. Existing statute retrieval benchmarks focus on formal and professional queries from sources like bar exams and legal case documents, thereby neglecting non-professional queries from the general public, which often lack precise legal terminology and references. To address this gap, we introduce the STAtute Retrieval Dataset (STARD), a Chinese dataset comprising 1,543 query cases collected from real-world legal consultations and 55,348 candidate statutory articles. Unlike existing statute retrieval datasets, which primarily focus on professional legal queries, STARD captures the complexity and diversity of real queries from the general public. Through a comprehensive evaluation of various retrieval baselines, we reveal that existing retrieval approaches all fall short of these real queries issued by non-professional users. The best method only achieves a Recall@100 of 0.907, suggesting the necessity for further exploration and additional research in this area. All the codes and datasets are available at: https://github.com/oneal2000/STARD/tree/main
翻訳日:2024-06-24 12:53:38 公開日:2024-06-21
# LongRAG:Long-context LLMを用いた検索拡張ジェネレーションの実現

LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs ( http://arxiv.org/abs/2406.15319v1 )

ライセンス: Link先を確認
Ziyan Jiang, Xueguang Ma, Wenhu Chen, (参考訳) 従来のRAGフレームワークでは、基本的な検索ユニットは通常短い。 DPRのような一般的なレトリバーは、通常100ワードのウィキペディアの段落で機能する。 このような設計は、レトリバーが大きなコーパスを探索して 'needle' ユニットを見つけることを強制する。 対照的に、読者は短い検索単位からのみ回答を抽出する。 このような不均衡な‘heavy’レトリバーと‘light’リーダの設計は、準最適パフォーマンスをもたらす可能性がある。 本研究では,この不均衡を緩和するために,「ロングレトリバー」と「ロングレトリバー」からなる新しいフレームワークであるLongRAGを提案する。 LongRAGはウィキペディア全体を4Kトーケン単位に処理し、これは以前より30倍長くなる。 ユニットサイズを大きくすることで、総ユニット数を2200万から700万に大幅に削減する。 回答リコール@1=71%(以前は52%)、回答リコール@2=72%(以前は47%)はHotpotQA(Full-wiki)である。 次に、取得したトップk単位($30K トークン)を既存の長文 LLM に供給し、ゼロショット応答抽出を行う。 トレーニングを必要とせずに、LongRAGはNQで62.7%のEMを達成している。 LongRAGはまた、SoTAモデルと同等のHotpotQA(Full-wiki)で64.3%を達成した。 本稿では,RAGと長期LLMを組み合わせるための今後のロードマップについて考察する。

In traditional RAG framework, the basic retrieval units are normally short. The common retrievers like DPR normally work with 100-word Wikipedia paragraphs. Such a design forces the retriever to search over a large corpus to find the `needle' unit. In contrast, the readers only need to extract answers from the short retrieved units. Such an imbalanced `heavy' retriever and `light' reader design can lead to sub-optimal performance. In order to alleviate the imbalance, we propose a new framework LongRAG, consisting of a `long retriever' and a `long reader'. LongRAG processes the entire Wikipedia into 4K-token units, which is 30x longer than before. By increasing the unit size, we significantly reduce the total units from 22M to 700K. This significantly lowers the burden of retriever, which leads to a remarkable retrieval score: answer recall@1=71% on NQ (previously 52%) and answer recall@2=72% (previously 47%) on HotpotQA (full-wiki). Then we feed the top-k retrieved units ($\approx$ 30K tokens) to an existing long-context LLM to perform zero-shot answer extraction. Without requiring any training, LongRAG achieves an EM of 62.7% on NQ, which is the best known result. LongRAG also achieves 64.3% on HotpotQA (full-wiki), which is on par of the SoTA model. Our study offers insights into the future roadmap for combining RAG with long-context LLMs.
翻訳日:2024-06-24 12:53:38 公開日:2024-06-21
# マスクビューによるリモートセンシング変化検出の再考

Rethinking Remote Sensing Change Detection With A Mask View ( http://arxiv.org/abs/2406.15320v1 )

ライセンス: Link先を確認
Xiaowen Ma, Zhenkai Wu, Rongrong Lian, Wei Zhang, Siyang Song, (参考訳) リモートセンシング変化検出は、同じ領域で記録された2つ以上の画像を比較することを目的としているが、異なる時刻スタンプで撮り、地理的実体や環境要因の変化を定量的に質的に評価することを目的としている。 通常、メインストリームモデルはピクセル単位の変更検出パラダイムに基づいて構築され、複雑なシーンや撮像条件の変化による変化の多様性を許容できない。 この欠点に対処するために、マスクビューによる変化検出を再考し、さらにそれに対応するものを提案する。 1)メタアーキテクチャCDMaskおよび 2) インスタンスネットワーク CDMaskFormer。 CDMaskのコンポーネントには、シームズバックボーン、変更抽出器、ピクセルデコーダ、トランスフォーマーデコーダ、正規化検出器が含まれており、マスク検出パラダイムの適切な機能を保証する。 両時間的特徴量に基づいて変更クエリを適応的に更新できるため、提案したCDMaskは異なる潜在データ分布に適応し、複雑なシナリオにおける関心の変化領域を正確に識別することができる。 これにより、変更検出タスク用にカスタマイズされたインスタンスネットワークCDMaskFormerも提案する。 一 時空間的注目に基づく即時変化抽出装置で、軽微な操作と同時に時空間的文脈を捉えること。 (II)より空間的詳細を抽出するためのシーン誘導型軸方向の注意印加型変圧器デコーダ。 CDMaskFormerの最先端性能は、5つのベンチマークデータセットで達成される。 コードはhttps://github.com/xwmaxwma/rschange.comから入手できる。

Remote sensing change detection aims to compare two or more images recorded for the same area but taken at different time stamps to quantitatively and qualitatively assess changes in geographical entities and environmental factors. Mainstream models usually built on pixel-by-pixel change detection paradigms, which cannot tolerate the diversity of changes due to complex scenes and variation in imaging conditions. To address this shortcoming, this paper rethinks the change detection with the mask view, and further proposes the corresponding: 1) meta-architecture CDMask and 2) instance network CDMaskFormer. Components of CDMask include Siamese backbone, change extractor, pixel decoder, transformer decoder and normalized detector, which ensures the proper functioning of the mask detection paradigm. Since the change query can be adaptively updated based on the bi-temporal feature content, the proposed CDMask can adapt to different latent data distributions, thus accurately identifying regions of interest changes in complex scenarios. Consequently, we further propose the instance network CDMaskFormer customized for the change detection task, which includes: (i) a Spatial-temporal convolutional attention-based instantiated change extractor to capture spatio-temporal context simultaneously with lightweight operations; and (ii) a scene-guided axial attention-instantiated transformer decoder to extract more spatial details. State-of-the-art performance of CDMaskFormer is achieved on five benchmark datasets with a satisfactory efficiency-accuracy trade-off. Code is available at https://github.com/xwmaxwma/rschange.
翻訳日:2024-06-24 12:53:38 公開日:2024-06-21
# SPADアレイの背景から2光子干渉効果としての画素間クロストーク

Inter-pixel cross-talk as background to two-photon interference effects in SPAD arrays ( http://arxiv.org/abs/2406.15323v1 )

ライセンス: Link先を確認
Sergei Kulkov, Tereza Potuckova, Ermanno Bernasconi, Claudio Bruschini, Tommaso Milanese, Edoardo Charbon, Mst Shamim Ara Shawkat, Andrei Nomerotski, Peter Svihra, (参考訳) クロストークは単光子雪崩検出器のよく知られた特徴である。 この効果は、センサによって登録された2つ以上の光子の偶然を含む応用において特に重要である。 本研究では,LinoSPAD2検出器のクロストークを特徴付けるとともに,クロストークとハンベリー・ブラウン・ツイス2光子干渉の同時測定を行い,両効果の比較と相互校正を行う。 125 cps/ピクセルの平均暗カウントレートでは、近隣住民の平均クロストーク確率は0.22〜\%であり、最大20ピクセルのチャンネルで分離された2ドル10^{-5}〜\%の長距離クロストークも観測する。

Cross-talk is a well-known feature of single-photon avalanche detectors. It is especially important to account for this effect in applications involving coincidences of two or more photons registered by the sensor since in this case the cross-talk may mimic the useful signal. In this work, we characterize the cross-talk of the LinoSPAD2 detector, as well as perform joint measurements of the cross-talk and Hanbury Brown - Twiss two-photon interference, comparing and cross-calibrating both effects. With a median dark count rate of 125 cps/pixel, we report the average cross-talk probability of $0.22~\%$ for the nearest neighbor and also observe a long-range cross-talk of the order $2 \cdot 10^{-5}~\%$ for channels separated by up to 20 pixels.
翻訳日:2024-06-24 12:53:38 公開日:2024-06-21
# 窒素空力中心量子トリットを用いたスピンスクイージング強化量子磁気量計

Spin Squeezing Enhanced Quantum Magnetometry with Nitrogen-Vacancy Center Qutrits ( http://arxiv.org/abs/2406.15324v1 )

ライセンス: Link先を確認
L. Gassab, Ö. E. Müstecaplıoğlu, (参考訳) 本研究では,標準的なラムゼー干渉法パルスプロトコルを用いて,ダイヤモンド中の3レベル(量子)窒素空洞(NV)中心に着目し,量子磁気学における量子スピンスクイーズの有用性について検討する。 本研究は, リンドブラッド量子マスター方程式を用いてモデル化したラムゼー測度におけるNV中心のダイナミクスに対する脱落と緩和の効果を取り入れたものである。 我々は,1つのNV中心と1対のNV中心の計量的能力の比較分析を行い,スピンスクイーズを伴わない量子フィッシャー情報について検討した。 二次元多様体内の北川-上田スピンスクイーズパラメータの評価により,NV中心間の量子相関性を評価する。 さらに、NV中心のための2レベルモデル(キュービット)を用いて並列計算を行う。 以上の結果から,クエトリットとスピンスクイーズを併用すると,デフォーカス効果に制約された磁力測定精度が向上することが明らかとなった。 それでも、環境騒音を緩和する動的デカップリング法がなくても、スクイーズと自由進化の戦略的タイミングは、クォートベースの磁気メトリーの利点を維持できる。

We explore the utility of quantum spin squeezing in quantum magnetometry, focusing on three-level (qutrit) Nitrogen-Vacancy (NV) centers within diamond, utilizing a standard Ramsey interferometry pulse protocol. Our investigation incorporates the effects of dephasing and relaxation on NV centers' dynamics during Ramsey measurements, modeled via the Lindblad quantum master equation. We conduct a comparative analysis between the metrological capabilities of a single NV center and a pair of NV centers, considering Quantum Fisher Information both with and without spin squeezing. The quantum correlations between NV centers are assessed through the evaluation of the Kitagawa-Ueda spin squeezing parameter within a two-level manifold. Additionally, parallel calculations are conducted using a two-level model (qubit) for NV centers. Our findings reveal that leveraging qutrits and spin squeezing yields enhanced magnetometric precision, albeit constrained by dephasing effects. Nevertheless, even in the absence of dynamical decoupling methods to mitigate environmental noise, strategic timing of squeezing and free evolution can sustain the advantages of qutrit-based magnetometry.
翻訳日:2024-06-24 12:53:38 公開日:2024-06-21
# コードスタックのバグ: LLMは大規模なPythonコードスタックのバグを見つけることができる

Bug In the Code Stack: Can LLMs Find Bugs in Large Python Code Stacks ( http://arxiv.org/abs/2406.15325v1 )

ライセンス: Link先を確認
Hokyung Lee, Sumanyu Sharma, Bing Hu, (参考訳) Needle-in-a-Haystack(NIAH)ベンチマークの最近の研究は、大きなテキスト文書からコンテキスト情報を取得するためのLarge Language Models(LLMs)の機能について調査している。 しかし、LCMがソフトウェア開発プロセスに統合されるにつれて、コードベースの環境での性能を評価することが不可欠である。 LLMは、プログラム合成のためにさらに開発されているので、LLMが構文を理解し、構文的に正しいコードを書くことを確実にする必要がある。 LLMが構文を理解するためのステップとして、LLMは構文バグを発見して検出する能力で評価することができる。 我々のベンチマークであるBug In The Code Stack (BICS)は、大規模なソースコード内の単純な構文バグを識別するLLMの能力を評価するために設計されている。 その結果,(1)検索タスクのテキストベース環境と比較して,コードベースの環境の方が有意に困難であり,(2)異なるモデル間には顕著な性能差があり,(3)長いコンテキスト長と性能劣化との間には顕著な相関関係があるが,その程度はモデルによって異なる。

Recent research in Needle-in-a-Haystack (NIAH) benchmarks has explored the capabilities of Large Language Models (LLMs) in retrieving contextual information from large text documents. However, as LLMs become increasingly integrated into software development processes, it is crucial to evaluate their performance in code-based environments. As LLMs are further developed for program synthesis, we need to ensure that LLMs can understand syntax and write syntactically correct code. As a step in ensuring LLMs understand syntax, LLMs can be evaluated in their ability to find and detect syntax bugs. Our benchmark, Bug In The Code Stack (BICS), is designed to assess the ability of LLMs to identify simple syntax bugs within large source code. Our findings reveal three key insights: (1) code-based environments pose significantly more challenge compared to text-based environments for retrieval tasks, (2) there is a substantial performance disparity among different models, and (3) there is a notable correlation between longer context lengths and performance degradation, though the extent of this degradation varies between models.
翻訳日:2024-06-24 12:43:51 公開日:2024-06-21
# 階層型変圧器における細粒度注意

Fine-grained Attention in Hierarchical Transformers for Tabular Time-series ( http://arxiv.org/abs/2406.15327v1 )

ライセンス: Link先を確認
Raphael Azorin, Zied Ben Houidi, Massimo Gallo, Alessandro Finamore, Pietro Michiardi, (参考訳) タブラルデータは、多くの実生活システムにおいてユビキタスである。 特に、行が時系列的に関連付けられている時間依存の表データは、典型的には歴史的イベント、例えば、金融取引、医療記録、株価履歴を記録するために使用される。 近年,変圧器アーキテクチャのアテンション機構の階層的変化は,表型時系列データのモデル化に利用されている。 最初は、行(または列)は、フィールド間の注意を計算することによって、別々に符号化される。 その後、エンコードされた行(または列)が互いに参加し、表の時系列全体をモデル化する。 このアプローチは効率的だが、注意の粒度を制限し、異なる行や列をまたいだフィールドレベルでパターンを学習する能力を制限する。 このギャップに対処する第一歩として、行レベルと列レベルのフィールドをコンテキスト化する、きめ細かい階層モデルであるFieldyを提案します。 我々は,表表表時系列データセットを用いた回帰・分類タスクの最先端モデルに対する提案を比較検討した。 その結果,行ワイドと列ワイドアテンションを組み合わせることで,モデルサイズを増大させることなく性能が向上することがわかった。 コードとデータはhttps://github.com/raphaaal/fieldy.comで公開されている。

Tabular data is ubiquitous in many real-life systems. In particular, time-dependent tabular data, where rows are chronologically related, is typically used for recording historical events, e.g., financial transactions, healthcare records, or stock history. Recently, hierarchical variants of the attention mechanism of transformer architectures have been used to model tabular time-series data. At first, rows (or columns) are encoded separately by computing attention between their fields. Subsequently, encoded rows (or columns) are attended to one another to model the entire tabular time-series. While efficient, this approach constrains the attention granularity and limits its ability to learn patterns at the field-level across separate rows, or columns. We take a first step to address this gap by proposing Fieldy, a fine-grained hierarchical model that contextualizes fields at both the row and column levels. We compare our proposal against state of the art models on regression and classification tasks using public tabular time-series datasets. Our results show that combining row-wise and column-wise attention improves performance without increasing model size. Code and data are available at https://github.com/raphaaal/fieldy.
翻訳日:2024-06-24 12:43:51 公開日:2024-06-21
# KHATT上のエンド・ツー・エンド・エンド・セグメンテーションフリー・アラビア手書き認識モデル

An End-to-End, Segmentation-Free, Arabic Handwritten Recognition Model on KHATT ( http://arxiv.org/abs/2406.15329v1 )

ライセンス: Link先を確認
Sondos Aabed, Ahmad Khairaldin, (参考訳) KHATTデータベース上での2方向長短項メモリ(BLSTM)と接続性時間分類(CTC)損失関数(CTC)とともに,特徴抽出にDCNNを活用することによって,スクラッチから学習したエンドツーエンドのセグメンテーションフリー深層学習モデルを提案する。 トレーニングフェーズは、文字レベルでのテストデータセットでの認識率84%、単語レベルでは71%を達成し、行レベルでのみセグメンテーションを行わずに動作する画像ベースのシーケンス認識フレームワークを確立する。 KFUPMの手書きアラビア語 TexT (KHATT) データベースの解析と前処理についても述べる。 最後に,フィルタリング,変換,線分分割などの高度な画像処理技術を実装した。 この作業の重要性は、広範囲のアプリケーションによって強調されている。 銀行などの分野におけるデジタル化、文書化、アーカイブ、テキスト翻訳を含む。 さらに、AHRは画像を検索しやすくし、情報検索機能を強化し、無駄な編集を可能にするための重要なツールとして機能する。 この機能はアラビアデータ編成や操作などのタスクに必要な時間と労力を大幅に削減する。

An end-to-end, segmentation-free, deep learning model trained from scratch is proposed, leveraging DCNN for feature extraction, alongside Bidirectional Long-Short Term Memory (BLSTM) for sequence recognition and Connectionist Temporal Classification (CTC) loss function on the KHATT database. The training phase yields remarkable results 84% recognition rate on the test dataset at the character level and 71% on the word level, establishing an image-based sequence recognition framework that operates without segmentation only at the line level. The analysis and preprocessing of the KFUPM Handwritten Arabic TexT (KHATT) database are also presented. Finally, advanced image processing techniques, including filtering, transformation, and line segmentation are implemented. The importance of this work is highlighted by its wide-ranging applications. Including digitizing, documentation, archiving, and text translation in fields such as banking. Moreover, AHR serves as a pivotal tool for making images searchable, enhancing information retrieval capabilities, and enabling effortless editing. This functionality significantly reduces the time and effort required for tasks such as Arabic data organization and manipulation.
翻訳日:2024-06-24 12:43:51 公開日:2024-06-21
# グラディエントマスクチューニングはLLM性能の上限を上昇させる

Gradient-Mask Tuning Elevates the Upper Limits of LLM Performance ( http://arxiv.org/abs/2406.15330v1 )

ライセンス: Link先を確認
Haoling Li, Xin Zhang, Xiao Liu, Yeyun Gong, Yifan Wang, Yujiu Yang, Qi Chen, Peng Cheng, (参考訳) 大規模言語モデル(LLM)は多くの研究分野に革命をもたらした。 LLMの能力を高めるには微調整が不可欠であることが知られているが、既存の研究は微調整プロセスに潜在的な冗長性があることを示唆しており、パラメータのサブセットだけを更新することを提案している。 しかし、これらの手法は、トレーニング中に重要なパラメータを特定するためにタスク固有の情報を活用することができない。 グラディエント・マスク・チューニング(GMT, Gradient-Mask Tuning, Gradient-Mask Tuning, GMT)は, 勾配情報に基づいて学習中のパラメータを選択的に更新する手法である。 具体的には、勾配の絶対値を計算し、比較的小さな大きさのものにマスキングを適用する。 実験結果から, GMTは従来の微調整法に勝るだけでなく, LLM性能の上限も高めることが示された。 さらに分析したところ、GMTはマスク比に敏感であり、バニラSFTに匹敵する計算効率を有することが示された。

Large language models (LLMs) have revolutionized lots of fields of research. Although it is well-known that fine-tuning is essential for enhancing the capabilities of LLMs, existing research suggests that there is potential redundancy in the fine-tuning process and therefore proposes to update only a subset of parameters. However, these methods fail to leverage the task-specific information to identify important parameters during training. Based on the insight that gradients inherently contain information on task-specific data, we propose Gradient-Mask Tuning (GMT), a method that selectively updates parameters during training based on their gradient information. Specifically, we compute the absolute values of the gradients and apply masking to those with relatively smaller magnitudes. Our empirical results across various tasks demonstrate that GMT not only outperforms traditional fine-tuning methods but also elevates the upper limits of LLM performance. Further analysis indicates that GMT exhibits insensitivity to mask ratio and possesses computational efficiency comparable to vanilla SFT.
翻訳日:2024-06-24 12:43:51 公開日:2024-06-21
# Masked、ゼロショットのバーチャル・トライオンに注意を喚起

Masked Extended Attention for Zero-Shot Virtual Try-On In The Wild ( http://arxiv.org/abs/2406.15331v1 )

ライセンス: Link先を確認
Nadav Orzech, Yotam Nitzan, Ulysse Mizrahi, Dov Danon, Amit H. Bermano, (参考訳) VTON(Virtual Try-On)は、需要の増加とともに、非常に活発な研究分野である。 人物や衣服の特徴を保ち、イメージの忠実さを保ちながら、画像中の衣服を別のものに置き換えることを目的としている。 現在の文献では、タスクの教師付きアプローチを採用し、一般化を損なうとともに、重い計算を課している。 本稿では,衣服を基準に塗布するゼロショットトレーニングフリーな手法を提案する。 我々のアプローチは、追加のトレーニングを伴わない拡散モデルの先行を取り入れ、そのネイティブな一般化能力を完全に活用する。 本手法では,参照画像から対象画像への画像情報の転送に注意を払い,二つの重要な課題を克服する。 われわれはまず、まず「テクスチュア・スタンディング」を緩和する深い特徴を用いて、対象の人間にリファレンス・ウェアを警告した。 次に、拡張された注意機構を注意深くマスキングし、参照背景の漏洩や不要な影響を除去する。 ユーザスタディ、質的、定量的に最先端のアプローチと比較することにより、未確認の衣服や人物と比較して、画質と衣服の保存性が優れていることを実証した。

Virtual Try-On (VTON) is a highly active line of research, with increasing demand. It aims to replace a piece of garment in an image with one from another, while preserving person and garment characteristics as well as image fidelity. Current literature takes a supervised approach for the task, impairing generalization and imposing heavy computation. In this paper, we present a novel zero-shot training-free method for inpainting a clothing garment by reference. Our approach employs the prior of a diffusion model with no additional training, fully leveraging its native generalization capabilities. The method employs extended attention to transfer image information from reference to target images, overcoming two significant challenges. We first initially warp the reference garment over the target human using deep features, alleviating "texture sticking". We then leverage the extended attention mechanism with careful masking, eliminating leakage of reference background and unwanted influence. Through a user study, qualitative, and quantitative comparison to state-of-the-art approaches, we demonstrate superior image quality and garment preservation compared unseen clothing pieces or human figures.
翻訳日:2024-06-24 12:43:51 公開日:2024-06-21
# GeoLRM:高品質3次元ガウス生成のための幾何対応大規模再構成モデル

GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation ( http://arxiv.org/abs/2406.15333v1 )

ライセンス: Link先を確認
Chubin Zhang, Hongliang Song, Yi Wei, Yu Chen, Jiwen Lu, Yansong Tang, (参考訳) 本研究では,GeoLRM(Geometry-Aware Large Restruction Model)を提案する。GeoLRMは512kガウス,21の入力画像をたった11GBのGPUメモリで予測できる手法である。 従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。 これにより、これらの手法は低解像度の表現に制限され、より高品質なビューにスケールアップすることが困難になる。 GeoLRMは、3Dポイントを直接処理し、画像特徴を3D表現に効果的に統合するために変形可能なクロスアテンション機構を使用する、新しい3D対応トランスフォーマー構造を導入することで、これらの課題に対処する。 提案手法を2段階のパイプラインで実装する。まず,提案した画像入力から3次元アンカー点のスパース集合を生成し,その後,特殊再構成トランスフォーマーによって幾何学を洗練し,テクスチャの詳細を検索する。 大規模な実験結果から、GeoLRMは既存のモデル、特に高密度なビューインプットよりも大幅に優れていた。 また,本モデルが3次元生成タスクに応用可能であることを実証し,その汎用性と実世界のアプリケーションに広く採用される可能性を示した。

In this work, we introduce the Geometry-Aware Large Reconstruction Model (GeoLRM), an approach which can predict high-quality assets with 512k Gaussians and 21 input images in only 11 GB GPU memory. Previous works neglect the inherent sparsity of 3D structure and do not utilize explicit geometric relationships between 3D and 2D images. This limits these methods to a low-resolution representation and makes it difficult to scale up to the dense views for better quality. GeoLRM tackles these issues by incorporating a novel 3D-aware transformer structure that directly processes 3D points and uses deformable cross-attention mechanisms to effectively integrate image features into 3D representations. We implement this solution through a two-stage pipeline: initially, a lightweight proposal network generates a sparse set of 3D anchor points from the posed image inputs; subsequently, a specialized reconstruction transformer refines the geometry and retrieves textural details. Extensive experimental results demonstrate that GeoLRM significantly outperforms existing models, especially for dense view inputs. We also demonstrate the practical applicability of our model with 3D generation tasks, showcasing its versatility and potential for broader adoption in real-world applications.
翻訳日:2024-06-24 12:43:51 公開日:2024-06-21
# マルチモーダルタスクベクトルによるマルチモーダルインコンテキスト学習の実現

Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning ( http://arxiv.org/abs/2406.15334v1 )

ライセンス: Link先を確認
Brandon Huang, Chancharik Mitra, Assaf Arbelle, Leonid Karlinsky, Trevor Darrell, Roei Herzig, (参考訳) 近年のインターリーブ型大規模マルチモーダルモデル(LMM)の成功は,多くの例を取り入れたインコンテキストラーニング(ICL)が新たなタスクの学習に有効であることを示唆している。 しかし、このマルチモーダル ICL 設定には重要な問題があり、事前訓練時に設定されたモデルのコンテキスト長によって基本的に制限されている。 この問題は、テキストと画像の両方を処理するマルチモーダル領域において特に顕著であり、追加のトークンを必要とする。 これは、微調整なしで多くのショットを少ないトークンに圧縮するマルチモーダル法の必要性を動機付けている。 本研究では,マルチモーダルタスクベクトル(MTV)を利用したマルチモーダル・マルチショット・インコンテキスト学習を実現する。 具体的には、まず、LMMにおけるこのようなMTVの存在を実演し、次に抽出したMTVを活用して、様々な視覚・言語タスクのための多視点インコンテクスト学習を可能にする。 提案実験により,MTVは圧縮されたショットの数で性能を向上し,ドメイン外タスクと類似のタスクを推論のための文脈長を伴わずに一般化できることが示唆された。

The recent success of interleaved Large Multimodal Models (LMMs) in few-shot learning suggests that in-context learning (ICL) with many examples can be promising for learning new tasks. However, this many-shot multimodal ICL setting has one crucial problem: it is fundamentally limited by the model's context length set at pretraining. The problem is especially prominent in the multimodal domain, which processes both text and images, requiring additional tokens. This motivates the need for a multimodal method to compress many shots into fewer tokens without finetuning. In this work, we enable LMMs to perform multimodal, many-shot in-context learning by leveraging Multimodal Task Vectors (MTV)--compact implicit representations of in-context examples compressed in the model's attention heads. Specifically, we first demonstrate the existence of such MTV in LMMs and then leverage these extracted MTV to enable many-shot in-context learning for various vision-and-language tasks. Our experiments suggest that MTV can scale in performance with the number of compressed shots and generalize to similar out-of-domain tasks without additional context length for inference.
翻訳日:2024-06-24 12:43:51 公開日:2024-06-21
# LLM時代の学業不正直に対するキーストロークダイナミクス

Keystroke Dynamics Against Academic Dishonesty in the Age of LLMs ( http://arxiv.org/abs/2406.15335v1 )

ライセンス: Link先を確認
Debnath Kundu, Atharva Mehta, Rajesh Kumar, Naman Lal, Avinash Anand, Apoorv Singh, Rajiv Ratn Shah, (参考訳) オンライン試験と課題への移行は、学術的完全性に関する重要な懸念を提起する。 従来の盗作検出システムは、知的不正行為の事例を特定するのに苦労することが多い。 本研究は, キーストローク動的手法を用いて, 学術的文脈におけるボナ・フェイドと補助的な筆記を区別する手法を提案する。 これを容易にするために、データセットは、生成AIの助けなしに、タスクを書くことに従事する個人のキーストロークパターンをキャプチャするために開発された。 改良されたTypeNetアーキテクチャを用いてトレーニングされた検出器は、条件固有のシナリオでは74.98%から85.72%、条件に依存しないシナリオでは52.24%から80.54%の精度を達成した。 この結果から,キーストロークの動的特性に有意な差が認められた。 本研究の結果は,ユーザが生成型AIとどのように相互作用するかの理解を深め,デジタル教育プラットフォームの信頼性向上に寄与する。

The transition to online examinations and assignments raises significant concerns about academic integrity. Traditional plagiarism detection systems often struggle to identify instances of intelligent cheating, particularly when students utilize advanced generative AI tools to craft their responses. This study proposes a keystroke dynamics-based method to differentiate between bona fide and assisted writing within academic contexts. To facilitate this, a dataset was developed to capture the keystroke patterns of individuals engaged in writing tasks, both with and without the assistance of generative AI. The detector, trained using a modified TypeNet architecture, achieved accuracies ranging from 74.98% to 85.72% in condition-specific scenarios and from 52.24% to 80.54% in condition-agnostic scenarios. The findings highlight significant differences in keystroke dynamics between genuine and assisted writing. The outcomes of this study enhance our understanding of how users interact with generative AI and have implications for improving the reliability of digital educational platforms.
翻訳日:2024-06-24 12:43:51 公開日:2024-06-21
# 画像導体:対話型ビデオ合成のための精密制御

Image Conductor: Precision Control for Interactive Video Synthesis ( http://arxiv.org/abs/2406.15339v1 )

ライセンス: Link先を確認
Yaowei Li, Xintao Wang, Zhaoyang Zhang, Zhouxia Wang, Ziyang Yuan, Liangbin Xie, Yuexian Zou, Ying Shan, (参考訳) 映画製作とアニメーション制作は、しばしば、労働集約的な現実世界の撮影を含む、カメラの遷移と物体の動きを調整するための洗練された技術を必要とする。 ビデオ生成のための生成AIの進歩にもかかわらず、インタラクティブなビデオアセット生成のための動きを正確に制御することはまだ難しい。 そこで本研究では,カメラトランジションとオブジェクトの動きを正確に制御し,単一の画像から映像アセットを生成する画像コンダクタを提案する。 カメラのLoRA重みとオブジェクトのLoRA重みによって、異なるカメラと物体の動きを区別する、よく栽培されたトレーニング戦略が提案されている。 本研究では,不測の軌跡からの映像的変化に対処するため,推論中にカメラレス誘導技術を導入し,カメラの遷移を排除しながら物体の動きを向上する。 さらに,学習用トラジェクトリ指向ビデオモーションデータキュレーションパイプラインを開発した。 定量的および定性的な実験により,映像からモーションコントロール可能な映像を生成する際の精度ときめ細かい制御が実証され,インタラクティブな映像合成の実用化が進んでいる。 プロジェクトのWebページはhttps://liyaowei-stu.github.io/project/ImageConductor/にある。

Filmmaking and animation production often require sophisticated techniques for coordinating camera transitions and object movements, typically involving labor-intensive real-world capturing. Despite advancements in generative AI for video creation, achieving precise control over motion for interactive video asset generation remains challenging. To this end, we propose Image Conductor, a method for precise control of camera transitions and object movements to generate video assets from a single image. An well-cultivated training strategy is proposed to separate distinct camera and object motion by camera LoRA weights and object LoRA weights. To further address cinematographic variations from ill-posed trajectories, we introduce a camera-free guidance technique during inference, enhancing object movements while eliminating camera transitions. Additionally, we develop a trajectory-oriented video motion data curation pipeline for training. Quantitative and qualitative experiments demonstrate our method's precision and fine-grained control in generating motion-controllable videos from images, advancing the practical application of interactive video synthesis. Project webpage available at https://liyaowei-stu.github.io/project/ImageConductor/
翻訳日:2024-06-24 12:43:51 公開日:2024-06-21
# CT画像のフルスケールインデクシングとセマンティックアノテーション

Full-Scale Indexing and Semantic Annotation of CT Imaging: Boosting FAIRness ( http://arxiv.org/abs/2406.15340v1 )

ライセンス: Link先を確認
Hannes Ulrich, Robin Hendel, Santiago Pazmino, Björn Bergh, Björn Schreiweis, (参考訳) 背景: 医学への人工知能の統合は、特に診断や治療計画において大きな進歩をもたらした。 しかし、AIモデルの信頼性はトレーニングデータの品質に大きく依存しており、特に医療画像では、様々な患者データと進化する医療知識が、与えられたデータセットの正確性と一般化性に挑戦する。 結果: 提案手法は, 検索性, アクセシビリティ, インターオペラビリティ, 再利用性を向上させるために, 臨床計算断層撮影(CT)画像シリーズの統合と向上に重点を置いている。 自動インデックス化プロセスを通じて,TotalSegmentatorフレームワークを使用してCT画像系列を意味的に拡張し,SNOMED CTアノテーションを生成する。 メタデータはHL7 FHIRリソースで標準化され、研究プロジェクト間の効率的なデータ認識とデータ交換を可能にする。 結論: この研究は、UKSH MeDIC内で堅牢なプロセスを統合することに成功し、23万以上のCT画像シリーズと800万以上のSNOMED CTアノテーションのセマンティックエンリッチ化につながった。 HL7 FHIRリソースを用いた標準化された表現は、発見性を改善し、相互運用性を促進し、医療画像データのFAIRnessの基礎を提供する。 しかし、臨床データセットの増大に追随できる自動アノテーション手法の開発は、高度な医療AIアプリケーションのための医療画像の大規模統合とインデックス化の継続的な進歩を保証するための課題である。

Background: The integration of artificial intelligence into medicine has led to significant advances, particularly in diagnostics and treatment planning. However, the reliability of AI models is highly dependent on the quality of the training data, especially in medical imaging, where varying patient data and evolving medical knowledge pose a challenge to the accuracy and generalizability of given datasets. Results: The proposed approach focuses on the integration and enhancement of clinical computed tomography (CT) image series for better findability, accessibility, interoperability, and reusability. Through an automated indexing process, CT image series are semantically enhanced using the TotalSegmentator framework for segmentation and resulting SNOMED CT annotations. The metadata is standardized with HL7 FHIR resources to enable efficient data recognition and data exchange between research projects. Conclusions: The study successfully integrates a robust process within the UKSH MeDIC, leading to the semantic enrichment of over 230,000 CT image series and over 8 million SNOMED CT annotations. The standardized representation using HL7 FHIR resources improves discoverability and facilitates interoperability, providing a foundation for the FAIRness of medical imaging data. However, developing automated annotation methods that can keep pace with growing clinical datasets remains a challenge to ensure continued progress in large-scale integration and indexing of medical imaging for advanced healthcare AI applications.
翻訳日:2024-06-24 12:43:51 公開日:2024-06-21
# GenoTEX:バイオインフォマティクスを用いたLLMによる遺伝子発現データの探索評価ベンチマーク

GenoTEX: A Benchmark for Evaluating LLM-Based Exploration of Gene Expression Data in Alignment with Bioinformaticians ( http://arxiv.org/abs/2406.15341v1 )

ライセンス: Link先を確認
Haoyang Liu, Haohan Wang, (参考訳) 機械学習の最近の進歩は、遺伝子発現データセットから疾患関連遺伝子の同定を大幅に改善した。 しかしながら、これらのプロセスは広範囲の専門知識と手作業を必要とし、スケーラビリティを制限します。 LLM(Large Language Model)ベースのエージェントは、問題解決能力の増大により、これらのタスクを自動化することを約束している。 このような手法の評価と開発を支援するため,遺伝子発現データの自動探索のためのベンチマークデータセットであるGenoTEXを紹介し,データセットの選択,前処理,統計解析のタスクを含む。 GenoTEXは、コンピュータゲノム学の標準に従う完全な解析パイプラインにおいて、幅広い遺伝子識別問題を解決するための注釈付きコードと結果を提供する。 これらのアノテーションは、精度と信頼性を確保するためにデータセットを慎重に分析する人間のバイオインフォマティクスによってキュレートされる。 これらのタスクのベースラインを提供するために,遺伝子データセットを協調的に探索するために,文脈認識計画,反復的修正,ドメインエキスパートコンサルテーションを設計したLLMベースのエージェントチームであるGenoAgentsを紹介する。 GenoAgentsによる我々の実験は、ゲノムデータ解析におけるLLMベースのアプローチの可能性を示しているが、エラー解析は今後の改善の課題と領域を浮き彫りにしている。 我々は、ゲノムデータ分析のためのAI駆動手法のベンチマークと拡張のための有望なリソースとして、GenoTEXを提案する。 私たちはベンチマークを \url{https://github.com/Liu-Hy/GenoTex} で公開しています。

Recent advancements in machine learning have significantly improved the identification of disease-associated genes from gene expression datasets. However, these processes often require extensive expertise and manual effort, limiting their scalability. Large Language Model (LLM)-based agents have shown promise in automating these tasks due to their increasing problem-solving abilities. To support the evaluation and development of such methods, we introduce GenoTEX, a benchmark dataset for the automatic exploration of gene expression data, involving the tasks of dataset selection, preprocessing, and statistical analysis. GenoTEX provides annotated code and results for solving a wide range of gene identification problems, in a full analysis pipeline that follows the standard of computational genomics. These annotations are curated by human bioinformaticians who carefully analyze the datasets to ensure accuracy and reliability. To provide baselines for these tasks, we present GenoAgents, a team of LLM-based agents designed with context-aware planning, iterative correction, and domain expert consultation to collaboratively explore gene datasets. Our experiments with GenoAgents demonstrate the potential of LLM-based approaches in genomics data analysis, while error analysis highlights the challenges and areas for future improvement. We propose GenoTEX as a promising resource for benchmarking and enhancing AI-driven methods for genomics data analysis. We make our benchmark publicly available at \url{https://github.com/Liu-Hy/GenoTex}.
翻訳日:2024-06-24 12:43:51 公開日:2024-06-21
# 分子量間のサブミリ秒エンタングルメントとiSWAPゲート

Sub-millisecond Entanglement and iSWAP Gate between Molecular Qubits ( http://arxiv.org/abs/2406.15345v1 )

ライセンス: Link先を確認
Lewis R. B. Picard, Annie J. Park, Gabriel E. Patenotte, Samuel Gebretsadkan, David Wellnitz, Ana Maria Rey, Kang-Kuen Ni, (参考訳) 量子計算(QC)とシミュレーションは、制御可能な相互作用を持つ長寿命キュービットに依存している。 量子コンピューティングにおける初期の研究は、分子内核スピンのカップリングと化学シフトと成熟した核磁気共鳴技術により、分子を利用した。 その後、多くの物理的プラットフォームの追求が盛んになった。 トラップされた極性分子は有望な量子コンピューティングプラットフォームとして提案され、拡張性と単一粒子アドレス性を提供しながら、分子の固有の複雑さと強い結合を活用している。 単一量子状態の準備の最近の進歩と、個別に閉じ込められた分子の超微細回転状態のコヒーレンスにより、それらは有望な量子ビットとして機能し、分子間双極子相互作用は絡み合いを引き起こす。 しかし、普遍的な2量子ゲートは分子では証明されていない。 そこで本研究では,固有の分子資源を用いて,個別にトラップされた$X^{1}\Sigma^{+}$NaCs分子を用いて,2量子iSWAPゲートを実装する。 我々は、回転状態間の自然双極子相互作用を特徴づけ、トラップの偏極を調整してその強度を制御する。 分子が1.9$\mu$mで664$\mu$sで相互作用することを許すことで、最大絡み合ったベル状態が94(3)\%となり、ポストセレクションの後、空のトラップで試薬を除去する。 運動-回転結合を用いて、軸トラップ方向に沿った最小の運動状態の残余励起を測定し、それらがデコヒーレンスの主要な原因であることを示す。 最後に、量子ビットを符号化する地上回転レベル内の2つの非相互作用超微粒子状態を特定する。 相互作用は、相互作用状態と非相互作用状態の間を移動して、iSWAPゲートを実現することで切り替えられる。 論理的真理表を計測してゲート性能を検証する。

Quantum computation (QC) and simulation rely on long-lived qubits with controllable interactions. Early work in quantum computing made use of molecules because of their readily available intramolecular nuclear spin coupling and chemical shifts, along with mature nuclear magnetic resonance techniques. Subsequently, the pursuit of many physical platforms has flourished. Trapped polar molecules have been proposed as a promising quantum computing platform, offering scalability and single-particle addressability while still leveraging inherent complexity and strong couplings of molecules. Recent progress in the single quantum state preparation and coherence of the hyperfine-rotational states of individually trapped molecules allows them to serve as promising qubits, with intermolecular dipolar interactions creating entanglement. However, universal two-qubit gates have not been demonstrated with molecules. Here, we harness intrinsic molecular resources to implement a two-qubit iSWAP gate using individually trapped $X^{1}\Sigma^{+}$ NaCs molecules. We characterize the innate dipolar interaction between rotational states and control its strength by tuning the polarization of the traps. By allowing the molecules to interact for 664 $\mu$s at a distance of 1.9 $\mu$m, we create a maximally entangled Bell state with a fidelity of 94(3)\%, following postselection to remove trials with empty traps. Using motion-rotation coupling, we measure residual excitation of the lowest few motional states along the axial trapping direction and find them to be the primary source of decoherence. Finally, we identify two non-interacting hyperfine states within the ground rotational level in which we encode a qubit. The interaction is toggled by transferring between interacting and non-interacting states to realize an iSWAP gate. We verify the gate performance by measuring its logical truth table.
翻訳日:2024-06-24 12:43:51 公開日:2024-06-21
# プライバシー保護型血糖値クロスプレディション:非同期分散型フェデレーション学習アプローチ

Privacy Preserved Blood Glucose Level Cross-Prediction: An Asynchronous Decentralized Federated Learning Approach ( http://arxiv.org/abs/2406.15346v1 )

ライセンス: Link先を確認
Chengzhe Piao, Taiyu Zhu, Yu Wang, Stephanie E Baldeweg, Paul Taylor, Pantelis Georgiou, Jiahao Sun, Jun Wang, Kezhi Li, (参考訳) 新たに診断された1型糖尿病(T1D)患者は、持続血糖モニタリング(CGM)の十分なBGデータがないため、効果的な血糖予測モデルを得るのに苦慮することが多い。 この課題に対処するために人口モデルを活用することは潜在的な解決策であるが、プライバシーに配慮した方法で人口モデルをトレーニングするための患者データ収集は困難である。 糖尿病ケアにおける「コールドスタート」問題に対するプライバシ保護と対処を考慮し,Asynchronous Decentralized Federated Learning による血糖予測である「GluADFL」を提案する。 298人の被験者からなる4つの異なるT1Dデータセットを用いて,GluADFLと8つのベースライン法を比較した。 さらに、患者のデータはGluADFL内の様々な通信ネットワークに格納、共有され、高度に相互接続された(例えば、ランダムな)ものから、より構造化されたトポロジ(例えば、クラスタやリング)まで、様々なソーシャルネットワークに適したものまで様々である。 非同期トレーニングフレームワークはフレキシブルな参加をサポートする。 不活性な参加者の比率を調整することで、70%未満が不活性である場合、安定なままであることがわかった。 以上の結果から,GluADFLはT1DにおけるBG予測のための実用的なプライバシ保護ソリューションであり,糖尿病管理の質を著しく向上させることが明らかとなった。

Newly diagnosed Type 1 Diabetes (T1D) patients often struggle to obtain effective Blood Glucose (BG) prediction models due to the lack of sufficient BG data from Continuous Glucose Monitoring (CGM), presenting a significant "cold start" problem in patient care. Utilizing population models to address this challenge is a potential solution, but collecting patient data for training population models in a privacy-conscious manner is challenging, especially given that such data is often stored on personal devices. Considering the privacy protection and addressing the "cold start" problem in diabetes care, we propose "GluADFL", blood Glucose prediction by Asynchronous Decentralized Federated Learning. We compared GluADFL with eight baseline methods using four distinct T1D datasets, comprising 298 participants, which demonstrated its superior performance in accurately predicting BG levels for cross-patient analysis. Furthermore, patients' data might be stored and shared across various communication networks in GluADFL, ranging from highly interconnected (e.g., random, performs the best among others) to more structured topologies (e.g., cluster and ring), suitable for various social networks. The asynchronous training framework supports flexible participation. By adjusting the ratios of inactive participants, we found it remains stable if less than 70% are inactive. Our results confirm that GluADFL offers a practical, privacy-preserving solution for BG prediction in T1D, significantly enhancing the quality of diabetes management.
翻訳日:2024-06-24 12:43:51 公開日:2024-06-21
# NAVSIM:データ駆動非反応型自動運転車シミュレーションとベンチマーク

NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking ( http://arxiv.org/abs/2406.15349v1 )

ライセンス: Link先を確認
Daniel Dauner, Marcel Hallgarten, Tianyu Li, Xinshuo Weng, Zhiyu Huang, Zetong Yang, Hongyang Li, Igor Gilitschenski, Boris Ivanovic, Marco Pavone, Andreas Geiger, Kashyap Chitta, (参考訳) ビジョンベースの運転ポリシーのベンチマークは難しい。 一方、実データによるオープンループ評価は容易であるが、これらの結果は閉ループ性能を反映していない。 一方、クローズドループ評価はシミュレーションでは可能であるが、計算要求が大きいためスケールが難しい。 さらに、現在利用可能なシミュレータは、実際のデータに対する大きなドメインギャップを示す。 この結果、エンド・ツー・エンドの自動運転に関する研究が急速に成長する中で、明確な結論を導き出せなくなった。 本稿では,これらの評価パラダイムの中間層であるNAVSIMについて述べる。そこでは,大規模な実世界のベンチマークを可能にするために,非反応性シミュレータと組み合わせて大規模なデータセットを使用する。 具体的には、短いシミュレーション地平線のために、テストシーンの鳥の目視抽象化をアンロールすることで、進行時間や衝突までの時間などのシミュレーションに基づくメトリクスを収集する。 我々のシミュレーションは非反応性であり、評価された政策と環境は互いに影響を与えない。 実験的に示すように、このデカップリングにより、従来の変位誤差よりも閉ループ評価に整合し、開ループ計量計算が可能となる。 NAVSIMはCVPR 2024で開催され、143チームが433のエントリーを提出し、いくつかの新たな洞察を得た。 大規模なシナリオでは、TransFuserのような適度な計算要件を持つ単純な手法が、UniADのような最近の大規模エンドツーエンドの駆動アーキテクチャと一致することが観察される。 我々のモジュラーフレームワークは、新しいデータセット、データキュレーション戦略、メトリクスで拡張できる可能性があり、将来の課題をホストするために継続的にメンテナンスされます。 私たちのコードはhttps://github.com/autonomousvision/navsim.comから入手可能です。

Benchmarking vision-based driving policies is challenging. On one hand, open-loop evaluation with real data is easy, but these results do not reflect closed-loop performance. On the other, closed-loop evaluation is possible in simulation, but is hard to scale due to its significant computational demands. Further, the simulators available today exhibit a large domain gap to real data. This has resulted in an inability to draw clear conclusions from the rapidly growing body of research on end-to-end autonomous driving. In this paper, we present NAVSIM, a middle ground between these evaluation paradigms, where we use large datasets in combination with a non-reactive simulator to enable large-scale real-world benchmarking. Specifically, we gather simulation-based metrics, such as progress and time to collision, by unrolling bird's eye view abstractions of the test scenes for a short simulation horizon. Our simulation is non-reactive, i.e., the evaluated policy and environment do not influence each other. As we demonstrate empirically, this decoupling allows open-loop metric computation while being better aligned with closed-loop evaluations than traditional displacement errors. NAVSIM enabled a new competition held at CVPR 2024, where 143 teams submitted 463 entries, resulting in several new insights. On a large set of challenging scenarios, we observe that simple methods with moderate compute requirements such as TransFuser can match recent large-scale end-to-end driving architectures such as UniAD. Our modular framework can potentially be extended with new datasets, data curation strategies, and metrics, and will be continually maintained to host future challenges. Our code is available at https://github.com/autonomousvision/navsim.
翻訳日:2024-06-24 12:43:51 公開日:2024-06-21
# Glue TonicのようなSMART Mnemonic Sounds:LLMと学生のフィードバックを混合してMnemonic Learning Stickを作る

A SMART Mnemonic Sounds like "Glue Tonic": Mixing LLMs with Student Feedback to Make Mnemonic Learning Stick ( http://arxiv.org/abs/2406.15352v1 )

ライセンス: Link先を確認
Nishant Balepur, Matthew Shu, Alexander Hoyle, Alison Robey, Shi Feng, Seraphina Goldfarb-Tarrant, Jordan Boyd-Graber, (参考訳) キーワード・ムネモニクス(英: Keyword mnemonics)は、新しい用語を単純なキーワードに結びつける記憶に残る説明である。 先行研究は、学生にモニーモニックを発生させるが、学生が学習を好み、支援するモニーモニックへのモデル案内は行わない。 SMARTは、実際の学生が新しい用語を学習する際のフィードバックに基づいて訓練された、モニーモニックなジェネレータである。 SMARTをトレーニングするために、私たちはまず、ユーザ記述のメニーモニックのキュレートセット上でLLaMA-2を微調整する。 LLMアライメントを用いてSMARTを強化し、SMARTが生成したモニーモニックをフラッシュカードアプリに展開し、モニーモニックの学生が好むものを探す。 本研究は,45名の学生から2684名の選好を2つのタイプに分けて収集し,評価(評価)と観察(学生の学習)を行い,3つの重要な知見を得た。 まず、表現され、観察される好みは、学生が本当に役に立つものを完全には捉えない。 第二に、ベイジアンモデルは複数の選好型の相補的なデータを単一の効果信号に合成することができる。 SMARTは、この信号上で直接優先度最適化によって調整され、LLMの出力品質向上のためのデータを増大させ、ペア比較の典型的な方法において、関連性や欠落ラベルを解消する。 第3に,SMARTをGPT-4と同等のデプロイメントコストで評価し,多様な学生のフィードバックを収集し,教育におけるLLMの整合性を示す。

Keyword mnemonics are memorable explanations that link new terms to simpler keywords. Prior works generate mnemonics for students, but they do not guide models toward mnemonics students prefer and aid learning. We build SMART, a mnemonic generator trained on feedback from real students learning new terms. To train SMART, we first fine-tune LLaMA-2 on a curated set of user-written mnemonics. We then use LLM alignment to enhance SMART: we deploy mnemonics generated by SMART in a flashcard app to find preferences on mnemonics students favor. We gather 2684 preferences from 45 students across two types: expressed (inferred from ratings) and observed (inferred from student learning), yielding three key findings. First, expressed and observed preferences disagree; what students think is helpful does not fully capture what is truly helpful. Second, Bayesian models can synthesize complementary data from multiple preference types into a single effectiveness signal. SMART is tuned via Direct Preference Optimization on this signal, which we show resolves ties and missing labels in the typical method of pairwise comparisons, augmenting data for LLM output quality gains. Third, mnemonic experts assess SMART as matching GPT-4, at much lower deployment costs, showing the utility of capturing diverse student feedback to align LLMs in education.
翻訳日:2024-06-24 12:43:51 公開日:2024-06-21
# 階層型フェデレーション学習における動的資源配分とクライアントスケジューリング:2相深層強化学習アプローチ

Towards Dynamic Resource Allocation and Client Scheduling in Hierarchical Federated Learning: A Two-Phase Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2406.14910v1 )

ライセンス: Link先を確認
Xiaojing Chen, Zhenyuan Li, Wei Ni, Xin Wang, Shunqing Zhang, Yanzan Sun, Shugong Xu, Qingqi Pei, (参考訳) フェデレートラーニング(FL)は、データを共有することなく、共有機械学習モデルをトレーニングするための実行可能なテクニックである。 階層FL (Hierarchical FL) システムは、特に電力供給にエネルギー収穫に依存しているクライアントにおいて、その複数のレベルのエネルギー、計算、通信、およびクライアントスケジューリングを段階的に改善することはまだ研究されていない。 本稿では,エネルギー収穫型HFLシステムにおけるFLプロセスの学習遅延とモデル精度をオンラインにバランスさせるため,新たな2相Deep Deterministic Policy gradient (DDPG) フレームワークである `TP-DDPG' を提案する。 鍵となる考え方は、最適化決定を2つのグループに分割し、DDPGを1つのフェーズで学習し、もう1つのグループを環境の一部として解釈し、第2フェーズでDDPGをトレーニングする報酬を提供するというものである。 具体的には、DDPGは、参加するクライアントの選択、CPU構成、送信パワーを学習する。 新たなトラグラー対応クライアントアソシエーションと帯域幅アロケーション(SCABA)アルゴリズムは,他の決定を効率的に最適化し,DDPGに対する報酬を評価する。 実験により、学習可能なパラメータの数が大幅に削減されたことにより、TP-DDPGは、要求されたHFLのテスト精度が0.9のとき、HFLのトレーニング時間を39.4%短縮できる効果的な警察に迅速に収束できることが示された。

Federated learning (FL) is a viable technique to train a shared machine learning model without sharing data. Hierarchical FL (HFL) system has yet to be studied regrading its multiple levels of energy, computation, communication, and client scheduling, especially when it comes to clients relying on energy harvesting to power their operations. This paper presents a new two-phase deep deterministic policy gradient (DDPG) framework, referred to as ``TP-DDPG'', to balance online the learning delay and model accuracy of an FL process in an energy harvesting-powered HFL system. The key idea is that we divide optimization decisions into two groups, and employ DDPG to learn one group in the first phase, while interpreting the other group as part of the environment to provide rewards for training the DDPG in the second phase. Specifically, the DDPG learns the selection of participating clients, and their CPU configurations and the transmission powers. A new straggler-aware client association and bandwidth allocation (SCABA) algorithm efficiently optimizes the other decisions and evaluates the reward for the DDPG. Experiments demonstrate that with substantially reduced number of learnable parameters, the TP-DDPG can quickly converge to effective polices that can shorten the training time of HFL by 39.4% compared to its benchmarks, when the required test accuracy of HFL is 0.9.
翻訳日:2024-06-24 12:34:06 公開日:2024-06-21
# ReLUニューラルネットワークの近似パラメータの成長について

On the growth of the parameters of approximating ReLU neural networks ( http://arxiv.org/abs/2406.14936v1 )

ライセンス: Link先を確認
Erion Morina, Martin Holler, (参考訳) この研究は、与えられた滑らかな関数を近似する完全連結フィードフォワードReLUニューラルネットワークの解析に焦点を当てる。 ネットワークの幅や深さの面でのアーキテクチャの増大にともなう,従来の普遍近似特性とは対照的に,近似ネットワークのパラメータの漸近的な成長が懸念される。 このような結果は、例えば、エラー解析やニューラルネットワークトレーニングの一貫性結果に注目されている。 我々の研究の主な成果は、最先端の近似誤差を持つReLUアーキテクチャの場合、実現パラメータはほとんど多項式的に増加することである。 正規化されたネットワークサイズに対する得られた速度は、既存の結果と比較され、特に高次元入力において、ほとんどの場合において優れていることが示されている。

This work focuses on the analysis of fully connected feed forward ReLU neural networks as they approximate a given, smooth function. In contrast to conventionally studied universal approximation properties under increasing architectures, e.g., in terms of width or depth of the networks, we are concerned with the asymptotic growth of the parameters of approximating networks. Such results are of interest, e.g., for error analysis or consistency results for neural network training. The main result of our work is that, for a ReLU architecture with state of the art approximation error, the realizing parameters grow at most polynomially. The obtained rate with respect to a normalized network size is compared to existing results and is shown to be superior in most cases, in particular for high dimensional input.
翻訳日:2024-06-24 12:34:06 公開日:2024-06-21
# 医療用物のインターネットにおけるウェアラブルデバイスのセキュリティ評価のためのバイオメカトロニクス的アプローチ

A Biomechatronic Approach to Evaluating the Security of Wearable Devices in the Internet of Medical Things ( http://arxiv.org/abs/2406.14996v1 )

ライセンス: Link先を確認
Yas Vaseghi, Behnaz Behara, Mehdi Delrobaei, (参考訳) インターネット・オブ・メディカル・モノ(IoMT)は、人間のエラーを減らし、患者の健康を改善することで、医療に革命をもたらす可能性がある。 例えば、ウェアラブルのスマート注入ポンプは、薬を正確に管理し、電子的な健康記録と統合することができる。 これらのポンプは、手術が失敗したときに医療専門家やリモートサーバーに警告する。 しかし、インターネットに接続された医療機器の数が増加するにつれて、サイバー脅威の危険性も高まる。 患者の体に取り付けられたIoTに基づくウェアラブル医療機器は、特に重大なサイバー脅威に対して脆弱である。 インターネットに接続されているため、これらのデバイスは潜在的な害にさらされる可能性があるため、デバイスの性能を破壊または劣化させ、患者を傷つける可能性がある。 そのため、インターネットに接続された医療機器のセキュアなデータ認証を確立し、患者の安全と健康を確保することが不可欠である。 また、そのようなデバイスの装着性オプションが計算リソースをダウングレードし、セキュリティリスクにより敏感になる可能性がある点にも注意が必要だ。 本稿では,サイバー脅威の軽減を目的としたウェアラブル注入ポンプのセキュリティ手法を提案する。 提案したアーキテクチャを10分間20,50,100人のユーザで評価し,2回の注入設定で10回繰り返し,それぞれ5回繰り返して評価を行った。 所望のボリュームとレートはそれぞれ2ml/hr,4ml/hr,5ml/hrであった。 注入速度の最大誤差は2.5%と測定された。 このようなセキュリティ対応デバイスを実装する上での実践的課題について論じ,初期解決策を提案する。

The Internet of Medical Things (IoMT) has the potential to revolutionize healthcare by reducing human error and improving patient health. For instance, wearable smart infusion pumps can accurately administer medication and integrate with electronic health records. These pumps can alert healthcare professionals or remote servers when an operation fails, preventing distressing incidents. However, as the number of connected medical devices increases, so does the risk of cyber threats. Wearable medication devices based on IoT attached to patients' bodies are particularly vulnerable to significant cyber threats. Since they are connected to the internet, these devices can be exposed to potential harm, which can disrupt or degrade device performance and harm patients. Therefore, it is crucial to establish secure data authentication for internet-connected medical devices to ensure patient safety and well-being. It is also important to note that the wearability option of such devices might downgrade the computational resources, making them more susceptible to security risks. We propose implementing a security approach for a wearable infusion pump to mitigate cyber threats. We evaluated the proposed architecture with 20, 50, and 100 users for 10 minutes and repeated the evaluation 10 times with two infusion settings, each repeated five times. The desired volumes and rates for the two settings were 2 ml and 4 ml/hr and 5 ml and 5 ml/hr, respectively. The maximum error in infusion rate was measured to be 2.5%. We discuss the practical challenges of implementing such a security-enabled device and suggest initial solutions.
翻訳日:2024-06-24 12:34:06 公開日:2024-06-21
# 弱い結合量子イジングはしごにおける暗黒粒子の熱活性化検出

Thermal activated detection of dark particles in a weakly coupled quantum Ising ladder ( http://arxiv.org/abs/2406.15024v1 )

ライセンス: Link先を確認
Yunjing Gao, Jiahao Yang, Huihang Lin, Rong Yu, Jianda Wu, (参考訳) イジング$_h^2$可積分場理論は、2つの量子臨界イジング鎖が弱結合されたときに現れるもので、質量スペクトルと散乱行列が$\mathcal{D}_8^{(1)}$代数によって構成される8種類の相対論的粒子を持つ。 すべての奇数の粒子は暗く、基底状態から直接励起することはできないと予測されている。 これにより、これらの暗黒粒子の発見が困難になる。 本稿では,低周波および低温におけるモデルの局所的動的スピン構造因子について検討する。 THz分光法や非弾性中性子散乱測定における暗黒粒子の可視性とは対照的に、最も軽い暗黒粒子は検出可能であり、核磁気共鳴測定における熱活性化ギャップとして現れる。 その結果,暗黒粒子の存在を検証するための実用的な基準が得られた。

The Ising$_h^2$ integrable field theory, which emerges when two quantum critical Ising chains are weakly coupled, possesses eight types of relativistic particles whose mass spectrum and scattering matrices are organized by the $\mathcal{D}_8^{(1)}$ algebra. It is predicted that all odd-parity particles are dark and cannot be directly excited from the ground state. This makes these dark particles hard to be detected. Here, we study the local dynamical spin structure factor of the model at low-frequencies and low-temperatures. In contrast to the invisibility of the dark particles in THz spectroscopy or inelastic neutron scattering measurement, we find that the lightest dark particle is detectable, manifested as a thermal activation gap in nuclear magnetic resonance measurements. Our results provide a practical criterion for verifying the existence of dark particles.
翻訳日:2024-06-24 12:34:06 公開日:2024-06-21
# SaTor:Torの衛星ルーティングでレイテンシ低減へ

SaTor: Satellite Routing in Tor to Reduce Latency ( http://arxiv.org/abs/2406.15055v1 )

ライセンス: Link先を確認
Haozhi Li, Tariq Elahi, (参考訳) 高いレイテンシはTorネットワークにおける重要な制限である。 Torの遅延を悪化させる重要な要因は、地理的に離れた領域にまたがる長い回路の作成であり、大きな伝送遅延を引き起こしている。 この問題に対処するためには、Torの回路構築プロセスを変更して、長い回路を選択する可能性を減らすという共通の戦略がある。 しかし、この戦略はTorのルーティングのランダム性を損なうため、匿名化のリスクが増大する。 セキュリティの劣化を最小限に抑えながら、Torのレイテンシパフォーマンスを向上させることは、重要な課題である。 本稿では衛星ルーティング技術を用いたTorの遅延改善方式であるSaTorを提案する。 SaTorは、Torリレーのターゲットサブセットに衛星ネットワークアクセスを持たせることを提案し、既存の経路選択プロセスに偏らずに、長距離衛星伝送を利用して遅い回路を加速する。 実世界の実測値と組み合わせたシミュレータを用いてSaTorの性能評価を行った結果,SaTorは長期にわたって,共通条件下での回路の70%以上に対して,約40msの高速化が期待できることがわかった。 この改善は、トップアポックスの配置を必要とする。 30-40%は衛星アクセスで中継する。 我々の研究は、Torの遅延ボトルネックを克服する実行可能な方法を発見し、将来の拡張の実践的な参照として役立ちます。

High latency is a critical limitation within the Tor network. A key factor exacerbating Tor latency is the creation of lengthy circuits that span across geographically distant regions, causing significant transmission delays. To address this issue, a common strategy involves modifying Tor's circuit building process to reduce the likelihood of selecting lengthy circuits. However, this strategy compromises the randomness of Tor's routing, thereby increasing the risk of deanonymization. Improving Tor's latency performance while minimizing security degradation presents a critical challenge. This paper proposes SaTor, a latency-improving scheme for Tor using satellite routing technology. SaTor proposes equipping a targeted subset of Tor relays with satellite network access, utilizing long-distance satellite transmission to accelerate slow circuits, without biasing the existing path selection process. Our SaTor performance evaluation, using a simulator we developed coupled with real-world measurements, demonstrates that over the long-term, SaTor offers an expected speed-up of roughly 40 ms for over 70% of circuits under common conditions. This improvement necessitates outfitting the top approx. 30-40% relays with satellite access. Our research uncovers a viable way to overcome Tor's latency bottleneck, serving as a practical reference for its future enhancement.
翻訳日:2024-06-24 12:34:06 公開日:2024-06-21
# Delegated-Query Oblivious Transferとその応用

Delegated-Query Oblivious Transfer and its Practical Applications ( http://arxiv.org/abs/2406.15063v1 )

ライセンス: Link先を確認
Yvo Desmedt, Aydin Abadi, (参考訳) データベースは、現代のWorld Wide Webとクラウドコンピューティングの世界において重要な役割を果たす。 残念ながら、多くのプライバシー侵害がこのニュースで注目を集めている。 データベースのプライバシを高めるため,我々はエレガントな暗号技術であるOblivious Transfer(OT)を検討する。 我々の観察によると、この領域における既存の研究は、主に理論的暗号アプリケーションに焦点を当てており、様々な実践的な側面を見下ろしている。 私たちの"1-out-of-2 Delegated-Query OT"では、直接アクセスすることなく、データベースをプライベートにクエリすることが可能です。 -クラウドコンピューティングの台頭により、物理的に分離されたデータベースはもはやそうはならないかもしれない。 私たちの"1-out-of-2 Delegated-Query Multi-Receiver OT"は、このような進化するシナリオでプライバシを保護する。 -研究はしばしば、細いクライアント、例えばIoTデバイスの制限を無視します。 そこで本研究では,任意の1-out-n OTをシンクライアントバージョンに変換するコンパイラを提案する。

Databases play a pivotal role in the contemporary World Wide Web and the world of cloud computing. Unfortunately, numerous privacy violations have recently garnered attention in the news. To enhance database privacy, we consider Oblivious Transfer (OT), an elegant cryptographic technology. Our observation reveals that existing research in this domain primarily concentrates on theoretical cryptographic applications, overlooking various practical aspects: - OTs assume parties have direct access to databases. Our "1-out-of-2 Delegated-Query OT" enables parties to privately query a database, without direct access. - With the rise of cloud computing, physically separated databases may no longer remain so. Our "1-out-of-2 Delegated-Query Multi-Receiver OT" protects privacy in such evolving scenarios. - Research often ignores the limitations of thin clients, e.g., Internet of Things devices. To address this, we propose a compiler that transforms any 1-out-of-n OT into a thin client version.
翻訳日:2024-06-24 12:34:06 公開日:2024-06-21
# IPカメラの脆弱性を見つけ(そして悪用)する:Tenda CP3のケーススタディ

Finding (and exploiting) vulnerabilities on IP Finding (and exploiting) vulnerabilities on IP Cameras: the Tenda CP3 case study ( http://arxiv.org/abs/2406.15103v1 )

ライセンス: Link先を確認
Dario Stabili, Tobia Bocchi, Filip Valgimigli, Mirco Marchetti, (参考訳) 現在、消費者IPカメラは、プライベートハウスや小さなオフィスなど、様々な状況において、リモート監視の最も広く採用されているソリューションである。 これらのデバイスのセキュリティは精査されているが、ほとんどのアプローチは比較的浅いネットワークベースの分析に限られている。 本稿では,IPカメラファームウェアから抽出した実行可能ファイルの静的および動的解析を含む,遠隔操作可能な脆弱性のセキュリティ分析と識別手法について論じる。 既存の手法と比較して,我々の手法は,攻撃可能な脆弱性につながる可能性のある悪意ある呼び出しシーケンスの識別に焦点をあてる。 本稿では,天田CP3IPカメラを事例として,本手法の適用例を示す。 CVSSスコアは7.5~9.8。 分析を部分的に自動化するために、Ghidraとrhabdomancerに基づいたカスタムツールも開発した。

Consumer IP cameras are now the most widely adopted solution for remote monitoring in various contexts, such as private homes or small offices. While the security of these devices has been scrutinized, most approaches are limited to relatively shallow network-based analyses. In this paper, we discuss a methodology for the security analysis and identification of remotely exploitable vulnerabilities in IP cameras, which includes static and dynamic analyses of executables extracted from IP camera firmware. Compared to existing methodologies, our approach leverages the context of the target device to focus on the identification of malicious invocation sequences that could lead to exploitable vulnerabilities. We demonstrate the application of our methodology by using the Tenda CP3 IP camera as a case study. We identified five novel CVEs, with CVSS scores ranging from 7.5 to 9.8. To partially automate our analysis, we also developed a custom tool based on Ghidra and rhabdomancer.
翻訳日:2024-06-24 12:34:06 公開日:2024-06-21
# PET画像再構成のためのコアイメージングライブラリと相乗的画像再構成フレームワークを用いた確率的最適化フレームワーク

Stochastic Optimisation Framework using the Core Imaging Library and Synergistic Image Reconstruction Framework for PET Reconstruction ( http://arxiv.org/abs/2406.15159v1 )

ライセンス: Link先を確認
Evangelos Papoutsellis, Casper da Costa-Luis, Daniel Deidda, Claire Delplancke, Margaret Duff, Gemma Fardell, Ashley Gillman, Jakob S. Jørgensen, Zeljko Kereta, Evgueni Ovtchinnikov, Edoardo Pasca, Georg Schramm, Kris Thielemans, (参考訳) 我々は,オープンソースのCore Imaging Library(CIL)に確率的フレームワークを導入し,確率的アルゴリズムの開発を容易にする。 文献から得られた5つのアルゴリズム、確率勾配 Descent, Stochastic Average Gradient (-Am\'elior\'e), (Loopless) Stochastic Variance Reduced Gradient が開発された。 本稿では,オープンソースのSynergistic Image Reconstruction Frameworkを用いて,シミュレーションされた2次元PETデータセット上の決定論的アルゴリズムとの比較検討を行った。 我々は,確率的最適化手法が標準的な決定論的アルゴリズムよりも少ないパスで収束できることを観察する。

We introduce a stochastic framework into the open--source Core Imaging Library (CIL) which enables easy development of stochastic algorithms. Five such algorithms from the literature are developed, Stochastic Gradient Descent, Stochastic Average Gradient (-Am\'elior\'e), (Loopless) Stochastic Variance Reduced Gradient. We showcase the functionality of the framework with a comparative study against a deterministic algorithm on a simulated 2D PET dataset, with the use of the open-source Synergistic Image Reconstruction Framework. We observe that stochastic optimisation methods can converge in fewer passes of the data than a standard deterministic algorithm.
翻訳日:2024-06-24 12:34:06 公開日:2024-06-21
# サイバー必需品技術管理の有効性評価

Assessing Effectiveness of Cyber Essentials Technical Controls ( http://arxiv.org/abs/2406.15210v1 )

ライセンス: Link先を確認
Priyanka Badva, Partha Das Chowdhury, Kopo M. Ramokapane, Barnaby Craggs, Awais Rashid, (参考訳) Cyber Essentials (CE) は、組織をサイバー攻撃から守るために設計された一連のコントロールで構成されている。 コントロールはファイアウォール、セキュアな設定、ユーザアクセス制御、マルウェア保護、セキュリティアップデート管理である。 本研究では、CEが今後も進化を続ける脅威の状況に対して頑健なままである範囲について検討する。 そこで我々は,インシデント・フォールト・ツリー(IFT)アプローチを用いて,MITRE ATT&CKにマッピングされた45件の欠陥を再構築した。 本手法は,規制の配置が組織を保護できる交差点を明らかにする。 次に、これらの脆弱な交差点に対して、適切なCyber Essentialコントロールと/または追加コントロールを特定する。 この結果から,CE制御は初期攻撃時の攻撃に対して効果的に防御できることがわかった。 しかし、攻撃が組織システムやネットワークにさらに進めば、追加のコントロールで補完する必要があるかもしれない。 私たちが特定する追加コントロール(AC)には、バックアップ、セキュリティ意識、ロギング、監視があります。 我々の分析は、コントロールが回復を排除し、プリエンプションのみに集中すべきかどうかという基礎的な問題を引き起こします。 後者は、動的脅威ランドスケープにおける全ての制御の事前識別が実際に可能であることを強く仮定する。 さらに、技術的コントロールの潜在的な拡張には、サイバー・エッセンス(CE)アセスタに必要なスキルを再スキャンする必要がある。 そのために,これらの知見に基づいてCEの拡大が生じた場合,Cyber Security Body of Knowledge (CyBOK) の2つの潜在的な知識領域として,ヒューマンファクターとセキュリティ操作,インシデント管理を提案する。

Cyber Essentials (CE) comprise a set of controls designed to protect organisations, irrespective of their size, against cyber attacks. The controls are firewalls, secure configuration, user access control, malware protection & security update management. In this work, we explore the extent to which CE remains robust against an ever-evolving threat landscape. To that end, we reconstruct 45 breaches mapped to MiTRE ATT&CK using an Incident Fault Tree ( IFT ) approach. Our method reveals the intersections where the placement of controls could have protected organisations. Then we identify appropriate Cyber Essential controls and/or Additional Controls for these vulnerable intersections. Our results show that CE controls can effectively protect against most attacks during the initial attack phase. However, they may need to be complemented with additional Controls if the attack proceeds further into organisational systems & networks. The Additional Controls (AC) we identify include back-ups, security awareness, logging and monitoring. Our analysis brings to the fore a foundational issue as to whether controls should exclude recovery and focus only on pre-emption. The latter makes the strong assumption that a prior identification of all controls in a dynamic threat landscape is indeed possible. Furthermore, any potential broadening of technical controls entails re-scoping the skills that are required for a Cyber Essentials (CE) assessor. To that end, we suggest human factors and security operations and incident management as two potential knowledge areas from Cyber Security Body of Knowledge (CyBOK) if there is any broadening of CE based on these findings.
翻訳日:2024-06-24 12:34:06 公開日:2024-06-21
# バイアニソトロピックマイクロ波共振器の全誘電体正方格子アレイのエッジ状態

Edge states in all-dielectric square-lattice arrays of bianisotropic microwave resonators ( http://arxiv.org/abs/2406.15246v1 )

ライセンス: Link先を確認
Alina D. Rozenblit, Georgiy D. Kurganov, Nikita A. Olekhno, (参考訳) 誘電体共振器のミラー対称性に付随するバイアニソトロピック応答は、そのような共振器の単純な正方格子配列でバンドギャップを開くことができることを示す。 提案方式は、GHz周波数で動作する高密度セラミック共振器のアレイとして実現し、両異方性共振器の対向方向と単一領域と自由空間の境界における界面におけるエッジ状態の存在を数値的および実験的に示す。 いずれの場合も, エッジ状態の分散, 鋭い屈曲に沿った伝播, 様々な幾何学的欠陥に対する反発性, 円偏光励起の場合のスピンモーメントロック一方向伝播を特徴付ける。 検討された設計は、異なる共振器領域または共振器領域と自由空間の間の界面にエッジ状態を含む光学構造とマイクロ波構造を同時に構築する新たな可能性を開く。

We demonstrate that a bianisotropic response associated with a broken mirror symmetry of a dielectric resonator allows opening the bandgap in simple square lattice arrays of such resonators. Realizing the proposed system as an array of high-index ceramic resonators working at GHz frequencies, we numerically and experimentally demonstrate the presence of edge states at the interface between two domains with opposite orientations of the bianisotropic resonators as well as at the boundary between a single domain and free space. For both cases, we characterize the dispersion of edge states, examine their propagation along sharp bends, their resilience towards various types of geometrical defects, and a spin-momentum locked unidirectional propagation in the case of circularly polarized excitation. The considered design opens novel possibilities in constructing optical and microwave structures simultaneously featuring edge states at the interfaces between distinct resonator domains or a resonator domain and free space.
翻訳日:2024-06-24 12:34:06 公開日:2024-06-21
# 次世代量子技術のための機能性原子蒸気セルの付加製造

Additive Manufacturing of functionalised atomic vapour cells for next-generation quantum technologies ( http://arxiv.org/abs/2406.15255v1 )

ライセンス: Link先を確認
Feiran Wang, Nathan Cooper, Yinfeng He, Benjamin Hopton, David Johnson, Peng Zhao, T. Mark Fromhold, Christopher J. Tuck, Richard Hague, Ricky D. Wildman, Lyudmila Turyanska, Lucia Hackermüller, (参考訳) 原子蒸気電池は量子技術(QT)にとって必須のツールであるが、潜在的な改善は従来の製造方法の容量によって制限される。 添加性製造法(AM)技術(デジタル光処理によるベット重合)を用いて,初めて3Dプリントしたガラス蒸気電池を実演した。 AMキャパシティの活用により、複雑な内部構造や2D光電子材料をオーバープリントして集積センサーと表面機能化を図り、また金ナノ粒子のその場成長によってAMガラスの光学特性を調整できる。 生成したセルは、超高真空の10^{-9$ mbarを実現し、ドップラーフリー分光を可能にし、QTアプリケーションとしてレーザー周波数安定化を実証した。 これらの結果は, AMがQTに果たす変換的役割を浮き彫りにして, コンパクトで, 最適化され, 統合されたマルチマテリアルコンポーネントやデバイスを実現する。

Atomic vapour cells are an indispensable tool for quantum technologies (QT), but potential improvements are limited by the capacities of conventional manufacturing methods. Using an additive manufacturing (AM) technique - vat polymerisation by digital light processing - we demonstrate, for the first time, a 3D-printed glass vapour cell. The exploitation of AM capacities allows intricate internal architectures, overprinting of 2D optoelectronical materials to create integrated sensors and surface functionalisation, while also showing the ability to tailor the optical properties of the AM glass by in-situ growth of gold nanoparticles. The produced cells achieve ultra-high vacuum of $2 \times 10^{-9}$ mbar and enable Doppler-free spectroscopy; we demonstrate laser frequency stabilisation as a QT application. These results highlight the transformative role that AM can play for QT in enabling compact, optimised and integrated multi-material components and devices.
翻訳日:2024-06-24 12:34:06 公開日:2024-06-21
# 暗号自己選択プロトコルにおける最適操作

Computing Optimal Manipulations in Cryptographic Self-Selection Proof-of-Stake Protocols ( http://arxiv.org/abs/2406.15282v1 )

ライセンス: Link先を確認
Matheus V. X. Ferreira, Aadityan Ganesh, Jack Hourigan, Hannah Huh, S. Matthew Weinberg, Catherine Yu, (参考訳) 暗号自己選択(英: Cryptographic Self-Selection)は、現代のProof-of-Stakeコンセンサスプロトコルで採用されているパラダイムであり、ブロックプロポーシングの「リーダー」を選択する。 Algorand [Chen and Micali, 2019] は標準的なプロトコルを提案し、Ferreira et al [2022] は境界$f(\alpha,\beta)$を設定する。 下界と上界はどちらも自明ではないが、それらの間にはかなりのギャップがある(例えば、$f(10\%,1) \in [10.08\%, 21.12\%]$)。 我々は、任意の所望の$(\alpha,\beta)$に対して$f(\alpha,\beta)$を確実に釘付けし、任意の精度で計算方法を開発し、幅広いパラメータに実装する(例えば、$f(10\%, 1) \in [10.08\%, 10.15\%]$)。 メソジカルには、$f(\alpha,\beta)$を推定することは、実数の数えきれないほど長いリストを持つマルコフ決定過程の値を高精度に推定することを意味する。 私たちの方法論的貢献は (a)非線形サンプリング演算子の固定点である分布の期待値を高精度に計算する代わりに、問題を再検討し、 b) 様々なトランケーションによって引き起こされる誤差を証明的に束縛し、この分布のサンプリング推定を行う(これは閉形式で解くのに難しそうに思える)。 例えば、対象分布の平均の自然サンプリングに基づく推定は、偏りのない推定器であるので、我々の手法は必ずしも平均に近づくだけの十分な多くのサンプルを主張する以上のものである。

Cryptographic Self-Selection is a paradigm employed by modern Proof-of-Stake consensus protocols to select a block-proposing "leader." Algorand [Chen and Micali, 2019] proposes a canonical protocol, and Ferreira et al. [2022] establish bounds $f(\alpha,\beta)$ on the maximum fraction of rounds a strategic player can lead as a function of their stake $\alpha$ and a network connectivity parameter $\beta$. While both their lower and upper bounds are non-trivial, there is a substantial gap between them (for example, they establish $f(10\%,1) \in [10.08\%, 21.12\%]$), leaving open the question of how significant of a concern these manipulations are. We develop computational methods to provably nail $f(\alpha,\beta)$ for any desired $(\alpha,\beta)$ up to arbitrary precision, and implement our method on a wide range of parameters (for example, we confirm $f(10\%,1) \in [10.08\%, 10.15\%]$). Methodologically, estimating $f(\alpha,\beta)$ can be phrased as estimating to high precision the value of a Markov Decision Process whose states are countably-long lists of real numbers. Our methodological contributions involve (a) reformulating the question instead as computing to high precision the expected value of a distribution that is a fixed-point of a non-linear sampling operator, and (b) provably bounding the error induced by various truncations and sampling estimations of this distribution (which appears intractable to solve in closed form). One technical challenge, for example, is that natural sampling-based estimates of the mean of our target distribution are \emph{not} unbiased estimators, and therefore our methods necessarily go beyond claiming sufficiently-many samples to be close to the mean.
翻訳日:2024-06-24 12:34:06 公開日:2024-06-21
# BliMe Linter

BliMe Linter ( http://arxiv.org/abs/2406.15302v1 )

ライセンス: Link先を確認
Hossam ElAtali, Xiaohe Duan, Hans Liljestrand, Meng Xu, N. Asokan, (参考訳) アウトソース計算は、サービスプロバイダがこのデータを誤って扱わないことを信頼する必要があるため、クライアントの機密データの機密性にリスクをもたらす。 Blinded Memory(BliMe)は、ハードウェアベースのテナントトラッキングを使用して、機密性の高いクライアントデータを追跡し、ソフトウェアが直接またはサイドチャネルを介してこのデータを漏洩することを防ぐセキュリティポリシーを適用することにより、この問題に対処するハードウェア拡張セットである。 制御フローやメモリアクセス命令でこのデータが使用される場合、プログラムはタイミングチャネルやメモリアクセスパターンを通じて機密データを漏洩させることができるため、BliMeはそのような安全でない操作を禁止し、機密データに対して一定の時間コードしか操作できない。 問題は、開発者がどのようにして自分のコードがBliMe上で正しく実行されるかを確認できるかである。 プログラムが一定時間かどうかを手動でチェックできるが、このプロセスは面倒でエラーを起こしやすい。 本稿では,SVF上に構築されたコンパイラ拡張セットであるBliMe linterを紹介し,LLVMビットコードを解析して,BliMe違反の可能性を特定する。 我々は,BliMeを解析的に,実験的に評価し,それが音であることを示す。

Outsourced computation presents a risk to the confidentiality of clients' sensitive data since they have to trust that the service providers will not mishandle this data. Blinded Memory (BliMe) is a set of hardware extensions that addresses this problem by using hardware-based taint tracking to keep track of sensitive client data and enforce a security policy that prevents software from leaking this data, either directly or through side channels. Since programs can leak sensitive data through timing channels and memory access patterns when this data is used in control-flow or memory access instructions, BliMe prohibits such unsafe operations and only allows constant-time code to operate on sensitive data. The question is how a developer can confirm that their code will run correctly on BliMe. While a program can be manually checked to see if it is constant-time, this process is tedious and error-prone. In this paper, we introduce the BliMe linter, a set of compiler extensions built on top of SVF that analyze LLVM bitcode to identify possible BliMe violations. We evaluate the BliMe linter analytically and empirically and show that it is sound.
翻訳日:2024-06-24 12:34:06 公開日:2024-06-21
# トピックAPIにおけるプライバシとユーティリティのトレードオフ

The Privacy-Utility Trade-off in the Topics API ( http://arxiv.org/abs/2406.15309v1 )

ライセンス: Link先を確認
Mário S. Alvim, Natasha Fernandes, Annabelle McIver, Gabriel H. Nunes, (参考訳) Webブラウザベンダによるサードパーティ製クッキーの非推奨化が続く中で、Webブラウザやアプリケーション上で、よりプライバシーを保護したパーソナライズされた広告をサポートする方法が提案されている。 Topics APIは、Googleによって「ページ訪問者が現在興味を持っているかもしれない、粗いきめ細かい広告トピック」を提供するように提案されている。 本稿では,各インターネットユーザに対する再識別リスクと広告会社に提供するユーティリティをトピックAPIを用いて分析し,最も人気のあるトピックを学習し,現実とランダムなトピックを区別する。 我々は、未知の任意の側情報にアクセスする敵を考慮に入れた新しい一般的な上限、差分プライバシーパラメータ$\epsilon$の値、我々の理論モデルを検証する実世界のデータに対する実験結果など、将来のAPI更新のプライバシと実用性について簡単に評価できるAPIパラメータのみに依存する理論的結果を提供する。

The ongoing deprecation of third-party cookies by web browser vendors has sparked the proposal of alternative methods to support more privacy-preserving personalized advertising on web browsers and applications. The Topics API is being proposed by Google to provide third-parties with "coarse-grained advertising topics that the page visitor might currently be interested in". In this paper, we analyze the re-identification risks for individual Internet users and the utility provided to advertising companies by the Topics API, i.e. learning the most popular topics and distinguishing between real and random topics. We provide theoretical results dependent only on the API parameters that can be readily applied to evaluate the privacy and utility implications of future API updates, including novel general upper-bounds that account for adversaries with access to unknown, arbitrary side information, the value of the differential privacy parameter $\epsilon$, and experimental results on real-world data that validate our theoretical model.
翻訳日:2024-06-24 12:34:06 公開日:2024-06-21
# 二次マルコフ散逸系における絡み合いの条件

Fate of entanglement in quadratic Markovian dissipative systems ( http://arxiv.org/abs/2406.15328v1 )

ライセンス: Link先を確認
Fabio Caceffo, Vincenzo Alba, (参考訳) 本研究では, 混合状態系における真の絡み合いを定量化する, 絡み合いネガティビティの駆動散逸ダイナミクスの流体力学的記述を開発する。 2次リンドブラッドマスター方程式で説明されるように、線形散逸を受けるフェルミオン系およびボゾン系の量子クエンチに焦点をあてる。 流体力学の精神では、系をメソスコピック細胞に分割する。 初期の段階では、進化の単位成分によって各細胞に相関が生成される。 相関は、環境の作用下で同時に進化しながら、弾道準粒子の伝播を介して異なる細胞に伝達される。 本研究では, 流体力学の限界において, 独立に伝播する準粒子間の相関関係から負の速度を再構成可能であることを示す。 我々は, ゲイン/ロス散逸の存在下での, 北エフ鎖, タイト結合鎖, ハーモニック鎖における等質および不均一初期状態からのクエンチを考慮したアプローチをベンチマークした。

We develop a hydrodynamic description for the driven-dissipative dynamics of the entanglement negativity, which quantifies the genuine entanglement in mixed-state systems. We focus on quantum quenches in fermionic and bosonic systems subject to linear dissipation, as described by quadratic Lindblad master equations. In the spirit of hydrodynamics, we divide the system into mesoscopic cells. At early times, correlations are generated in each cell by the unitary component of the evolution. Correlations are then transported across different cells via ballistic quasiparticle propagation, while simultaneously evolving under the action of the environment. We show that in the hydrodynamic limit the negativity can be reconstructed from the correlations between the independently propagating quasiparticles. We benchmark our approach considering quenches from both homogeneous and inhomogeneous initial states in the Kitaev chain, the tight-binding chain, and the harmonic chain in the presence of gain/loss dissipation.
翻訳日:2024-06-24 12:34:06 公開日:2024-06-21
# 深層学習に基づく心電図T_1$マッピングの運動補正のためのグループ登録

Deep-learning-based groupwise registration for motion correction of cardiac $T_1$ mapping ( http://arxiv.org/abs/2406.12456v2 )

ライセンス: Link先を確認
Yi Zhang, Yidong Zhao, Lu Huang, Liming Xia, Qian Tao, (参考訳) MRIによるT_1$マッピングは、心血管疾患の臨床的評価において、ますます重要なツールである。 心臓のT_1$マップは、既知の信号モデルと一連のベースライン画像とを合わせ、このマップの品質は不随意呼吸と心臓の動きによって劣化させることができる。 動きを補正するためには、すべてのベースラインイメージを登録するためにテンプレートイメージが必要であるが、テンプレートの選択は簡単ではないため、画像のコントラストに敏感なパフォーマンスをもたらす。 本研究では,テンプレートの必要性を軽減し,すべてのベースラインイメージを同時に登録する,新しいディープラーニングベースのグループワイド登録フレームワークを提案する。 1つは線形主成分分析(PCA)損失であり、もう1つは信号モデルへの強度プロファイルの付着を強制する緩和緩和法損失である。 我々は,<PCA-Relax''とよばれる手法と,コントラスト前および後の両方のT_1$配列を含む心筋MRIデータセットのベースライン法を広範囲に評価した。 全ての手法は、標準、単発、テストタイム適応という3つの異なるトレーニング・アンド・評価戦略に基づいて評価された。 提案したPCA-Relaxは, 確立されたベースライン上での登録とマッピングの性能をさらに向上させた。 提案したグループワイドフレームワークは汎用的であり、複数の画像を含むアプリケーションに適用することができる。

Quantitative $T_1$ mapping by MRI is an increasingly important tool for clinical assessment of cardiovascular diseases. The cardiac $T_1$ map is derived by fitting a known signal model to a series of baseline images, while the quality of this map can be deteriorated by involuntary respiratory and cardiac motion. To correct motion, a template image is often needed to register all baseline images, but the choice of template is nontrivial, leading to inconsistent performance sensitive to image contrast. In this work, we propose a novel deep-learning-based groupwise registration framework, which omits the need for a template, and registers all baseline images simultaneously. We design two groupwise losses for this registration framework: the first is a linear principal component analysis (PCA) loss that enforces alignment of baseline images irrespective of the intensity variation, and the second is an auxiliary relaxometry loss that enforces adherence of intensity profile to the signal model. We extensively evaluated our method, termed ``PCA-Relax'', and other baseline methods on an in-house cardiac MRI dataset including both pre- and post-contrast $T_1$ sequences. All methods were evaluated under three distinct training-and-evaluation strategies, namely, standard, one-shot, and test-time-adaptation. The proposed PCA-Relax showed further improved performance of registration and mapping over well-established baselines. The proposed groupwise framework is generic and can be adapted to applications involving multiple images.
翻訳日:2024-06-24 12:24:18 公開日:2024-06-21
# ハイブリッドテレメトリを用いたパケット光ネットワークの強化学習に基づくルーティング

Reinforcement-Learning based routing for packet-optical networks with hybrid telemetry ( http://arxiv.org/abs/2406.12602v2 )

ライセンス: Link先を確認
A. L. García Navarro, Nataliia Koneva, Alfonso Sánchez-Macián, José Alberto Hernández, Óscar González de Dios, J. M. Rivas-Moscoso, (参考訳) 本稿では,パケット-光ネットワークシナリオにおける最適経路を見つけるための強化学習アルゴリズムの方法論とオープンソース実装について述べる。 このアルゴリズムは、物理層(前FECビットエラー率と伝搬遅延)とリンク層(リンク負荷)によって提供される測定値を用いて、そのような測定値に基づいてレイテンシベースの報酬と罰則のセットを構成する。 そして、最適なルーティング戦略を見つけるために、この一連の報酬に基づいてQ-ラーニングを実行する。 さらに, 前FEC BERで測定したリンク負荷変化やリンク劣化に対する最適ポリシーの再計算により, ネットワーク条件の変化に動的に適応することを示した。

This article provides a methodology and open-source implementation of Reinforcement Learning algorithms for finding optimal routes in a packet-optical network scenario. The algorithm uses measurements provided by the physical layer (pre-FEC bit error rate and propagation delay) and the link layer (link load) to configure a set of latency-based rewards and penalties based on such measurements. Then, the algorithm executes Q-learning based on this set of rewards for finding the optimal routing strategies. It is further shown that the algorithm dynamically adapts to changing network conditions by re-calculating optimal policies upon either link load changes or link degradation as measured by pre-FEC BER.
翻訳日:2024-06-24 12:24:18 公開日:2024-06-21
# GeoBench: 単眼形状推定モデルのベンチマークと解析

GeoBench: Benchmarking and Analyzing Monocular Geometry Estimation Models ( http://arxiv.org/abs/2406.12671v2 )

ライセンス: Link先を確認
Yongtao Ge, Guangkai Xu, Zhiyue Zhao, Libo Sun, Zheng Huang, Yanlong Sun, Hao Chen, Chunhua Shen, (参考訳) 識別的および生成的事前学習の最近の進歩は、強力な一般化能力を持つ幾何推定モデルを生み出している。 識別的単分子幾何推定法は、ゼロショットの一般化を達成するために大規模な微調整データに依存するが、いくつかの生成的パラダイムは、事前学習された拡散モデルを活用し、少量の合成訓練データに対して微調整を行うことで、目に見えないシーンにおける印象的な一般化性能を達成する可能性を示している。 不満なことに、これらのモデルは異なるデータセット上の異なるレシピでトレーニングされており、評価性能を決定する重要な要因を見つけることは困難である。 さらに、現在の幾何評価ベンチマークは、フィールドの開発を妨げる2つの主な欠点、すなわち限られたシーンの多様性と好ましくないラベル品質を持っている。 上記の課題を解決するため,(1)幾何推定モデルの評価と解析のための統一コードベースにおいて,公正で強力なベースラインを構築し,(2)多様な場面と高品質なアノテーションを用いた幾何推定タスクのためのより困難なベンチマークにおいて,単色幾何推定器の評価を行った。 以上の結果から,DINOv2のような大容量データを用いた事前学習は,データスケールやモデルアーキテクチャよりも微調整データの品質が重要な要素であることが示唆された。 少量の合成深度データを用いてDINOv2のような一般的な視覚モデルを微調整するだけでSOTA結果が得られるなら、深度推定に複雑な生成モデルが必要だろうか? この研究は、幾何推定タスクの進歩と、幅広い下流アプリケーションを促進することができると信じている。

Recent advances in discriminative and generative pretraining have yielded geometry estimation models with strong generalization capabilities. While discriminative monocular geometry estimation methods rely on large-scale fine-tuning data to achieve zero-shot generalization, several generative-based paradigms show the potential of achieving impressive generalization performance on unseen scenes by leveraging pre-trained diffusion models and fine-tuning on even a small scale of synthetic training data. Frustratingly, these models are trained with different recipes on different datasets, making it hard to find out the critical factors that determine the evaluation performance. Besides, current geometry evaluation benchmarks have two main drawbacks that may prevent the development of the field, i.e., limited scene diversity and unfavorable label quality. To resolve the above issues, (1) we build fair and strong baselines in a unified codebase for evaluating and analyzing the geometry estimation models; (2) we evaluate monocular geometry estimators on more challenging benchmarks for geometry estimation task with diverse scenes and high-quality annotations. Our results reveal that pre-trained using large data, discriminative models such as DINOv2, can outperform generative counterparts with a small amount of high-quality synthetic data under the same training configuration, which suggests that fine-tuning data quality is a more important factor than the data scale and model architecture. Our observation also raises a question: if simply fine-tuning a general vision model such as DINOv2 using a small amount of synthetic depth data produces SOTA results, do we really need complex generative models for depth estimation? We believe this work can propel advancements in geometry estimation tasks as well as a wide range of downstream applications.
翻訳日:2024-06-24 12:24:18 公開日:2024-06-21
# The Achilles' Heel of LLMs(英語)

[WIP] Jailbreak Paradox: The Achilles' Heel of LLMs ( http://arxiv.org/abs/2406.12702v2 )

ライセンス: Link先を確認
Abhinav Rao, Monojit Choudhury, Somak Aditya, (参考訳) 基礎モデルのジェイルブレイクに関する2つのパラドックスを紹介する: まず、完璧なジェイルブレイク分類器を構築することは不可能であり、第二に、より弱いモデルでは、より強い(パレト支配的な意味で)モデルがジェイルブレイクされているかどうかを一貫して検出できない。 これらのパラドックスの形式的証明と、Llama と GPT4-o の簡単なケーススタディによりこれを実証する。 これらの結果のより広範な理論的および実践的な反感について論じる。

We introduce two paradoxes concerning jailbreak of foundation models: First, it is impossible to construct a perfect jailbreak classifier, and second, a weaker model cannot consistently detect whether a stronger (in a pareto-dominant sense) model is jailbroken or not. We provide formal proofs for these paradoxes and a short case study on Llama and GPT4-o to demonstrate this. We discuss broader theoretical and practical repercussions of these results.
翻訳日:2024-06-24 12:24:18 公開日:2024-06-21
# AGLA:グローバル・ローカル・アテンションを組み込んだ大規模視覚言語モデルにおける物体の幻覚の緩和

AGLA: Mitigating Object Hallucinations in Large Vision-Language Models with Assembly of Global and Local Attention ( http://arxiv.org/abs/2406.12718v2 )

ライセンス: Link先を確認
Wenbin An, Feng Tian, Sicong Leng, Jiahao Nie, Haonan Lin, QianYing Wang, Guang Dai, Ping Chen, Shijian Lu, (参考訳) 様々なマルチモーダルタスクにおいて大きな成功を収めたにもかかわらず、LVLM(Large Vision-Language Models)は、オブジェクト幻覚において一般的な問題に直面している。 本稿では, 種々のLVLMについて検討し, 物体幻覚の根本原因としての識別的局所像の特徴に着目した。 特に、LVLMはプロンプト非依存のグローバルな画像の特徴に主に関与するが、プロンプト関連ローカルな特徴を捉えなかったため、LVLMの視覚的接地能力が損なわれ、幻覚がもたらされる。 この目的のために我々は,学習自由でプラグアンドプレイなアプローチであるグローバル・ローカル・アテンション(AGLA, Assembly of Global and Local Attention)を提案し,応答生成のためのグローバルな特徴と視覚的識別のためのローカル特徴のアンサンブルを同時に探索することによって,対象の幻覚を緩和する。 提案手法では,画像から急激な局所的特徴を抽出する画像プロンプトマッチング方式を提示し,無関係な注意を隠蔽しながら,急激な関連コンテンツが予約されている入力画像の視認性を高めた。 拡張ビューでは、原画像からの生成的グローバル特徴と、拡張画像からの識別的ローカル特徴を統合することで、校正復号分布を導出することができる。 広範囲にわたる実験により、AGLAは、様々な識別的および生成的ベンチマークにおいて、オブジェクト幻覚を一貫して緩和し、LVLMの一般的な知覚能力を高めることが示されている。 私たちのコードはhttps://github.com/Lackel/AGLA.comでリリースされます。

Despite their great success across various multimodal tasks, Large Vision-Language Models (LVLMs) are facing a prevalent problem with object hallucinations, where the generated textual responses are inconsistent with ground-truth objects in the given image. This paper investigates various LVLMs and pinpoints attention deficiency toward discriminative local image features as one root cause of object hallucinations. Specifically, LVLMs predominantly attend to prompt-independent global image features, while failing to capture prompt-relevant local features, consequently undermining the visual grounding capacity of LVLMs and leading to hallucinations. To this end, we propose Assembly of Global and Local Attention (AGLA), a training-free and plug-and-play approach that mitigates object hallucinations by exploring an ensemble of global features for response generation and local features for visual discrimination simultaneously. Our approach exhibits an image-prompt matching scheme that captures prompt-relevant local features from images, leading to an augmented view of the input image where prompt-relevant content is reserved while irrelevant distractions are masked. With the augmented view, a calibrated decoding distribution can be derived by integrating generative global features from the original image and discriminative local features from the augmented image. Extensive experiments show that AGLA consistently mitigates object hallucinations and enhances general perception capability for LVLMs across various discriminative and generative benchmarks. Our code will be released at https://github.com/Lackel/AGLA.
翻訳日:2024-06-24 12:24:18 公開日:2024-06-21
# 病理組織学におけるグラフニューラルネットワークの新たな動向と今後の方向性

Graph Neural Networks in Histopathology: Emerging Trends and Future Directions ( http://arxiv.org/abs/2406.12808v3 )

ライセンス: Link先を確認
Siemen Brussee, Giorgio Buzzanca, Anne M. R. Schrader, Jesper Kers, (参考訳) 深層学習,特に畳み込みニューラルネットワーク(CNN)の利用が増加し,全スライド画像(WSI)の病理組織学的解析が進んでいる。 しかし、CNNはWSIに固有の複雑な空間依存を捉えるのに不足することが多い。 グラフニューラルネットワーク(GNN)は、ペアの相互作用を直接モデル化し、WSI内のトポロジ組織と細胞構造を効果的に識別する、有望な代替手段を提供する。 WSIsのトポロジ的構造を利用する深層学習技術の必要性を認識し、GNNsの病理組織学への応用は急速に成長してきた。 本総説では,GNNを病理組織学的に調査し,その応用を議論し,今後の発展への道を開く新たなトレンドを探求する。 まず、GNNの基礎と、その病理組織学への応用を解明することから始める。 定量的文献分析を活用することで,階層型GNN,適応型グラフ構造学習,マルチモーダルGNN,高次GNNの4つのトレンドが明らかになった。 これらの傾向の詳細な調査を通じて、病理組織学的解析において、GNNの進化する景観に関する洞察を提供する。 本研究は,本研究の成果を踏まえ,今後の方向性を推し進めるものである。 我々の分析は、研究者や実践者が革新的なアプローチや方法論を導き、グラフニューラルネットワークのレンズによる病理学的分析の進歩を促進するのに役立つ。

Histopathological analysis of Whole Slide Images (WSIs) has seen a surge in the utilization of deep learning methods, particularly Convolutional Neural Networks (CNNs). However, CNNs often fall short in capturing the intricate spatial dependencies inherent in WSIs. Graph Neural Networks (GNNs) present a promising alternative, adept at directly modeling pairwise interactions and effectively discerning the topological tissue and cellular structures within WSIs. Recognizing the pressing need for deep learning techniques that harness the topological structure of WSIs, the application of GNNs in histopathology has experienced rapid growth. In this comprehensive review, we survey GNNs in histopathology, discuss their applications, and explore emerging trends that pave the way for future advancements in the field. We begin by elucidating the fundamentals of GNNs and their potential applications in histopathology. Leveraging quantitative literature analysis, we identify four emerging trends: Hierarchical GNNs, Adaptive Graph Structure Learning, Multimodal GNNs, and Higher-order GNNs. Through an in-depth exploration of these trends, we offer insights into the evolving landscape of GNNs in histopathological analysis. Based on our findings, we propose future directions to propel the field forward. Our analysis serves to guide researchers and practitioners towards innovative approaches and methodologies, fostering advancements in histopathological analysis through the lens of graph neural networks.
翻訳日:2024-06-24 12:24:18 公開日:2024-06-21
# 次元対数的ソボレフ不等式による確率測度における低次元構造のシャープ検出

Sharp detection of low-dimensional structure in probability measures via dimensional logarithmic Sobolev inequalities ( http://arxiv.org/abs/2406.13036v2 )

ライセンス: Link先を確認
Matthew T. C. Li, Tiangang Cui, Fengyi Li, Youssef Marzouk, Olivier Zahm, (参考訳) 高次元確率測度における低次元構造を同定することは、効率的なサンプリングのための重要な前処理ステップである。 対象測度 $\pi$ を与えられた基準測度 $\mu$ の摂動として同定し近似する手法を導入する。 基準測度はガウスあるいはガウスの非線形変換であり、生成的モデリングにおいて一般的に生じる。 本手法は,Kulback-Leibler 偏差の偏差を最小化するための先行研究を拡張し,この尺度のクラスにおける最適近似を同定する。 我々の主な貢献は、対数的ソボレフ不等式(LSI)とこのアンザッツとの近似との接続を明らかにすることである。 具体的には、ターゲットと参照の両方がガウス的である場合、次元LSIの最小化は、このアンサッツに制限されたKLの発散を最小限にすることと同値であることを示す。 一般の非ガウス測度に対して、次元LSIは、勾配に基づく次元還元のために以前の主元を均一に改善する主元を生成する。 さらに、この解析を正方形ヘリンガー距離に適用可能であることを示し、類似の推論は、次元ポアンカーの不等式が改善された境界を与えることを示している。

Identifying low-dimensional structure in high-dimensional probability measures is an essential pre-processing step for efficient sampling. We introduce a method for identifying and approximating a target measure $\pi$ as a perturbation of a given reference measure $\mu$ along a few significant directions of $\mathbb{R}^{d}$. The reference measure can be a Gaussian or a nonlinear transformation of a Gaussian, as commonly arising in generative modeling. Our method extends prior work on minimizing majorizations of the Kullback--Leibler divergence to identify optimal approximations within this class of measures. Our main contribution unveils a connection between the \emph{dimensional} logarithmic Sobolev inequality (LSI) and approximations with this ansatz. Specifically, when the target and reference are both Gaussian, we show that minimizing the dimensional LSI is equivalent to minimizing the KL divergence restricted to this ansatz. For general non-Gaussian measures, the dimensional LSI produces majorants that uniformly improve on previous majorants for gradient-based dimension reduction. We further demonstrate the applicability of this analysis to the squared Hellinger distance, where analogous reasoning shows that the dimensional Poincar\'e inequality offers improved bounds.
翻訳日:2024-06-24 12:24:18 公開日:2024-06-21
# ネットワーク医療とGenAIによる複雑疾患治療の加速 : 乳癌に対する薬物治療を事例として

Accelerating Complex Disease Treatment through Network Medicine and GenAI: A Case Study on Drug Repurposing for Breast Cancer ( http://arxiv.org/abs/2406.13106v2 )

ライセンス: Link先を確認
Ahmed Abdeen Hamed, Tamer E. Fandy, (参考訳) 本研究の目的は, 臨床治験や生医学文献など, 現実の証拠資料を調査し, 再活用可能な薬剤の予測を専門とするネットワークを導入することである。 具体的には、複雑な疾患(例えば、がん、アルツハイマー病)に対する薬物併用療法を作成することを目的としている。 本稿では,高度に構成されたChatGPTプロンプト・エンジニアリング・システムによる多層ネットワーク・メディカル・アプローチを提案する。 さらに,現実の証拠を病原性シグナル伝達経路(KEGGデータベースなど)に結びつける新しいアルゴリズムを提案する。 これは、シグナル伝達経路の1つ以上のタンパク質成分と結合すると、薬の再利用可能性に光を当てる。 その結果,46の乳癌シグナル伝達経路のうち,少なくとも2つの薬剤を投与した38の経路が同定された。 この証拠はこれらの薬物を組み合わせる可能性を示唆している。 具体的には、最もカバーされたシグナル伝達経路であるID hsa:2064は、108の薬物でカバーされ、そのうちのいくつかは組み合わせることができる。 逆に、シグナル伝達経路 ID hsa:1499 はわずか2つの薬物で覆われており、さらなる研究には大きなギャップがあることが示されている。 GenAIによって強化された我々のネットワーク医療フレームワークは、標的となるシグナル伝達経路やタンパク質を正確に把握し、薬物の組み合わせを高い特異度で識別する可能性を示しています。 ChatGPTは、臨床試験で薬物の言及を識別する過程をうまく加速したが、薬物の言及間の関係を判断するためには、さらなる調査が必要である。

The objective of this research is to introduce a network specialized in predicting drugs that can be repurposed by investigating real-world evidence sources, such as clinical trials and biomedical literature. Specifically, it aims to generate drug combination therapies for complex diseases (e.g., cancer, Alzheimer's). We present a multilayered network medicine approach, empowered by a highly configured ChatGPT prompt engineering system, which is constructed on the fly to extract drug mentions in clinical trials. Additionally, we introduce a novel algorithm that connects real-world evidence with disease-specific signaling pathways (e.g., KEGG database). This sheds light on the repurposability of drugs if they are found to bind with one or more protein constituents of a signaling pathway. To demonstrate, we instantiated the framework for breast cancer and found that, out of 46 breast cancer signaling pathways, the framework identified 38 pathways that were covered by at least two drugs. This evidence signals the potential for combining those drugs. Specifically, the most covered signaling pathway, ID hsa:2064, was covered by 108 drugs, some of which can be combined. Conversely, the signaling pathway ID hsa:1499 was covered by only two drugs, indicating a significant gap for further research. Our network medicine framework, empowered by GenAI, shows promise in identifying drug combinations with a high degree of specificity, knowing the exact signaling pathways and proteins that serve as targets. It is noteworthy that ChatGPT successfully accelerated the process of identifying drug mentions in clinical trials, though further investigations are required to determine the relationships among the drug mentions.
翻訳日:2024-06-24 12:24:18 公開日:2024-06-21
# バックドアによる複合概念抽出

Composite Concept Extraction through Backdooring ( http://arxiv.org/abs/2406.13411v2 )

ライセンス: Link先を確認
Banibrata Ghosh, Haripriya Harikumar, Khoa D Doan, Svetha Venkatesh, Santu Rana, (参考訳) 例えば、"textquotedbl red car\textquotedbl"という概念を表す白い車や、"textquotedbl red\textquotedbl"という概念を表す赤いイチゴなどです。 本稿では,従来のバックドアアタックのテクニックを活用して,これらの概念をゼロショットで学習する複合概念エクストラクタ(CoCE)を提案する。 トリガベースのモデルバックドア機構を再利用することにより、対象物(eg , \textquotedbl car\textquotedbl )が対象物(eg , \textquotedbl red\textquotedbl )によって誘導される対象物(eg , \textquotedbl red\textquotedbl )の多様体における戦略的歪みを、対象物(textquotedbl red strawberry\textquotedbl )から生成し、歪みが対象物(ターゲット物)に選択的に影響することを保証する。 次に、この歪みをさらに洗練するためにコントラスト学習を用い、歪みに影響された物体を検出する方法が定式化されている。 異なるデータセットをまたいだ詳細な分析による広範囲な実験は、提案手法の有用性と適用性を示している。

Learning composite concepts, such as \textquotedbl red car\textquotedbl , from individual examples -- like a white car representing the concept of \textquotedbl car\textquotedbl{} and a red strawberry representing the concept of \textquotedbl red\textquotedbl -- is inherently challenging. This paper introduces a novel method called Composite Concept Extractor (CoCE), which leverages techniques from traditional backdoor attacks to learn these composite concepts in a zero-shot setting, requiring only examples of individual concepts. By repurposing the trigger-based model backdooring mechanism, we create a strategic distortion in the manifold of the target object (e.g., \textquotedbl car\textquotedbl ) induced by example objects with the target property (e.g., \textquotedbl red\textquotedbl ) from objects \textquotedbl red strawberry\textquotedbl , ensuring the distortion selectively affects the target objects with the target property. Contrastive learning is then employed to further refine this distortion, and a method is formulated for detecting objects that are influenced by the distortion. Extensive experiments with in-depth analysis across different datasets demonstrate the utility and applicability of our proposed approach.
翻訳日:2024-06-24 12:24:18 公開日:2024-06-21
# LLMはゼロショットコンテクスト対応同時翻訳機である

LLMs Are Zero-Shot Context-Aware Simultaneous Translators ( http://arxiv.org/abs/2406.13476v2 )

ライセンス: Link先を確認
Roman Koshkin, Katsuhito Sudoh, Satoshi Nakamura, (参考訳) トランスフォーマーの出現は機械翻訳の進歩を加速させた。 より最近の大きな言語モデル(LLM)は、翻訳を含む幅広い言語タスクにおいて、その汎用性と強力なパフォーマンスのおかげで注目を浴びている。 ここでは、オープンソースのLLMが、同時機械翻訳(SiMT)タスクにおける最先端のベースラインと同等以上のパフォーマンスを示す。 また,LLMでは容易な最小背景情報の注入は,特に技術的課題において,さらなる性能向上をもたらすことを示す。 これは、資源集約的なトレーニングや微調整を必要としない、多言語、文脈認識、用語的に正確なSiMTシステムを次世代に構築するLLMの可能性を浮き彫りにしている。

The advent of transformers has fueled progress in machine translation. More recently large language models (LLMs) have come to the spotlight thanks to their generality and strong performance in a wide range of language tasks, including translation. Here we show that open-source LLMs perform on par with or better than some state-of-the-art baselines in simultaneous machine translation (SiMT) tasks, zero-shot. We also demonstrate that injection of minimal background information, which is easy with an LLM, brings further performance gains, especially on challenging technical subject-matter. This highlights LLMs' potential for building next generation of massively multilingual, context-aware and terminologically accurate SiMT systems that require no resource-intensive training or fine-tuning.
翻訳日:2024-06-24 12:24:18 公開日:2024-06-21
# AlanaVLM:エゴセントリックビデオ理解のためのマルチモーダル・エンボディードAIファンデーションモデル

AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding ( http://arxiv.org/abs/2406.13807v2 )

ライセンス: Link先を確認
Alessandro Suglia, Claudio Greco, Katie Baker, Jose L. Part, Ioannis Papaioannou, Arash Eshghi, Ioannis Konstas, Oliver Lemon, (参考訳) ロボットやウェアラブルを介してデプロイされるAIパーソナルアシスタントは、人間と効果的に協力するために具体的理解を必要とする。 しかしながら、現在のVLM(Vision-Language Models)は、主に、エゴセントリックな知覚体験の豊かさを無視して、第三者の視点ビデオに焦点を当てている。 このギャップに対処するために、我々は3つの重要な貢献を提案する。 まず,Egocentric Video Understanding Dataset (EVUD)を導入し,ビデオキャプションにおけるVLMのトレーニングと,egocentric Video特有の質問応答タスクについて紹介する。 第2に,EVUD 上でパラメータ効率の高い手法を用いて訓練した 7B パラメータ VLM である AlanaVLM を提案する。 最後に,OpenEQA 上での AlanaVLM の機能評価を行った。 提案モデルでは,GPT-4をプランナとして用いたソクラティックモデルを含むオープンソースモデルの性能を3.6%向上させる。 さらに、我々はClaude 3とGemini Pro Vision 1.0を上回り、Gemini Pro 1.5とGPT-4Vと比較して、空間的推論では後者を上回ります。 この研究は、ロボットやウェアラブルにデプロイ可能な効率的なVLMの構築方法を確立し、エンボディドビデオ理解を活用して、日常的なタスクにおいて人間とシームレスにコラボレーションし、次世代のEmbodied AIに寄与する。

AI personal assistants deployed via robots or wearables require embodied understanding to collaborate with humans effectively. However, current Vision-Language Models (VLMs) primarily focus on third-person view videos, neglecting the richness of egocentric perceptual experience. To address this gap, we propose three key contributions. First, we introduce the Egocentric Video Understanding Dataset (EVUD) for training VLMs on video captioning and question answering tasks specific to egocentric videos. Second, we present AlanaVLM, a 7B parameter VLM trained using parameter-efficient methods on EVUD. Finally, we evaluate AlanaVLM's capabilities on OpenEQA, a challenging benchmark for embodied video question answering. Our model achieves state-of-the-art performance, outperforming open-source models including strong Socratic models using GPT-4 as a planner by 3.6%. Additionally, we outperform Claude 3 and Gemini Pro Vision 1.0 and showcase competitive results compared to Gemini Pro 1.5 and GPT-4V, even surpassing the latter in spatial reasoning. This research paves the way for building efficient VLMs that can be deployed in robots or wearables, leveraging embodied video understanding to collaborate seamlessly with humans in everyday tasks, contributing to the next generation of Embodied AI.
翻訳日:2024-06-24 12:24:18 公開日:2024-06-21
# LLMの低ランク知識蒸留はマイクロ電子共鳴に有効か?

Can Low-Rank Knowledge Distillation in LLMs be Useful for Microelectronic Reasoning? ( http://arxiv.org/abs/2406.13808v2 )

ライセンス: Link先を確認
Nirjhor Rouf, Fin Amin, Paul D. Franzon, (参考訳) 本研究では、電子設計自動化(EDA)の文脈において、オフラインの大規模言語モデル(LLM)の使用の可能性に関する実証的な結果を示す。 本研究の目的は,マイクロエレクトロニックQ&Aエキスパートとして機能する現代言語モデル(Llama-2-7B)の機能とその推論,およびマイクロエレクトロニック関連問題を解くための生成能力について検討・評価することである。 Llama-2-7Bは、新しいローランク知識蒸留法(LoRA-KD)の導入など、様々な適応法で試験された。 我々の実験は質的かつ定量的な結果をもたらす。

In this work, we present empirical results regarding the feasibility of using offline large language models (LLMs) in the context of electronic design automation (EDA). The goal is to investigate and evaluate a contemporary language model's (Llama-2-7B) ability to function as a microelectronic Q & A expert as well as its reasoning, and generation capabilities in solving microelectronic-related problems. Llama-2-7B was tested across a variety of adaptation methods, including introducing a novel low-rank knowledge distillation (LoRA-KD) scheme. Our experiments produce both qualitative and quantitative results.
翻訳日:2024-06-24 12:24:18 公開日:2024-06-21
# ジェネレーティブAIの誤用: 戦術の分類と実世界のデータからの洞察

Generative AI Misuse: A Taxonomy of Tactics and Insights from Real-World Data ( http://arxiv.org/abs/2406.13843v2 )

ライセンス: Link先を確認
Nahema Marchal, Rachel Xu, Rasmi Elasmar, Iason Gabriel, Beth Goldberg, William Isaac, (参考訳) ジェネレーティブでマルチモーダルな人工知能(GenAI)は、産業全体にわたる変革的なポテンシャルを提供するが、その誤用は重大なリスクをもたらす。 これまでの研究は、悪意ある目的のために悪用される高度なAIシステムの可能性を明らかにしてきた。 しかし、我々は、GenAIモデルが実際にどのように悪用され、悪用されているか、具体的には理解していない。 本稿では,2023年1月から2024年3月までに報告された約200件の誤用事例の質的分析と,既存の学術文献から報告されたGenAI誤用戦術の分類について述べる。 この分析を通じて、この時代の悪用における重要なパターンと新しいパターンを照らし、潜在的な動機づけ、戦略、攻撃者が野生のモダリティ(画像、テキスト、オーディオ、ビデオなど)をまたいだシステム機能をどのように活用し、悪用するかを解明する。

Generative, multimodal artificial intelligence (GenAI) offers transformative potential across industries, but its misuse poses significant risks. Prior research has shed light on the potential of advanced AI systems to be exploited for malicious purposes. However, we still lack a concrete understanding of how GenAI models are specifically exploited or abused in practice, including the tactics employed to inflict harm. In this paper, we present a taxonomy of GenAI misuse tactics, informed by existing academic literature and a qualitative analysis of approximately 200 observed incidents of misuse reported between January 2023 and March 2024. Through this analysis, we illuminate key and novel patterns in misuse during this time period, including potential motivations, strategies, and how attackers leverage and abuse system capabilities across modalities (e.g. image, text, audio, video) in the wild.
翻訳日:2024-06-24 12:24:18 公開日:2024-06-21
# SPL:大規模言語モデルによる学習のためのソクラテス的プレイグラウンド

SPL: A Socratic Playground for Learning Powered by Large Language Model ( http://arxiv.org/abs/2406.13919v2 )

ライセンス: Link先を確認
Liang Zhang, Jionghao Lin, Ziyi Kuang, Sheng Xu, Mohammed Yeasin, Xiangen Hu, (参考訳) 対話型知能学習システム(ITS)は,対話型対話における高度な人間の学習戦略を自動化し,適応的かつパーソナライズされた学習を実現している。 しかし、専門家によるコミュニケーションの微妙なパターンを再現することは、自然言語処理(NLP)の課題である。 NLPの最近の進歩、特にOpenAIのGPT-4のようなLarge Language Models(LLMs)は、広範な事前訓練された知識に基づいて、人間のような、コンテキスト対応の応答を提供することによって、有望なソリューションを提供する。 本研究は,学習者間の批判的思考を促進するために,GPT-4モデルを用いた対話型教材であるSPL(Socratic Playground for Learning)を導入する。 広範なプロンプトエンジニアリングにより、SPLは特定の学習シナリオを生成し、効率的なマルチターン学習対話を容易にする。 SPLシステムは、個人のニーズに合わせてパーソナライズされた適応的な学習体験を強化することを目的としており、特に批判的思考スキルの改善に焦点を当てている。 筆者らは,エッセイ作成タスクによる実験実験の結果,SPLが学習者間の相互作用を改善し,対話に基づくIT機能をさらに強化する可能性を実証した。 SPLによって実証された本研究は,LLMが対話型ITSをいかに拡張し,教育技術のアクセシビリティと有効性を高めるかを示す。

Dialogue-based Intelligent Tutoring Systems (ITSs) have significantly advanced adaptive and personalized learning by automating sophisticated human tutoring strategies within interactive dialogues. However, replicating the nuanced patterns of expert human communication remains a challenge in Natural Language Processing (NLP). Recent advancements in NLP, particularly Large Language Models (LLMs) such as OpenAI's GPT-4, offer promising solutions by providing human-like and context-aware responses based on extensive pre-trained knowledge. Motivated by the effectiveness of LLMs in various educational tasks (e.g., content creation and summarization, problem-solving, and automated feedback provision), our study introduces the Socratic Playground for Learning (SPL), a dialogue-based ITS powered by the GPT-4 model, which employs the Socratic teaching method to foster critical thinking among learners. Through extensive prompt engineering, SPL can generate specific learning scenarios and facilitates efficient multi-turn tutoring dialogues. The SPL system aims to enhance personalized and adaptive learning experiences tailored to individual needs, specifically focusing on improving critical thinking skills. Our pilot experimental results from essay writing tasks demonstrate SPL has the potential to improve tutoring interactions and further enhance dialogue-based ITS functionalities. Our study, exemplified by SPL, demonstrates how LLMs enhance dialogue-based ITSs and expand the accessibility and efficacy of educational technologies.
翻訳日:2024-06-24 12:24:18 公開日:2024-06-21
# SSA最適化ResNet50-BiGRUモデルに基づく画像異常検出と予測手法

Image anomaly detection and prediction scheme based on SSA optimized ResNet50-BiGRU model ( http://arxiv.org/abs/2406.13987v2 )

ライセンス: Link先を確認
Qianhui Wan, Zecheng Zhang, Liheng Jiang, Zhaoqi Wang, Yan Zhou, (参考訳) 画像異常検出は、コンピュータの急速な進歩により近年多くの手法が登場し、人気のある研究方向である。 画像異常検出における人工知能の利用は、広く研究されている。 スポーツ選手の姿勢や動きのイメージを解析することにより、外傷の状態を予測し、必要な調整を提案することができる。 既存のほとんどの方法は、無関係なピクセルデータから情報を抽出するために畳み込みネットワークに依存しており、モデルの精度を制限している。 本稿では,Residual Network(ResNet)とBidirectional Gated Recurrent Unit(BiGRU)を組み合わせたネットワークを提案する。 このネットワークの複雑さに対処するため、Sparrow Searchアルゴリズムが最適化に使われた。 4つのデータセットで行った実験により、我々のモデルは画像異常検出において他のモデルと比較して最小の誤差を持ち、強い適応性を示した。 これにより、画像の異常検出と予測分析のための新しいアプローチが提供され、人間の健康とパフォーマンスの持続的な発展に寄与する。

Image anomaly detection is a popular research direction, with many methods emerging in recent years due to rapid advancements in computing. The use of artificial intelligence for image anomaly detection has been widely studied. By analyzing images of athlete posture and movement, it is possible to predict injury status and suggest necessary adjustments. Most existing methods rely on convolutional networks to extract information from irrelevant pixel data, limiting model accuracy. This paper introduces a network combining Residual Network (ResNet) and Bidirectional Gated Recurrent Unit (BiGRU), which can predict potential injury types and provide early warnings by analyzing changes in muscle and bone poses from video images. To address the high complexity of this network, the Sparrow search algorithm was used for optimization. Experiments conducted on four datasets demonstrated that our model has the smallest error in image anomaly detection compared to other models, showing strong adaptability. This provides a new approach for anomaly detection and predictive analysis in images, contributing to the sustainable development of human health and performance.
翻訳日:2024-06-24 12:14:34 公開日:2024-06-21
# 微調整言語モデルのための情報案内規則化

Information Guided Regularization for Fine-tuning Language Models ( http://arxiv.org/abs/2406.14005v2 )

ライセンス: Link先を確認
Mandar Sharma, Nikhil Muralidhar, Shengzhe Xu, Raquib Bin Yousuf, Naren Ramakrishnan, (参考訳) プレトレーニング・ファインチューニングのパラダイムは、現代言語モデリングにおけるトランスファーラーニングのデファクト戦略である。 LMにおけるタスク適応は、タスク間で共有されるパラメータの関数であるという理解から、よりスムーズな伝達学習のためには、正規化に対するより外科的なアプローチが存在する必要があると論じる。 この目的に向けて、情報理論レンズを用いて、これらの課題に敏感なパラメータによる事前学習損失景観の影響について検討する。 次に,本研究から得られた知見を活用して,モデル正規化の改善と下流一般化のための新しいアプローチを考案する。 このアプローチは、ガイド付きドロップアウトと呼ばれ、タスクとアーキテクチャの両方に依存せず、微調整プロセスに計算オーバーヘッドを追加しない。 実証的な評価を通じて、標準化ベースラインと比較して、データ疎結合のシナリオにおいても、正規化に対する我々のアプローチは一貫してパフォーマンスが向上することを示した。

The pretraining-fine-tuning paradigm has been the de facto strategy for transfer learning in modern language modeling. With the understanding that task adaptation in LMs is often a function of parameters shared across tasks, we argue that a more surgical approach to regularization needs to exist for smoother transfer learning. Towards this end, we investigate how the pretraining loss landscape is affected by these task-sensitive parameters through an information-theoretic lens. We then leverage the findings from our investigations to devise a novel approach to dropout for improved model regularization and better downstream generalization. This approach, named guided dropout, is both task & architecture agnostic and adds no computational overhead to the fine-tuning process. Through empirical evaluations, we showcase that our approach to regularization yields consistently better performance, even in scenarios of data paucity, compared to standardized baselines.
翻訳日:2024-06-24 12:14:34 公開日:2024-06-21
# VGA: Vision GUI Assistant -- Image-Centric Fine-Tuningによる幻覚の最小化

VGA: Vision GUI Assistant -- Minimizing Hallucinations through Image-Centric Fine-Tuning ( http://arxiv.org/abs/2406.14056v2 )

ライセンス: Link先を確認
Ziyang Meng, Yu Dai, Zezheng Gong, Shaoxiong Guo, Minglong Tang, Tongquan Wei, (参考訳) LVLM(Large Vision-Language Models)の最近の進歩は、フォーマットチャートやリッチコンテンツ画像などの画像理解タスクの性能を大幅に向上させた。 しかし、グラフィカルユーザインタフェース(GUI)は、構造化フォーマットと詳細なテキスト情報のために、より大きな課題を生んでいる。 既存のLVLMは、しばしば内部知識に依存し、画像の内容を無視し、GUI理解における幻覚や誤った応答をもたらす。 これらの問題に対処するため,我々はGUIの総合的な理解を目的とした細調整モデルであるVGAを紹介した。 本モデルは,GUIの視覚的データの解釈を強化し,幻覚を減らすことを目的としている。 まず,視覚質問回答(VQA)データセットを63.8kの高品質なサンプルを用いて構築し,画像内の視覚的内容にモデル応答が強く依存することを保証する。 次に、画像コンテンツから情報を取り出す能力と人間の意図との整合性を高めるために、ファウンデーションとアドバンスト・コングリジョン(FAC)と呼ばれる2段階の微調整手法を設計する。 実験により,本手法は画像から情報を取り出す能力を向上し,GUI理解タスクにおける最新の結果が得られることが示された。 データセットと微調整スクリプトが近くリリースされる予定です。

Recent advances in Large Vision-Language Models (LVLMs) have significantly improve performance in image comprehension tasks, such as formatted charts and rich-content images. Yet, Graphical User Interface (GUI) pose a greater challenge due to their structured format and detailed textual information. Existing LVLMs often overly depend on internal knowledge and neglect image content, resulting in hallucinations and incorrect responses in GUI comprehension. To address these issues, we introduce VGA, a fine-tuned model designed for comprehensive GUI understanding. Our model aims to enhance the interpretation of visual data of GUI and reduce hallucinations. We first construct a Vision Question Answering (VQA) dataset of 63.8k high-quality examples with our propose Referent Method, which ensures the model's responses are highly depend on visual content within the image. We then design a two-stage fine-tuning method called Foundation and Advanced Comprehension (FAC) to enhance both the model's ability to extract information from image content and alignment with human intent. Experiments show that our approach enhances the model's ability to extract information from images and achieves state-of-the-art results in GUI understanding tasks. Our dataset and fine-tuning script will be released soon.
翻訳日:2024-06-24 12:14:34 公開日:2024-06-21
# CMTNet: Convolutionalがハイパースペクトル画像分類のためのTransformer Networkを発表

CMTNet: Convolutional Meets Transformer Network for Hyperspectral Images Classification ( http://arxiv.org/abs/2406.14080v2 )

ライセンス: Link先を確認
Faxu Guo, Quan Feng, Sen Yang, Wanxia Yang, (参考訳) ハイパースペクトルリモートセンシング(HIS)は、地球表面からのスペクトル情報の詳細な取得を可能にし、その優れたスペクトル診断能力のために表面作物の正確な分類と識別を容易にする。 しかし、現在の畳み込みニューラルネットワーク(CNN)は、ハイパースペクトルデータの局所的な特徴に焦点を当てており、複雑な作物の種類を分類し、不均衡なサンプル分布に対処する際に、最適以下の性能をもたらす。 対照的に、Transformerフレームワークは、ハイパースペクトル画像からグローバルな特徴を抽出することに長けている。 両アプローチの長所を活用するために,コンボリューショナル・ミート・トランスフォーマーネットワーク(CMTNet)を導入している。 この革新的なモデルには、浅層特徴キャプチャのためのスペクトル空間的特徴抽出モジュール、局所的特徴抽出のためのCNNとトランスフォーマーの分岐を組み合わせたデュアルブランチ構造、多出力損失計算による分類精度の向上と、局所的・国際的・共同的特徴の横断的制約を含む。 3つのデータセット(WHU-Hi-HongKou,WHU-Hi-HanChuan,WHU-Hi-HongHu)で実施された大規模な実験により、CTDBNetは分類性能において他の最先端ネットワークよりも著しく優れており、ハイパースペクトル作物分類の有効性が検証された。

Hyperspectral remote sensing (HIS) enables the detailed capture of spectral information from the Earth's surface, facilitating precise classification and identification of surface crops due to its superior spectral diagnostic capabilities. However, current convolutional neural networks (CNNs) focus on local features in hyperspectral data, leading to suboptimal performance when classifying intricate crop types and addressing imbalanced sample distributions. In contrast, the Transformer framework excels at extracting global features from hyperspectral imagery. To leverage the strengths of both approaches, this research introduces the Convolutional Meet Transformer Network (CMTNet). This innovative model includes a spectral-spatial feature extraction module for shallow feature capture, a dual-branch structure combining CNN and Transformer branches for local and global feature extraction, and a multi-output constraint module that enhances classification accuracy through multi-output loss calculations and cross constraints across local, international, and joint features. Extensive experiments conducted on three datasets (WHU-Hi-LongKou, WHU-Hi-HanChuan, and WHU-Hi-HongHu) demonstrate that CTDBNet significantly outperforms other state-of-the-art networks in classification performance, validating its effectiveness in hyperspectral crop classification.
翻訳日:2024-06-24 12:14:34 公開日:2024-06-21
# データ圧縮の視点からのLLM訓練におけるデータプルーニングにおけるサンプル重要度の測定

Measuring Sample Importance in Data Pruning for Training LLMs from a Data Compression Perspective ( http://arxiv.org/abs/2406.14124v2 )

ライセンス: Link先を確認
Minsang Kim, Seungjun Baek, (参考訳) 大規模言語モデル(LLM)の計算効率訓練は重要な研究課題となっている。 本研究では,データプルーニングを,データプルーニングに関するデータ圧縮ビューを用いて,LLMのデータ効率のトレーニング手法として検討する。 我々は、サンプルの情報量、あるいはその記述長の達成可能な圧縮が、サンプルの重要性を表していると主張している。 鍵となるアイデアは、情報の少ないサンプルは冗長な情報を含んでいる可能性が高いため、最初に刈り取るべきである、ということだ。 トレーニングされたモデルのログ類似度関数を代理として利用し,サンプルの情報量を測定する。 実験では、情報ベースのプルーニングがモデルの一般化能力を高め、言語モデリングや下流タスクを改善するという驚くべき洞察を、データセット全体でトレーニングされたモデルと比較して示している。

Compute-efficient training of large language models (LLMs) has become an important research problem. In this work, we consider data pruning as a method of data-efficient training of LLMs, where we take a data compression view on data pruning. We argue that the amount of information of a sample, or the achievable compression on its description length, represents its sample importance. The key idea is that, less informative samples are likely to contain redundant information, and thus should be pruned first. We leverage log-likelihood function of trained models as a surrogate to measure information content of samples. Experiments reveal a surprising insight that information-based pruning can enhance the generalization capability of the model, improves upon language modeling and downstream tasks as compared to the model trained on the entire dataset.
翻訳日:2024-06-24 12:14:34 公開日:2024-06-21
# 潜在機能地図

Latent Functional Maps ( http://arxiv.org/abs/2406.14183v2 )

ライセンス: Link先を確認
Marco Fumero, Marco Pegoraro, Valentino Maiorca, Francesco Locatello, Emanuele Rodolà, (参考訳) ニューラルネットワークは低次元多様体上のデータ表現を学習するが、これらの表現空間間の関係をモデル化することは、現在進行中の課題である。 スペクトル幾何学の原理をニューラルモデリングに統合することにより、この問題は機能領域においてよりうまく対処でき、複雑さを軽減し、下流タスクの解釈可能性や性能を向上させることができることを示す。 この目的のために,表現学習コミュニティに多目的フレームワークを導入する。 (i)異なる空間を解釈可能な方法で比較し、その固有の類似性を測定すること。 (二)非監督的、弱監督的双方において、両者の対応を見いだし、 (iii)異なる空間間の表現を効果的に伝達する。 我々は, 縫合作業から検索作業に至るまで, 様々なアプリケーションにおけるフレームワークの検証を行い, 潜在機能地図が表現アライメントのためのスウィスアームナイフとして機能することを実証した。

Neural models learn data representations that lie on low-dimensional manifolds, yet modeling the relation between these representational spaces is an ongoing challenge. By integrating spectral geometry principles into neural modeling, we show that this problem can be better addressed in the functional domain, mitigating complexity, while enhancing interpretability and performances on downstream tasks. To this end, we introduce a multi-purpose framework to the representation learning community, which allows to: (i) compare different spaces in an interpretable way and measure their intrinsic similarity; (ii) find correspondences between them, both in unsupervised and weakly supervised settings, and (iii) to effectively transfer representations between distinct spaces. We validate our framework on various applications, ranging from stitching to retrieval tasks, demonstrating that latent functional maps can serve as a swiss-army knife for representation alignment.
翻訳日:2024-06-24 12:14:34 公開日:2024-06-21
# LayerMatch: 擬似ラベルはすべての層に相応しいか?

LayerMatch: Do Pseudo-labels Benefit All Layers? ( http://arxiv.org/abs/2406.14207v2 )

ライセンス: Link先を確認
Chaoqi Liang, Guanglei Yang, Lifeng Qiao, Zitong Huang, Hongliang Yan, Yunchao Wei, Wangmeng Zuo, (参考訳) ディープニューラルネットワークは、大規模ラベル付きデータの提供によって、さまざまなタスクにわたって顕著なパフォーマンスを実現している。 しかし、ラベル付きデータの収集には時間と労力がかかります。 半教師付き学習(SSL)、特に自己学習のために擬似ラベルを反復的に割り当てる擬似ラベルアルゴリズムは、ラベル付きデータの依存性を軽減するための有望なソリューションを提供する。 従来の研究は、すべてのモデル層に均一な擬似ラベル戦略を適用しており、擬似ラベルが全体にわたって一様の影響を及ぼしていると仮定していた。 これとは対照的に、我々の理論的分析と実証実験は、特徴抽出層と線形分類層が擬似ラベルに応答して異なる学習行動を持つことを示した。 これらの知見に基づき,Grad-ReLUとAvg-Clusteringという2つの層固有の擬似ラベル戦略を開発した。 Grad-ReLUは、線形分類層における擬似ラベルの勾配劣化効果を除去することにより、ノイズのある擬似ラベルの影響を緩和する。 Avg-Clusteringは、一貫した出力を統合することで、特徴抽出層の安定したクラスタリング中心への収束を加速する。 この2つの戦略を統合したLayerMatchは,特徴抽出層のクラスタリング能力を向上しつつ,線形分類層におけるノイズの多い擬似ラベルの深刻な干渉を回避することができる。 大規模な実験を通じて,本手法は標準半教師付き学習ベンチマークにおける例外的性能を一貫して証明し,ベースライン法よりも10.38%向上し,最先端法に比べて2.44%向上した。

Deep neural networks have achieved remarkable performance across various tasks when supplied with large-scale labeled data. However, the collection of labeled data can be time-consuming and labor-intensive. Semi-supervised learning (SSL), particularly through pseudo-labeling algorithms that iteratively assign pseudo-labels for self-training, offers a promising solution to mitigate the dependency of labeled data. Previous research generally applies a uniform pseudo-labeling strategy across all model layers, assuming that pseudo-labels exert uniform influence throughout. Contrasting this, our theoretical analysis and empirical experiment demonstrate feature extraction layer and linear classification layer have distinct learning behaviors in response to pseudo-labels. Based on these insights, we develop two layer-specific pseudo-label strategies, termed Grad-ReLU and Avg-Clustering. Grad-ReLU mitigates the impact of noisy pseudo-labels by removing the gradient detrimental effects of pseudo-labels in the linear classification layer. Avg-Clustering accelerates the convergence of feature extraction layer towards stable clustering centers by integrating consistent outputs. Our approach, LayerMatch, which integrates these two strategies, can avoid the severe interference of noisy pseudo-labels in the linear classification layer while accelerating the clustering capability of the feature extraction layer. Through extensive experimentation, our approach consistently demonstrates exceptional performance on standard semi-supervised learning benchmarks, achieving a significant improvement of 10.38% over baseline method and a 2.44% increase compared to state-of-the-art methods.
翻訳日:2024-06-24 12:14:34 公開日:2024-06-21
# REVEAL-IT:InTerpretabilityのための進化エージェントpoLicyの可視性を用いた強化学習

REVEAL-IT: REinforcement learning with Visibility of Evolving Agent poLicy for InTerpretability ( http://arxiv.org/abs/2406.14214v2 )

ライセンス: Link先を確認
Shuang Ao, Simon Khan, Haris Aziz, Flora D. Salim, (参考訳) エージェントの学習過程、特にその成功や訓練後の失敗に寄与する要因を理解することは、エージェントの意思決定プロセスの背後にある根拠を理解するために重要である。 従来の手法では、構造因果モデル(SCM)を作成したり、価値関数の分布を視覚的に表現することで学習過程を明らかにする。 しかしながら、これらのアプローチは2次元環境や複雑でない遷移力学でのみ機能するので制約がある。 複雑な環境やタスクでエージェントの学習プロセスを理解することはより難しい。 本稿では,複雑な環境下でエージェントの学習過程を説明するための新しいフレームワークであるREVEAL-ITを提案する。 まず,様々な学習課題に対する政策構造とエージェントの学習過程を可視化する。 これらの知見を可視化することにより、特定のトレーニングタスクやステージがテストにおけるエージェントのパフォーマンスにどの程度影響するかを理解することができる。 そして、GNNベースの説明者がポリシーの最も重要な部分を強調することを学び、エージェントの学習プロセスについてより明確で堅牢な説明を提供する。 実験により、このフレームワークから導かれた説明は、効果的に最適化の助けとなることが示された。

Understanding the agent's learning process, particularly the factors that contribute to its success or failure post-training, is crucial for comprehending the rationale behind the agent's decision-making process. Prior methods clarify the learning process by creating a structural causal model (SCM) or visually representing the distribution of value functions. Nevertheless, these approaches have constraints as they exclusively function in 2D-environments or with uncomplicated transition dynamics. Understanding the agent's learning process in complicated environments or tasks is more challenging. In this paper, we propose REVEAL-IT, a novel framework for explaining the learning process of an agent in complex environments. Initially, we visualize the policy structure and the agent's learning process for various training tasks. By visualizing these findings, we can understand how much a particular training task or stage affects the agent's performance in test. Then, a GNN-based explainer learns to highlight the most important section of the policy, providing a more clear and robust explanation of the agent's learning process. The experiments demonstrate that explanations derived from this framework can effectively help in the optimization of the
翻訳日:2024-06-24 12:14:34 公開日:2024-06-21
# E-ANT: 効率的なGUIナビゲートのための大規模データセット

E-ANT: A Large-Scale Dataset for Efficient Automatic GUI NavigaTion ( http://arxiv.org/abs/2406.14250v2 )

ライセンス: Link先を確認
Ke Wang, Tianyu Xia, Zhangxuan Gu, Yi Zhao, Shuheng Shen, Changhua Meng, Weiqiang Wang, Ke Xu, (参考訳) モバイルデバイス上のオンラインGUIナビゲーションは、多くの現実世界のアプリケーションに貢献しているため、近年多くの注目を集めている。 大規模言語モデル (LLM) の急速な発展に伴い,マルチモーダル・大規模言語モデル (MLLM) はこの課題に対して大きな可能性を秘めている。 しかし、既存のMLLMでは、人間の入力に応じて正確なナビゲーション決定を行う能力を向上させるために、高品質なデータが必要である。 そこで本研究では,5,000以上の小さなAPPから4万近い実人のトレースを含む,実際の人間の振る舞いと高品質なアノテーション付きスクリーンショットを含む,中国初のGUIナビゲーションデータセットとして,新鮮で高価値なデータセット「textbf{E-ANT}」を開発した。 さらに,E-ANT上での各種強力なMLLMの評価を行い,それらの実験結果を十分な精度で示す。 提案したデータセットはGUIナビゲーションとLLM/MLLM意思決定機能の評価と開発に有用であると考えている。

Online GUI navigation on mobile devices has driven a lot of attention recent years since it contributes to many real-world applications. With the rapid development of large language models (LLM), multimodal large language models (MLLM) have tremendous potential on this task. However, existing MLLMs need high quality data to improve its abilities of making the correct navigation decisions according to the human user inputs. In this paper, we developed a novel and highly valuable dataset, named \textbf{E-ANT}, as the first Chinese GUI navigation dataset that contains real human behaviour and high quality screenshots with annotations, containing nearly 40,000 real human traces over 5000+ different tinyAPPs. Furthermore, we evaluate various powerful MLLMs on E-ANT and show their experiments results with sufficient ablations. We believe that our proposed dataset will be beneficial for both the evaluation and development of GUI navigation and LLM/MLLM decision-making capabilities.
翻訳日:2024-06-24 12:14:34 公開日:2024-06-21
# 失業感と意味の認知に及ぼすAIの影響 : 事例研究

The Impact of AI on Perceived Job Decency and Meaningfulness: A Case Study ( http://arxiv.org/abs/2406.14273v2 )

ライセンス: Link先を確認
Kuntal Ghosh, Shadan Sadeghian, (参考訳) 職場における人工知能(AI)の拡散は、人間の働き方を変え、仕事の満足度は本質的に仕事の生活に結びついている。 既存の人間とAIのコラボレーションに関する研究は、経験的側面よりもパフォーマンスを優先する傾向があります。 対照的に、職場におけるAIが仕事の怠慢と有意義性に与える影響について考察する。 情報技術(IT)分野におけるインタビューを通じて、現在の作業環境だけでなく、AIの導入による職場環境の進化についても検討した。 予備的な調査の結果、回答者は高度なAIを導入しても人間が支配的な役割を担い続ける職場を可視化する傾向にあることが明らかになった。 この将来的なシナリオでは、AIは人間の労働力を置き換えるのではなく、補完的な役割を果たしていると見なされている。 さらに、回答者はAIの導入が全体の仕事満足度を維持するか、あるいは向上する可能性があると信じている。

The proliferation of Artificial Intelligence (AI) in workplaces stands to change the way humans work, with job satisfaction intrinsically linked to work life. Existing research on human-AI collaboration tends to prioritize performance over the experiential aspects of work. In contrast, this paper explores the impact of AI on job decency and meaningfulness in workplaces. Through interviews in the Information Technology (IT) domain, we not only examined the current work environment, but also explored the perceived evolution of the workplace ecosystem with the introduction of an AI. Findings from the preliminary exploratory study reveal that respondents tend to visualize a workplace where humans continue to play a dominant role, even with the introduction of advanced AIs. In this prospective scenario, AI is seen as serving as a complement rather than replacing the human workforce. Furthermore, respondents believe that the introduction of AI will maintain or potentially increase overall job satisfaction.
翻訳日:2024-06-24 12:14:34 公開日:2024-06-21
# DASB -- 音声と音声のベンチマークを離散化する

DASB -- Discrete Audio and Speech Benchmark ( http://arxiv.org/abs/2406.14294v2 )

ライセンス: Link先を確認
Pooneh Mousavi, Luca Della Libera, Jarod Duret, Artem Ploujnikov, Cem Subakan, Mirco Ravanelli, (参考訳) 離散的な音声トークンは、音声処理と言語処理を接続する可能性について、近年大きな注目を集めており、現代のマルチモーダルな大言語モデルの作成を可能にしている。 理想的な音声トークンは、パラ言語情報、話者識別、その他の詳細と共に音声および意味的コンテンツを効果的に保存する必要がある。 近年,様々な種類の音声トークンが提案されているが,既存の研究における不整合性評価設定のため,様々なタスクに対する最適なトークン化器の同定は困難である。 このギャップに対処するため、音声認識、話者識別と検証、感情認識、キーワードスポッティング、意図分類、音声強調、分離、テキスト音声合成など、幅広い識別タスクにわたる離散音声トークンのベンチマークを行うための総合的なリーダーボードである、離散音声・音声ベンチマーク(DASB)をリリースする。 その結果, 意味トークンは, 識別的, 生成的タスクにおいて, 圧縮トークンよりも優れていた。 しかし、セマンティックトークンと標準的な連続表現のパフォーマンスギャップは依然として深刻であり、この分野におけるさらなる研究の必要性を強調している。

Discrete audio tokens have recently gained considerable attention for their potential to connect audio and language processing, enabling the creation of modern multimodal large language models. Ideal audio tokens must effectively preserve phonetic and semantic content along with paralinguistic information, speaker identity, and other details. While several types of audio tokens have been recently proposed, identifying the optimal tokenizer for various tasks is challenging due to the inconsistent evaluation settings in existing studies. To address this gap, we release the Discrete Audio and Speech Benchmark (DASB), a comprehensive leaderboard for benchmarking discrete audio tokens across a wide range of discriminative tasks, including speech recognition, speaker identification and verification, emotion recognition, keyword spotting, and intent classification, as well as generative tasks such as speech enhancement, separation, and text-to-speech. Our results show that, on average, semantic tokens outperform compression tokens across most discriminative and generative tasks. However, the performance gap between semantic tokens and standard continuous representations remains substantial, highlighting the need for further research in this field.
翻訳日:2024-06-24 12:14:34 公開日:2024-06-21
# FVEL: 定理証明による大規模言語モデルを用いた対話型形式検証環境

FVEL: Interactive Formal Verification Environment with Large Language Models via Theorem Proving ( http://arxiv.org/abs/2406.14408v2 )

ライセンス: Link先を確認
Xiaohan Lin, Qingxing Cao, Yinya Huang, Haiming Wang, Jianqiao Lu, Zhengying Liu, Linqi Song, Xiaodan Liang, (参考訳) 形式的検証(FV)は、進化する大規模言語モデル(LLM)による現在のプログラム合成において、重要性が増しているのを目撃している。 しかし、現在の公式な検証は主に記号的検証や手技規則に頼っており、その結果、広範囲かつ柔軟な検証の限界が生じる。 一方、イザベルのような自動定理証明のための形式言語は厳密な検証の別の行として、包括的な規則と定理で維持される。 本稿では,LLMを用いた対話型形式検証環境であるFVELを提案する。 具体的には、FVELは検証対象のコードをIsabelleに変換し、LLMで証明された神経自動定理を用いて検証を行う。 結合されたパラダイムは、イザベルの厳密な定式化と組織化された規則を活用し、最先端のLCMの導入と調整にも便利である。 この目的を達成するために、我々は大規模なFVELER3を抽出する。 FVELERデータセットには、Isabelleで定式化されたコード依存関係と検証プロセスが含まれており、758の理論、29,125のレムマ、200,646の証明ステップと詳細な依存関係が含まれている。 まずFVELERを用いてFVELERを微調整し,それをCode2InvおよびSV-COMP上で評価することにより,FVEL環境におけるFVELERのベンチマークを行う。 その結果, FVELERで微調整したLlama3-8Bでは17.39% (69 ->81) の問題を解き, Mistral-7Bでは12% (75 ->84) の問題をSV-COMPで解いた。 そして、証明エラーの割合は減少する。 プロジェクトページ: https://fveler.github.io/.com

Formal verification (FV) has witnessed growing significance with current emerging program synthesis by the evolving large language models (LLMs). However, current formal verification mainly resorts to symbolic verifiers or hand-craft rules, resulting in limitations for extensive and flexible verification. On the other hand, formal languages for automated theorem proving, such as Isabelle, as another line of rigorous verification, are maintained with comprehensive rules and theorems. In this paper, we propose FVEL, an interactive Formal Verification Environment with LLMs. Specifically, FVEL transforms a given code to be verified into Isabelle, and then conducts verification via neural automated theorem proving with an LLM. The joined paradigm leverages the rigorous yet abundant formulated and organized rules in Isabelle and is also convenient for introducing and adjusting cutting-edge LLMs. To achieve this goal, we extract a large-scale FVELER3. The FVELER dataset includes code dependencies and verification processes that are formulated in Isabelle, containing 758 theories, 29,125 lemmas, and 200,646 proof steps in total with in-depth dependencies. We benchmark FVELER in the FVEL environment by first fine-tuning LLMs with FVELER and then evaluating them on Code2Inv and SV-COMP. The results show that FVEL with FVELER fine-tuned Llama3- 8B solves 17.39% (69 -> 81) more problems, and Mistral-7B 12% (75 -> 84) more problems in SV-COMP. And the proportion of proof errors is reduced. Project page: https://fveler.github.io/.
翻訳日:2024-06-24 12:14:34 公開日:2024-06-21
# LLMは自然に合成語彙データ生成に優れているか?

Are LLMs Naturally Good at Synthetic Tabular Data Generation? ( http://arxiv.org/abs/2406.14541v2 )

ライセンス: Link先を確認
Shengzhe Xu, Cho-Ting Lee, Mandar Sharma, Raquib Bin Yousuf, Nikhil Muralidhar, Naren Ramakrishnan, (参考訳) 大規模言語モデル(LLM)は、合成テキストや画像の生成において、その進歩を実証している。 本稿では, 従来の微調整後に用いたLCMが, 合成テーブルジェネレータとしては非常に不十分であることを示す。 LLMの自己回帰性のため、ランダムな順序の置換による微調整は、関数依存をモデル化することの重要性に反し、LLMは分散の条件付き混合をモデル化できない(実世界の制約を捉える鍵)。 これらの欠陥を克服するために, LLM は, 順列化を意識して実現可能であることを示す。

Large language models (LLMs) have demonstrated their prowess in generating synthetic text and images; however, their potential for generating tabular data -- arguably the most common data type in business and scientific applications -- is largely underexplored. This paper demonstrates that LLMs, used as-is, or after traditional fine-tuning, are severely inadequate as synthetic table generators. Due to the autoregressive nature of LLMs, fine-tuning with random order permutation runs counter to the importance of modeling functional dependencies, and renders LLMs unable to model conditional mixtures of distributions (key to capturing real world constraints). We showcase how LLMs can be made to overcome some of these deficiencies by making them permutation-aware.
翻訳日:2024-06-24 12:14:34 公開日:2024-06-21
# 構造と保存機能強化による微粒化の促進

Advancing Fine-Grained Classification by Structure and Subject Preserving Augmentation ( http://arxiv.org/abs/2406.14551v2 )

ライセンス: Link先を確認
Eyal Michaeli, Ohad Fried, (参考訳) きめ細かい視覚分類(FGVC)は、密接に関連するサブクラスを分類する。 この課題は、クラスと高いクラス内分散の微妙な違いのため困難である。 さらに、FGVCデータセットは一般的に小さくて収集が難しいため、効果的なデータ拡張に対する大きなニーズが浮かび上がっている。 テキスト・画像拡散モデルの最近の進歩は、分類データセットを増大させる新しい可能性をもたらす。 これらのモデルは分類タスクのトレーニングデータを生成するために使われてきたが、FGVCモデルのフルデータセットトレーニングの有効性は未検討のままである。 Text2Image生成やImg2Imgメソッドに依存する最近の技術は、しばしばクラスを正確に表現するイメージを生成するのに苦労し、データセットの多様性を著しく向上させる程度に修正する。 これらの課題に対処するため、SaSPA: Structure and Subject Preserving Augmentationを提案する。 近年の手法とは対照的に,本手法では実像をガイダンスとして使用せず,生成の柔軟性を高め,多様性を高める。 正確なクラス表現を保証するため,画像のエッジと対象表現の条件付けにより,条件付け機構を用いる。 従来のデータ拡張手法と最近のデータ拡張手法の両方に対して、広範な実験を行い、SaSPAをベンチマークする。 SaSPAは、完全なデータセットトレーニング、コンテキストバイアス、少数ショット分類など、複数の設定で確立されたベースラインを一貫して上回る。 さらに,FGVCモデルに合成データを使用する際の興味深いパターンを明らかにし,実データ量と合成データの最適割合の関係について検討した。 コードはhttps://github.com/EyalMichaeli/SaSPA-Aug.comで入手できる。

Fine-grained visual classification (FGVC) involves classifying closely related sub-classes. This task is difficult due to the subtle differences between classes and the high intra-class variance. Moreover, FGVC datasets are typically small and challenging to gather, thus highlighting a significant need for effective data augmentation. Recent advancements in text-to-image diffusion models offer new possibilities for augmenting classification datasets. While these models have been used to generate training data for classification tasks, their effectiveness in full-dataset training of FGVC models remains under-explored. Recent techniques that rely on Text2Image generation or Img2Img methods, often struggle to generate images that accurately represent the class while modifying them to a degree that significantly increases the dataset's diversity. To address these challenges, we present SaSPA: Structure and Subject Preserving Augmentation. Contrary to recent methods, our method does not use real images as guidance, thereby increasing generation flexibility and promoting greater diversity. To ensure accurate class representation, we employ conditioning mechanisms, specifically by conditioning on image edges and subject representation. We conduct extensive experiments and benchmark SaSPA against both traditional and recent generative data augmentation methods. SaSPA consistently outperforms all established baselines across multiple settings, including full dataset training, contextual bias, and few-shot classification. Additionally, our results reveal interesting patterns in using synthetic data for FGVC models; for instance, we find a relationship between the amount of real data used and the optimal proportion of synthetic data. Code is available at https://github.com/EyalMichaeli/SaSPA-Aug.
翻訳日:2024-06-24 12:14:34 公開日:2024-06-21
# 自律運転のための非同期大規模言語モデル拡張プランナ

Asynchronous Large Language Model Enhanced Planner for Autonomous Driving ( http://arxiv.org/abs/2406.14556v2 )

ライセンス: Link先を確認
Yuan Chen, Zi-han Ding, Ziqin Wang, Yan Wang, Lijun Zhang, Si Liu, (参考訳) リアルタイムプランナーは自律走行において顕著な性能を示したが、大規模言語モデル(LLM)の探索は、運動計画の解釈可能性と制御性を高めるための道を開いた。 それでも、LLMベースのプランナーは、資源消費の増大や推論時間の延長など、重大な課題に直面し続けている。 これらの課題を踏まえ、我々はAsyncDriverという非同期LLM拡張クローズドループフレームワークを導入し、LLMが生成したシーン関連命令機能を活用して、正確な軌道予測を行うためのリアルタイムプランナーを誘導する。 一方,本手法では,ベクトル化されたシーンデータと一連のルーティング命令を解釈・推論する上で,LLMの長所を強調し,リアルタイムプランナへの効果的な支援を実証する。 一方,提案フレームワークはLLMとリアルタイムプランナの推論プロセスを分離する。 推論周波数の非同期性に乗じて,LLMの計算コストを低減し,同等の性能を維持した。 実験により,本手法はnuPlanの難解なシナリオに対して,より優れたクローズドループ評価性能が得られることが示された。

Despite real-time planners exhibiting remarkable performance in autonomous driving, the growing exploration of Large Language Models (LLMs) has opened avenues for enhancing the interpretability and controllability of motion planning. Nevertheless, LLM-based planners continue to encounter significant challenges, including elevated resource consumption and extended inference times, which pose substantial obstacles to practical deployment. In light of these challenges, we introduce AsyncDriver, a new asynchronous LLM-enhanced closed-loop framework designed to leverage scene-associated instruction features produced by LLM to guide real-time planners in making precise and controllable trajectory predictions. On one hand, our method highlights the prowess of LLMs in comprehending and reasoning with vectorized scene data and a series of routing instructions, demonstrating its effective assistance to real-time planners. On the other hand, the proposed framework decouples the inference processes of the LLM and real-time planners. By capitalizing on the asynchronous nature of their inference frequencies, our approach have successfully reduced the computational cost introduced by LLM, while maintaining comparable performance. Experiments show that our approach achieves superior closed-loop evaluation performance on nuPlan's challenging scenarios.
翻訳日:2024-06-24 12:14:34 公開日:2024-06-21