このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230916となっている論文です。

PDF登録状況(公開日: 20230916)

TitleAuthorsAbstract論文公表日・翻訳日
# Stylish Risk-Limiting Audits in Practice

Stylish Risk-Limiting Audits in Practice ( http://arxiv.org/abs/2309.09081v1 )

ライセンス: Link先を確認
Amanda K. Glazer, Jacob V. Spertus, Philip B. Stark, (参考訳) リスクリミット監査(RLA)は、どの投票カードにどのコンテスト(カードスタイルのデータ、CSD)が含まれているかの情報を使用して、各コンテストが必要以上に多くのカードを検査することなく適切な精査を受けるようにする。 このように CSD を用いる RLA は、すべてのキャストカードから無差別にサンプリングする RLA よりも、はるかに効率的である。 本稿では,Hart InterCivic Verity 投票システムと Dominion Democracy Suite(R) 投票システムに対する CSD を用いた RLA のオープンソースPython 実装について述べる。 このソフトウェアは、2020年の総選挙で181回、アメリカ合衆国カリフォルニア州オレンジ郡で2022年の総選挙で214回、アメリカ合衆国で5番目に大きな選挙権を持つ。 (オレンジ郡はハート・バーティ・システムを使っている。) 2020年の181大会をCDDを使わずに5%のリスク制限で監査するには、全3,094,308枚の投票カードの完全な手振りが必要だった。 CSDでは、サンプルサイズが約20,100枚、鋳造量の0.65%で、完全な手数が必要とされ、2022年の第214回大会をCSDを使わずに5%のリスク限界まで監査するには、全1,989,416枚の鋳造カードの完全な手高が必要であった。CSDでは、サンプルサイズが62,250枚、鋳造量の3.1%が0.1%未満、3つのコンテストを含む0.5%未満のマージンを含む。

Risk-limiting audits (RLAs) can use information about which ballot cards contain which contests (card-style data, CSD) to ensure that each contest receives adequate scrutiny, without examining more cards than necessary. RLAs using CSD in this way can be substantially more efficient than RLAs that sample indiscriminately from all cast cards. We describe an open-source Python implementation of RLAs using CSD for the Hart InterCivic Verity voting system and the Dominion Democracy Suite(R) voting system. The software is demonstrated using all 181 contests in the 2020 general election and all 214 contests in the 2022 general election in Orange County, CA, USA, the fifth-largest election jurisdiction in the U.S., with over 1.8 million active voters. (Orange County uses the Hart Verity system.) To audit the 181 contests in 2020 to a risk limit of 5% without using CSD would have required a complete hand tally of all 3,094,308 cast ballot cards. With CSD, the estimated sample size is about 20,100 cards, 0.65% of the cards cast--including one tied contest that required a complete hand count. To audit the 214 contests in 2022 to a risk limit of 5% without using CSD would have required a complete hand tally of all 1,989,416 cast cards. With CSD, the estimated sample size is about 62,250 ballots, 3.1% of cards cast--including three contests with margins below 0.1% and 9 with margins below 0.5%.
翻訳日:2024-03-19 04:30:16 公開日:2023-09-16
# 第230条の改善, 民主主義の保全と言論の自由の保護

Improving Section 230, Preserving Democracy and Protecting Free Speech ( http://arxiv.org/abs/2309.09110v1 )

ライセンス: Link先を確認
Marshall Van Alstyne, Michael David Smith, Herb Lin, (参考訳) 本稿では,政府も企業も,情報の流れを制御していない分散市場を基盤としたコンテンツモデレーションの枠組みを提案する。

This article proposes a framework for content moderation based on a decentralized market where no one party, neither governments nor firms, controls the flow of information.
翻訳日:2024-03-19 04:30:16 公開日:2023-09-16
# 疎二元超ベクトルによる認知モデリングと学習

Cognitive modeling and learning with sparse binary hypervectors ( http://arxiv.org/abs/2310.18316v1 )

ライセンス: Link先を確認
Zhonghao Yang(参考訳) vsa(vector symbolic architecture)の一般的な理論的枠組みに従って、スパースバイナリハイパーベクトルを用いた認知モデルが提案されている。 さらに、学習アルゴリズムを導入して、入力データストリームからモデルをブートストラップし、透明性と効率を大幅に改善する。 人間の認知過程を模倣すると、推論中にオンラインでトレーニングを行うことができる。 単語レベルの埋め込みをそのようなハイパーベクターで再訪し、NLP(Natural Language Processing)分野のさらなる応用を探求する。

Following the general theoretical framework of VSA (Vector Symbolic Architecture), a cognitive model with the use of sparse binary hypervectors is proposed. In addition, learning algorithms are introduced to bootstrap the model from incoming data stream, with much improved transparency and efficiency. Mimicking human cognitive process, the training can be performed online while inference is in session. Word-level embedding is re-visited with such hypervectors, and further applications in the field of NLP (Natural Language Processing) are explored.
翻訳日:2024-01-15 16:44:09 公開日:2023-09-16
# 時系列からの解釈可能な局所的・グローバル的表現の抽出

Extracting Interpretable Local and Global Representations from Attention on Time Series ( http://arxiv.org/abs/2312.11466v1 )

ライセンス: Link先を確認
Leonid Schwenke, Martin Atzmueller(参考訳) 本稿では,時系列データの文脈において,局所抽象とグローバル表現を扱う2つのトランスフォーマーアテンションに基づく解釈可能性手法を提案する。 ローカルコンテキストとグローバルコンテキストを区別し、一般的な解釈オプションの両方に包括的なフレームワークを提供する。 異なる手法による特定のインスタンス化を詳細に検討し,それらの計算実装と抽象化のバリエーションを概説する。 さらに,提案手法の有効性を示す広範な実験を行った。 特に,ucr uea時系列レポジトリから選択された不定値データセットを用いて実験を行い,提案手法の性能評価と説明可能性および解釈/複合性への影響について検討した。 ここで、ハイパーパラメータの広範な分析により、提案手法は、ベースラインモデルとよく似た性能の多くのコア決定を捉えながら、解釈可能性/複雑さの大幅な改善を示す。 最後に,提案手法の適用の概要と指針について概説する。

This paper targets two transformer attention based interpretability methods working with local abstraction and global representation, in the context of time series data. We distinguish local and global contexts, and provide a comprehensive framework for both general interpretation options. We discuss their specific instantiation via different methods in detail, also outlining their respective computational implementation and abstraction variants. Furthermore, we provide extensive experimentation demonstrating the efficacy of the presented approaches. In particular, we perform our experiments using a selection of univariate datasets from the UCR UEA time series repository where we both assess the performance of the proposed approaches, as well as their impact on explainability and interpretability/complexity. Here, with an extensive analysis of hyperparameters, the presented approaches demonstrate an significant improvement in interpretability/complexity, while capturing many core decisions of and maintaining a similar performance to the baseline model. Finally, we draw general conclusions outlining and guiding the application of the presented methods.
翻訳日:2024-01-15 13:34:47 公開日:2023-09-16
# FGo:確率的指数カット・ザ・ロス戦略を備えた直進型グレイボックスファザ

FGo: A Directed Grey-box Fuzzer with Probabilistic Exponential cut-the-loss Strategies ( http://arxiv.org/abs/2307.05961v2 )

ライセンス: Link先を確認
Harvey Lau(参考訳) 伝統的なカバーグレーボックスファザーはテスト対象のプログラムの状態空間(put)を広く優先的に探索する。 この無目的さは、多くのコンピューティングリソースを浪費します。 Directed gray-box fuzzingはPUTのターゲットに焦点を当て、ソフトウェアテストで最も人気のあるトピックの1つになった。 到達不能なテストケースの早期終了は、指向性グレーボックスファジングを改善する方法である。 しかし、既存のソリューションには2つの問題がある: まず、到達可能性分析には余分な技術(例えば静的解析)を導入する必要がある。 確率的指数的カットザロス指向グレーボックスファザであるFGoを提案する。 FGoは未到達なテストケースを早期に終了し、確率は指数関数的に増加する。 他の技術と比較して、FGoはiCFGに含まれる到達不能な情報をフル活用しており、到達可能性分析による追加のオーバーヘッドは発生しない。 さらに、すべてのPUTに一般化するのは簡単です。 この確率に基づく戦略はファジィングのランダム性に完全に適合する。 実験の結果、FGoはAFLGoよりも106%高速であることがわかった。 確率的指数カット・ザ・ロスアルゴリズムの複数のパラメータを比較し,それらを詳細に解析する。 さらに,fgoの非推奨性を高めるために,確率的指数カット・ザ・ロスアルゴリズムの理論的性能と実用性能の違いについて述べる。

Traditional coverage grey-box fuzzers perform a breadth-first search of the state space of Program Under Test (PUT). This aimlessness wastes a lot of computing resources. Directed grey-box fuzzing focuses on the target of PUT and becomes one of the most popular topics of software testing. The early termination of unreachable test cases is a method to improve directed grey-box fuzzing. However, existing solutions have two problems: firstly, reachability analysis needs to introduce extra technologies (e.g., static analysis); secondly, the performance of reachability analysis and auxiliary technologies lack versatility. We propose FGo, a probabilistic exponential cut-the-loss directed grey-box fuzzer. FGo terminates unreachable test cases early with exponentially increasing probability. Compared to other technologies, FGo makes full use of the unreachable information contained in iCFG and doesn't generate any additional overhead caused by reachability analysis. Moreover, it is easy to generalize to all PUT. This strategy based on probability is perfectly adapted to the randomness of fuzzing. The experiment results show that FGo is 106% faster than AFLGo in reproducing crashes. We compare multiple parameters of probabilistic exponential cut-the-loss algorithm and analyze them in detail. In addition, for enhancing the inerpretability of FGo, this paper discusses the difference between the theoretical performance and the practical performance of probabilistic exponential cut-the-loss algorithm.
翻訳日:2023-10-23 17:44:48 公開日:2023-09-16
# DEUX: 教師なし深度知覚学習のためのアクティブな探索

DEUX: Active Exploration for Learning Unsupervised Depth Perception ( http://arxiv.org/abs/2310.06164v1 )

ライセンス: Link先を確認
Marvin Chanc\'an, Alex Wong, Ian Abraham(参考訳) 深度知覚モデルは、通常、予め定義されたカメラ軌跡を持つ非インタラクティブデータセットで訓練される。 しかし、これはしばしば、データ取得時に選択された特定のカメラパスと相関する学習プロセスに体系的なバイアスをもたらす。 本稿では,ロボットナビゲーションの観点から,3次元インタラクティブ環境を活用することで,深度学習におけるデータ収集の役割について検討する。 まず,従来のナビゲーション手法を用いて収集したデータに基づいて訓練した4つの深度補完モデルを評価する。 我々の重要な洞察は、既存の探索パラダイムが、有能な教師なし深度完了学習を実現するために、必ずしもタスク固有のデータポイントを提供していないことである。 次に,測光再構成に関するデータ収集がモデル性能に直接的な影響を与えることを見出した。 その結果,Depth Uncertainty-Guided eXploration (DEUX) と呼ばれる,能動的かつタスクインフォームドな深度不確実性に基づく学習深度完了のための動作計画手法を開発した。 提案手法により収集したデータを用いたトレーニングは,MP3Dテストセットにおける既存の探査手法と比較して,4つの深度完了モデルに対して平均18%以上の深度完了率を向上する。 我々は,ロボット学習に基づく深度推定の統合に関する新たな洞察を提供しながら,ゼロショットの一般化をさらに改善することを示す。

Depth perception models are typically trained on non-interactive datasets with predefined camera trajectories. However, this often introduces systematic biases into the learning process correlated to specific camera paths chosen during data acquisition. In this paper, we investigate the role of how data is collected for learning depth completion, from a robot navigation perspective, by leveraging 3D interactive environments. First, we evaluate four depth completion models trained on data collected using conventional navigation techniques. Our key insight is that existing exploration paradigms do not necessarily provide task-specific data points to achieve competent unsupervised depth completion learning. We then find that data collected with respect to photometric reconstruction has a direct positive influence on model performance. As a result, we develop an active, task-informed, depth uncertainty-based motion planning approach for learning depth completion, which we call DEpth Uncertainty-guided eXploration (DEUX). Training with data collected by our approach improves depth completion by an average greater than 18% across four depth completion models compared to existing exploration methods on the MP3D test set. We show that our approach further improves zero-shot generalization, while offering new insights into integrating robot learning-based depth estimation.
翻訳日:2023-10-15 14:15:36 公開日:2023-09-16
# GPTに基づく知的チュータにおけるドメイン知識ベースインクルージョンの潜伏レベルの影響の検討

Examining the Influence of Varied Levels of Domain Knowledge Base Inclusion in GPT-based Intelligent Tutors ( http://arxiv.org/abs/2309.12367v1 )

ライセンス: Link先を確認
Blake Castleman, Mehmet Kerem Turkcan(参考訳) 大規模言語モデル(LLM)の最近の進歩は、洗練された会話機能を備えたチャットボットの開発を促進する。 しかし、llmはクエリに対する頻繁な不正確な応答を示し、教育環境のアプリケーションを妨げる。 本稿では,知識ベース(KB)とLLM知能チュータの統合による応答信頼性向上の有効性について検討する。 そこで我々は,知的学習システムによって自動的に処理される授業カリキュラムのシームレスな統合を可能にする,スケーラブルなKBを設計する。 次に、学生の参加者が反応する人工知能のカリキュラムに関する質問を提示する評価を詳述した。 GPT-4はKBアクセスの階層の異なる知的家庭教師と人間のドメインの専門家に応答を評価した。 最後に,知的家庭教師のドメインエキスパートに対する反応を横断的に分析し,その教育的能力を評価した。 その結果、これらの知的チューターはドメインの専門家に比べて依然として精度が低いが、KBへのアクセスが許可されると知的チューターの精度が向上することが示唆された。 また、KBアクセスを持つ知的家庭教師は、教師のように話し、学生を理解する能力が、ドメインエキスパートよりも優れている一方で、学生を支援する能力は、ドメインエキスパートより遅れていることも観察した。

Recent advancements in large language models (LLMs) have facilitated the development of chatbots with sophisticated conversational capabilities. However, LLMs exhibit frequent inaccurate responses to queries, hindering applications in educational settings. In this paper, we investigate the effectiveness of integrating a knowledge base (KB) with LLM intelligent tutors to increase response reliability. To achieve this, we design a scaleable KB that affords educational supervisors seamless integration of lesson curricula, which is automatically processed by the intelligent tutoring system. We then detail an evaluation, where student participants were presented with questions about the artificial intelligence curriculum to respond to. GPT-4 intelligent tutors with varying hierarchies of KB access and human domain experts then assessed these responses. Lastly, students cross-examined the intelligent tutors' responses to the domain experts' and ranked their various pedagogical abilities. Results suggest that, although these intelligent tutors still demonstrate a lower accuracy compared to domain experts, the accuracy of the intelligent tutors increases when access to a KB is granted. We also observe that the intelligent tutors with KB access exhibit better pedagogical abilities to speak like a teacher and understand students than those of domain experts, while their ability to help students remains lagging behind domain experts.
翻訳日:2023-10-01 12:48:02 公開日:2023-09-16
# PrNet:Android Raw GNSS測定による位置決めを改善するために擬似空間を補正するニューラルネットワーク

PrNet: A Neural Network for Correcting Pseudoranges to Improve Positioning with Android Raw GNSS Measurements ( http://arxiv.org/abs/2309.12204v1 )

ライセンス: Link先を確認
Xu Weng, Keck Voon Ling, Haochen Liu(参考訳) 我々は,Androidスマートフォンから収集したデータを用いて,擬似乱射バイアスを緩和し,ローカライゼーション性能を向上させるニューラルネットワークを提案する。 提案手法は,Android の生測地衛星システム (GNSS) 測定から得られた6つの衛星受信者コンテキスト関連特徴であるMLP (Pragmatic Satellite-wise Multiple Layer Perceptron) を用いて,擬似乱射バイアスを表現した。 トレーニングプロセスの監視のために,位置接地真実と平滑化技術を用いて,擬似乱射バイアスの目標値を慎重に算出し,スマートフォン時計バイアスの推定残差を含む損失関数を最適化する。 推論プロセス中、ニューラルネットワークによって修正された擬似範囲で位置を計算するためにモデルベースローカライゼーションエンジンを用いる。 したがって、このハイブリッドパイプラインは疑似バイアスとノイズの両方に対応できる。 この枠組みをオープンデータセット上で評価し,都市部における指紋認証とクロストレースのローカライゼーションの4つのシナリオを考察した。 広範な実験により、提案フレームワークがモデルベースおよび最先端のデータ駆動アプローチよりも優れていることが示されている。

We present a neural network for mitigating pseudorange bias to improve localization performance with data collected from Android smartphones. We represent pseudorange bias using a pragmatic satellite-wise Multiple Layer Perceptron (MLP), the inputs of which are six satellite-receiver-context-related features derived from Android raw Global Navigation Satellite System (GNSS) measurements. To supervise the training process, we carefully calculate the target values of pseudorange bias using location ground truth and smoothing techniques and optimize a loss function containing the estimation residuals of smartphone clock bias. During the inference process, we employ model-based localization engines to compute locations with pseudoranges corrected by the neural network. Consequently, this hybrid pipeline can attend to both pseudorange bias and noise. We evaluate the framework on an open dataset and consider four application scenarios for investigating fingerprinting and cross-trace localization in rural and urban areas. Extensive experiments demonstrate that the proposed framework outperforms model-based and state-of-the-art data-driven approaches.
翻訳日:2023-09-24 03:45:05 公開日:2023-09-16
# 肺胸部x線データを用いた2値分類のための深層学習モデルの比較検討

Comparative study of Deep Learning Models for Binary Classification on Combined Pulmonary Chest X-ray Dataset ( http://arxiv.org/abs/2309.10829v1 )

ライセンス: Link先を確認
Shabbir Ahmed Shuvo, Md Aminul Islam, Md. Mozammel Hoque, Rejwan Bin Sulaiman(参考訳) 疾患検出のためのCNNベースのディープラーニングモデルが最近人気を集めている。 DenseNet 121, DenseNet 169, DenseNet 201, EffecientNet b0, EffecientNet lite4, GoogleNet, MobileNet, ResNet18の8つの著名なディープラーニングモデルのバイナリ分類性能を比較した。 医療画像の異なる分野に広く適用されているにもかかわらず、同じデータセットに適用した場合の相対的なパフォーマンスを決定するための知識のギャップは残っている。 このデータセットは、中国深セン(CH)と米国モンゴメリー(MC)のデータを組み合わせたものだ。 私たちは二分分類のためにモデルをトレーニングし、上記のモデルの異なるパラメータを計算し、比較しました。 モデルは、制御された比較環境を維持するために、同じトレーニングパラメータに従うようにトレーニングされました。 研究の終わりには、肺胸部x線画像データセットに適用すると、他のモデルとパフォーマンスの差が明らかになりました。このデータでは、drknet169が89.38パーセント、mobilenetが92.2%の精度で動作しています。 キーワード:肺、深層学習、結核、疾患検出、X線

CNN-based deep learning models for disease detection have become popular recently. We compared the binary classification performance of eight prominent deep learning models: DenseNet 121, DenseNet 169, DenseNet 201, EffecientNet b0, EffecientNet lite4, GoogleNet, MobileNet, and ResNet18 for their binary classification performance on combined Pulmonary Chest Xrays dataset. Despite the widespread application in different fields in medical images, there remains a knowledge gap in determining their relative performance when applied to the same dataset, a gap this study aimed to address. The dataset combined Shenzhen, China (CH) and Montgomery, USA (MC) data. We trained our model for binary classification, calculated different parameters of the mentioned models, and compared them. The models were trained to keep in mind all following the same training parameters to maintain a controlled comparison environment. End of the study, we found a distinct difference in performance among the other models when applied to the pulmonary chest Xray image dataset, where DenseNet169 performed with 89.38 percent and MobileNet with 92.2 percent precision. Keywords: Pulmonary, Deep Learning, Tuberculosis, Disease detection, Xray
翻訳日:2023-09-21 18:13:33 公開日:2023-09-16
# 音声分類によるアフリカ系アメリカ人英語の音声認識改善

Improving Speech Recognition for African American English With Audio Classification ( http://arxiv.org/abs/2309.09996v1 )

ライセンス: Link先を確認
Shefali Garg, Zhouyuan Huo, Khe Chai Sim, Suzan Schwartz, Mason Chua, Al\"ena Aks\"enova, Tsendsuren Munkhdalai, Levi King, Darryl Wright, Zion Mengesha, Dongseong Hwang, Tara Sainath, Fran\c{c}oise Beaufays, Pedro Moreno Mengibar(参考訳) 自動音声認識システム(ASR)は、意図または認識される言語品種間の品質格差が大きいことが示されている。 これを軽減する方法のひとつは、より代表的なデータセットを持つモデルをトレーニングしたり、微調整したりすることです。 しかしこのアプローチは、トレーニングと評価のためのドメイン内の限られたデータによって妨げられます。 そこで本稿では,少数の領域外(長文)アフリカ・アメリカン・イングリッシュ(AAE)データを用いて,米国英語短文音声認識器の堅牢性を向上させる新しい手法を提案する。 我々は、CORAAL、YouTube、Mozilla Common Voiceを使って音声分類器を訓練し、発話がAEか、メインストリーム・アメリカン・イングリッシュ(MAE)を含む他の諸種かをおよそ出力する。 分類器出力と粗い地理情報を組み合わせることで、大規模に半教師付き学習を行うために、未転写短文クエリの大きなコーパスから発話のサブセットを選択することができる。 このデータを微調整すると、MAEの品質を低下させることなくAAEとMAEの間で38.5%の単語誤り率格差が減少する。

Automatic speech recognition (ASR) systems have been shown to have large quality disparities between the language varieties they are intended or expected to recognize. One way to mitigate this is to train or fine-tune models with more representative datasets. But this approach can be hindered by limited in-domain data for training and evaluation. We propose a new way to improve the robustness of a US English short-form speech recognizer using a small amount of out-of-domain (long-form) African American English (AAE) data. We use CORAAL, YouTube and Mozilla Common Voice to train an audio classifier to approximately output whether an utterance is AAE or some other variety including Mainstream American English (MAE). By combining the classifier output with coarse geographic information, we can select a subset of utterances from a large corpus of untranscribed short-form queries for semi-supervised learning at scale. Fine-tuning on this data results in a 38.5% relative word error rate disparity reduction between AAE and MAE without reducing MAE quality.
翻訳日:2023-09-20 18:28:39 公開日:2023-09-16
# 自由空間損失とデバイス不完全なFSO-QKDプロトコルの比較研究

FSO-QKD protocols under free space losses and device imperfections: a comparative study ( http://arxiv.org/abs/2309.09994v1 )

ライセンス: Link先を確認
Mitali Sisodia, Omshankar, Vivek Venkataraman and Joyee Ghosh(参考訳) 量子鍵分布(Quantum key distribution、QKD)は、量子チャネルを介して2つのパーティ間で秘密鍵を確立する技術である。 いくつかのQKDプロトコルが提案され、光ファイバーや自由空間リンク上で実装されている。 自由空間リンク上でQKDプロトコルを運用する主な課題は大気損失である。 本稿では, 地上自由空間量子通信における量子ビット誤り率とセキュア鍵レートを評価し, 幾何学的損失, 大気損失, デバイス不完全性などの異なる自由空間損失を考慮し, 単一および絡み合った光子ベースのQKDプロトコルの性能について検討・比較を行った。

Quantum key distribution (QKD) is a technique to establish a secret key between two parties through a quantum channel. Several QKD protocols have been proposed and implemented over optical fibers or free space links. The main challenge of operating QKD protocols over a free space link is atmospheric losses. In this paper, we have studied and compared the performance of single and entangled photon based QKD protocols by evaluating the quantum bit error rate and secure key rate for terrestrial free-space quantum communication by considering different free-space losses, such as geometrical losses, atmospheric losses as well as device imperfections.
翻訳日:2023-09-20 18:28:22 公開日:2023-09-16
# EchoPrompt: 改善されたインコンテキスト学習のためのクエリのリフレクションモデル

EchoPrompt: Instructing the Model to Rephrase Queries for Improved In-context Learning ( http://arxiv.org/abs/2309.10687v1 )

ライセンス: Link先を確認
Rajasekhar Reddy Mekala, Yasaman Razeghi, Sameer Singh(参考訳) 大規模言語モデルはタスクの実行に主にincontext学習に依存している。 echopromptは、モデルに応答する前にクエリを再現するように促す、シンプルで効果的なアプローチです。 EchoPromptは、人間が答えを提供する前にクエリを音声化する認知戦略であるセルフクエスト(self-questioning)にインスパイアされている。 実験結果から、EchoPromptは、標準およびチェーンオブ思考によるゼロショットと少数ショットのインコンテキスト学習の両方において、4種類の因果言語モデルで大幅に改善されることが示された。 これらの改善は、様々な数値推論(GSM8K、SVAMP、MultiArith、SingleOp)、読み理解(DROP、SQuAD)、論理推論(Shuffled Objects、Date Understanding、Coin Flipping)タスクで観察される。 EchoPromptは平均して、code-davinci-002のZero-shot-CoTパフォーマンスを、数値タスクで5%、理解タスクで13%改善する。 本研究は,エコープロンプトの有効性を明らかにするため,エコープロンプトの有効性について検討した。 実験結果から,EchoPromptはコンテキスト内学習を向上し,パフォーマンスを向上させる効果的な手法であることがわかった。

Large language models primarily rely on incontext learning to execute tasks. We introduce EchoPrompt, a simple yet effective approach to prompt the model to rephrase its queries before answering them. EchoPrompt is inspired by self-questioning, a cognitive strategy humans use to vocalize queries before providing answers, thereby reducing misconceptions. Experimental results demonstrate that EchoPrompt leads to substantial improvements in both zero-shot and few-shot in-context learning with standard and chain-of-thought prompting on four families of causal language models. These improvements are observed across various numerical reasoning (GSM8K, SVAMP, MultiArith, SingleOp), reading comprehension (DROP, SQuAD), and logical reasoning (Shuffled Objects, Date Understanding, Coin Flipping) tasks. On average, EchoPrompt improves the Zero-shot-CoT performance of code-davinci-002 by 5% in numerical tasks and 13% in reading comprehension tasks. We investigate the effectiveness of EchoPrompt through ablation studies, which reveal the significance of both original and rephrased queries for EchoPrompt's efficacy. Our empirical results show that EchoPrompt is an effective technique that can easily augment in-context learning for better performance.
翻訳日:2023-09-20 13:52:21 公開日:2023-09-16
# 経験的測度の収束のための次元自由測度の一クラス

A Class of Dimension-free Metrics for the Convergence of Empirical Measures ( http://arxiv.org/abs/2104.12036v4 )

ライセンス: Link先を確認
Jiequn Han, Ruimeng Hu, Jihao Long(参考訳) 本稿では,高次元における経験的測度の収束について述べる。 我々は,新しい確率尺度のクラスを提案し,そのような測定値の下では,収束が次元性の呪い(CoD)を伴わないことを示す。 そのような特徴は高次元解析において重要であり、古典的計量(例えば、ワッサーシュタイン計量)とは対照的である。 提案手法は,cod を含まない特性を保証するためにテスト関数空間の基準を定式化する積分確率メトリクスのカテゴリに分類される。 選択されたテスト関数空間の例としては、再生核ヒルベルト空間、バロン空間、フロー誘起関数空間がある。 提案手法の3つの応用例を示す。 1. 確率変数の場合における経験的尺度の収束 2.McKean-Vlasov確率微分方程式の解への$n$-粒子系の収束 3. 平均場極限による同質な$n$-playerゲームに対する$\varepsilon$-Nash平衡の構成。 副生成物として、我々の計量によって測定された対象分布に近い分布と対象分布の特定の表現が与えられた場合、ワッサーシュタイン計量と相対エントロピーの観点から対象分布に近い分布を生成できることを証明した。 全体として,提案するメトリクスクラスは,codを使わずに高次元での経験的測度の収束を分析する強力なツールであることを示す。

This paper concerns the convergence of empirical measures in high dimensions. We propose a new class of probability metrics and show that under such metrics, the convergence is free of the curse of dimensionality (CoD). Such a feature is critical for high-dimensional analysis and stands in contrast to classical metrics ({\it e.g.}, the Wasserstein metric). The proposed metrics fall into the category of integral probability metrics, for which we specify criteria of test function spaces to guarantee the property of being free of CoD. Examples of the selected test function spaces include the reproducing kernel Hilbert spaces, Barron space, and flow-induced function spaces. Three applications of the proposed metrics are presented: 1. The convergence of empirical measure in the case of random variables; 2. The convergence of $n$-particle system to the solution to McKean-Vlasov stochastic differential equation; 3. The construction of an $\varepsilon$-Nash equilibrium for a homogeneous $n$-player game by its mean-field limit. As a byproduct, we prove that, given a distribution close to the target distribution measured by our metric and a certain representation of the target distribution, we can generate a distribution close to the target one in terms of the Wasserstein metric and relative entropy. Overall, we show that the proposed class of metrics is a powerful tool to analyze the convergence of empirical measures in high dimensions without CoD.
翻訳日:2023-09-20 02:31:20 公開日:2023-09-16
# 機械学習におけるプライバシ攻撃に関する調査

A Survey of Privacy Attacks in Machine Learning ( http://arxiv.org/abs/2007.07646v3 )

ライセンス: Link先を確認
Maria Rigaki and Sebastian Garcia(参考訳) 機械学習がより広く使われるようになると、セキュリティとプライバシにおけるその影響を研究する必要性がより緊急になる。 プライバシの本体はここ数年着実に成長しているが、機械学習のプライバシー面の研究は、セキュリティ面よりもあまり注目されていない。 この研究への私たちの貢献は、過去7年間に発表された機械学習に対するプライバシ攻撃に関する40以上の論文の分析です。 そこで本研究では,敵の知識と攻撃対象の資産に基づいて,異なる攻撃の分類を可能にする脅威モデルとともに,攻撃分類を提案する。 プライバシリークの原因に関する最初の調査と、さまざまな攻撃に関する詳細な分析が紹介されている。 最後に、最も一般的に提案されている防衛の概観と、分析中に特定されるオープンな問題と今後の方向性について論じる。

As machine learning becomes more widely used, the need to study its implications in security and privacy becomes more urgent. Although the body of work in privacy has been steadily growing over the past few years, research on the privacy aspects of machine learning has received less focus than the security aspects. Our contribution in this research is an analysis of more than 40 papers related to privacy attacks against machine learning that have been published during the past seven years. We propose an attack taxonomy, together with a threat model that allows the categorization of different attacks based on the adversarial knowledge, and the assets under attack. An initial exploration of the causes of privacy leaks is presented, as well as a detailed analysis of the different attacks. Finally, we present an overview of the most commonly proposed defenses and a discussion of the open problems and future directions identified during our analysis.
翻訳日:2023-09-20 02:29:43 公開日:2023-09-16
# 文脈認識による高度なカプセルネットワーク

Advanced Capsule Networks via Context Awareness ( http://arxiv.org/abs/1903.07497v3 )

ライセンス: Link先を確認
Nguyen Huu Phong and Bernardete Ribeiro(参考訳) Capsule Networks (CN)は、Deep Learning (DL)コミュニティ向けの新しいアーキテクチャを提供する。 この効果はMNISTやSmallNORBのデータセットで実証されているが、異なるコンテキストを持つ画像の他のデータセットでは、ネットワークは依然として課題に直面している。 本研究では,cn (vector version) の設計,すなわち,プール層を拡大して画像背景をフィルタし,復元層を増加させ,画像復元性を向上させる。 さらに,CNモデルとDLモデルの精度と速度を比較する実験を行った。 dlモデルでは、inception v3 と densenet v201 をnasnet、mobilenet v1、mobilenet v2 以外の強力なコンピュータで、小型および組み込みデバイスで使用する。 我々は、アメリカ手話(asl)のアルファベットデータセットを用いて、モデルを評価する。 その結果,CNはDLモデルと同等に動作し,トレーニング時間を劇的に短縮した。 私たちはまた、イラストの目的のためにデモを行い、リンクを与えます。

Capsule Networks (CN) offer new architectures for Deep Learning (DL) community. Though its effectiveness has been demonstrated in MNIST and smallNORB datasets, the networks still face challenges in other datasets for images with distinct contexts. In this research, we improve the design of CN (Vector version) namely we expand more Pooling layers to filter image backgrounds and increase Reconstruction layers to make better image restoration. Additionally, we perform experiments to compare accuracy and speed of CN versus DL models. In DL models, we utilize Inception V3 and DenseNet V201 for powerful computers besides NASNet, MobileNet V1 and MobileNet V2 for small and embedded devices. We evaluate our models on a fingerspelling alphabet dataset from American Sign Language (ASL). The results show that CNs perform comparably to DL models while dramatically reducing training time. We also make a demonstration and give a link for the purpose of illustration.
翻訳日:2023-09-20 02:29:30 公開日:2023-09-16
# 局所繰り返しモチーフとリスク緩和アーキテクチャ最適化を用いた繰り返しスパイクニューラルネットワークの構成

Composing Recurrent Spiking Neural Networks using Locally-Recurrent Motifs and Risk-Mitigating Architectural Optimization ( http://arxiv.org/abs/2108.01793v2 )

ライセンス: Link先を確認
Wenrui Zhang, Hejia Geng, Peng Li(参考訳) 神経回路では、リカレント接続はネットワーク機能と安定性において重要な役割を果たす。 しかし、既存の繰り返しスパイクニューラルネットワーク(RSNN)は、しばしば最適化なしでランダムな接続によって構築される。 RSNNは、メモリ形成と学習に不可欠なリッチなダイナミクスを生成することができるが、RSNNの体系的なアーキテクチャ最適化は依然としてオープンな課題である。 我々は、新しいスケーラブルRSNNアーキテクチャと自動アーキテクチャ最適化により、大規模RSNNの体系設計を可能にすることを目指している。 Sparsely-Connected Recurrent Motif Layer (SC-ML) と呼ばれるレイヤアーキテクチャに基づいてRSNNを構成する。 モチーフの小型化とモチーフ間の疎結合により、RSNNアーキテクチャは大規模ネットワークサイズに拡張可能である。 さらに,提案する反復モチーフとSC-ML層アーキテクチャのトポロジを体系的に最適化するHybrid Risk-Mitigating Architectural Search (HRMAS)を提案する。 hrmasは,生体にインスパイアされた新しい自己修復機構を導入することで,ネットワーク不安定性とアーキテクチャ変化による性能低下のリスクを緩和する2段階最適化プロセスである。 固有の可塑性は、各HRMASイテレーションの第2ステップに導入され、RSNNアーキテクチャ「進化」の第1ステップで導入された構造的およびシナプス的な重量変化に対する教師なしの高速な自己適応として機能する。 著者の知識を最大限に活用するために、RSNNの体系的なアーキテクチャ最適化を行う最初の作品である。 1つの音声と3つのニューロモーフィックデータセットを用いて、既存の手動設計したRSNNに対して自動アーキテクチャ最適化がもたらす大幅な性能向上を示す。

In neural circuits, recurrent connectivity plays a crucial role in network function and stability. However, existing recurrent spiking neural networks (RSNNs) are often constructed by random connections without optimization. While RSNNs can produce rich dynamics that are critical for memory formation and learning, systemic architectural optimization of RSNNs is still an open challenge. We aim to enable systematic design of large RSNNs via a new scalable RSNN architecture and automated architectural optimization. We compose RSNNs based on a layer architecture called Sparsely-Connected Recurrent Motif Layer (SC-ML) that consists of multiple small recurrent motifs wired together by sparse lateral connections. The small size of the motifs and sparse inter-motif connectivity leads to an RSNN architecture scalable to large network sizes. We further propose a method called Hybrid Risk-Mitigating Architectural Search (HRMAS) to systematically optimize the topology of the proposed recurrent motifs and SC-ML layer architecture. HRMAS is an alternating two-step optimization process by which we mitigate the risk of network instability and performance degradation caused by architectural change by introducing a novel biologically-inspired "self-repairing" mechanism through intrinsic plasticity. The intrinsic plasticity is introduced to the second step of each HRMAS iteration and acts as unsupervised fast self-adaptation to structural and synaptic weight modifications introduced by the first step during the RSNN architectural "evolution". To the best of the authors' knowledge, this is the first work that performs systematic architectural optimization of RSNNs. Using one speech and three neuromorphic datasets, we demonstrate the significant performance improvement brought by the proposed automated architecture optimization over existing manually-designed RSNNs.
翻訳日:2023-09-20 02:23:27 公開日:2023-09-16
# 量子コンピュータにおけるテスト対称性

Testing symmetry on quantum computers ( http://arxiv.org/abs/2105.12758v3 )

ライセンス: Link先を確認
Margarite L. LaBorde, Soorya Rethinasamy, and Mark M. Wilde(参考訳) 対称性は物理学における統一概念である。 量子情報などでは、対称性を持つ量子状態は特定の情報処理タスクには役に立たないことが知られている。 例えば、時間発展を実現するハミルトニアンとの交換は、その進化の間の時間維持には役に立たず、高度に拡張可能な二成分状態は強く絡み合っていないため、テレポーテーションのような基本的なタスクでは役に立たない。 この観点から、量子状態とチャネルの対称性をテストするいくつかの量子アルゴリズムを詳述する。 状態のボース対称性をテストする場合、単純で効率的な量子アルゴリズムが存在することを示し、他の種類の対称性のテストは量子証明器の助けを借りている。 各アルゴリズムの受け入れ確率は、テスト対象の状態の最大対称忠実性に等しいことが証明され、後者の資源量化器に確固たる操作的意味を与える。 アルゴリズムの特別なケースは、量子状態の不整合や分離性をテストする。 我々は、量子アルゴリズムの変分アプローチを用いて、これらのアルゴリズムの性能を選択例で評価し、量子証明器をパラメータ化回路に置き換えた。 提案手法は,IBM量子ノイズレスおよびノイズキャンセリングシミュレータを用いて多数の実例で実証し,ノイズレスの場合ではアルゴリズムが良好に動作し,ノイズレスの場合ではノイズレジリエンスを示す。 また,半定値プログラムによって最大対称忠実度を計算できることが示され,これらのアルゴリズムの性能を十分に小さな例でベンチマークするのに有用である。 最後に、非対称性の資源理論の様々な一般化を確立し、アルゴリズムの受容確率は資源単調であり、従って資源理論的観点からの動機付けとなる。

Symmetry is a unifying concept in physics. In quantum information and beyond, it is known that quantum states possessing symmetry are not useful for certain information-processing tasks. For example, states that commute with a Hamiltonian realizing a time evolution are not useful for timekeeping during that evolution, and bipartite states that are highly extendible are not strongly entangled and thus not useful for basic tasks like teleportation. Motivated by this perspective, this paper details several quantum algorithms that test the symmetry of quantum states and channels. For the case of testing Bose symmetry of a state, we show that there is a simple and efficient quantum algorithm, while the tests for other kinds of symmetry rely on the aid of a quantum prover. We prove that the acceptance probability of each algorithm is equal to the maximum symmetric fidelity of the state being tested, thus giving a firm operational meaning to these latter resource quantifiers. Special cases of the algorithms test for incoherence or separability of quantum states. We evaluate the performance of these algorithms on choice examples by using the variational approach to quantum algorithms, replacing the quantum prover with a parameterized circuit. We demonstrate this approach for numerous examples using the IBM quantum noiseless and noisy simulators, and we observe that the algorithms perform well in the noiseless case and exhibit noise resilience in the noisy case. We also show that the maximum symmetric fidelities can be calculated by semi-definite programs, which is useful for benchmarking the performance of these algorithms for sufficiently small examples. Finally, we establish various generalizations of the resource theory of asymmetry, with the upshot being that the acceptance probabilities of the algorithms are resource monotones and thus well motivated from the resource-theoretic perspective.
翻訳日:2023-09-20 02:21:42 公開日:2023-09-16
# 適応的でロバストなマルチタスク学習

Adaptive and Robust Multi-Task Learning ( http://arxiv.org/abs/2202.05250v4 )

ライセンス: Link先を確認
Yaqi Duan, Kaizheng Wang(参考訳) 本研究では,異なるソースから収集した複数のデータセットを同時に解析し,それぞれに1つのモデルを学習することを目的としたマルチタスク学習問題について検討する。 本稿では,これらのタスク間の類似点を自動的に活用し,その相違点を慎重に処理する適応手法のファミリーを提案する。 鋭い統計的保証を導出し,外れたタスクに対するロバスト性を証明する。 合成データと実データに関する数値実験により,新しい手法の有効性が示された。

We study the multi-task learning problem that aims to simultaneously analyze multiple datasets collected from different sources and learn one model for each of them. We propose a family of adaptive methods that automatically utilize possible similarities among those tasks while carefully handling their differences. We derive sharp statistical guarantees for the methods and prove their robustness against outlier tasks. Numerical experiments on synthetic and real datasets demonstrate the efficacy of our new methods.
翻訳日:2023-09-20 02:12:37 公開日:2023-09-16
# モデルベース強化学習のための報酬評価サブタスク

Reward-Respecting Subtasks for Model-Based Reinforcement Learning ( http://arxiv.org/abs/2202.03466v4 )

ライセンス: Link先を確認
Richard S. Sutton and Marlos C. Machado and G. Zacharias Holland and David Szepesvari and Finbarr Timbers and Brian Tanner and Adam White(参考訳) 人工知能の野心的な目標を達成するために、強化学習は、状態と時間に抽象的な世界のモデルによる計画を含む必要がある。 ディープラーニングは状態抽象化を進歩させたが、オプションフレームワークに基づいた理論が広く発達したにもかかわらず、時間的抽象化はめったに使われていない。 この理由の1つは、オプションの空間が巨大であり、オプション発見のために提案されたメソッドは、オプションモデルが計画にどのように使用されるかを考慮していない。 オプションは通常、ボトルネック状態に達したり、報酬以外の感覚信号の累積和を最大化するといった、補助的なタスクを実行することで発見される。 各サブタスクは、オプションを生成するために解決され、オプションのモデルが学習され、計画プロセスで利用できる。 従来の作業では、サブタスクは元の問題に対する報酬を無視するが、我々は、元の報酬とオプションが終了する時の状態の特徴に基づくボーナスを使用するサブタスクを提案する。 このような報奨評価サブタスクから得られるオプションモデルは、固有オプションやボトルネック状態に基づく最短経路オプション、あるいはオプションクリティカルによって生成された報酬評価オプションよりも、計画立案に有用であることを示す。 サブタスクを尊重するリワードは、オプションの空間を強く制約し、オプション発見の問題に対する部分解を提供する。 最後に, 標準アルゴリズムと一般価値関数を用いて, 価値, ポリシー, オプション, およびモデルをオンラインおよびオフポリシーで学習する方法を示す。

To achieve the ambitious goals of artificial intelligence, reinforcement learning must include planning with a model of the world that is abstract in state and time. Deep learning has made progress with state abstraction, but temporal abstraction has rarely been used, despite extensively developed theory based on the options framework. One reason for this is that the space of possible options is immense, and the methods previously proposed for option discovery do not take into account how the option models will be used in planning. Options are typically discovered by posing subsidiary tasks, such as reaching a bottleneck state or maximizing the cumulative sum of a sensory signal other than reward. Each subtask is solved to produce an option, and then a model of the option is learned and made available to the planning process. In most previous work, the subtasks ignore the reward on the original problem, whereas we propose subtasks that use the original reward plus a bonus based on a feature of the state at the time the option terminates. We show that option models obtained from such reward-respecting subtasks are much more likely to be useful in planning than eigenoptions, shortest path options based on bottleneck states, or reward-respecting options generated by the option-critic. Reward respecting subtasks strongly constrain the space of options and thereby also provide a partial solution to the problem of option discovery. Finally, we show how values, policies, options, and models can all be learned online and off-policy using standard algorithms and general value functions.
翻訳日:2023-09-20 02:11:58 公開日:2023-09-16
# 分散検出のための複数テストフレームワーク

Multiple Testing Framework for Out-of-Distribution Detection ( http://arxiv.org/abs/2206.09522v5 )

ライセンス: Link先を確認
Akshayaa Magesh, Venugopal V. Veeravalli, Anirban Roy, Susmit Jha(参考訳) 本研究では,学習アルゴリズムの出力を推定時に信頼できるかどうかを検知するOOD(Out-of-Distribution)検出の問題について検討する。 OOD検出のためのいくつかの試験が先行研究で提案されているが、この問題を研究するための正式な枠組みが欠如している。 我々は,OOD検出のための強力なテスト構築のための洞察を提供する,入力分布と学習アルゴリズムの両方を含むOOD概念の定義を提案する。 共形p-値を用いた学習アルゴリズムから,様々な統計情報を体系的に組み合わせた多重仮説テスト法を提案する。 さらに, 流通中のサンプルをOODと誤分類する可能性を強く保証する。 実験では、前処理で提案したしきい値ベースのテストは、特定の環境では良好に動作するが、異なるタイプのOODインスタンスでは均一に機能しないことがわかった。 対照的に,複数の統計値を組み合わせた提案手法は,異なるデータセットとニューラルネットワークに対して均一に機能する。

We study the problem of Out-of-Distribution (OOD) detection, that is, detecting whether a learning algorithm's output can be trusted at inference time. While a number of tests for OOD detection have been proposed in prior work, a formal framework for studying this problem is lacking. We propose a definition for the notion of OOD that includes both the input distribution and the learning algorithm, which provides insights for the construction of powerful tests for OOD detection. We propose a multiple hypothesis testing inspired procedure to systematically combine any number of different statistics from the learning algorithm using conformal p-values. We further provide strong guarantees on the probability of incorrectly classifying an in-distribution sample as OOD. In our experiments, we find that threshold-based tests proposed in prior work perform well in specific settings, but not uniformly well across different types of OOD instances. In contrast, our proposed method that combines multiple statistics performs uniformly well across different datasets and neural networks.
翻訳日:2023-09-20 01:52:25 公開日:2023-09-16
# 分散型社会制裁による分業の出現

The emergence of division of labor through decentralized social sanctioning ( http://arxiv.org/abs/2208.05568v5 )

ライセンス: Link先を確認
Anil Yaman, Joel Z. Leibo, Giovanni Iacca, Sang Wan Lee(参考訳) 人間の生態的成功は、柔軟に自己組織を協調的な社会グループに組み込む特性的な能力に依存しており、その最も成功したのは、実質的な専門化と労働分業である。 他のほとんどの動物とは異なり、人間は人生の中で試行錯誤によってどのような役割を果たすかを学ぶ。 しかし、いくつかの重要な役割が他よりも魅力的であり、個人が自己関心を持つ場合、社会的ジレンマがある。 しかし、そのように行動し、重要な役割を果たさなければ、災害が発生する。 このような状況では最適な役割分布を学習することは不可能である。 その結果、基本的な質問は: 自己興味のある生涯学習者のグループにおいて、労働の分割はどのように現れるのか? ここでは,分散社会保障の創発的パターンと考える社会規範のモデルを導入することにより,すべての重要な役割を含む生産的労働分業を自利的な個人集団が学ぶことが可能となることを示す。 このような社会的規範は、集団内で報酬を再分配し、反社会的役割を非活性化し、一方で、内在的に報酬を払わない親社会的役割を動機付ける。

Human ecological success relies on our characteristic ability to flexibly self-organize into cooperative social groups, the most successful of which employ substantial specialization and division of labor. Unlike most other animals, humans learn by trial and error during their lives what role to take on. However, when some critical roles are more attractive than others, and individuals are self-interested, then there is a social dilemma: each individual would prefer others take on the critical but unremunerative roles so they may remain free to take one that pays better. But disaster occurs if all act thusly and a critical role goes unfilled. In such situations learning an optimum role distribution may not be possible. Consequently, a fundamental question is: how can division of labor emerge in groups of self-interested lifetime-learning individuals? Here we show that by introducing a model of social norms, which we regard as emergent patterns of decentralized social sanctioning, it becomes possible for groups of self-interested individuals to learn a productive division of labor involving all critical roles. Such social norms work by redistributing rewards within the population to disincentivize antisocial roles while incentivizing prosocial roles that do not intrinsically pay as well as others.
翻訳日:2023-09-20 01:42:52 公開日:2023-09-16
# 確率的測定のみのキタエフモデルにおけるトポロジー、臨界性、動的生成量子ビット

Topology, criticality, and dynamically generated qubits in a stochastic measurement-only Kitaev model ( http://arxiv.org/abs/2207.07096v2 )

ライセンス: Link先を確認
Adithya Sriram, Tibor Rakovszky, Vedika Khemani, Matteo Ippoliti(参考訳) キタエフのハニカム・ハミルトニアン(honeycomb hamiltonian)という2次元の位相次数のパラダイム的可解モデルを考え、2量子ビット結合作用素の確率的測定からなる測定のみのダイナミクスに変換する。 我々は、いくつかの方法でハミルトン問題に類似した絡み合い位相図を見つけ、他の方法では質的に異なる。 1種類の結合が支配的に測定されると、2つの位相キュービット(トーラス上の)をシステムサイズが指数関数的に保護する領域ローの絡み合い相が見つかる。 これは最近提案されたFloquet符号のアイデアを一般化し、論理キュービットは時間周期の測定スケジュールによって動的に生成される。 あらゆる種類の結合が等しい周波数で測定されると、領域法則の対数的違反を伴う臨界相が見つかり、ハミルトン法則と著しく区別される。 臨界位相はトポロジカルキュービットの集合であり、三部類相互情報によって診断されるが、システムサイズにおいて時間多項式のみ保護する。 さらに, 混合状態の動的浄化に対する異常な挙動を観察し, 動的指数 $z = 1/2$ -- 測定によって可能な超弾道力学によって後期に特徴付けられる。

We consider a paradigmatic solvable model of topological order in two dimensions, Kitaev's honeycomb Hamiltonian, and turn it into a measurement-only dynamics consisting of stochastic measurements of two-qubit bond operators. We find an entanglement phase diagram that resembles that of the Hamiltonian problem in some ways, while being qualitatively different in others. When one type of bond is dominantly measured, we find area-law entangled phases that protect two topological qubits (on a torus) for a time exponential in system size. This generalizes the recently-proposed idea of Floquet codes, where logical qubits are dynamically generated by a time-periodic measurement schedule, to a stochastic setting. When all types of bonds are measured with comparable frequency, we find a critical phase with a logarithmic violation of the area-law, which sharply distinguishes it from its Hamiltonian counterpart. The critical phase has the same set of topological qubits, as diagnosed by the tripartite mutual information, but protects them only for a time polynomial in system size. Furthermore, we observe an unusual behavior for the dynamical purification of mixed states, characterized at late times by the dynamical exponent $z = 1/2$ -- a super-ballistic dynamics made possible by measurements.
翻訳日:2023-09-20 01:42:12 公開日:2023-09-16
# tabpfn:小さな表の分類問題を1秒で解決するトランスフォーマー

TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second ( http://arxiv.org/abs/2207.01848v6 )

ライセンス: Link先を確認
Noah Hollmann, Samuel M\"uller, Katharina Eggensperger, Frank Hutter(参考訳) 我々は,少量の表型データセットの教師付き分類を1秒未満で実行し,ハイパーパラメータチューニングを必要とせず,最先端の分類手法と競合するトレーニングされたトランスフォーマであるtabpfnを提案する。 TabPFNはインコンテキスト学習(ICL)を行い、追加のパラメータ更新を必要とせずにラベル付き例(x, f(x))のシーケンスを用いて予測を行う。 tabpfnは、トレーニングとテストサンプルをセット値入力として受け入れ、1回のフォワードパスでテストセット全体の予測を行うネットワークの重みに完全に関係しています。 TabPFNはPFN(Presideed-Data Fitted Network)で、オフラインで1度トレーニングされ、ベイジアン推論を事前の合成データセットに近似する。 これは、単純な構造を好む構造的因果モデルの大きな空間を伴っている。 最大10000のトレーニングデータポイントを含む18のデータセット、100までの純粋に数値的な特徴を欠いた100の値、最大10のクラスにおいて、本手法がブーストツリーよりも明らかに優れ、最大230$\times$速度アップの複雑なautomlシステムと同等のパフォーマンスを示す。 これにより、GPUを使用すると5700$\times$スピードアップになる。 また、これらの結果をOpenMLから67個の小さな数値データセットで検証する。 すべてのコード、トレーニング済みのTabPFN、インタラクティブなブラウザデモ、Colabノートブックをhttps://github.com/automl/TabPFNで提供しています。

We present TabPFN, a trained Transformer that can do supervised classification for small tabular datasets in less than a second, needs no hyperparameter tuning and is competitive with state-of-the-art classification methods. TabPFN performs in-context learning (ICL), it learns to make predictions using sequences of labeled examples (x, f(x)) given in the input, without requiring further parameter updates. TabPFN is fully entailed in the weights of our network, which accepts training and test samples as a set-valued input and yields predictions for the entire test set in a single forward pass. TabPFN is a Prior-Data Fitted Network (PFN) and is trained offline once, to approximate Bayesian inference on synthetic datasets drawn from our prior. This prior incorporates ideas from causal reasoning: It entails a large space of structural causal models with a preference for simple structures. On the 18 datasets in the OpenML-CC18 suite that contain up to 1 000 training data points, up to 100 purely numerical features without missing values, and up to 10 classes, we show that our method clearly outperforms boosted trees and performs on par with complex state-of-the-art AutoML systems with up to 230$\times$ speedup. This increases to a 5 700$\times$ speedup when using a GPU. We also validate these results on an additional 67 small numerical datasets from OpenML. We provide all our code, the trained TabPFN, an interactive browser demo and a Colab notebook at https://github.com/automl/TabPFN.
翻訳日:2023-09-20 01:40:58 公開日:2023-09-16
# Covariance Matrix Adaptation MAP-Annealing による多次元制御系の訓練

Training Diverse High-Dimensional Controllers by Scaling Covariance Matrix Adaptation MAP-Annealing ( http://arxiv.org/abs/2210.02622v3 )

ライセンス: Link先を確認
Bryon Tjanaka, Matthew C. Fontaine, David H. Lee, Aniruddha Kalkar, Stefanos Nikolaidis(参考訳) シミュレーションでさまざまなニューラルネットワークコントローラを事前トレーニングすることで、ロボットのロコモーションタスクの損傷に対するオンライン適応が可能になる。 しかし、多様で高性能なコントローラを見つけるには、高価なネットワークトレーニングと多数のハイパーパラメータの広範なチューニングが必要となる。 一方,進化戦略(es)に基づく品質多様性アルゴリズムである共分散行列適応map-annealing (cma-mae) は,このような制限がなく,標準qdベンチマークで最先端の性能を達成している。 しかし、CMA-MAEは2次複雑さのため、現代のニューラルネットワークコントローラにはスケールできない。 我々はESにおける効率的な近似手法を活用し、高次元にスケールする3つの新しいCMA-MAE変種を提案する。 実験では,ロボットの歩行タスクにおいて,esベースのベースラインを上回っており,最先端の深層強化学習に基づく品質多様性アルゴリズムに匹敵する。

Pre-training a diverse set of neural network controllers in simulation has enabled robots to adapt online to damage in robot locomotion tasks. However, finding diverse, high-performing controllers requires expensive network training and extensive tuning of a large number of hyperparameters. On the other hand, Covariance Matrix Adaptation MAP-Annealing (CMA-MAE), an evolution strategies (ES)-based quality diversity algorithm, does not have these limitations and has achieved state-of-the-art performance on standard QD benchmarks. However, CMA-MAE cannot scale to modern neural network controllers due to its quadratic complexity. We leverage efficient approximation methods in ES to propose three new CMA-MAE variants that scale to high dimensions. Our experiments show that the variants outperform ES-based baselines in benchmark robotic locomotion tasks, while being comparable with or exceeding state-of-the-art deep reinforcement learning-based quality diversity algorithms.
翻訳日:2023-09-20 01:31:46 公開日:2023-09-16
# 過渡光曲線近似のためのニューラルネットワークアプローチの特性の理解

Understanding of the properties of neural network approaches for transient light curve approximations ( http://arxiv.org/abs/2209.07542v2 )

ライセンス: Link先を確認
Mariia Demianenko, Konstantin Malanchev, Ekaterina Samorodova, Mikhail Sysak, Aleksandr Shiriaev, Denis Derkach, Mikhail Hushchyn(参考訳) 現代の時間領域測光調査は様々な天体の多くの観測を収集し、大規模調査の次の時代は、その性質についてさらに多くの情報を提供するだろう。 分光追跡は超新星のようなトランジェントにとって特に重要であり、これらの天体のほとんどはそのような研究の対象にはなっていない。 }{Flux 時系列は、例えばピーク識別や光度減少推定など、光度分類やキャラクタリゼーションの安価な代替手段として積極的に利用されている。 しかし、収集された時系列は多次元かつ不規則にサンプリングされ、また外れ値も含んでいて、明確に定義された系統的不確実性はない。 本稿では,各パスバンドに周期的な時間ステップを持つ時系列を生成するために,観測光曲線を時間と波長で近似する最良性能の手法を探索する。 本研究では,多層パーセプトロン,ベイズ型ニューラルネットワーク,正規化流などのニューラルネットワークに基づく光曲線近似法を検討し,単一光曲線の近似観測を行った。 テストデータセットには、PLAsTiCCと実際のZwicky Transient Facility Bright Transient Survey光曲線のシミュレーションが含まれている。 このテストは、ほんの少しでもネットワークにフィットし、最先端のモデルと比べて近似の質を向上させるのに十分であることを示した。 この研究で記述された手法は計算複雑性が低く、ガウス過程よりもかなり高速である。 さらに,さらなるピーク同定と過渡的分類の観点から近似手法の性能を解析した。 研究結果は、科学コミュニティのためにGitHubで利用可能な、オープンでユーザフレンドリなFlu Pythonライブラリでリリースされた。

Modern-day time-domain photometric surveys collect a lot of observations of various astronomical objects and the coming era of large-scale surveys will provide even more information on their properties. Spectroscopic follow-ups are especially crucial for transients such as supernovae and most of these objects have not been subject to such studies. }{Flux time series are actively used as an affordable alternative for photometric classification and characterization, for instance, peak identifications and luminosity decline estimations. However, the collected time series are multidimensional and irregularly sampled, while also containing outliers and without any well-defined systematic uncertainties. This paper presents a search for the best-performing methods to approximate the observed light curves over time and wavelength for the purpose of generating time series with regular time steps in each passband.}{We examined several light curve approximation methods based on neural networks such as multilayer perceptrons, Bayesian neural networks, and normalizing flows to approximate observations of a single light curve. Test datasets include simulated PLAsTiCC and real Zwicky Transient Facility Bright Transient Survey light curves of transients.}{The tests demonstrate that even just a few observations are enough to fit the networks and improve the quality of approximation, compared to state-of-the-art models. The methods described in this work have a low computational complexity and are significantly faster than Gaussian processes. Additionally, we analyzed the performance of the approximation techniques from the perspective of further peak identification and transients classification. The study results have been released in an open and user-friendly Fulu Python library available on GitHub for the scientific community.
翻訳日:2023-09-20 01:30:25 公開日:2023-09-16
# 量子熱電流におけるユニバーサルスケール境界

Universal Scaling Bounds on a Quantum Heat Current ( http://arxiv.org/abs/2209.05789v2 )

ライセンス: Link先を確認
Shunsuke Kamimura, Kyo Yoshida, Yasuhiro Tokura, and Yuichiro Matsuzaki(参考訳) 我々は、マルコフ環境と結合した量子l$粒子系に流れる熱流の新しい境界を導出する。 系のハミルトニアンと系の環境相互作用が$L$で広く存在すると仮定することにより、熱電流の絶対値が$\Theta (L^3)$と最大で$L$の極限でスケールできることが示される。 また、この境界をスケーリングの観点から飽和させる例として、非相互作用粒子が熱浴とグローバルに結合する例を示す。 しかし,このようなシステムの構築には環境によって引き起こされる多体相互作用が必要であり,現在の技術では実現が困難である。 より現実的なケースを考えるために、エネルギー差が一定の値を超えるならば、ノイズ作用素の任意の非対角的要素(系の環境相互作用から派生した)がシステムエネルギーベースでゼロとなるようなシステムのクラスに焦点を当てる。 すると、$\Delta E = \Theta (L^0)$ に対して、熱電流の絶対値上の別のスケーリング境界 $\Theta (L^2)$ を導き、いわゆる超放射は、この境界を飽和させるクラスに属する。 この結果は, 量子熱機関, 量子冷凍機, 量子電池などの遠距離応用を含む, 量子強化熱力学デバイスの性能評価に有用である。

We derive new bounds on a heat current flowing into a quantum $L$-particle system coupled with a Markovian environment. By assuming that a system Hamiltonian and a system-environment interaction Hamiltonian are extensive in $L$, we show that the absolute value of the heat current scales at most as $\Theta (L^3)$ in a limit of large $L$. Also, we present an example that saturates this bound in terms of scaling: non-interacting particles globally coupled with a thermal bath. However, the construction of such system requires many-body interactions induced by the environment, which may be difficult to realize with the current technology. To consider more feasible cases, we focus on a class of system where any non-diagonal elements of the noise operator (derived from the system-environment interaction Hamiltonian) become zero in the system energy basis, if the energy difference is beyond a certain value $\Delta E$. Then, for $\Delta E = \Theta (L^0)$, we derive another scaling bound $\Theta (L^2)$ on the absolute value of the heat current, and the so-called superradiance belongs to a class to saturate this bound. Our results are useful to evaluate the best achievable performance of quantum-enhanced thermodynamic devices, which contain far-reaching applications for such as quantum heat engines, quantum refrigerators and quantum batteries.
翻訳日:2023-09-20 01:29:33 公開日:2023-09-16
# S3E:コラボレーションSLAMのための大規模マルチモーダルデータセット

S3E: A Large-scale Multimodal Dataset for Collaborative SLAM ( http://arxiv.org/abs/2210.13723v4 )

ライセンス: Link先を確認
Dapeng Feng, Yuhua Qi, Shipeng Zhong, Zhiqiang Chen, Yudu Jiao, Qiming Chen, Tao Jiang, Hongbo Chen(参考訳) タスクを協調的に実行するロボットチームを採用するという高度な要求により、研究コミュニティは協調的なローカライゼーションとマッピングにますます関心を寄せている。 残念なことに、既存のデータセットは、異なるエージェント間のトラジェクタ間の一般化がコラボレーションタスクの全体的な実行可能性に不可欠であるにもかかわらず、協調的トラジェクタの規模とバリエーションに制限がある。 現実的なマルチエージェント・オーダライテッドSLAM問題に対する研究コミュニティのコントリビューションの整合を支援するため、S3Eは、無人地上車両群が4つの設計された協調軌道パラダイムに沿って捉えた大規模マルチモーダルデータセットである。 S3Eは、7つの屋外シーケンスと5つの屋内シーケンスで構成され、それぞれ200秒を超える。 重要なことは、データセットのサイズ、シーンの可変性、複雑さに関するこれまでの試みを超えています。 EuRoCデータセットのパイオニアであるEuRoCの4倍の平均記録時間を持つ。 また、注意深いデータセット分析や、コラボレーションSLAMと単一データセットのベースラインも提供しています。 データと最新の詳細はhttps://github.com/PengYu-Team/S3E.comで確認できる。

With the advanced request to employ a team of robots to perform a task collaboratively, the research community has become increasingly interested in collaborative simultaneous localization and mapping. Unfortunately, existing datasets are limited in the scale and variation of the collaborative trajectories, even though generalization between inter-trajectories among different agents is crucial to the overall viability of collaborative tasks. To help align the research community's contributions with realistic multiagent ordinated SLAM problems, we propose S3E, a large-scale multimodal dataset captured by a fleet of unmanned ground vehicles along four designed collaborative trajectory paradigms. S3E consists of 7 outdoor and 5 indoor sequences that each exceed 200 seconds, consisting of well temporal synchronized and spatial calibrated high-frequency IMU, high-quality stereo camera, and 360 degree LiDAR data. Crucially, our effort exceeds previous attempts regarding dataset size, scene variability, and complexity. It has 4x as much average recording time as the pioneering EuRoC dataset. We also provide careful dataset analysis as well as baselines for collaborative SLAM and single counterparts. Data and more up-to-date details are found at https://github.com/PengYu-Team/S3E.
翻訳日:2023-09-20 01:21:17 公開日:2023-09-16
# 許容因果構造と相関

Admissible Causal Structures and Correlations ( http://arxiv.org/abs/2210.12796v2 )

ライセンス: Link先を確認
Eleftherios-Ermis Tselentis and \"Amin Baumeler(参考訳) 量子論が局所的に成り立つと仮定すると、不定因数順序と巡回因数構造を持つ過程が実現可能であることはよく知られている。 本稿では,局所量子論によって課される因果構造と相関の質的限界について検討する。 ひとつは、因果構造は許容できる:そのような因果構造のみが局所量子論と整合した実現を認める。 我々はこの性質がさらに十分であると推測する。 この予想は量子因果モデルの明示的な構成によって動機付けられ、数値計算によって支持される。 これらの因果モデルは、制限された設定で、確かに一貫したものであることを示す。 別の例として、古典決定論的な場合、それぞれ因果関係と非因果相関を生じさせる2つの因果構造を同定する。

It is well-known that if one assumes quantum theory to hold locally, then processes with indefinite causal order and cyclic causal structures become feasible. Here, we study qualitative limitations on causal structures and correlations imposed by local quantum theory. For one, we find a necessary graph theoretic criterion--the "siblings-on-cycles" property--for a causal structure to be admissible: Only such causal structures admit a realization consistent with local quantum theory. We conjecture that this property is moreover sufficient. This conjecture is motivated by an explicit construction of quantum causal models, and supported by numerical calculations. We show that these causal models, in a restricted setting, are indeed consistent. For another, we identify two sets of causal structures that, in the classical-deterministic case, give rise to causal and non-causal correlations respectively.
翻訳日:2023-09-20 01:20:47 公開日:2023-09-16
# マルチドメイン学習のための予算対応pruning

Budget-Aware Pruning for Multi-Domain Learning ( http://arxiv.org/abs/2210.08101v3 )

ライセンス: Link先を確認
Samuel Felipe dos Santos, Rodrigo Berriel, Thiago Oliveira-Santos, Nicu Sebe, Jurandy Almeida(参考訳) ディープラーニングは、いくつかのコンピュータビジョンタスクやドメインで最先端のパフォーマンスを達成した。 それにもかかわらず、計算コストは高く、かなりの量のパラメータを必要とする。 このような要件は、リソース制限された環境での使用を妨げ、ソフトウェアとハードウェアの最適化を要求する。 別の制限として、深層モデルは通常単一のドメインやタスクに特化しており、新しいパラメータを学習し、新しいパラメータを格納する必要がある。 マルチドメイン学習(MDL)は、複数のドメインでうまく機能する単一のモデルを学習することでこの問題を解決する。 それでも、モデルは通常、1つのドメインのベースラインよりも大きい。 本研究の目的は, ユーザ定義予算に従って複数のドメインを処理可能なモデルを試作し, 類似の分類性能を維持しつつ, 計算的に安価に処理できるようにすることである。 これを実現するために、すべてのドメインに対して、ベースラインモデルからユーザーの予算で定義された量まで、同様のフィルタのサブセットを使用することを奨励します。 次に、任意のドメインで使用されていないフィルタをネットワークからプルーニングする。 提案手法は、リソース制限されたデバイスへの適応性を向上させると同時に、我々の知識では、単一のドメインのベースラインモデルよりも少ないパラメータと低い計算複雑性で、テスト時に複数のドメインを処理できる唯一の仕事である。

Deep learning has achieved state-of-the-art performance on several computer vision tasks and domains. Nevertheless, it still has a high computational cost and demands a significant amount of parameters. Such requirements hinder the use in resource-limited environments and demand both software and hardware optimization. Another limitation is that deep models are usually specialized into a single domain or task, requiring them to learn and store new parameters for each new one. Multi-Domain Learning (MDL) attempts to solve this problem by learning a single model that is capable of performing well in multiple domains. Nevertheless, the models are usually larger than the baseline for a single domain. This work tackles both of these problems: our objective is to prune models capable of handling multiple domains according to a user defined budget, making them more computationally affordable while keeping a similar classification performance. We achieve this by encouraging all domains to use a similar subset of filters from the baseline model, up to the amount defined by the user's budget. Then, filters that are not used by any domain are pruned from the network. The proposed approach innovates by better adapting to resource-limited devices while, to our knowledge, being the only work that is capable of handling multiple domains at test time with fewer parameters and lower computational complexity than the baseline model for a single domain.
翻訳日:2023-09-20 01:19:37 公開日:2023-09-16
# 報酬仮説を解決し

Settling the Reward Hypothesis ( http://arxiv.org/abs/2212.10420v2 )

ライセンス: Link先を確認
Michael Bowling, John D. Martin, David Abel, Will Dabney(参考訳) 報酬仮説は「私たちが目標と目的によって意味する全てのことは、受信したスカラー信号(reward)の累積和の期待値の最大化と考えることができる」と仮定している。 我々はこの仮説を完全に解決しようとする。 これは単純な肯定や反感で結論付けるのではなく、仮説が持つ目標や目的に対する暗黙の要求を完全に規定する。

The reward hypothesis posits that, "all of what we mean by goals and purposes can be well thought of as maximization of the expected value of the cumulative sum of a received scalar signal (reward)." We aim to fully settle this hypothesis. This will not conclude with a simple affirmation or refutation, but rather specify completely the implicit requirements on goals and purposes under which the hypothesis holds.
翻訳日:2023-09-20 01:11:28 公開日:2023-09-16
# VRDU: ビジュアルにリッチなドキュメント理解のためのベンチマーク

VRDU: A Benchmark for Visually-rich Document Understanding ( http://arxiv.org/abs/2211.15421v3 )

ライセンス: Link先を確認
Zilong Wang, Yichao Zhou, Wei Wei, Chen-Yu Lee, Sandeep Tata(参考訳) 視覚的にリッチなビジネス文書を理解して構造化データを抽出し、ビジネスワークフローを自動化することは、学界でも業界でも注目を集めている。 最近のマルチモーダル言語モデルは目覚ましい結果を得たが、既存のベンチマークは業界で見られる実際の文書の複雑さを反映していない。 本稿では、より包括的なベンチマークのためのdesiderataを特定し、Visually Rich Document Understanding (VRDU)と呼ぶものを提案する。 vrduには、さまざまなデータタイプを含むリッチスキーマ、階層エンティティ、テーブルやマルチカラムレイアウトを含む複雑なテンプレート、単一のドキュメントタイプ内のさまざまなレイアウト(テンプレート)の多様性の2つが含まれている。 我々は, 抽出結果を評価するために, 念入りに設計したマッチングアルゴリズムとともに, 少数および従来型の実験設定を設計する。 我々は,強いベースラインのパフォーマンスを報告し,(1)新しいドキュメントテンプレートへの一般化はいまだに困難であり,(2) 少数のパフォーマンスにはヘッドルームが多く,(3) モデルは請求書中の線分などの階層的フィールドに苦しむ,という3つの観察を提示する。 ベンチマークと評価ツールキットをオープンソース化する予定です。 これは、視覚的にリッチなドキュメントから構造化されたデータを抽出する上で、これらの困難なタスクをコミュニティが前進させるのに役立つことを願っています。

Understanding visually-rich business documents to extract structured data and automate business workflows has been receiving attention both in academia and industry. Although recent multi-modal language models have achieved impressive results, we find that existing benchmarks do not reflect the complexity of real documents seen in industry. In this work, we identify the desiderata for a more comprehensive benchmark and propose one we call Visually Rich Document Understanding (VRDU). VRDU contains two datasets that represent several challenges: rich schema including diverse data types as well as hierarchical entities, complex templates including tables and multi-column layouts, and diversity of different layouts (templates) within a single document type. We design few-shot and conventional experiment settings along with a carefully designed matching algorithm to evaluate extraction results. We report the performance of strong baselines and offer three observations: (1) generalizing to new document templates is still very challenging, (2) few-shot performance has a lot of headroom, and (3) models struggle with hierarchical fields such as line-items in an invoice. We plan to open source the benchmark and the evaluation toolkit. We hope this helps the community make progress on these challenging tasks in extracting structured data from visually rich documents.
翻訳日:2023-09-20 01:09:17 公開日:2023-09-16
# レバレッジスコアサンプリングの量子高速化とその応用

Quantum speedup of leverage score sampling and its application ( http://arxiv.org/abs/2301.06107v2 )

ライセンス: Link先を確認
Changpeng Shao(参考訳) レバレッジスコアのサンプリングは大規模行列問題に対するランダム化アルゴリズムの設計に不可欠であるが、レバレッジスコアの計算は多くのアプリケーションのボトルネックとなっている。 本稿では,この有用な手法を高速化する量子アルゴリズムを提案する。 スピードアップは少なくとも二次的であり、よく条件付けられた行列に対して指数関数的である。 また、いくつかの量子下界を証明し、量子アルゴリズムが最適に近いことを示唆する。 応用として,ベクトル解出力を用いた剛性回帰問題に対する新しい量子アルゴリズムを提案する。 既知の最良の古典的アルゴリズムよりも多項式の高速化を実現する。 この過程で、剛性回帰のための改良されたランダム化アルゴリズムを与える。

Leverage score sampling is crucial to the design of randomized algorithms for large-scale matrix problems, while the computation of leverage scores is a bottleneck of many applications. In this paper, we propose a quantum algorithm to accelerate this useful method. The speedup is at least quadratic and could be exponential for well-conditioned matrices. We also prove some quantum lower bounds, which suggest that our quantum algorithm is close to optimal. As an application, we propose a new quantum algorithm for rigid regression problems with vector solution outputs. It achieves polynomial speedups over the best classical algorithm known. In this process, we give an improved randomized algorithm for rigid regression.
翻訳日:2023-09-20 01:00:16 公開日:2023-09-16
# 安定器存在下での等変表現学習

Equivariant Representation Learning in the Presence of Stabilizers ( http://arxiv.org/abs/2301.05231v2 )

ライセンス: Link先を確認
Luis Armando P\'erez Rey, Giovanni Luca Marchetti, Danica Kragic, Dmitri Jarnikov, Mike Holenderski(参考訳) EquIN(Equivariant Isomorphic Networks)は、データ上の一般的なグループ動作に対して同変である表現を学習する手法である。 既存の同変表現学習者とは異なり、EquINは自由でない群アクション、すなわち非自明な対称性によるデータの安定化に適している。 EquIN は理論上、群論の軌道安定化定理に基礎を置いている。 これは、理想学習者が等分散だけを訓練しながら同型表現を推論し、従ってデータの幾何学的構造を完全に抽出することを保証する。 回転対称性を持つ画像データセットについて実験的検討を行い,安定化器を考慮に入れれば表現の質が向上することを示す。

We introduce Equivariant Isomorphic Networks (EquIN) -- a method for learning representations that are equivariant with respect to general group actions over data. Differently from existing equivariant representation learners, EquIN is suitable for group actions that are not free, i.e., that stabilize data via nontrivial symmetries. EquIN is theoretically grounded in the orbit-stabilizer theorem from group theory. This guarantees that an ideal learner infers isomorphic representations while trained on equivariance alone and thus fully extracts the geometric structure of data. We provide an empirical investigation on image datasets with rotational symmetries and show that taking stabilizers into account improves the quality of the representations.
翻訳日:2023-09-20 00:59:48 公開日:2023-09-16
# 顔提示攻撃検出のためのアンサンブルスタックによるドメイン一般化

Domain Generalization via Ensemble Stacking for Face Presentation Attack Detection ( http://arxiv.org/abs/2301.02145v2 )

ライセンス: Link先を確認
Usman Muhammad, Jorma Laaksonen, Djamila Romaissa Beddiar, and Mourad Oussalah(参考訳) 顔提示攻撃検出(PAD)は、偽造攻撃に対する顔認識システムを保護する上で重要な役割を担っている。 フェイスパッド法の設計には大きな進歩があったが、未発見のテスト領域にうまく一般化できるモデルの開発は依然として大きな課題である。 さらに、さまざまな種類のスプーフィング攻撃のために、ディープニューラルネットワークをトレーニングする十分な数のサンプルでデータセットを作成するのは、面倒な作業である。 本研究では,合成データ生成と深層アンサンブル学習を組み合わせることで,顔PADの一般化能力を向上する包括的ソリューションを提案する。 具体的には、アルファ組成とビデオ蒸留を用いて静止画像と時空間符号化画像とを混合して合成データを生成する。 この方法で、様々なアルファ値のモーションボケをシミュレートし、より強化されたトレーニングセットに寄与する合成データの多様なサブセットを生成する。 さらに、積層アンサンブル学習を用いて合成データの各サブセット上で複数のベースモデルを訓練する。 これによりモデルは異なる合成部分集合から相補的な特徴や表現を学ぶことができる。 ベースモデルによって生成されるメタ特徴は、メタモデルと呼ばれる新しいモデルの入力として使用される。 後者はベースモデルからの予測を組み合わせることで、補完的な情報を活用して、目に見えないターゲットドメインをよりよく処理し、全体的なパフォーマンスを向上させる。 4つのデータセットにおける実験結果は、casia-mfsd (8.92%)、msu-mfsd (4.81%)、oulu-npu (6.70%)の3つのベンチマークデータセットで低い半分誤差率 (hter) を示している。 提案手法は,大規模合成データとメタモデルを用いて,提示攻撃検出の進展を示す。

Face Presentation Attack Detection (PAD) plays a pivotal role in securing face recognition systems against spoofing attacks. Although great progress has been made in designing face PAD methods, developing a model that can generalize well to unseen test domains remains a significant challenge. Moreover, due to different types of spoofing attacks, creating a dataset with a sufficient number of samples for training deep neural networks is a laborious task. This work proposes a comprehensive solution that combines synthetic data generation and deep ensemble learning to enhance the generalization capabilities of face PAD. Specifically, synthetic data is generated by blending a static image with spatiotemporal encoded images using alpha composition and video distillation. This way, we simulate motion blur with varying alpha values, thereby generating diverse subsets of synthetic data that contribute to a more enriched training set. Furthermore, multiple base models are trained on each subset of synthetic data using stacked ensemble learning. This allows the models to learn complementary features and representations from different synthetic subsets. The meta-features generated by the base models are used as input to a new model called the meta-model. The latter combines the predictions from the base models, leveraging their complementary information to better handle unseen target domains and enhance the overall performance. Experimental results on four datasets demonstrate low half total error rates (HTERs) on three benchmark datasets: CASIA-MFSD (8.92%), MSU-MFSD (4.81%), and OULU-NPU (6.70%). The approach shows potential for advancing presentation attack detection by utilizing large-scale synthetic data and the meta-model.
翻訳日:2023-09-20 00:59:36 公開日:2023-09-16
# LHCおよび将来の衝突器における弱ゲージボソン生成におけるベルの不等式と量子絡み合い

Bell inequalities and quantum entanglement in weak gauge bosons production at the LHC and future colliders ( http://arxiv.org/abs/2302.00683v3 )

ライセンス: Link先を確認
M. Fabbrichesi, R. Floreanini, E. Gabrielli, and L. Marzola(参考訳) 衝突器で生成する弱い相互作用ゲージボソンの量子絡み合いは、対応する分極密度行列を計算することで探究できる。 この目的のために、ヒッグス粒子は$H\to W W^*$と$H\to Z Z^*$で崩壊し、そこでは$W^*$と$Z^*$はオフシェル状態、そして$WW$、$WZ$および$ZZ$は陽子衝突におけるダイボソン生成である。 ディボソン状態の分極密度行列は、生成プロセスの振幅によって決定され、ゲージボソンが崩壊する最終状態のモーメントの角分布から実験的に再構成することができる。 我々は,ベルの不等式が$H\to Z Z^*$において,将来のデータでLHCで検証できる程度に不等式を犯していることを示す。 同じベルの不等式は900GeV以上の不変質量に対する$WW$と$ZZ$ボソン対と、質量フレームの中心における$\pi/2$に近い散乱角に対して違反される。 この場合のLHCデータはベルの不平等の違反を確立するには不十分である。 また, ダイボソン最終状態におけるベル不等式違反を将来の$e^+e^-$およびミューオン衝突器で検出する可能性も分析した。 ダイボソン系における分極エンタングルメントの量に低いバウンドを与えるさらなるオブザーバブルを各プロセスで計算する。 偏光密度行列の解析式は、Appendixで完全に表現される。 またベルの不等式テストに必要な最適化手順に必要なユニタリ行列も提供する。

Quantum entanglement of weak interaction gauge bosons produced at colliders can be explored by computing the corresponding polarization density matrix. To this end, we consider the Higgs boson decays $H\to W W^*$ and $H\to Z Z^*$, in which $W^*$ and $Z^*$ are off-shell states, and the $WW$, $WZ$ and $ZZ$ di-boson production in proton collisions. The polarization density matrix of the di-boson state is determined by the amplitude of the production process and can be experimentally reconstructed from the angular distribution of the momenta of the final states into which the gauge bosons decay. We show that a suitable instance of the Bell inequality is violated in $H\to Z Z^*$ to a degree that can be tested at the LHC with future data. The same Bell inequality is violated in the production of $WW$ and $ZZ$ boson pairs for invariant masses above 900 GeV and scattering angles close to $\pi/2$ in the center of mass frame. LHC data in this case are not sufficient to establish the violation of the Bell inequality. We also analyze the prospects for detecting Bell inequality violations in di-boson final states at future $e^+e^-$ and muon colliders. A further observable that provides a lower bound on the amount of polarization entanglement in the di-boson system is computed for each of the examined processes. The analytic expressions for the polarization density matrices are presented in full in an Appendix. We also provide the unitary matrices required in the optimization procedure necessary in testing the Bell inequalities.
翻訳日:2023-09-20 00:49:37 公開日:2023-09-16
# グラフ骨格のない組合せ因果帯域

Combinatorial Causal Bandits without Graph Skeleton ( http://arxiv.org/abs/2301.13392v3 )

ライセンス: Link先を確認
Shi Feng, Nuoya Xiong, Wei Chen(参考訳) 組み合わせ因果帯域(CCB)において、学習エージェントは各ラウンドの変数のサブセットを選択して介入し、観測された変数からフィードバックを収集し、期待される後悔やサンプルの複雑さを最小限に抑える。 従来の研究は、一般因果モデルとバイナリ一般化線形モデル(BGLM)の両方でこの問題を研究する。 しかし、それら全ては因果グラフ構造の事前知識を必要とする。 本稿では,二元一般因果モデルとBGLMのグラフ構造を持たないCCB問題を考察する。 まず、一般的な因果モデルにおけるCCB問題に対する累積的後悔の指数的下限を提供する。 指数関数的に大きなパラメータ空間を克服するために、BGLM 上の CCB 問題を考える。 グラフスケルトンがなくても,BGLMに対する後悔最小化アルゴリズムを設計し,O(\sqrt{T}\ln T)$期待の後悔を実現することを示す。 この漸近的後悔は、グラフ構造に依存する最先端のアルゴリズムと同じである。 さらに、漸近的表記法でカバーされる重量ギャップを取り除くために、$O(T^{\frac{2}{3}}\ln T)$に対する後悔を犠牲にする。 最後に,グラフ構造を使わずにCCB問題を純粋に探索するための議論とアルゴリズムについて述べる。

In combinatorial causal bandits (CCB), the learning agent chooses a subset of variables in each round to intervene and collects feedback from the observed variables to minimize expected regret or sample complexity. Previous works study this problem in both general causal models and binary generalized linear models (BGLMs). However, all of them require prior knowledge of causal graph structure. This paper studies the CCB problem without the graph structure on binary general causal models and BGLMs. We first provide an exponential lower bound of cumulative regrets for the CCB problem on general causal models. To overcome the exponentially large space of parameters, we then consider the CCB problem on BGLMs. We design a regret minimization algorithm for BGLMs even without the graph skeleton and show that it still achieves $O(\sqrt{T}\ln T)$ expected regret. This asymptotic regret is the same as the state-of-art algorithms relying on the graph structure. Moreover, we sacrifice the regret to $O(T^{\frac{2}{3}}\ln T)$ to remove the weight gap covered by the asymptotic notation. At last, we give some discussions and algorithms for pure exploration of the CCB problem without the graph structure.
翻訳日:2023-09-20 00:49:06 公開日:2023-09-16
# Bipol:ベンチマークデータセットで説明可能なバイアスのマルチアックス評価

Bipol: Multi-axes Evaluation of Bias with Explainability in Benchmark Datasets ( http://arxiv.org/abs/2301.12139v3 )

ライセンス: Link先を確認
Tosin Adewumi, Isabella S\"odergren, Lama Alkhaled, Sana Sabah Sabry, Foteini Liwicki and Marcus Liwicki(参考訳) スウェーデンの5つのNLPベンチマークデータセット(スーパーGLUEリーダーボード)と2つのスウェーデンのデータセットを複数の軸に沿って検討する。 データセットは、Boolean Question (Boolq)、CommitmentBank (CB)、Winograd Schema Challenge (WSC)、Wino-gender diagnosis (AXg)、Recognising Textual Entailment (RTE)、スウェーデンのCB、SWEDNである。 バイアスは有害であり、MLモデルが学習するデータに共通していることが知られている。 データのバイアスを軽減するためには,それを客観的に見積もることが不可欠である。 説明可能性を持つ新しい多軸バイアスメトリックであるbipolを使用して、これらのデータセットにどの程度のバイアスが存在するかを推定し、説明します。 多言語多軸バイアス評価はあまり一般的ではない。 したがって、私たちはまた、英語バージョンから翻訳され、それ上にsoma mt5モデルをトレーニングした、スウェーデンのバイアスラベル付きデータセット(200万サンプル)を新たに提供します。 さらに,スウェーデン語で新たに多軸レキシカを用いてバイアス検出を行った。 コード、モデル、新しいデータセットを公開しています。

We investigate five English NLP benchmark datasets (on the superGLUE leaderboard) and two Swedish datasets for bias, along multiple axes. The datasets are the following: Boolean Question (Boolq), CommitmentBank (CB), Winograd Schema Challenge (WSC), Wino-gender diagnostic (AXg), Recognising Textual Entailment (RTE), Swedish CB, and SWEDN. Bias can be harmful and it is known to be common in data, which ML models learn from. In order to mitigate bias in data, it is crucial to be able to estimate it objectively. We use bipol, a novel multi-axes bias metric with explainability, to estimate and explain how much bias exists in these datasets. Multilingual, multi-axes bias evaluation is not very common. Hence, we also contribute a new, large Swedish bias-labelled dataset (of 2 million samples), translated from the English version and train the SotA mT5 model on it. In addition, we contribute new multi-axes lexica for bias detection in Swedish. We make the codes, model, and new dataset publicly available.
翻訳日:2023-09-20 00:47:42 公開日:2023-09-16
# 微分論理仕様による協調学習計画・制御政策

Co-learning Planning and Control Policies Constrained by Differentiable Logic Specifications ( http://arxiv.org/abs/2303.01346v2 )

ライセンス: Link先を確認
Zikang Xiong, Daniel Lawson, Joe Eappen, Ahmed H. Qureshi, Suresh Jagannathan(参考訳) ロボットの計画と制御ポリシーの合成は基本的なタスクであり、複雑な論理仕様や高次元ロボットのダイナミクスといった要素によってさらに複雑になる。 本稿では,複雑な論理仕様を持つ高次元ロボットナビゲーション課題を協調学習計画と制御ポリシーによって解決する新しい強化学習手法を提案する。 特に、このアプローチはトレーニングにおけるサンプルの複雑さを著しく減らし、既存の強化学習アルゴリズムよりもはるかに少ないサンプルで高品質なポリシーを訓練することができる。 さらに,地図画像からの複雑な仕様抽出を効率化し,地図レイアウトの異なる長軸ロボットの動作経路を効率的に生成する手法を提案する。 さらに,本手法では,高次元制御と政策アライメントによる準最適政策の回避も実現している。 本手法の有効性は,タスク仕様の異なる実世界差動駆動ロボット(TurtleBot3)と高次元四足ロボットのシミュレーションによる実験により実証された。

Synthesizing planning and control policies in robotics is a fundamental task, further complicated by factors such as complex logic specifications and high-dimensional robot dynamics. This paper presents a novel reinforcement learning approach to solving high-dimensional robot navigation tasks with complex logic specifications by co-learning planning and control policies. Notably, this approach significantly reduces the sample complexity in training, allowing us to train high-quality policies with much fewer samples compared to existing reinforcement learning algorithms. In addition, our methodology streamlines complex specification extraction from map images and enables the efficient generation of long-horizon robot motion paths across different map layouts. Moreover, our approach also demonstrates capabilities for high-dimensional control and avoiding suboptimal policies via policy alignment. The efficacy of our approach is demonstrated through experiments involving simulated high-dimensional quadruped robot dynamics and a real-world differential drive robot (TurtleBot3) under different types of task specifications.
翻訳日:2023-09-20 00:39:45 公開日:2023-09-16
# 仮想エージェントのためのE2Eスポットエンティティ抽出

E2E Spoken Entity Extraction for Virtual Agents ( http://arxiv.org/abs/2302.10186v6 )

ライセンス: Link先を確認
Karan Singla, Yeon-Jun Kim(参考訳) 本稿では,音声エンコーダを用いた音声処理のいくつかの側面を再考する。 人間のコンピュータによる会話では、名前や住所、メールアドレスなどのエンティティを音声から抽出することが難しい。 本稿では, テキストの書き起こしを必要とせずに, 音声読取可能な音声の実体を直接抽出する, 微調整事前学習音声エンコーダの効果について検討する。 このような直接的なアプローチは、キャリヤフレーズやスペル名エンティティなどの過剰な部分を無視した音声のエンティティ関連部分のみを転写するエンコーダを最適化する。 企業仮想エージェントからの対話の文脈において、1段階のアプローチは、まず語彙的転写を生成し、その後にテキストベースのエンティティ抽出によって音声エンティティを識別する典型的な2段階のアプローチよりも優れていることを実証する。

This paper rethink some aspects of speech processing using speech encoders, specifically about extracting entities directly from speech, without intermediate textual representation. In human-computer conversations, extracting entities such as names, street addresses and email addresses from speech is a challenging task. In this paper, we study the impact of fine-tuning pre-trained speech encoders on extracting spoken entities in human-readable form directly from speech without the need for text transcription. We illustrate that such a direct approach optimizes the encoder to transcribe only the entity relevant portions of speech ignoring the superfluous portions such as carrier phrases, or spell name entities. In the context of dialog from an enterprise virtual agent, we demonstrate that the 1-step approach outperforms the typical 2-step approach which first generates lexical transcriptions followed by text-based entity extraction for identifying spoken entities.
翻訳日:2023-09-20 00:39:12 公開日:2023-09-16
# CuNeRF:Zero-Shot Medical Image Arbitrary-Scale Super Resolutionのための立方体型ニューラルネットワーク

CuNeRF: Cube-Based Neural Radiance Field for Zero-Shot Medical Image Arbitrary-Scale Super Resolution ( http://arxiv.org/abs/2303.16242v3 )

ライセンス: Link先を確認
Zixuan Chen, Jian-Huang Lai, Lingxiao Yang, Xiaohua Xie(参考訳) 医用画像任意スケール超解像 (MIASSR) が最近注目され, 任意のスケールの医用ボリュームを1つのモデルで測定することを目指している。 しかし、既存のMIASSRメソッドには2つの大きな制限がある。 (i)高分解能(HR)ボリュームに依存して (ii)様々なシナリオでの応用を制限する一般化能力の制限。 これらの制限を克服するため、連続領域における任意のスケールと視点で医療画像を得ることができるゼロショットMIASSRフレームワークCuNeRF(Cue-based Neural Radiance Field)を提案する。 低分解能(LR)とHRボリュームのマッピングに適合する既存のMIASSR法とは異なり、CuNeRFはHR参照を必要とせずにLRボリュームから座標強度連続表現を構築することに焦点を当てている。 これは、キューブベースのサンプリング、等方性ボリュームレンダリング、キューブベースの階層的レンダリングを含む、提案された微分可能なモジュールによって達成される。 磁気リソースイメージング(MRI)とCTモダリティの広範な実験を通じて、CuNeRFは最先端MIASSR法より優れていることを示した。 CuNeRFは、より優れた視覚的Verisimilitudeをもたらし、様々なアップサンプリング要因におけるアーティファクトのエイリアスを低減する。 さらに、我々のCuNeRFはLR-HRトレーニングペアを一切必要とせず、他のものよりも柔軟で使いやすくなります。 私たちのコードはまもなく公開されます。

Medical image arbitrary-scale super-resolution (MIASSR) has recently gained widespread attention, aiming to super sample medical volumes at arbitrary scales via a single model. However, existing MIASSR methods face two major limitations: (i) reliance on high-resolution (HR) volumes and (ii) limited generalization ability, which restricts their application in various scenarios. To overcome these limitations, we propose Cube-based Neural Radiance Field (CuNeRF), a zero-shot MIASSR framework that can yield medical images at arbitrary scales and viewpoints in a continuous domain. Unlike existing MIASSR methods that fit the mapping between low-resolution (LR) and HR volumes, CuNeRF focuses on building a coordinate-intensity continuous representation from LR volumes without the need for HR references. This is achieved by the proposed differentiable modules: including cube-based sampling, isotropic volume rendering, and cube-based hierarchical rendering. Through extensive experiments on magnetic resource imaging (MRI) and computed tomography (CT) modalities, we demonstrate that CuNeRF outperforms state-of-the-art MIASSR methods. CuNeRF yields better visual verisimilitude and reduces aliasing artifacts at various upsampling factors. Moreover, our CuNeRF does not need any LR-HR training pairs, which is more flexible and easier to be used than others. Our code will be publicly available soon.
翻訳日:2023-09-20 00:30:17 公開日:2023-09-16
# ニューラルネットワーク制御器から決定木制御器への実行・費用効果自動変換

Exact and Cost-Effective Automated Transformation of Neural Network Controllers to Decision Tree Controllers ( http://arxiv.org/abs/2304.06049v2 )

ライセンス: Link先を確認
Kevin Chang, Nathan Dahlin, Rahul Jain and Pierluigi Nuzzo(参考訳) 過去10年間で、ニューラルネットワーク(NN)ベースのコントローラは、さまざまな意思決定タスクにおいて顕著な効果を示してきた。 しかしながら、彼らのブラックボックスの性質と予期せぬ行動や驚くべき結果のリスクは、正確性と安全性の保証が強い現実世界システムへの展開に挑戦する。 NNベースのコントローラを等価なソフト決定木(SDT)ベースのコントローラに変換することとその妥当性への影響を調べることで、これらの制限に対処する。 従来の手法とは違って,正規化線形ユニット(ReLU)アクティベーション関数やargmax演算を含む離散出力NNコントローラに注目する。 次に、冗長分岐を自動的に実行できるように、正確だが費用効率のよい変換アルゴリズムを考案する。 OpenAI Gym環境からの2つのベンチマークによるアプローチの評価を行った。 以上の結果から,SDT変換は,MountainCar-v0とCartPole-v0のランタイムを最大21倍,2倍改善したことを示す。

Over the past decade, neural network (NN)-based controllers have demonstrated remarkable efficacy in a variety of decision-making tasks. However, their black-box nature and the risk of unexpected behaviors and surprising results pose a challenge to their deployment in real-world systems with strong guarantees of correctness and safety. We address these limitations by investigating the transformation of NN-based controllers into equivalent soft decision tree (SDT)-based controllers and its impact on verifiability. Differently from previous approaches, we focus on discrete-output NN controllers including rectified linear unit (ReLU) activation functions as well as argmax operations. We then devise an exact but cost-effective transformation algorithm, in that it can automatically prune redundant branches. We evaluate our approach using two benchmarks from the OpenAI Gym environment. Our results indicate that the SDT transformation can benefit formal verification, showing runtime improvements of up to 21x and 2x for MountainCar-v0 and CartPole-v0, respectively.
翻訳日:2023-09-20 00:21:23 公開日:2023-09-16
# エゴセントリックな視点による3次元シーンにおける確率的ヒューマンメッシュ回復

Probabilistic Human Mesh Recovery in 3D Scenes from Egocentric Views ( http://arxiv.org/abs/2304.06024v2 )

ライセンス: Link先を確認
Siwei Zhang, Qianli Ma, Yan Zhang, Sadegh Aliakbarian, Darren Cosker, Siyu Tang(参考訳) ソーシャルインタラクションにおける人間の行動の自動認識は、AR/VRアプリケーションにとって不可欠であり、エゴセントリックな視点から、社会的パートナーのもっともらしい3Dのポーズと形状を推定することが重要な要素である。 この作業の最大の課題の1つは、自発的なシナリオにおける社会的距離の密接さによる激しい身体切断であり、これは目に見えない身体の一部に対する大きなポーズの曖昧さをもたらす。 そこで本研究では,身体のポーズ分布をモデル化するシーン条件拡散法を提案する。 拡散モデルは,3次元シーン形状を条件に,人間とシーンの相互作用が妥当な物体を生成し,物理ベースの衝突スコアで導かれるサンプリングにより,人間とシーンの相互接続を更に解決する。 分類器なしの訓練は、異なる条件で柔軟なサンプリングと多様性の向上を可能にする。 可視性を考慮したグラフ畳み込みモデルでは, 関節間依存性と身体間制御を組み込む拡散デノイザとして機能する。 広汎な評価により,本手法は3次元シーンとのプラプティブルな相互作用の身体を生成し,可視関節の精度と見えない身体部位の多様性を両立させる。 コードはhttps://sanweiliti.github.io/egohmr/egohmr.htmlで入手できる。

Automatic perception of human behaviors during social interactions is crucial for AR/VR applications, and an essential component is estimation of plausible 3D human pose and shape of our social partners from the egocentric view. One of the biggest challenges of this task is severe body truncation due to close social distances in egocentric scenarios, which brings large pose ambiguities for unseen body parts. To tackle this challenge, we propose a novel scene-conditioned diffusion method to model the body pose distribution. Conditioned on the 3D scene geometry, the diffusion model generates bodies in plausible human-scene interactions, with the sampling guided by a physics-based collision score to further resolve human-scene inter-penetrations. The classifier-free training enables flexible sampling with different conditions and enhanced diversity. A visibility-aware graph convolution model guided by per-joint visibility serves as the diffusion denoiser to incorporate inter-joint dependencies and per-body-part control. Extensive evaluations show that our method generates bodies in plausible interactions with 3D scenes, achieving both superior accuracy for visible joints and diversity for invisible body parts. The code is available at https://sanweiliti.github.io/egohmr/egohmr.html.
翻訳日:2023-09-20 00:21:06 公開日:2023-09-16
# Bipol: NLPのための説明可能性を備えた新しい多軸バイアス評価指標

Bipol: A Novel Multi-Axes Bias Evaluation Metric with Explainability for NLP ( http://arxiv.org/abs/2304.04029v2 )

ライセンス: Link先を確認
Lama Alkhaled, Tosin Adewumi and Sana Sabah Sabry(参考訳) テキストデータの社会的バイアスを推定するための説明可能性を持つ新しい指標であるbipolを導入する。 有害なバイアスは、機械学習(ML)モデルのトレーニングに使用される多くのオンラインデータソースで一般的である。 この課題に対処するために、モデル分類に基づくコーパスレベル評価と(感性)項周波数(TF)に基づく文レベル評価という、2段階のプロセスを含む新しいメトリクスを作成する。 SotAアーキテクチャを用いて複数の軸に沿ってバイアスを検出する新しいモデルを作成した後、人気のある2つのNLPデータセット(COPAとSQUAD)を評価する。 さらなる貢献として、バイアス検出のトレーニングモデルのための大規模なデータセット(200万近いラベル付きサンプル)を作成し、公開しました。 コードも公開しています。

We introduce bipol, a new metric with explainability, for estimating social bias in text data. Harmful bias is prevalent in many online sources of data that are used for training machine learning (ML) models. In a step to address this challenge we create a novel metric that involves a two-step process: corpus-level evaluation based on model classification and sentence-level evaluation based on (sensitive) term frequency (TF). After creating new models to detect bias along multiple axes using SotA architectures, we evaluate two popular NLP datasets (COPA and SQUAD). As additional contribution, we created a large dataset (with almost 2 million labelled samples) for training models in bias detection and make it publicly available. We also make public our codes.
翻訳日:2023-09-20 00:19:47 公開日:2023-09-16
# 自律運転におけるバードズ・アイ・ビュー表現による3次元物体検出のロバスト性理解

Understanding the Robustness of 3D Object Detection with Bird's-Eye-View Representations in Autonomous Driving ( http://arxiv.org/abs/2303.17297v2 )

ライセンス: Link先を確認
Zijian Zhu, Yichi Zhang, Hai Chen, Yinpeng Dong, Shu Zhao, Wenbo Ding, Jiachen Zhong and Shibao Zheng(参考訳) 3次元物体検出は、環境を理解するための自律運転において重要な認識課題である。 Bird's-Eye-View (BEV)表現は、一般的なベンチマークでカメラ入力を備えた3D検出器の性能を大幅に改善した。 しかしながら、自律運転システムの安全性と密接に関連している、これらの視覚依存型BEVモデルの堅牢性に関する体系的な理解はいまだに欠けている。 本稿では,様々な代表モデルの自然的・敵対的ロバスト性を広範囲な環境下で評価し,BEVのないモデルと比較して,明示的なBEV特徴の影響を十分に理解する。 古典的な設定に加えて、3d空間に逆のパッチを適用して、時空間的一貫性を保証することで、3d一貫性のあるパッチ攻撃を提案する。 かなりの実験でいくつかの発見が得られました 1)BEVモデルは,表現的空間表現による自然条件や共通汚職の下では,従来手法よりも安定である傾向にある。 2 BEVモデルは、主に冗長なBEVの特徴により、敵の騒音に弱い。 3)カメラ-LiDAR融合モデルはマルチモーダル入力の異なる設定下では優れた性能を示すが,BEV融合モデルはまだ点群と画像群の両方の対向雑音に対して脆弱である。 これらの発見は、BEV検出器の応用における安全性の問題に警告し、より堅牢なモデルの開発を促進する可能性がある。

3D object detection is an essential perception task in autonomous driving to understand the environments. The Bird's-Eye-View (BEV) representations have significantly improved the performance of 3D detectors with camera inputs on popular benchmarks. However, there still lacks a systematic understanding of the robustness of these vision-dependent BEV models, which is closely related to the safety of autonomous driving systems. In this paper, we evaluate the natural and adversarial robustness of various representative models under extensive settings, to fully understand their behaviors influenced by explicit BEV features compared with those without BEV. In addition to the classic settings, we propose a 3D consistent patch attack by applying adversarial patches in the 3D space to guarantee the spatiotemporal consistency, which is more realistic for the scenario of autonomous driving. With substantial experiments, we draw several findings: 1) BEV models tend to be more stable than previous methods under different natural conditions and common corruptions due to the expressive spatial representations; 2) BEV models are more vulnerable to adversarial noises, mainly caused by the redundant BEV features; 3) Camera-LiDAR fusion models have superior performance under different settings with multi-modal inputs, but BEV fusion model is still vulnerable to adversarial noises of both point cloud and image. These findings alert the safety issue in the applications of BEV detectors and could facilitate the development of more robust models.
翻訳日:2023-09-20 00:18:38 公開日:2023-09-16
# DCRグラフによるスマートコントラクト設計のキャプチャ

Capturing Smart Contract Design with DCR Graphs ( http://arxiv.org/abs/2305.04581v3 )

ライセンス: Link先を確認
Mojtaba Eshghie, Wolfgang Ahrendt, Cyrille Artho, Thomas Troels Hildebrandt, Gerardo Schneider(参考訳) smart contractsはブロックチェーン資産を管理し、ビジネスプロセスを具体化する。 しかし、solidityのような主流のスマートコントラクトプログラミング言語には、役割、アクション依存性、時間という明確な概念が欠けている。 代わりに、これらの概念はプログラムコードで実装される。 これにより、スマートコントラクトの設計と分析が非常に難しくなります。 我々は、dcrグラフがスマートコントラクトに適した形式化ツールであると主張する。 この表現力を利用して、スマートコントラクトアプリケーションの基盤となるビジネスプロセスを表現する多くの一般的なハイレベルなデザインパターンが、この方法で自然にモデル化できることを示す。 これらのパターンを適用することで、DCRグラフは明確で理解しやすい仕様を提供することで、正確で信頼性の高いスマートコントラクトの開発と分析を容易にする。

Smart contracts manage blockchain assets and embody business processes. However, mainstream smart contract programming languages such as Solidity lack explicit notions of roles, action dependencies, and time. Instead, these concepts are implemented in program code. This makes it very hard to design and analyze smart contracts. We argue that DCR graphs are a suitable formalization tool for smart contracts because they explicitly and visually capture the mentioned features. We utilize this expressiveness to show that many common high-level design patterns representing the underlying business processes in smart contract applications can be naturally modeled this way. Applying these patterns shows that DCR graphs facilitate the development and analysis of correct and reliable smart contracts by providing a clear and easy-to-understand specification.
翻訳日:2023-09-20 00:00:31 公開日:2023-09-16
# 正確に解けるSO($n$)スピン鎖における対称性保護位相、共形臨界、双対性

Symmetry-protected topological phases, conformal criticalities, and duality in exactly solvable SO($n$) spin chains ( http://arxiv.org/abs/2305.03398v2 )

ライセンス: Link先を確認
Sreejith Chulliparambil, Hua-Chen Zhang, Hong-Hao Tu(参考訳) so($n$) 対称スピン鎖の族を導入し、n=1$ で横場イジング鎖を一般化する。 これらのスピン鎖はガンマ行列で定義され、静的な$\mathbb{z}_2$ゲージ場に結合されたイテナントマヨルアナフェルミオンのn$種にマッピングすることで正確に解くことができる。 それらの位相図は、2つの異なるガッピング位相と同様に、$\mathrm{spin}(n)_{1}$ conformal field theoryによって記述される臨界点を含む。 ギャップ位相の1つは自明な位相であり、もう1つは$n \geq 2$ のとき対称性保護位相を実現する。 この2つの位相は、クラマース=ワニエ双対性によって互いに関連があることが証明されている。 さらに、無限次元のオンザガー代数のような横場イジング連鎖の他のエレガントな構造も我々のモデルに受け継がれる。

We introduce a family of SO($n$)-symmetric spin chains which generalize the transverse-field Ising chain for $n=1$. These spin chains are defined with Gamma matrices and can be exactly solved by mapping to $n$ species of itinerant Majorana fermions coupled to a static $\mathbb{Z}_2$ gauge field. Their phase diagrams include a critical point described by the $\mathrm{Spin}(n)_{1}$ conformal field theory as well as two distinct gapped phases. We show that one of the gapped phases is a trivial phase and the other realizes a symmetry-protected topological phase when $n \geq 2$. These two gapped phases are proved to be related to each other by a Kramers-Wannier duality. Furthermore, other elegant structures in the transverse-field Ising chain, such as the infinite-dimensional Onsager algebra, also carry over to our models.
翻訳日:2023-09-20 00:00:22 公開日:2023-09-16
# 要約重複と明示的アウトライン制御による生成の強化

Enhancing Generation through Summarization Duality and Explicit Outline Control ( http://arxiv.org/abs/2305.14459v2 )

ライセンス: Link先を確認
Yunzhe Li, Qian Chen, Weixiang Yan, Wen Wang, Qinglin Zhang, Hari Sundaram(参考訳) 自動オープンエンド長文生成は意味的一貫性とプロットの難しさのために大きな課題となる。 従来の研究は通常、教師なしのタスクを設計することで、短いフレーズや抽象的な信号の形で概説することでこの問題を軽減する。 要約が成熟したアウトラインとして機能すると仮定すると、2段階の要約強化されたアウトライン管理生成フレームワークを導入する。 このフレームワークは、要約タスクの二重特性を活用して、アウトライン予測を改善し、より明確で妥当なアウトラインをもたらす。 さらに,標準事前学習言語モデル(GPT-2, BARTなど)と大規模言語モデル(Vicuna, ChatGPTなど)を併用したアウトラインベース生成における不活用問題を特定する。 そこで本研究では,生成されたアウトラインをより効果的に活用するための,新しいアウトライン制御手法を提案する。

Automatically open-ended long text generation poses significant challenges due to semantic incoherence and plot implausibility. Previous works usually alleviate this problem through outlines in the form of short phrases or abstractive signals by designing unsupervised tasks, which tend to be unstable and weakly interpretable. Assuming that a summary serves as a mature outline, we introduce a two-stage, summary-enhanced outline supervised generation framework. This framework leverages the dual characteristics of the summarization task to improve outline prediction, resulting in more explicit and plausible outlines. Furthermore, we identify an underutilization issue in outline-based generation with both standard pretrained language models (e.g., GPT-2, BART) and large language models (e.g., Vicuna, ChatGPT). To address this, we propose a novel explicit outline control method for more effective utilization of generated outlines.
翻訳日:2023-09-19 23:49:24 公開日:2023-09-16
# 監視された非断熱およびコヒーレント制御量子ユニタリ熱エンジン:最初の4つの累積

Monitored non-adiabatic and coherent-controlled quantum unital Otto heat engines: First four cumulants ( http://arxiv.org/abs/2305.10285v2 )

ライセンス: Link先を確認
Abdelkader El Makouri, Abdallah Slaoui and Rachid Ahl Laamara(参考訳) 近年, 量子熱力学の分野において, 測定に基づく量子熱機械が注目されている。 しかし、以前の量子オットー熱エンジンの結果は、浴場の特別な単位チャネルと非単位チャネルに制限されたり、ワークストロークの特定の駆動プロトコルに制限されたり、サイクルが時間反転対称(例えば$V^{\dagger}=U$(または$V=U$)であると仮定されたりした。 本稿では,1つのスピン1/2量子オットー熱エンジンについて検討し,まず熱浴の1つを任意のユニタリチャネルに置き換え,次に熱と仕事の累積成分が出現する特性関数の正確な解析式を与える。 モニタリングの影響下では、$\nu_{2}>\nu_{1}$ は対称または非対称駆動のオットーサイクルにおいて、正の作業に必要な条件であることが証明される。 さらに, 平均値を超えると, 熱機関として働く場合, 作業と熱の変動の割合が低く, 上向きになることを示す。 しかし、文献の以前の結果と異なり、第3および第4の累積も考慮する。 作業量と熱量の第3(第4)累積の比率は、変動率の場合と同様に、効率の第3(第4)パワーで上界あるいは下界に収まらないことが示されている。 最後に, 熱浴の役割を担う特定のユニタリマップを協調的に重畳した方法で適用することを検討するとともに, 制御キュービットの初期コヒーレンスが効率, 平均作業量, 相対変動量に与える影響を示す。

Recently, measurement-based quantum thermal machines have drawn more attention in the field of quantum thermodynamics. However, the previous results on quantum Otto heat engines were either limited to special unital and non-unital channels in the bath stages, or a specific driving protocol at the work strokes and assuming the cycle being time-reversal symmetric i.e. $V^{\dagger}=U$ (or $V=U$). In this paper, we consider a single spin-1/2 quantum Otto heat engine, by first replacing one of the heat baths by an arbitrary unital channel and then we give the exact analytical expression of the characteristic function from which all the cumulants of heat and work emerge. We prove that under the effect of monitoring, $\nu_{2}>\nu_{1}$ is a necessary condition for positive work, either for a symmetric or asymmetric-driven Otto cycle. Furthermore, going beyond the average we show that the ratio of the fluctuations of work and heat is lower and upper-bounded when the system is working as a heat engine. However, differently from the previous results in the literature, we consider the third and fourth cumulants as well. It is shown that the ratio of the third (fourth) cumulants of work and heat is not upper-bounded by unity nor lower-bounded by the third (fourth) power of the efficiency, as is the case for the ratio of fluctuations. Finally, we consider applying a specific unital map that plays the role of a heat bath in a coherently superposed, manner and we show the role of the initial coherence of the control qubit on efficiency, on the average work and its relative fluctuations.
翻訳日:2023-09-19 23:47:26 公開日:2023-09-16
# マシンメイドメディア:誤情報とメインストリームニュースサイトにおける機械学習記事のモビライゼーションのモニタリング

Machine-Made Media: Monitoring the Mobilization of Machine-Generated Articles on Misinformation and Mainstream News Websites ( http://arxiv.org/abs/2305.09820v2 )

ライセンス: Link先を確認
Hans W. A. Hanley, Zakir Durumeric(参考訳) ChatGPTのような大規模言語モデル(LLM)が注目を集めるにつれ、ニュースサイトが記事作成に利用し始めている。 しかし、これらの言語モデルは、信頼できるウェブサイト上で事実的に不正確な記事を生成できるだけでなく、不確かなニュースサイトはLLMを利用して誤情報を大量生成することができる。 この現象を理解するために、オンラインニュースメディアにおける合成記事の普及に関する最初の大規模研究の1つを提案する。 そのために、debertaベースの合成ニュース検出器を訓練し、3,074~misinformationおよびメインストリームのニュースwebサイトから1590万以上の記事を分類する。 2022年1月1日から2023年5月1日にかけて、主流のウェブサイトでは、合成ニュース記事の相対数は61.1%増加し、誤情報サイトでは426%増加した。 この増加は、ほとんど人気が低いウェブサイトによって引き起こされている。 中断時間番組を用いたChatGPTのリリースの影響を分析した結果,小規模サイトや誤報ニュースサイトにおける合成記事の増加は顕著であったが,大手ニュースサイトではそれに相当する増加は見られなかった。

As large language models (LLMs) like ChatGPT have gained traction, an increasing number of news websites have begun utilizing them to generate articles. However, not only can these language models produce factually inaccurate articles on reputable websites but disreputable news sites can utilize LLMs to mass produce misinformation. To begin to understand this phenomenon, we present one of the first large-scale studies of the prevalence of synthetic articles within online news media. To do this, we train a DeBERTa-based synthetic news detector and classify over 15.90 million articles from 3,074~misinformation and mainstream news websites. We find that between January 1, 2022, and May 1, 2023, the relative number of synthetic news articles increased by 61.1% on mainstream websites while increasing by 426% on misinformation sites. We find that this increase is largely driven by smaller less popular websites. Analyzing the impact of the release of ChatGPT using an interrupted-time-series, we show that while its release resulted in a marked increase in synthetic articles on small sites as well as misinformation news websites, there was not a corresponding increase on large mainstream news websites.
翻訳日:2023-09-19 23:46:53 公開日:2023-09-16
# Sonicverse: 耳を聴く身体障害者のための多感覚シミュレーションプラットフォーム

Sonicverse: A Multisensory Simulation Platform for Embodied Household Agents that See and Hear ( http://arxiv.org/abs/2306.00923v2 )

ライセンス: Link先を確認
Ruohan Gao, Hao Li, Gokul Dharan, Zhuzhu Wang, Chengshu Li, Fei Xia, Silvio Savarese, Li Fei-Fei, Jiajun Wu(参考訳) 近年,シミュレーションにおけるエンボディエージェントの開発が重要な研究課題となっている。 新しいタスク、アルゴリズム、ベンチマークが様々なシミュレータで開発されている。 しかし、ほとんどの人は静かな環境で聴覚障害者を仮定し、人間は複数の感覚で世界を知覚する。 我々は,家庭内エージェントの視聴覚訓練のための音声・視聴覚シミュレーションを組み込んだ多センサシミュレーションプラットフォームであるsonicverseを紹介する。 sonicverseは3d環境でリアルタイムに現実的な連続オーディオレンダリングをモデル化する。 人間が音声でエージェントと対話できる新しい音声視覚VRインターフェースとともに、Sonicverseは音声視覚認識を必要とする一連のAIタスクを実現する。 また,特にセマンティック音声視覚ナビゲーションにおいて,最先端の性能を実現するマルチタスク学習モデルを提案する。 さらに,他のシミュレータでは実現されていないsim-to-real転送によるソニックバースの現実性を示す。 Sonicverse は https://github.com/StanfordVL/Sonicverse で入手できる。

Developing embodied agents in simulation has been a key research topic in recent years. Exciting new tasks, algorithms, and benchmarks have been developed in various simulators. However, most of them assume deaf agents in silent environments, while we humans perceive the world with multiple senses. We introduce Sonicverse, a multisensory simulation platform with integrated audio-visual simulation for training household agents that can both see and hear. Sonicverse models realistic continuous audio rendering in 3D environments in real-time. Together with a new audio-visual VR interface that allows humans to interact with agents with audio, Sonicverse enables a series of embodied AI tasks that need audio-visual perception. For semantic audio-visual navigation in particular, we also propose a new multi-task learning model that achieves state-of-the-art performance. In addition, we demonstrate Sonicverse's realism via sim-to-real transfer, which has not been achieved by other simulators: an agent trained in Sonicverse can successfully perform audio-visual navigation in real-world environments. Sonicverse is available at: https://github.com/StanfordVL/Sonicverse.
翻訳日:2023-09-19 23:39:34 公開日:2023-09-16
# 対話システム評価のための心理的指標

Psychological Metrics for Dialog System Evaluation ( http://arxiv.org/abs/2305.14757v2 )

ライセンス: Link先を確認
Salvatore Giorgi, Shreya Havaldar, Farhan Ahmed, Zuhaib Akhtar, Shalaka Vaidya, Gary Pan, Lyle H. Ungar, H. Andrew Schwartz, Joao Sedoc(参考訳) 対話システムを評価するための指標として,対話エージェントが感情(感情)と人格(人格)の両状態の多様性を,人間と同じように表現する「人間」レンズを提案する。 我々は,人間のコミュニケーションや人間関係の基本となる確立された心理学から,感情のエントロピー,言語的スタイル,感情のマッチング,同意性,共感の5つの解釈可能な指標を提示する。 これらのメトリクスは(1)ダイアログをまたいで、(2)ダイアログ内でターンで適用することができる。 心理学メトリクスは、7つの標準ダイアログシステムデータセット上の7つの最先端の伝統的なメトリクス(例えばBARTScoreとBLEURT)と比較される。 また,ChatGPT,GPT-3,BlenderBotの注釈付き会話からなる新しいデータセットであるThree Bot Dialog Evaluation Corpusを導入する。 提案手法は,従来のメトリクスとは無関係であり,対話システムと有意義に比較することが可能であり,クラウドソースによる対話判断の精度向上(既存のメトリクス以外の)につながることを実証する。 心理的指標の解釈可能性とユニークなシグナルは、対話システムの評価と改善に有用なツールとなります。

We present metrics for evaluating dialog systems through a psychologically-grounded "human" lens in which conversational agents express a diversity of both states (e.g., emotion) and traits (e.g., personality), just as people do. We present five interpretable metrics from established psychology that are fundamental to human communication and relationships: emotional entropy, linguistic style and emotion matching, agreeableness, and empathy. These metrics can be applied (1) across dialogs and (2) on turns within dialogs. The psychological metrics are compared against seven state-of-the-art traditional metrics (e.g., BARTScore and BLEURT) on seven standard dialog system data sets. We also introduce a novel data set, the Three Bot Dialog Evaluation Corpus, which consists of annotated conversations from ChatGPT, GPT-3, and BlenderBot. We demonstrate that our proposed metrics offer novel information; they are uncorrelated with traditional metrics, can be used to meaningfully compare dialog systems, and lead to increased accuracy (beyond existing traditional metrics) in predicting crowd-sourced dialog judgements. The interpretability and unique signal of our psychological metrics make them a valuable tool for evaluating and improving dialog systems.
翻訳日:2023-09-19 23:37:23 公開日:2023-09-16
# 連結化トークン化器を用いた音声認識と言語識別の統一モデル

Unified model for code-switching speech recognition and language identification based on a concatenated tokenizer ( http://arxiv.org/abs/2306.08753v3 )

ライセンス: Link先を確認
Kunal Dhawan, Dima Rekesh, Boris Ginsburg(参考訳) Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。 本稿では,(1)純粋に単言語データソースからasrデータセットをコード切り換える新しい方法,(2)既存の単言語トークンを再利用しながら,asrモデルが出力されたテキストトークン毎に言語idを生成する新しい連結トークン化器を提案する。 CS ASRモデル構築におけるこれらの手法の有効性は,マイアミ・バンゴールCS評価コーパスにおいて,2つの言語対であるイングリッシュ・ヒンディー語とイングリッシュ・スパニッシュ語で実証された。 競合的なASR性能に加えて、提案した統合トークン化モデルは音声言語識別に極めて有効であり、FLEURSデータセットの98%以上の精度を実現している。

Code-Switching (CS) multilingual Automatic Speech Recognition (ASR) models can transcribe speech containing two or more alternating languages during a conversation. This paper proposes (1) a new method for creating code-switching ASR datasets from purely monolingual data sources, and (2) a novel Concatenated Tokenizer that enables ASR models to generate language ID for each emitted text token while reusing existing monolingual tokenizers. The efficacy of these approaches for building CS ASR models is demonstrated for two language pairs, English-Hindi and English-Spanish, where we achieve new state-of-the-art results on the Miami Bangor CS evaluation corpus. In addition to competitive ASR performance, the proposed Concatenated Tokenizer models are highly effective for spoken language identification, achieving 98%+ accuracy on the out-of-distribution FLEURS dataset.
翻訳日:2023-09-19 23:28:19 公開日:2023-09-16
# マルチコントラストMRI超解像のための複合注意と近傍マッチングネットワーク

Compound Attention and Neighbor Matching Network for Multi-contrast MRI Super-resolution ( http://arxiv.org/abs/2307.02148v3 )

ライセンス: Link先を確認
Wenxuan Chen, Sirui Wu, Shuai Wang, Zhongsen Li, Jia Yang, Huifeng Yao, Xiaolei Song(参考訳) マルチコントラスト磁気共鳴イメージング(mri)は、異なる視点からヒト組織に関する情報を反映し、多くの臨床応用がある。 異なるモード間の補完情報を利用することで、MRIのマルチコントラスト超解像(SR)はシングルイメージ超解像よりも優れた結果が得られる。 第一に、既存のメソッドは単に参照と劣化したフィーチャを結合するか、あるいはそれらの間のグローバルな特徴マッチングを利用するかのどちらかであり、それらはマルチコントラストmri srには適さない。 第二に、最近の多くの手法では、空間次元における長距離依存性を捉えるためにトランスフォーマーを用いるが、チャンネル次元における自己着脱も低レベルの視覚タスクにとって重要であることを無視している。 これらの欠点に対処するため、我々は、マルチコントラストMRI SRのための複合アテンションと隣り合うマッチング(CANM-Net)を備えた新しいネットワークアーキテクチャを提案する: 複合自己アテンション機構は、空間的およびチャネル的両方の依存性を効果的に捕捉し、近隣の特徴マッチングモジュールは、劣化した特徴と隣接する参照特徴とをマッチングし、それらを融合して高品質な画像を得る。 我々は,ixi,fastmri,real-world scanning dataset上でsrタスクの実験を行う。 CANM-Netは、ふりかえりと将来の実験において最先端のアプローチより優れている。 さらに,本研究におけるロバストネス調査では,参照画像と劣化画像が不完全登録された場合でも,CANM-Netは良好な性能を示し,臨床応用の可能性を示した。

Multi-contrast magnetic resonance imaging (MRI) reflects information about human tissue from different perspectives and has many clinical applications. By utilizing the complementary information among different modalities, multi-contrast super-resolution (SR) of MRI can achieve better results than single-image super-resolution. However, existing methods of multi-contrast MRI SR have the following shortcomings that may limit their performance: First, existing methods either simply concatenate the reference and degraded features or exploit global feature-matching between them, which are unsuitable for multi-contrast MRI SR. Second, although many recent methods employ transformers to capture long-range dependencies in the spatial dimension, they neglect that self-attention in the channel dimension is also important for low-level vision tasks. To address these shortcomings, we proposed a novel network architecture with compound-attention and neighbor matching (CANM-Net) for multi-contrast MRI SR: The compound self-attention mechanism effectively captures the dependencies in both spatial and channel dimension; the neighborhood-based feature-matching modules are exploited to match degraded features and adjacent reference features and then fuse them to obtain the high-quality images. We conduct experiments of SR tasks on the IXI, fastMRI, and real-world scanning datasets. The CANM-Net outperforms state-of-the-art approaches in both retrospective and prospective experiments. Moreover, the robustness study in our work shows that the CANM-Net still achieves good performance when the reference and degraded images are imperfectly registered, proving good potential in clinical applications.
翻訳日:2023-09-19 23:19:53 公開日:2023-09-16
# vONTSS: 最適輸送を用いたvMFに基づく半教師付きニューラルトピックモデリング

vONTSS: vMF based semi-supervised neural topic modeling with optimal transport ( http://arxiv.org/abs/2307.01226v2 )

ライセンス: Link先を確認
Weijie Xu, Xiaoyu Jiang, Srinivasan H. Sengamedu, Francis Iannacci, Jinjin Zhao(参考訳) 近年,変分オートエンコーダにインスパイアされたニューラルトピックモデル (NTM) が注目されているが,これらの手法は人間の知識を取り入れることの難しさから,現実世界での応用が限られている。 この研究は、von Mises-Fisher (vMF) ベースの変分オートエンコーダと最適なトランスポートを用いた半教師付きニューラルトピックモデリング手法 vONTSS を提案する。 トピック毎にいくつかのキーワードが提供されると、半教師付きセッティングのvONTSSは潜在的なトピックを生成し、トピックキーワードの品質とトピック分類を最適化する。 実験により、vONTSSは、分類精度と多様性において、既存の半教師付きトピックモデリング手法よりも優れていることが示された。 vONTSSは教師なしトピックモデリングもサポートする。 定量的および定性的な実験により、教師なし設定におけるvONTSSは、複数の面で最近のNTMよりも優れていた。 また、類似の分類性能を達成しつつ、最先端の弱教師付きテキスト分類法よりもはるかに高速である。 さらに,世界最小での最適輸送損失とクロスエントロピー損失の等価性を示す。

Recently, Neural Topic Models (NTM), inspired by variational autoencoders, have attracted a lot of research interest; however, these methods have limited applications in the real world due to the challenge of incorporating human knowledge. This work presents a semi-supervised neural topic modeling method, vONTSS, which uses von Mises-Fisher (vMF) based variational autoencoders and optimal transport. When a few keywords per topic are provided, vONTSS in the semi-supervised setting generates potential topics and optimizes topic-keyword quality and topic classification. Experiments show that vONTSS outperforms existing semi-supervised topic modeling methods in classification accuracy and diversity. vONTSS also supports unsupervised topic modeling. Quantitative and qualitative experiments show that vONTSS in the unsupervised setting outperforms recent NTMs on multiple aspects: vONTSS discovers highly clustered and coherent topics on benchmark datasets. It is also much faster than the state-of-the-art weakly supervised text classification method while achieving similar classification performance. We further prove the equivalence of optimal transport loss and cross-entropy loss at the global minimum.
翻訳日:2023-09-19 23:19:23 公開日:2023-09-16
# 生成逆ネットワークを用いたテキスト合成のための教師なしテキスト埋め込み空間生成

Unsupervised Text Embedding Space Generation Using Generative Adversarial Networks for Text Synthesis ( http://arxiv.org/abs/2306.17181v3 )

ライセンス: Link先を確認
Jun-Min Lee, Tae-Bin Ha(参考訳) GAN(Generative Adversarial Networks)は、データ合成のモデルであり、ジェネレータと識別器の競合を通じて可塑性データを生成する。 画像合成へのGANの適用は広く研究されているが、自然言語生成には固有の制限がある。 自然言語は離散トークンで構成されているため、生成元はバックプロパゲーションによる勾配の更新が困難であるため、ほとんどのテキストGAN研究は報酬システムに基づいてランダムトークンから始まる文を生成する。 このように、先行研究のジェネレータは、逆行訓練の前に自己回帰的に事前訓練され、合成文がトレーニングデータを再生するデータを記憶させる。 本稿では,従来のGANに類似したフレームワークを用いて文を合成する。 より具体的には、勾配バックプロパゲーション問題を解決するために、離散トークンの代わりに連続的なテキスト埋め込み空間を生成するtext embedded space generative adversarial networks (tesgan)を提案する。 さらに、テッガンは、データ記憶問題を克服するために、トレーニングデータのテキストを直接参照しない教師なし学習を行う。 この方法を採用することで、テッガンは新しい文を合成し、教師なし学習によるテキスト合成の可能性を示すことができる。 大規模言語モデルと,テキストを連続的な空間として見る新たな視点を組み合わせた,広範な研究が期待できる。

Generative Adversarial Networks (GAN) is a model for data synthesis, which creates plausible data through the competition of generator and discriminator. Although GAN application to image synthesis is extensively studied, it has inherent limitations to natural language generation. Because natural language is composed of discrete tokens, a generator has difficulty updating its gradient through backpropagation; therefore, most text-GAN studies generate sentences starting with a random token based on a reward system. Thus, the generators of previous studies are pre-trained in an autoregressive way before adversarial training, causing data memorization that synthesized sentences reproduce the training data. In this paper, we synthesize sentences using a framework similar to the original GAN. More specifically, we propose Text Embedding Space Generative Adversarial Networks (TESGAN) which generate continuous text embedding spaces instead of discrete tokens to solve the gradient backpropagation problem. Furthermore, TESGAN conducts unsupervised learning which does not directly refer to the text of the training data to overcome the data memorization issue. By adopting this novel method, TESGAN can synthesize new sentences, showing the potential of unsupervised learning for text synthesis. We expect to see extended research combining Large Language Models with a new perspective of viewing text as an continuous space.
翻訳日:2023-09-19 23:18:16 公開日:2023-09-16
# 古典的1/f$ノイズのみによる非線形発振器からの非古典的放射

Nonclassical radiation from a nonlinear oscillator driven solely by classical $1/f$ noise ( http://arxiv.org/abs/2306.11350v2 )

ライセンス: Link先を確認
Archak Purkayastha and Klaus M{\o}lmer(参考訳) 低周波の古典的1/f$-noiseと低温フォノンモードからの量子ノイズは様々な実験プラットフォームに広く存在し、一般的に量子技術応用の障害と考えられている。 ここでは,従来の1/f$雑音と低温フォノン浴の非線形発振器への同時作用により,追加のドライブを必要とせずに非古典的反束放射が発生することを示す。 1/f$のノイズ自体は光子生成のためのエネルギー源を提供し、フォノン浴は無限の温度まで加熱を防ぎ、非線形振動子をノイズ平均の非平衡定常状態に導く。 この非平衡定常状態の光子電流は標準広帯域検出器によって検出される。 有効雑音スペクトルの十分な非線形性と周波数依存性のために、検出された放射をアンチバンドルすることができる。 これにより、実験プラットフォームにおいて最もユビキタスな固有ノイズの2つを障害からリソースに変えることが可能となる。 これは、避けられないノイズからの無駄な熱は、有用な放射線に変換できることを示している。 これらの結果は、ノイズスペクトル関数によってのみ指定される量子システム内のどんな種類の弱いノイズに対しても厳密に導出される一般的なアプローチであるレッドフィールド方程式に基づいている。

Low-frequency classical $1/f$-noise and quantum noise from low-temperature phonon modes are ubiquitous across various experimental platforms, and are usually considered a hindrance for quantum technological applications. Here we show that the simultaneous action of classical $1/f$ noise and a low-temperature phonon bath on a nonlinear oscillator can result in the generation of nonclassical antibunched radiation without the need for any additional drive. The $1/f$ noise itself provides the source of energy for generation of photons, while the phonon bath prevents heating up to infinite temperature and takes the nonlinear oscillator to a noise-averaged non-equilibrium steady state. The photon current in this non-equilibrium steady state may be detected by a standard wide-band detector. For sufficient nonlinearity and frequency dependence of the effective noise spectrum, the detected radiation can be antibunched. This opens the possibility to turn two of the most ubiquitous intrinsic noises in experimental platforms from a hindrance to a resource. It shows that wasteful heat from unavoidable noises can be converted into useful radiation. These results are based on the Redfield equation, which provides a rigorously derived general approach to treat any type of weak noise in a quantum system, specified only via the noise spectral function, as we discuss in detail.
翻訳日:2023-09-19 23:17:28 公開日:2023-09-16
# RED CoMETS:記号的に表される多変量時系列のためのアンサンブル分類器

RED CoMETS: An ensemble classifier for symbolically represented multivariate time series ( http://arxiv.org/abs/2307.13679v2 )

ライセンス: Link先を確認
Luca A. Bennett and Zahraa S. Abdallah(参考訳) 多変量時系列分類は、金融、医療、工学などの実践的な応用で急速に成長している研究分野である。 多変量時系列データの分類の複雑さは、その高次元、時間依存、長さの違いから生じる。 本稿では、これらの課題に対処するRED CoMETS(Random Enhanced Co-eye for Multivariate Time Series)と呼ばれる新しいアンサンブル分類器を提案する。 RED CoMETSは、一変量時系列を象徴的に表すために特別に設計されたアンサンブル分類器であるCo-eyeの成功に基づいており、多変量データを扱う能力を拡張している。 RED CoMETSのパフォーマンスは、UCRアーカイブのベンチマークデータセットで評価され、多変量設定における最先端技術と比較して、競合する精度を示す。 特に、'HandMovementDirection'データセットの文献で最も正確であると報告されている。 さらに,提案手法はCo-eyeと比較して計算時間を著しく短縮し,多変量時系列分類の効率的かつ効率的な選択となる。

Multivariate time series classification is a rapidly growing research field with practical applications in finance, healthcare, engineering, and more. The complexity of classifying multivariate time series data arises from its high dimensionality, temporal dependencies, and varying lengths. This paper introduces a novel ensemble classifier called RED CoMETS (Random Enhanced Co-eye for Multivariate Time Series), which addresses these challenges. RED CoMETS builds upon the success of Co-eye, an ensemble classifier specifically designed for symbolically represented univariate time series, and extends its capabilities to handle multivariate data. The performance of RED CoMETS is evaluated on benchmark datasets from the UCR archive, where it demonstrates competitive accuracy when compared to state-of-the-art techniques in multivariate settings. Notably, it achieves the highest reported accuracy in the literature for the 'HandMovementDirection' dataset. Moreover, the proposed method significantly reduces computation time compared to Co-eye, making it an efficient and effective choice for multivariate time series classification.
翻訳日:2023-09-19 23:08:35 公開日:2023-09-16
# 教師なし人物再同定のためのハードスケルトンマイニングを用いた階層的骨格メタプロトタイプコントラスト学習

Hierarchical Skeleton Meta-Prototype Contrastive Learning with Hard Skeleton Mining for Unsupervised Person Re-Identification ( http://arxiv.org/abs/2307.12917v3 )

ライセンス: Link先を確認
Haocong Rao, Cyril Leung, Chunyan Miao(参考訳) 深度センサーと深度学習の急速な進歩により、骨格に基づく人物再識別(re-ID)モデルは近年、多くの利点で顕著な進歩を遂げている。 既存のソリューションのほとんどは、同一の骨格の重要性を前提として、身体関節から単一レベルの骨格特徴を学習するが、通常、よりグローバルな身体パターンを持つ肢レベルのような様々なレベルからより有用な骨格特徴を活用できない。 これらの手法のラベル依存性は、より一般的な骨格表現を学ぶ際の柔軟性を制限している。 本稿では,HSM(Hard Skeleton Mining)を用いた階層型非教師付きメタプロトタイプコントラストラーニング(Hi-MPC)手法を提案する。 まず,骨格の階層的表現を構築し,身体関節,構成要素,四肢のレベルから体と運動の特徴をモデル化する。 その後、階層的なメタプロトタイプコントラスト学習モデルが提案され、異なるレベルの骨格から最も典型的な骨格の特徴(プロトタイプ)をクラスタリングし、対比する。 原原型を複数の同種変換を伴うメタプロトタイプに変換することにより,原型固有の一貫性を学習し,人体再IDのより効果的な骨格特徴を捉える。 さらに, 各骨格の情報的重要性を適応的に推測し, より識別的な骨格表現を学習するために, 硬い骨格のマイニング機構を考案した。 5つのデータセットに関する広範な評価は、我々のアプローチが様々な最先端のスケルトンベース手法よりも優れていることを示している。 さらに,本手法が推定骨格を用いたクロスビューパーソン・リIDとRGBベースのシナリオに適用可能であることを示す。

With rapid advancements in depth sensors and deep learning, skeleton-based person re-identification (re-ID) models have recently achieved remarkable progress with many advantages. Most existing solutions learn single-level skeleton features from body joints with the assumption of equal skeleton importance, while they typically lack the ability to exploit more informative skeleton features from various levels such as limb level with more global body patterns. The label dependency of these methods also limits their flexibility in learning more general skeleton representations. This paper proposes a generic unsupervised Hierarchical skeleton Meta-Prototype Contrastive learning (Hi-MPC) approach with Hard Skeleton Mining (HSM) for person re-ID with unlabeled 3D skeletons. Firstly, we construct hierarchical representations of skeletons to model coarse-to-fine body and motion features from the levels of body joints, components, and limbs. Then a hierarchical meta-prototype contrastive learning model is proposed to cluster and contrast the most typical skeleton features ("prototypes") from different-level skeletons. By converting original prototypes into meta-prototypes with multiple homogeneous transformations, we induce the model to learn the inherent consistency of prototypes to capture more effective skeleton features for person re-ID. Furthermore, we devise a hard skeleton mining mechanism to adaptively infer the informative importance of each skeleton, so as to focus on harder skeletons to learn more discriminative skeleton representations. Extensive evaluations on five datasets demonstrate that our approach outperforms a wide variety of state-of-the-art skeleton-based methods. We further show the general applicability of our method to cross-view person re-ID and RGB-based scenarios with estimated skeletons.
翻訳日:2023-09-19 23:07:57 公開日:2023-09-16
# 四元数テンソル左環分解とカラー画像塗布への応用

Quaternion tensor left ring decomposition and application for color image inpainting ( http://arxiv.org/abs/2307.10620v2 )

ライセンス: Link先を確認
Jifei Miao, Kit Ian Kou, Hongmin Cai, and Lizhi Liu(参考訳) 近年、テンソルネットワークは大規模最適化問題を解決する強力なツールとして登場している。 最も有望なテンソル・ネットワークの1つはテンソル・リング(TR)分解であり、これはトレース演算と潜在コアの公平な処理を利用してモデル内の円形の置換不変性を達成する。 一方,近年では,3色チャンネルを統一体としてカラー画素の符号化に効果があるため,色画像処理タスクにおいて,四元数が非常に注目され,広く利用されている。 そこで本稿では,左四元数行列の乗算に基づいて,色画素表現の四元数の利点を活用しつつ,TR分解の強力で一般化された表現能力を継承する四元数テンソル左環(QTLR)分解を提案する。 さらに,QTLRの分解とQTLR形式学習のアルゴリズムを提供するとともに,定義したQTLR分解に基づいて,低ランク四元数テンソル完備化(LRQTC)モデルとそのカラー画像インペイントのためのアルゴリズムを提案する。 最後に,カラー画像インペインティングに関する広範な実験により,提案手法が高い競合性を示す。

In recent years, tensor networks have emerged as powerful tools for solving large-scale optimization problems. One of the most promising tensor networks is the tensor ring (TR) decomposition, which achieves circular dimensional permutation invariance in the model through the utilization of the trace operation and equitable treatment of the latent cores. On the other hand, more recently, quaternions have gained significant attention and have been widely utilized in color image processing tasks due to their effectiveness in encoding color pixels by considering the three color channels as a unified entity. Therefore, in this paper, based on the left quaternion matrix multiplication, we propose the quaternion tensor left ring (QTLR) decomposition, which inherits the powerful and generalized representation abilities of the TR decomposition while leveraging the advantages of quaternions for color pixel representation. In addition to providing the definition of QTLR decomposition and an algorithm for learning the QTLR format, the paper further proposes a low-rank quaternion tensor completion (LRQTC) model and its algorithm for color image inpainting based on the defined QTLR decomposition. Finally, extensive experiments on color image inpainting demonstrate that the proposed LRQTC method is highly competitive.
翻訳日:2023-09-19 23:06:59 公開日:2023-09-16
# 整合による攻撃: オブジェクト検出に対するクリーンラベルバックドア攻撃

Attacking by Aligning: Clean-Label Backdoor Attacks on Object Detection ( http://arxiv.org/abs/2307.10487v2 )

ライセンス: Link先を確認
Yize Cheng, Wenbin Hu, Minhao Cheng(参考訳) ディープニューラルネットワーク(DNN)は、オブジェクト検出タスクにおいて前例のない成功を収めている。 しかし、DNNはバックドア攻撃など、複数の種類の攻撃に対して脆弱であることも判明した。 攻撃を通じて、攻撃者はdnnに隠れたバックドアを埋め込むことができ、モデルが正常なデータサンプル上で振る舞うが、事前に定義されたトリガーが発生すると、攻撃者が特定した判断を行う。 画像分類において多くのバックドア攻撃が実験されているが、対象検出タスクに対するバックドア攻撃は適切に調査されていない。 オブジェクト検出は、自律運転のような複数のセキュリティに敏感なアプリケーションにおいて重要なモジュールとして採用されているため、オブジェクト検出に対するバックドア攻撃はさらに深刻な脅威を引き起こす可能性がある。 深層学習に基づく物体検出装置の特性に着想を得て, 対象検出に対して, 対象の消失攻撃やオブジェクト生成攻撃に特に焦点をあてることなく, 対象検出に有効なバックドア攻撃法を提案する。 広範な実験とアブレーション研究により,ベンチマーク対象検出データセットmscoco2017における攻撃の有効性が証明された。

Deep neural networks (DNNs) have shown unprecedented success in object detection tasks. However, it was also discovered that DNNs are vulnerable to multiple kinds of attacks, including Backdoor Attacks. Through the attack, the attacker manages to embed a hidden backdoor into the DNN such that the model behaves normally on benign data samples, but makes attacker-specified judgments given the occurrence of a predefined trigger. Although numerous backdoor attacks have been experimented on image classification, backdoor attacks on object detection tasks have not been properly investigated and explored. As object detection has been adopted as an important module in multiple security-sensitive applications such as autonomous driving, backdoor attacks on object detection could pose even more severe threats. Inspired by the inherent property of deep learning-based object detectors, we propose a simple yet effective backdoor attack method against object detection without modifying the ground truth annotations, specifically focusing on the object disappearance attack and object generation attack. Extensive experiments and ablation studies prove the effectiveness of our attack on the benchmark object detection dataset MSCOCO2017, on which we achieve an attack success rate of more than 92% with a poison rate of only 5%.
翻訳日:2023-09-19 23:06:37 公開日:2023-09-16
# 確率的フィルタリングとパターン認識を用いた反応拡散複素ネットワークにおけるPODモデル削減手法の強化

Reinforcing POD-based model reduction techniques in reaction-diffusion complex networks using stochastic filtering and pattern recognition ( http://arxiv.org/abs/2307.09762v2 )

ライセンス: Link先を確認
Abhishek Ajayakumar, Soumyendu Raha(参考訳) 複雑なネットワークは多くの実世界のシステムをモデル化するために使われる。 しかし、これらのシステムの次元性は解析を難しくする可能性がある。 このような場合、PODのような次元減少技術を用いることができる。 しかし、これらのモデルは入力データの摂動に影響を受けやすい。 本稿では,パターン認識(PR)と確率的フィルタリング理論を組み合わせたアルゴリズムフレームワークを提案する。 その結果,提案手法は摂動入力下での代理モデルの精度を向上させることができることがわかった。 ディープニューラルネットワーク(DNN)は敵の攻撃を受けやすい。 しかし、近年の研究では、神経常微分方程式(神経性ode)が特定の応用において堅牢性を示すことが示されている。 我々は、ニューラルネットワークODEベースのアプローチを基準として、アルゴリズムフレームワークをベンチマークする。

Complex networks are used to model many real-world systems. However, the dimensionality of these systems can make them challenging to analyze. Dimensionality reduction techniques like POD can be used in such cases. However, these models are susceptible to perturbations in the input data. We propose an algorithmic framework that combines techniques from pattern recognition (PR) and stochastic filtering theory to enhance the output of such models. The results of our study show that our method can improve the accuracy of the surrogate model under perturbed inputs. Deep Neural Networks (DNNs) are susceptible to adversarial attacks. However, recent research has revealed that Neural Ordinary Differential Equations (neural ODEs) exhibit robustness in specific applications. We benchmark our algorithmic framework with the neural ODE-based approach as a reference.
翻訳日:2023-09-19 23:05:55 公開日:2023-09-16
# 効率的なフレーム補間のための不確実性誘導空間プルーニングアーキテクチャ

Uncertainty-Guided Spatial Pruning Architecture for Efficient Frame Interpolation ( http://arxiv.org/abs/2307.16555v3 )

ライセンス: Link先を確認
Ri Cheng, Xuhao Jiang, Ruian He, Shili Zhou, Weimin Tan, Bo Yan(参考訳) ビデオフレーム補間(VFI)モデルは、すべての場所に畳み込み演算を適用し、簡単に動く領域で冗長な計算を行う。 動的空間プルーニング法を用いて冗長な計算をスキップできるが,vfiタスクの容易な領域を監視せずに適切に特定することはできない。 本稿では,フレーム補間を動的に行うために冗長計算を省略する不確実性誘導型空間プラニング(UGSP)アーキテクチャを提案する。 特に、不確実性の低い画素は、望ましくない視覚的結果をもたらすことなく計算を削減できる、容易な領域を示す。 そこで我々は,不確実なマスクラベルを用いてUGSPを誘導し,容易な領域を適切に配置する。 さらに,UGSPの性能向上のために,補助的な非刈取ブランチを活用する自己コントラストトレーニング戦略を提案する。 大規模な実験によると、UGSPはパフォーマンスを維持しているが、Vimeo90K/UCF101/MiddleBuryデータセットを使用せずにベースラインと比較してFLOPを34%/52%/30%削減する。 さらに,本手法は,複数のベンチマーク上でのFLOPの低下による最先端性能を実現する。

The video frame interpolation (VFI) model applies the convolution operation to all locations, leading to redundant computations in regions with easy motion. We can use dynamic spatial pruning method to skip redundant computation, but this method cannot properly identify easy regions in VFI tasks without supervision. In this paper, we develop an Uncertainty-Guided Spatial Pruning (UGSP) architecture to skip redundant computation for efficient frame interpolation dynamically. Specifically, pixels with low uncertainty indicate easy regions, where the calculation can be reduced without bringing undesirable visual results. Therefore, we utilize uncertainty-generated mask labels to guide our UGSP in properly locating the easy region. Furthermore, we propose a self-contrast training strategy that leverages an auxiliary non-pruning branch to improve the performance of our UGSP. Extensive experiments show that UGSP maintains performance but reduces FLOPs by 34%/52%/30% compared to baseline without pruning on Vimeo90K/UCF101/MiddleBury datasets. In addition, our method achieves state-of-the-art performance with lower FLOPs on multiple benchmarks.
翻訳日:2023-09-19 22:58:19 公開日:2023-09-16
# mental-llm:オンラインテキストデータによるメンタルヘルス予測のための大規模言語モデル活用

Mental-LLM: Leveraging Large Language Models for Mental Health Prediction via Online Text Data ( http://arxiv.org/abs/2307.14385v3 )

ライセンス: Link先を確認
Xuhai Xu, Bingsheng Yao, Yuanzhe Dong, Saadia Gabriel, Hong Yu, James Hendler, Marzyeh Ghassemi, Anind K. Dey, Dakuo Wang(参考訳) 大規模言語モデル(LLM)の進歩は、様々なアプリケーションに力を与えてきた。 しかし、精神保健分野におけるLSMの能力の理解と向上に関して、研究には依然として大きなギャップがある。 本研究は,アルパカ,アルパカ-ロラ,FLAN-T5,GPT-3.5,GPT-4を含む複数のLSMの様々なメンタルヘルス予測タスクにおけるオンラインテキストデータによる総合的な評価である。 我々は、ゼロショットプロンプト、少数ショットプロンプト、命令微調整など幅広い実験を行っている。 その結果、ゼロショットと数ショットのプロンプトを持つLSMの有望かつ限定的なパフォーマンスが、メンタルヘルスタスクのために設計されていることが示唆された。 さらに重要なことは、命令の微調整が全てのタスクに対するLLMの性能を同時に向上させることを示すことである。 当社の「メンタル・アルパカ」と「メンタル・フラン・t5」は、gpt-3.5(25倍と15倍)のベストプロンプトデザインを10.9%上回り、gpt-4(250倍と150倍)のベストを4.8%上回った。 彼らはまた、最先端のタスク特化言語モデルと同等に機能する。 また,llmsのメンタルヘルス推論能力に関する探索的なケーススタディを実施し,gpt-4などのモデルが有望であることを示す。 本研究は,精神保健業務におけるLCMの能力を高めるための行動ガイドラインのセットにまとめる。 また、人種的偏見や性別的偏見など、現実世界のメンタルヘルス設定において、デプロイ可能性を達成する前に重要な制限を強調します。 この研究に付随する重要な倫理的リスクを強調します。

Advances in large language models (LLMs) have empowered a variety of applications. However, there is still a significant gap in research when it comes to understanding and enhancing the capabilities of LLMs in the field of mental health. In this work, we present the first comprehensive evaluation of multiple LLMs, including Alpaca, Alpaca-LoRA, FLAN-T5, GPT-3.5, and GPT-4, on various mental health prediction tasks via online text data. We conduct a broad range of experiments, covering zero-shot prompting, few-shot prompting, and instruction fine-tuning. The results indicate a promising yet limited performance of LLMs with zero-shot and few-shot prompt designs for the mental health tasks. More importantly, our experiments show that instruction finetuning can significantly boost the performance of LLMs for all tasks simultaneously. Our best-finetuned models, Mental-Alpaca and Mental-FLAN-T5, outperform the best prompt design of GPT-3.5 (25 and 15 times bigger) by 10.9% on balanced accuracy and the best of GPT-4 (250 and 150 times bigger) by 4.8%. They further perform on par with the state-of-the-art task-specific language model. We also conduct an exploratory case study on LLMs' capability on the mental health reasoning tasks, illustrating the promising capability of certain models such as GPT-4. We summarize our findings into a set of action guidelines for potential methods to enhance LLMs' capability for mental health tasks. Meanwhile, we also emphasize the important limitations before achieving deployability in real-world mental health settings, such as known racial and gender bias. We highlight the important ethical risks accompanying this line of research.
翻訳日:2023-09-19 22:57:15 公開日:2023-09-16
# 言語学における数学的拡散モデルの構築 イタリア北東部方言におけるドイツ語構文の特徴の事例研究

Founding a mathematical diffusion model in linguistics. The case study of German syntactic features in the North-Eastern Italian dialects ( http://arxiv.org/abs/2307.14291v2 )

ライセンス: Link先を確認
I. Lazzizzera(参考訳) この研究の最初の動機は、中世にドイツ人がチロルに移住した後に発生した北東イタリアのロマンス方言にゲルマン語の構文的特徴が広がったという言語的ケースであった。 数学的定式化に適した領域上のデータの表現を得るために、地理データ科学と呼ばれるツールを用いて、第1のステップとしてインタラクティブマップを作成する。 自在な2次元曲面Gを導入し、所望のドイツ語の特徴をどの領域で使用しているかを局所的に表現し、その特徴が使用されているかが調査された局所性かどうかを述べる離散関数の分別的な立方曲率最小化補間によって得られる。 This surface G is thought of as the value at the present time of a function describing a diffusion-convection phenomenon in two dimensions (here said tidal mode), which is subjected in a very natural way to the same equation used in physics, introducing a contextual diffusivity concept: it is shown that with two different assumptions about diffusivity, solutions of this equation, evaluated at the present time, fit well with the data interpolated by G, thus providing two convincing different pictures of diffusion-convection in the case under study, albeit simplifications and approximations. 非常に重要なことは、シュミット波として言語学者に知られている言語拡散モデルが拡散方程式の解に数えられることである。

The initial motivation for this work was the linguistic case of the spread of Germanic syntactic features into Romance dialects of North-Eastern Italy, which occurred after the immigration of German people to Tyrol during the High Middle Ages. To obtain a representation of the data over the territory suitable for a mathematical formulation, an interactive map is produced as a first step, using tools of what is called Geographic Data Science. A smooth two-dimensional surface G is introduced, expressing locally which fraction of territory uses a given German language feature: it is obtained by a piecewise cubic curvature minimizing interpolant of the discrete function that says if at any surveyed locality that feature is used or not. This surface G is thought of as the value at the present time of a function describing a diffusion-convection phenomenon in two dimensions (here said tidal mode), which is subjected in a very natural way to the same equation used in physics, introducing a contextual diffusivity concept: it is shown that with two different assumptions about diffusivity, solutions of this equation, evaluated at the present time, fit well with the data interpolated by G, thus providing two convincing different pictures of diffusion-convection in the case under study, albeit simplifications and approximations. Very importantly, it is shown that the linguistic diffusion model known to linguists as Schmidt waves can be counted among the solutions of the diffusion equation
翻訳日:2023-09-19 22:56:44 公開日:2023-09-16
# TempFuser: 長期の短期核融合変換器を用いた空中戦における戦術とアジャイル飛行マニアの学習

TempFuser: Learning Tactical and Agile Flight Maneuvers in Aerial Dogfights using a Long Short-Term Temporal Fusion Transformer ( http://arxiv.org/abs/2308.03257v2 )

ライセンス: Link先を確認
Hyunki Seong and David Hyunchul Shim(参考訳) 空中戦闘において、ドッグファイティングは、戦略的な操作とアジャイル戦闘機の空気力学の両方を理解することを要求する複雑な課題を引き起こす。 本稿では,空中戦闘における戦術的および機敏な飛行操作を学習するために設計された,新しい短期的時間融合トランスフォーマー tempfuser について紹介する。 本手法では,長期スパースおよび短期密度状態表現を符号化するために,LSTMに基づく2つの異なる入力埋め込みを用いる。 これらの埋め込みをトランスフォーマーエンコーダで統合することで、このモデルは戦闘機の戦術と機敏さを捉え、支配的な位置を確保し、敵を圧倒するエンドツーエンドの飛行コマンドを生成することができる。 高忠実度飛行シミュレーターにおける様々な種類の敵機に対する広範囲な訓練の後、我々のモデルは複雑な戦闘機の操縦をうまく学習し、一貫していくつかのベースラインモデルを上回った。 特に,我々のモデルは,明確な事前知識を必要とせず,優れた仕様の敵に面しても,人間的な戦略行動を示す。 さらに, 超音速低高度環境において頑健な追従性能を示す。 デモビデオはhttps://sites.google.com/view/tempfuser.comで閲覧できる。

In aerial combat, dogfighting poses intricate challenges that demand an understanding of both strategic maneuvers and the aerodynamics of agile fighter aircraft. In this paper, we introduce TempFuser, a novel long short-term temporal fusion transformer designed to learn tactical and agile flight maneuvers in aerial dogfights. Our approach employs two distinct LSTM-based input embeddings to encode long-term sparse and short-term dense state representations. By integrating these embeddings through a transformer encoder, our model captures the tactics and agility of fighter jets, enabling it to generate end-to-end flight commands that secure dominant positions and outmaneuver the opponent. After extensive training against various types of opponent aircraft in a high-fidelity flight simulator, our model successfully learns to perform complex fighter maneuvers, consistently outperforming several baseline models. Notably, our model exhibits human-like strategic maneuvers even when facing adversaries with superior specifications, all without relying on explicit prior knowledge. Moreover, it demonstrates robust pursuit performance in challenging supersonic and low-altitude environments. Demo videos are available at https://sites.google.com/view/tempfuser.
翻訳日:2023-09-19 22:45:12 公開日:2023-09-16
# 無給労働の暗黒化--AIとその影響

The Glamorisation of Unpaid Labour: AI and its Influencers ( http://arxiv.org/abs/2308.02399v2 )

ライセンス: Link先を確認
Nana Mgbechikwere Nwachukwu, Jennafer Shae Roberts, Laura N Montoya(参考訳) 人工知能(AI)の真のポテンシャルを社会的改善に活用するためには、デジタル時代のグローバル・サウス労働者を生かした企業利益の優先順位付けを避ける必要がある。 デジタル価値ネットワーク(DVN)が生み出す無給労働と社会的損害は、アフリカ、ラテンアメリカ、インドの労働者に不当に影響を与え、規制される必要がある。 本研究では、ギグワークプラットフォームによるヒューマンインテリジェンスタスク(HIT)の自動化と、ソーシャルメディアにおけるインフルエンサーを活用したデータ収集の資本化について論じる。 これらは労働者とユーザーデータプラクティスにおける重要な研究領域であり、倫理的AIが影響を受けうる。 我々は、責任あるAI開発に焦点を当てた道を提案する。

To harness the true potential of Artificial Intelligence (AI) for societal betterment, we need to move away from prioritising corporate interests which exploit Global South workers in the digital age. The unpaid labour and societal harms which are generated by Digital Value Networks (DVNs) disproportionately affect workers in Africa, Latin America, and India and need to be regulated. In this research, we discuss unethical practices to automate Human Intelligence Tasks (HITs) through gig work platforms and the capitalisation of data collection utilising influencers in social media. These are important areas of study in worker and user data practices, where ethical AI could be impactful. We provide suggestions for a path forward focused on responsible AI development.
翻訳日:2023-09-19 22:44:49 公開日:2023-09-16
# ダッシュボードのプロヴァンスをモデル化する

Modeling the Dashboard Provenance ( http://arxiv.org/abs/2308.06788v2 )

ライセンス: Link先を確認
Johne Jarske, Jorge Rady, Lucia V. L. Filgueiras, Leandro M. Velloso, Tania L. Santos(参考訳) パブリック、プライベート、収益主導、非営利団体、さまざまな産業やセクターのあらゆる種類の組織は、効果的なデータ視覚化のためのダッシュボードに依存しています。 しかし、これらのダッシュボードの信頼性と有効性は、提示するビジュアルとデータの品質に依存する。 調査によれば、ダッシュボードの4分の1未満がソースに関する情報を提供しており、これはプロヴァンスが真剣に検討されているときに期待されているメタデータの1つにすぎない。 プロヴァンス(provance)とは、データやオブジェクトの生成、影響、あるいはデリバリにおいて重要な役割を果たした人々、組織、エンティティ、アクティビティを記述した記録である。 本稿では,ダッシュボードとその視覚的およびデータ的コンポーネントを対象とした,標準化,モデリング,生成,キャプチャ,ビジュアライゼーションを付与する証明表現モデルの提供を目的とする。 提案モデルでは,ダッシュボードに表示される情報の品質,一貫性,信頼性をユーザが評価可能な,必須のプロビデンスメタデータの包括的なセットを提供する。 これにより、特定のダッシュボードが開発されたコンテキストを明確かつ正確に理解することができ、最終的にはよりよい意思決定につながる。

Organizations of all kinds, whether public or private, profit-driven or non-profit, and across various industries and sectors, rely on dashboards for effective data visualization. However, the reliability and efficacy of these dashboards rely on the quality of the visual and data they present. Studies show that less than a quarter of dashboards provide information about their sources, which is just one of the expected metadata when provenance is seriously considered. Provenance is a record that describes people, organizations, entities, and activities that had a role in the production, influence, or delivery of a piece of data or an object. This paper aims to provide a provenance representation model, that entitles standardization, modeling, generation, capture, and visualization, specifically designed for dashboards and its visual and data components. The proposed model will offer a comprehensive set of essential provenance metadata that enables users to evaluate the quality, consistency, and reliability of the information presented on dashboards. This will allow a clear and precise understanding of the context in which a specific dashboard was developed, ultimately leading to better decision-making.
翻訳日:2023-09-19 22:36:13 公開日:2023-09-16
# 機械学習のための熱帯幾何学ツール: tmlパッケージ

Tropical Geometric Tools for Machine Learning: the TML package ( http://arxiv.org/abs/2309.01082v2 )

ライセンス: Link先を確認
David Barnhill and Ruriko Yoshida and Georges Aliatimis and Keiji Miura(参考訳) 過去10年間、熱帯幾何学の発展は、統計学習の問題に直接適用できる多くの用途を提供してきた。 tmlパッケージは、熱帯凸性に関する基本的な計算、熱帯凸集合の可視化、および熱帯射影トーラス上のマックスプラス代数の下での熱帯メトリックを用いた教師付きおよび教師なし学習モデルのための包括的なツールと方法を含む、最初のrパッケージである。 主に、TMLパッケージは、統計推測のための主要なツールとして熱帯計量とともに、ヒッチ・アンド・ラン・マルコ連鎖モンテカルロサンプリング器を使用している。 基本計算と熱帯HARサンプル装置の様々な応用に加えて、熱帯主成分分析、熱帯ロジスティック回帰、熱帯核密度推定を含むTMLパッケージに組み込まれたいくつかの教師なしおよび教師なし手法にも着目する。

In the last decade, developments in tropical geometry have provided a number of uses directly applicable to problems in statistical learning. The TML package is the first R package which contains a comprehensive set of tools and methods used for basic computations related to tropical convexity, visualization of tropically convex sets, as well as supervised and unsupervised learning models using the tropical metric under the max-plus algebra over the tropical projective torus. Primarily, the TML package employs a Hit and Run Markov chain Monte Carlo sampler in conjunction with the tropical metric as its main tool for statistical inference. In addition to basic computation and various applications of the tropical HAR sampler, we also focus on several supervised and unsupervised methods incorporated in the TML package including tropical principal component analysis, tropical logistic regression and tropical kernel density estimation.
翻訳日:2023-09-19 22:17:25 公開日:2023-09-16
# sepal:局所グラフからの空間遺伝子発現予測

SEPAL: Spatial Gene Expression Prediction from Local Graphs ( http://arxiv.org/abs/2309.01036v2 )

ライセンス: Link先を確認
Gabriel Mejia, Paula C\'ardenas, Daniela Ruiz, Angela Castillo, Pablo Arbel\'aez(参考訳) 空間転写学は、病理像を空間的に解決された遺伝子発現プロファイルと整合させる新しい技術である。 多くの病気を理解する可能性を秘めているが、専門機器や専門分野の専門知識など、重大なボトルネックに直面している。 本研究では、視覚組織の外観から遺伝子プロファイルを予測する新しいモデルであるSEPALを提案する。 本手法は,平均表現に対する相対的差異を直接監督することにより,問題の生物学的バイアスを生かし,各座標の局所的視覚文脈を利用してグラフニューラルネットワークを用いて予測を行う。 このアプローチは、現在の手法における完全局所性と完全グローバル性の間のギャップを埋める。 また,スクリプトミクスにおける現在のベストプラクティスに従い,空間パターンが明確である者のみに予測変数を限定することにより,タスクをより適切に定義することを目的とした新しいベンチマークを提案する。 2つの異なるヒト乳癌データセットで広範な評価を行った結果,sepalは従来の最先端の手法や空間的文脈を含む他のメカニズムよりも優れていた。

Spatial transcriptomics is an emerging technology that aligns histopathology images with spatially resolved gene expression profiling. It holds the potential for understanding many diseases but faces significant bottlenecks such as specialized equipment and domain expertise. In this work, we present SEPAL, a new model for predicting genetic profiles from visual tissue appearance. Our method exploits the biological biases of the problem by directly supervising relative differences with respect to mean expression, and leverages local visual context at every coordinate to make predictions using a graph neural network. This approach closes the gap between complete locality and complete globality in current methods. In addition, we propose a novel benchmark that aims to better define the task by following current best practices in transcriptomics and restricting the prediction variables to only those with clear spatial patterns. Our extensive evaluation in two different human breast cancer datasets indicates that SEPAL outperforms previous state-of-the-art methods and other mechanisms of including spatial context.
翻訳日:2023-09-19 22:17:10 公開日:2023-09-16
# ディープビデオコーデック制御

Deep Video Codec Control ( http://arxiv.org/abs/2308.16215v4 )

ライセンス: Link先を確認
Christoph Reich, Biplob Debnath, Deep Patel, Tim Prangemeier, Srimat Chakradhar(参考訳) 損失のあるビデオ圧縮は、ビデオデータの転送と保存によく使用される。 H.264やH.265のような統一ビデオコーデックは、高度な(神経的な)圧縮アプローチが可能であるにもかかわらず、デファクトスタンダードのままである。 動的ネットワーク帯域幅の条件で動画を送信するには、ビデオコーデックが全く異なる圧縮強度に適応する必要がある。 レート制御モジュールはコーデックの圧縮を増大させ、帯域制限が満たされ、ビデオ歪みが最小化される。 ビデオコードとそのレート制御モジュールは、人間の品質評価の歪みを最小限に抑えるために開発されたが、ディープビジョンモデルの下流性能は考慮されていない。 本稿では,既存の規格を破ることなく,帯域制限とダウンストリーム視覚性能の両方を考慮した,エンドツーエンドで学習可能なディープビデオコーデック制御を提案する。 我々は2つの共通ビジョンタスク(セマンティックセグメンテーションと光フロー推定)と2つの異なるデータセットに対して、ダイナミックな帯域幅制約を満たし、標準化に固執しながら、2パス平均ビットレート制御を使用するよりも、より深いコーデック制御の方が下流のパフォーマンスを良く維持できることを示す。

Lossy video compression is commonly used when transmitting and storing video data. Unified video codecs (e.g., H.264 or H.265) remain the de facto standard, despite the availability of advanced (neural) compression approaches. Transmitting videos in the face of dynamic network bandwidth conditions requires video codecs to adapt to vastly different compression strengths. Rate control modules augment the codec's compression such that bandwidth constraints are satisfied and video distortion is minimized. While, both standard video codes and their rate control modules are developed to minimize video distortion w.r.t. human quality assessment, preserving the downstream performance of deep vision models is not considered. In this paper, we present the first end-to-end learnable deep video codec control considering both bandwidth constraints and downstream vision performance, while not breaking existing standardization. We demonstrate for two common vision tasks (semantic segmentation and optical flow estimation) and on two different datasets that our deep codec control better preserves downstream performance than using 2-pass average bit rate control while meeting dynamic bandwidth constraints and adhering to standardizations.
翻訳日:2023-09-19 22:16:10 公開日:2023-09-16
# LLaSM:大規模言語と音声モデル

LLaSM: Large Language and Speech Model ( http://arxiv.org/abs/2308.15930v3 )

ライセンス: Link先を確認
Yu Shu, Siwei Dong, Guangyao Chen, Wenhao Huang, Ruihua Zhang, Daochen Shi, Qiqi Xiang, Yemin Shi(参考訳) 近年,マルチモーダル大規模言語モデルが注目されている。 しかし、ほとんどの作品は視覚言語のマルチモーダルモデルに焦点を合わせており、視覚と言語命令に従う強力な能力を提供している。 しかし、音声は人間が世界と相互作用する重要なモダリティでもあると主張する。 したがって、汎用アシスタントがマルチモーダル音声・言語指示を追従できることは不可欠である。 本研究では,Large Language and Speech Model (LLaSM)を提案する。 LLaSMは、多モーダルな多モーダル言語モデルで、多モーダルな会話能力を持ち、音声と音声の指示に従うことができる。 初期の実験では、LLaSMは人間が人工知能と対話するより便利で自然な方法を示している。 具体的には,LLaSM-Audio-Instructionsデータセットを大規模にリリースする。 コードとデモはhttps://github.com/LinkSoul-AI/LLaSMとhttps://huggingface.co/spaces/LinkSoul/LLaSMで公開されている。 LLaSM-Audio-Instructionsデータセットはhttps://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructionsで公開されている。

Multi-modal large language models have garnered significant interest recently. Though, most of the works focus on vision-language multi-modal models providing strong capabilities in following vision-and-language instructions. However, we claim that speech is also an important modality through which humans interact with the world. Hence, it is crucial for a general-purpose assistant to be able to follow multi-modal speech-and-language instructions. In this work, we propose Large Language and Speech Model (LLaSM). LLaSM is an end-to-end trained large multi-modal speech-language model with cross-modal conversational abilities, capable of following speech-and-language instructions. Our early experiments show that LLaSM demonstrates a more convenient and natural way for humans to interact with artificial intelligence. Specifically, we also release a large Speech Instruction Following dataset LLaSM-Audio-Instructions. Code and demo are available at https://github.com/LinkSoul-AI/LLaSM and https://huggingface.co/spaces/LinkSoul/LLaSM. The LLaSM-Audio-Instructions dataset is available at https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
翻訳日:2023-09-19 22:15:46 公開日:2023-09-16
# PACE-LM:クラウドインシデント根本原因解析におけるGPT-4による信頼度推定の実証と増大

PACE-LM: Prompting and Augmentation for Calibrated Confidence Estimation with GPT-4 in Cloud Incident Root Cause Analysis ( http://arxiv.org/abs/2309.05833v2 )

ライセンス: Link先を確認
Dylan Zhang, Xuchao Zhang, Chetan Bansal, Pedro Las-Casas, Rodrigo Fonseca, Saravan Rajmohan(参考訳) 近年、it部門におけるクラウドベースのプラットフォームへの移行は、サービスの信頼性を確保し顧客信頼を維持するために、クラウドインシデント根本原因分析の重要性を強調している。 このプロセスの中心はルート原因の効率的な決定であり、現代のクラウドインフラの複雑な性質のために課題となった。 根本原因同定のためのAI駆動ツールの普及にもかかわらず、その適用性は出力の不整合品質によって制限されている。 本稿では,検索強化大言語モデル (LLM) を推進し,根本原因分析ツールの信頼度を向上する手法を提案する。 このアプローチは2つのフェーズで動作します。 当初, 証拠強度の評価を考慮し, 過去の事件データに基づく信頼度の評価を行った。 その後、モデルは、予測者が生成した根本原因をレビューする。 最適化ステップは、これらの評価を組み合わせて最終信頼割り当てを決定する。 実験結果から,本手法はモデルの信頼性を効果的に表現し,より校正されたスコアを与える。 本研究では, LLMを用いた校正信頼度スコアの作成能力, ドメイン固有検索例が信頼度推定に与える影響, および根本原因分析モデルにおける潜在的な一般化可能性について検討する。 そこで本研究では,クラウドインシデント管理の効率化を図るとともに,信頼性評価のギャップを埋めることを目的としている。

In recent years, the transition to cloud-based platforms in the IT sector has emphasized the significance of cloud incident root cause analysis to ensure service reliability and maintain customer trust. Central to this process is the efficient determination of root causes, a task made challenging due to the complex nature of contemporary cloud infrastructures. Despite the proliferation of AI-driven tools for root cause identification, their applicability remains limited by the inconsistent quality of their outputs. This paper introduces a method for enhancing confidence estimation in root cause analysis tools by prompting retrieval-augmented large language models (LLMs). This approach operates in two phases. Initially, the model evaluates its confidence based on historical incident data, considering its assessment of the evidence strength. Subsequently, the model reviews the root cause generated by the predictor. An optimization step then combines these evaluations to determine the final confidence assignment. Experimental results illustrate that our method enables the model to articulate its confidence effectively, providing a more calibrated score. We address research questions evaluating the ability of our method to produce calibrated confidence scores using LLMs, the impact of domain-specific retrieved examples on confidence estimates, and its potential generalizability across various root cause analysis models. Through this, we aim to bridge the confidence estimation gap, aiding on-call engineers in decision-making and bolstering the efficiency of cloud incident management.
翻訳日:2023-09-19 22:06:11 公開日:2023-09-16
# 半教師型医用画像分割のための多次元融合と整合性

Multi-dimensional Fusion and Consistency for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2309.06618v2 )

ライセンス: Link先を確認
Yixing Lu, Zhaoxin Fan, Min Xu(参考訳) 本稿では,医用画像セグメンテーションに適した新しい半教師付き学習フレームワークを提案する。 我々のアプローチの中心は、革新的なマルチスケールテキスト対応のViT-CNN Fusionスキームである。 このスキームはvitsとcnnの両方の強みをうまく組み合わせ、両アーキテクチャの独特な利点と視覚言語のモダリティにおける補完的な情報に乗じている。 さらに,ロバストな擬似ラベルを生成するための多軸一貫性フレームワークを提案し,半教師付き学習プロセスを強化する。 広く使われているいくつかのデータセットに関する広範な実験は、我々のアプローチの有効性を明白に実証している。

In this paper, we introduce a novel semi-supervised learning framework tailored for medical image segmentation. Central to our approach is the innovative Multi-scale Text-aware ViT-CNN Fusion scheme. This scheme adeptly combines the strengths of both ViTs and CNNs, capitalizing on the unique advantages of both architectures as well as the complementary information in vision-language modalities. Further enriching our framework, we propose the Multi-Axis Consistency framework for generating robust pseudo labels, thereby enhancing the semi-supervised learning process. Our extensive experiments on several widely-used datasets unequivocally demonstrate the efficacy of our approach.
翻訳日:2023-09-19 21:55:44 公開日:2023-09-16
# s3-dst:構造化オープンドメイン対話セグメンテーションとllms時代の状態追跡

S3-DST: Structured Open-Domain Dialogue Segmentation and State Tracking in the Era of LLMs ( http://arxiv.org/abs/2309.08827v1 )

ライセンス: Link先を確認
Sarkar Snigdha Sarathi Das, Chirag Shah, Mengting Wan, Jennifer Neville, Longqi Yang, Reid Andersen, Georg Buscher, Tara Safavi(参考訳) 従来の対話状態追跡(DST)問題は、ユーザとエージェントの会話におけるユーザの好みや意図を追跡することを目的としている。 狭義のドメインアプリケーションをサポートするタスク指向対話システムには十分だが、Large Language Model(LLM)ベースのチャットシステムが出現し、オープンドメイン対話に多くの現実世界の複雑さを導入した。 これらの複雑さは、文脈相互作用における複雑さの増加、様々なトピックを含む対話セッションの拡張、より頻繁な文脈シフトの形で表される。 LLMベースのチャットシステムから生じるこれらの複雑さに対処するために,オープンドメイン対話システムにおいて,セグメントごとの対話セグメント化と状態トラッキングを提案する。 本稿では,真のオープンドメイン対話システムに適したゼロショット設定を想定し,分析前記憶を利用した構造化プロンプト手法であるs3-dstを提案する。 提案手法の有効性を実証するため,独自に開発したオープンドメイン対話データセットと,dstおよびセグメンテーションデータセット上でのs3-dstの評価を行った。 すべてのデータセットと設定にわたって、S3-DSTは一貫して最先端のチャットシステムよりも優れており、次世代のLLMベースのチャットシステムの有用性と堅牢性を示している。

The traditional Dialogue State Tracking (DST) problem aims to track user preferences and intents in user-agent conversations. While sufficient for task-oriented dialogue systems supporting narrow domain applications, the advent of Large Language Model (LLM)-based chat systems has introduced many real-world intricacies in open-domain dialogues. These intricacies manifest in the form of increased complexity in contextual interactions, extended dialogue sessions encompassing a diverse array of topics, and more frequent contextual shifts. To handle these intricacies arising from evolving LLM-based chat systems, we propose joint dialogue segmentation and state tracking per segment in open-domain dialogue systems. Assuming a zero-shot setting appropriate to a true open-domain dialogue system, we propose S3-DST, a structured prompting technique that harnesses Pre-Analytical Recollection, a novel grounding mechanism we designed for improving long context tracking. To demonstrate the efficacy of our proposed approach in joint segmentation and state tracking, we evaluate S3-DST on a proprietary anonymized open-domain dialogue dataset, as well as publicly available DST and segmentation datasets. Across all datasets and settings, S3-DST consistently outperforms the state-of-the-art, demonstrating its potency and robustness the next generation of LLM-based chat systems.
翻訳日:2023-09-19 19:13:47 公開日:2023-09-16
# デュアルカメラ関節脱臭

Dual-Camera Joint Deblurring-Denoising ( http://arxiv.org/abs/2309.08826v1 )

ライセンス: Link先を確認
Shayan Shekarforoush, Amanpreet Walia, Marcus A. Brubaker, Konstantinos G. Derpanis, Alex Levinshtein(参考訳) 最近の画像強調手法では、低光度撮影に一対の長短露光画像を使用することの利点が示されている。 これらのイメージモダリティは補完的な強みと弱みをもたらす。 前者は、カメラや物体の動きによって、きれいだがぼやけた画像を得るが、後者は、光子数が少ないため、シャープだがうるさい。 現代のスマートフォンには複数の背面カメラセンサーが搭載されており、高品質な画像を得るための新しいデュアルカメラ方式を提案する。 本手法では,1台のカメラで撮影した短い露光画像の同期バーストと,もう1台のカメラで撮影した長時間露光画像を用いる。 長時間露光画像と共に短い露光バーストを同期させることで (i)単一の画像ではなくバーストを用いて、より良質な装飾を得る。 (ii)バーストから動きを回収し、長時間露光画像の動作認識デブラリングに使用する。 (iii)この2つを融合させることにより、さらに品質が向上する。 本手法は,GoProデータセットから得られた合成デュアルカメラ画像に対して,次の手法に比べて5倍のトレーニングパラメータで最先端の結果を得られる。 また,本手法は実同期デュアルカメラにおける競合する手法よりも質的に優れていることを示す。

Recent image enhancement methods have shown the advantages of using a pair of long and short-exposure images for low-light photography. These image modalities offer complementary strengths and weaknesses. The former yields an image that is clean but blurry due to camera or object motion, whereas the latter is sharp but noisy due to low photon count. Motivated by the fact that modern smartphones come equipped with multiple rear-facing camera sensors, we propose a novel dual-camera method for obtaining a high-quality image. Our method uses a synchronized burst of short exposure images captured by one camera and a long exposure image simultaneously captured by another. Having a synchronized short exposure burst alongside the long exposure image enables us to (i) obtain better denoising by using a burst instead of a single image, (ii) recover motion from the burst and use it for motion-aware deblurring of the long exposure image, and (iii) fuse the two results to further enhance quality. Our method is able to achieve state-of-the-art results on synthetic dual-camera images from the GoPro dataset with five times fewer training parameters compared to the next best method. We also show that our method qualitatively outperforms competing approaches on real synchronized dual-camera captures.
翻訳日:2023-09-19 19:13:22 公開日:2023-09-16
# 先行シフト下における分布ロバストなポストホック分類器

Distributionally Robust Post-hoc Classifiers under Prior Shifts ( http://arxiv.org/abs/2309.08825v1 )

ライセンス: Link先を確認
Jiaheng Wei, Harikrishna Narasimhan, Ehsan Amid, Wen-Sheng Chu, Yang Liu, and Abhishek Kumar(参考訳) 機械学習モデルの一般化能力は、テスト分布がトレーニング分布からずれたときに著しく低下する。 本研究では,クラスプライヤやグループプライヤの分布の変化による変化に頑健なトレーニングモデルの問題を検討する。 歪んだトレーニングプライオリエントの存在は、しばしばモデルがスプリアスな特徴に過度に適合することにつながる。 クラスやグループよりも最悪あるいは平均的なパフォーマンスを最適化する既存のメソッドとは異なり、我々の作業はモデルの堅牢性に関するより詳細な制御の必要性によって動機づけられます。 本稿では,事前学習したモデルからの予測に対するスケーリング調整を行う,極めて軽量なポストホック手法を提案する。 これらの調整は、検証セット上の制約付き最適化問題を解くことで計算され、テスト時間中にモデルに適用される。 制約付き最適化の目標は,制御分布シフトに対するロバスト性という自然な概念に着想を得たものです。 本手法は証明可能な保証を伴い,分布型ロバストなポストホック分類器に対して経験的に強固な適用を行う。 実証的な実装はhttps://github.com/weijiaheng/dropsで利用可能である。

The generalization ability of machine learning models degrades significantly when the test distribution shifts away from the training distribution. We investigate the problem of training models that are robust to shifts caused by changes in the distribution of class-priors or group-priors. The presence of skewed training priors can often lead to the models overfitting to spurious features. Unlike existing methods, which optimize for either the worst or the average performance over classes or groups, our work is motivated by the need for finer control over the robustness properties of the model. We present an extremely lightweight post-hoc approach that performs scaling adjustments to predictions from a pre-trained model, with the goal of minimizing a distributionally robust loss around a chosen target distribution. These adjustments are computed by solving a constrained optimization problem on a validation set and applied to the model during test time. Our constrained optimization objective is inspired by a natural notion of robustness to controlled distribution shifts. Our method comes with provable guarantees and empirically makes a strong case for distributional robust post-hoc classifiers. An empirical implementation is available at https://github.com/weijiaheng/Drops.
翻訳日:2023-09-19 19:13:03 公開日:2023-09-16
# 一次元における動的キラリティ生成

Dynamical chirality production in one dimension ( http://arxiv.org/abs/2309.08820v1 )

ライセンス: Link先を確認
Tomoya Hayata, Katsumasa Nakayama, Arata Yamamoto(参考訳) 格子ゲージ理論における動的キラリティ生成の量子計算について論じる。 格子フェルミオンのキラリティは一般次元では複雑であるが、単に一次元格子上で定式化することができる。 キラルフェルミオン形式論は、連続理論におけるキラル異常と解釈されるキラル生成の物理的部分を抽出することができる。 古典的エミュレータ上でのZ_2$格子ゲージ理論の計算を実演する。

We discuss the quantum computation of dynamical chirality production in lattice gauge theory. Although the chirality of a lattice fermion is complicated in general dimension, it can be simply formulated on a one-dimensional lattice. The chiral fermion formalism enables us to extract the physical part of the chirality production that would be interpreted as the chiral anomaly in the continuous theory. We demonstrate the computation of the $Z_2$ lattice gauge theory on a classical emulator.
翻訳日:2023-09-19 19:12:45 公開日:2023-09-16
# 推薦説明文のベースラインとしてのGPT

GPT as a Baseline for Recommendation Explanation Texts ( http://arxiv.org/abs/2309.08817v1 )

ライセンス: Link先を確認
Joyce Zhou, Thorsten Joachims(参考訳) 本研究では,映画レコメンデーションの現代的モデル生成によるテキスト説明がユーザに役立つことの基盤となる可能性を確立し,特に既存のヒト映画レビューとは対照的に,ユーザが好むか好まないかの異なる説明の構成要素を探索する。 その結果、参加者は映画間で格付けが著しく異なることや、これまで見たことのない映画レビューに対して、個々の品質スコアが著しく異なることが判明した。 しかし、参加者は以前見た映画の場合、レビューをはるかに良く評価した。 また,各品質において重要視される映画レビューテキストの具体的側面についても検討した。 全体として、現代のllmはレコメンデーション説明の有望な情報源であり、将来的にはパーソナライズ可能なテキスト説明をさらに検討するつもりです。

In this work, we establish a baseline potential for how modern model-generated text explanations of movie recommendations may help users, and explore what different components of these text explanations that users like or dislike, especially in contrast to existing human movie reviews. We found that participants gave no significantly different rankings between movies, nor did they give significantly different individual quality scores to reviews of movies that they had never seen before. However, participants did mark reviews as significantly better when they were movies they had seen before. We also explore specific aspects of movie review texts that participants marked as important for each quality. Overall, we establish that modern LLMs are a promising source of recommendation explanations, and we intend on further exploring personalizable text explanations in the future.
翻訳日:2023-09-19 19:12:38 公開日:2023-09-16
# 2モード相関多光子束放出

Two-mode correlated multiphoton bundle emission ( http://arxiv.org/abs/2309.08858v1 )

ライセンス: Link先を確認
Yi Wang, Fen Zou, Jie-Qiao Liao(参考訳) 相関多光子源の作成は、量子光学と量子情報科学において重要な研究トピックである。 本稿では,2つのキャビティモードを結合した2レベルシステムからなる非退化多光子Jaynes-Cummingsモデルにおいて,2モード相関多光子束の放出について検討する。 2レベルシステムは、モロー状態がこの系の物理過程を支配するように、ほぼ共鳴強いレーザーによって駆動される。 ある共鳴条件下では、ゼロ光子状態 $|0\rangle_{a}|0\rangle_{b}$ と、(n+m$)-光子状態 $|n\rangle_{a}|m\rangle_{b}$ の間の完全な超ラビ振動が起こる。 光子崩壊によって引き起こされる2モード相関多光子束放出はこの系で起こる。 さらに重要なことは、強い相関を持つ光子束の間に反結合効果があることを示し、この系は反結合(n+m$)光子源として振る舞う。 この研究は、現代の量子技術に潜在的な応用をもたらす2モード相関多光子源デバイスを実現するための道を開く。

The preparation of correlated multiphoton sources is an important research topic in quantum optics and quantum information science. Here, we study two-mode correlated multiphoton bundle emission in a nondegenerate multiphoton Jaynes-Cummings model, which is comprised of a two-level system coupled with two cavity modes. The two-level system is driven by a near-resonant strong laser such that the Mollow regime dominates the physical processes in this system. Under certain resonance conditions, a perfect super-Rabi oscillation between the zero-photon state $|0\rangle_{a}|0\rangle_{b}$ and the ($n+m$)-photon state $|n\rangle_{a}|m\rangle_{b}$ of the two cavity modes can take place. Induced by the photon decay, the two-mode correlated multiphoton bundle emission occurs in this system. More importantly, the results show that there is an antibunching effect between the strongly-correlated photon bundles, so that the system behaves as an antibunched ($n+m$)-photon source. The work opens up a route towards achieving two-mode correlated multiphoton source device, which has potential applications in modern quantum technology.
翻訳日:2023-09-19 19:05:56 公開日:2023-09-16
# 位相導波路による2つの巨大原子の絡み合い

Entangling two giant atoms via a topological waveguide ( http://arxiv.org/abs/2309.08856v1 )

ライセンス: Link先を確認
Wen-Bin Luo, Xian-Li Yin, Jie-Qiao Liao(参考訳) 本研究では,Su-Schrieffer-Heeger (SSH) 型結合キャビティアレイにより形成される光導波路に結合した2つの2層巨大原子の絡み合い発生について検討した。 ここで、各原子は2つの結合点を介して導波路に結合する。 本稿では,2原子分離結合の場合に着目し,2原子と導波路の結合点分布の16結合構成について考察する。 量子マスター方程式を導出し、2つの原子の進化を制御し、2つの原子状態のコンカレンスを計算することによって原子エンタングルメントを特徴づける。 2つの巨大原子の絡み合いは、巨原子の結合配置と結合点距離に依存することが判明した。 特に、14結合配置における2つの巨大原子の絡み合いダイナミクスは、ssh導波路の2次化パラメータに依存する。 2つの巨大原子の自己エネルギーによれば、これらの16のカップリング構成のうち10個は5つのペアに分けられる。 また,これら5組のカップリング構成において,2つの巨大原子間の絡み合いの突然発生が遅れていることが示される。 この研究は、巨大原子位相波導波路qed系の量子効果とコヒーレント操作の研究を促進する。

We study the entanglement generation of two two-level giant atoms coupled to a photonic waveguide, which is formed by a Su-Schrieffer-Heeger (SSH) type coupled-cavity array. Here, each atom is coupled to the waveguide through two coupling points. We focus on the two-atom separate-coupling case, and consider sixteen coupling configurations for the coupling-point distributions between the two atoms and the waveguide. We derive quantum master equations to govern the evolution of the two atoms and characterize atomic entanglement by calculating the concurrence of the two-atom states. It is found that the two giant-atom entanglement depends on the coupling configurations and the coupling-point distance of the giant atoms. In particular, the entanglement dynamics of the two giant atoms in fourteen coupling configurations depends on the dimerization parameter of the SSH waveguide. According to the self-energies of the two giant atoms, we find that ten of these sixteen coupling configurations can be divided into five pairs. We also show that delayed sudden birth of entanglement between the two giant atoms is largely enhanced in these five pairs of coupling configurations. This work will promote the study of quantum effects and coherent manipulation in giant-atom topological-waveguide-QED systems.
翻訳日:2023-09-19 19:05:28 公開日:2023-09-16
# スタイル伝達に基づくインクリメンタルデータ拡張による新しい環境における視覚知覚の促進

Enhancing Visual Perception in Novel Environments via Incremental Data Augmentation Based on Style Transfer ( http://arxiv.org/abs/2309.08851v1 )

ライセンス: Link先を確認
Abhibha Gupta, Rully Agus Hendrawan, Mansur Arief(参考訳) 現実のシナリオにおける自律エージェントの展開は、「未知の未知」すなわち、劣化した兆候のようなトレーニング中に遭遇しない新しい予期せぬ環境によって挑戦される。 既存の研究は異常検出とクラス不均衡に焦点を当てているが、真に新しいシナリオに対処できないことが多い。 提案手法は, 変分プロトタイピングエンコーダ(VPE)を用いて, 新たな入力を積極的に識別し, 処理し, ニューラルスタイルの転送を用いてデータをインクリメンタルに拡張し, 未表現データを豊かにする。 原データセットのみにトレーニングされたモデルと、原データセットと増補データセットの組み合わせでトレーニングされたモデルを比較することにより、後者のパフォーマンスが顕著に向上した。 これはデータの強化がモデルの堅牢性を高める上で重要な役割を担っている。 以上の結果から,生成モデルの導入によるドメイン特化戦略の利点が示唆された。

The deployment of autonomous agents in real-world scenarios is challenged by "unknown unknowns", i.e. novel unexpected environments not encountered during training, such as degraded signs. While existing research focuses on anomaly detection and class imbalance, it often fails to address truly novel scenarios. Our approach enhances visual perception by leveraging the Variational Prototyping Encoder (VPE) to adeptly identify and handle novel inputs, then incrementally augmenting data using neural style transfer to enrich underrepresented data. By comparing models trained solely on original datasets with those trained on a combination of original and augmented datasets, we observed a notable improvement in the performance of the latter. This underscores the critical role of data augmentation in enhancing model robustness. Our findings suggest the potential benefits of incorporating generative models for domain-specific augmentation strategies.
翻訳日:2023-09-19 19:05:07 公開日:2023-09-16
# センチメントはパンデミック前のレベルに戻ったか? 2019年から2022年までの米国大学サブredditデータを用いた感情分析

Has Sentiment Returned to the Pre-pandemic Level? A Sentiment Analysis Using U.S. College Subreddit Data from 2019 to 2022 ( http://arxiv.org/abs/2309.08845v1 )

ライセンス: Link先を確認
Tian Yan and Fang Liu(参考訳) 新型コロナウイルスのパンデミックの影響が弱まる中、個人と社会は徐々にパンデミック前の活動に戻る。 本研究の目的は,パンデミック前の人々の感情が,パンデミック前から緊急後へと変化し,パンデミック前へと戻るかどうかを検討することである。 2019年(パンデミック前)、2020年(ピークパンデミック)、2021年、および2022年(パンデミック後期、緊急後移行期)のredditデータを、米国の128の大学/大学のサブredditから収集した。 我々は,事前学習したRoBERTa(Roustly Optimized BERT pre-training approach)とGAT(Graph attention network)の2つの感情セットを予測した。 各メッセージに対する感情ラベルを得た後、2019年から2022年までの感情の時間的傾向と学校レベルの要因が感情に与える影響を推定するために、一般化線形混合効果モデルを使用した。 2019年と比較して、2020年、2021年、2022年におけるネガティブ感情の確率は24%、4.3%、そして10.3%であり、いずれも統計的に有意である(調整された$p$<0.05)。 本研究は,パンデミック・緊急期における感情構成の部分的回復を示唆するものである。 結果は共通の期待と一致し、センチメントが2019年から2022年にかけてどのように進化したかの詳細な定量化を提供する。

As impact of COVID-19 pandemic winds down, both individuals and society gradually return to pre-pandemic activities. This study aims to explore how people's emotions have changed from the pre-pandemic during the pandemic to post-emergency period and whether it has returned to pre-pandemic level. We collected Reddit data in 2019 (pre-pandemic), 2020 (peak pandemic), 2021, and 2022 (late stages of pandemic, transitioning period to post-emergency period) from subreddits in 128 universities/colleges in the U.S., and a set of school-level characteristics. We predicted two sets of sentiments from a pre-trained Robustly Optimized BERT pre-training approach (RoBERTa) and graph attention network (GAT) that leverages both rich semantic and relational information among posted messages and then applied a logistic stacking method to obtain the final sentiment classification. After obtaining sentiment label for each message, we used a generalized linear mixed-effects model to estimate temporal trend in sentiment from 2019 to 2022 and how school-level factors may affect sentiment. Compared to the year 2019, the odds of negative sentiment in years 2020, 2021, and 2022 are 24%, 4.3%, and 10.3% higher, respectively, which are all statistically significant(adjusted $p$<0.05). Our study findings suggest a partial recovery in the sentiment composition in the post-pandemic-emergency era. The results align with common expectations and provide a detailed quantification of how sentiments have evolved from 2019 to 2022.
翻訳日:2023-09-19 19:04:48 公開日:2023-09-16
# THzアレイイメージングの新しいアプローチ:チュートリアルレビューとソフトウェアツール

Emerging Approaches for THz Array Imaging: A Tutorial Review and Software Tool ( http://arxiv.org/abs/2309.08844v1 )

ライセンス: Link先を確認
Josiah W. Smith, Murat Torlak(参考訳) 近年,5G,6G,Internet of Thingsによる注目が高まり,通信・センシング技術はミリ波(mmWave)からテラヘルツ(THz)へと急速に進歩している。 電磁(EM)ハードウェアの大幅な進歩によって、それぞれ30 GHzから300 GHz、300 GHzから3000 GHzにまたがるmmWaveとTHzの周波数レギュレーションが、多くのアプリケーションに利用できるようになった。 THzシステムの主な特徴は、高帯域伝送であり、超高解像度イメージングと高スループット通信を可能にするが、ハードウェアとアルゴリズムの両方における課題は、THz技術のユビキタスな採用のために残っている。 mmWaveとTHzの周波数からなるスペクトルは、材料特性や非破壊試験(NDT)のような幅広いタスクに対して、サブミリ秒の解像度で合成開口レーダ(SAR)イメージングに適している。 本稿では,信号処理と機械学習を組み合わせた新たなアルゴリズムに着目し,近分野におけるthz sarのシステムとアルゴリズムのチュートリアルレビューを行う。 本研究の一環として,セキュリティアプリケーションにおけるオブジェクト検出とsar画像の超解像に着目し,古典的かつデータ駆動型thz sarアルゴリズムの概要を述べる。 我々はまた、システムとアルゴリズムベンチマークの標準化、最先端のディープラーニング技術の採用、信号処理最適化機械学習、ハイブリッドデータ駆動信号処理アルゴリズムなど、新興アルゴリズムとTHz SARに関する関連する問題、課題、今後の研究方向性についても論じる。

Accelerated by the increasing attention drawn by 5G, 6G, and Internet of Things applications, communication and sensing technologies have rapidly evolved from millimeter-wave (mmWave) to terahertz (THz) in recent years. Enabled by significant advancements in electromagnetic (EM) hardware, mmWave and THz frequency regimes spanning 30 GHz to 300 GHz and 300 GHz to 3000 GHz, respectively, can be employed for a host of applications. The main feature of THz systems is high-bandwidth transmission, enabling ultra-high-resolution imaging and high-throughput communications; however, challenges in both the hardware and algorithmic arenas remain for the ubiquitous adoption of THz technology. Spectra comprising mmWave and THz frequencies are well-suited for synthetic aperture radar (SAR) imaging at sub-millimeter resolutions for a wide spectrum of tasks like material characterization and nondestructive testing (NDT). This article provides a tutorial review of systems and algorithms for THz SAR in the near-field with an emphasis on emerging algorithms that combine signal processing and machine learning techniques. As part of this study, an overview of classical and data-driven THz SAR algorithms is provided, focusing on object detection for security applications and SAR image super-resolution. We also discuss relevant issues, challenges, and future research directions for emerging algorithms and THz SAR, including standardization of system and algorithm benchmarking, adoption of state-of-the-art deep learning techniques, signal processing-optimized machine learning, and hybrid data-driven signal processing algorithms...
翻訳日:2023-09-19 19:04:15 公開日:2023-09-16
# MA-SAM : 3次元医用画像分割のためのモダリティ非依存SAM適応

MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image Segmentation ( http://arxiv.org/abs/2309.08842v1 )

ライセンス: Link先を確認
Cheng Chen, Juzheng Miao, Dufan Wu, Zhiling Yan, Sekeun Kim, Jiang Hu, Aoxiao Zhong, Zhengliang Liu, Lichao Sun, Xiang Li, Tianming Liu, Pheng-Ann Heng, Quanzheng Li(参考訳) 一般画像セグメンテーションの基礎モデルであるsegment anything model(sam)は、多数の自然画像セグメンテーションタスクで印象的なゼロショット性能を示している。 しかし、サムのパフォーマンスは、主に自然画像領域と医療画像領域のかなりの差のため、医療画像に適用すると著しく低下する。 samを医用画像に効果的に適応させるためには,音量的知識や時間的知識などの重要な3次元情報を取り込むことが重要である。 同時に、SAMのトレーニング済み重量を元の2Dバックボーン内で最大限に活用することを目指している。 本稿では,様々なボリュームおよびビデオ医療データに適用可能なモダリティ非依存なSAM適応フレームワークであるMA-SAMを紹介する。 本手法は,SAMのトレーニング済み重量の大部分を保存しながら,少量の重量増分だけを更新するパラメータ効率の高い微調整戦略に根ざしている。 画像エンコーダのトランスバータブロックに一連の3Dアダプタを注入することにより,事前学習した2Dバックボーンが入力データから3次元情報を抽出することができる。 提案手法の有効性を,CT,MRI,手術画像データにまたがる10の公開データセットを用いて,4つの画像分割作業において総合的に評価した。 驚くべきことに,この方法はプロンプトを使わずに,nnu-netを0.9%,2.6%,9.9%上回り,ctマルチオルガンセグメンテーション,mri前立腺セグメンテーション,外科的シーンセグメンテーションをそれぞれ上回っている。 また,本モデルでは高い一般化を示し,プロンプトを用いた場合の腫瘍セグメンテーションに長けている。 私たちのコードは、https://github.com/cchen-cc/MA-SAM.comで利用可能です。

The Segment Anything Model (SAM), a foundation model for general image segmentation, has demonstrated impressive zero-shot performance across numerous natural image segmentation tasks. However, SAM's performance significantly declines when applied to medical images, primarily due to the substantial disparity between natural and medical image domains. To effectively adapt SAM to medical images, it is important to incorporate critical third-dimensional information, i.e., volumetric or temporal knowledge, during fine-tuning. Simultaneously, we aim to harness SAM's pre-trained weights within its original 2D backbone to the fullest extent. In this paper, we introduce a modality-agnostic SAM adaptation framework, named as MA-SAM, that is applicable to various volumetric and video medical data. Our method roots in the parameter-efficient fine-tuning strategy to update only a small portion of weight increments while preserving the majority of SAM's pre-trained weights. By injecting a series of 3D adapters into the transformer blocks of the image encoder, our method enables the pre-trained 2D backbone to extract third-dimensional information from input data. The effectiveness of our method has been comprehensively evaluated on four medical image segmentation tasks, by using 10 public datasets across CT, MRI, and surgical video data. Remarkably, without using any prompt, our method consistently outperforms various state-of-the-art 3D approaches, surpassing nnU-Net by 0.9%, 2.6%, and 9.9% in Dice for CT multi-organ segmentation, MRI prostate segmentation, and surgical scene segmentation respectively. Our model also demonstrates strong generalization, and excels in challenging tumor segmentation when prompts are used. Our code is available at: https://github.com/cchen-cc/MA-SAM.
翻訳日:2023-09-19 19:03:49 公開日:2023-09-16
# aosr-net:オールインワンサンドストーム除去ネットワーク

AOSR-Net: All-in-One Sandstorm Removal Network ( http://arxiv.org/abs/2309.08838v1 )

ライセンス: Link先を確認
Yazhong Si, Xulong Zhang, Fan Yang, Jianzong Wang, Ning Cheng, Jing Xiao(参考訳) 既存のサンドストーム画像拡張法は、従来の理論と事前知識に基づいており、現実世界のシナリオでの適用性を制限することが多い。 さらに、これらの手法はしばしば色補正の戦略を採用し、塵を除去することでアルゴリズムの構造が複雑すぎる。 そこで本研究では,オールインワン砂嵐除去ネットワーク (AOSR-Net) と呼ばれる新しい画像復元モデルを提案する。 このモデルは,中間パラメータの統合により画像マッピング関係を直接確立する再形成サンドストーム散乱モデルに基づいて開発された。 このような統合方式は,砂塵画像強調の分野における過拡大と弱一般化の問題を効果的に解決する。 合成および実世界の砂嵐画像による実験結果は、最先端(SOTA)アルゴリズムよりもAOSR-Netの方が優れていることを示す。

Most existing sandstorm image enhancement methods are based on traditional theory and prior knowledge, which often restrict their applicability in real-world scenarios. In addition, these approaches often adopt a strategy of color correction followed by dust removal, which makes the algorithm structure too complex. To solve the issue, we introduce a novel image restoration model, named all-in-one sandstorm removal network (AOSR-Net). This model is developed based on a re-formulated sandstorm scattering model, which directly establishes the image mapping relationship by integrating intermediate parameters. Such integration scheme effectively addresses the problems of over-enhancement and weak generalization in the field of sand dust image enhancement. Experimental results on synthetic and real-world sandstorm images demonstrate the superiority of the proposed AOSR-Net over state-of-the-art (SOTA) algorithms.
翻訳日:2023-09-19 19:03:14 公開日:2023-09-16
# チャットボットのバイアスと公平性:概要

Bias and Fairness in Chatbots: An Overview ( http://arxiv.org/abs/2309.08836v1 )

ライセンス: Link先を確認
Jintang Xue, Yun-Cheng Wang, Chengwei Wei, Xiaofeng Liu, Jonghye Woo, C.-C. Jay Kuo(参考訳) チャットボットは半世紀以上研究されてきた。 近年,自然言語処理(NLP)技術の急速な発展に伴い,大規模言語モデル(LLM)を用いたチャットボットが注目されている。 従来のチャットボットと比較すると、現代のチャットボットはより強力で、現実世界のアプリケーションで使われている。 しかし、現代のチャットボット設計にはバイアスと公平性に関する懸念がある。 膨大なトレーニングデータ、非常に大きなモデルサイズ、解釈可能性の欠如、バイアス緩和、そして現代のチャットボットの公平性保存は困難である。 そこで本稿では,チャットボットシステムにおけるバイアスと公平性について概観する。 チャットボットの歴史とそのカテゴリを最初にレビューする。 次に、バイアス源とアプリケーションにおける潜在的な害を分析する。 公正なチャットボットシステムを設計する際の考察について考察する。 最後に今後の研究方針について述べる。

Chatbots have been studied for more than half a century. With the rapid development of natural language processing (NLP) technologies in recent years, chatbots using large language models (LLMs) have received much attention nowadays. Compared with traditional ones, modern chatbots are more powerful and have been used in real-world applications. There are however, bias and fairness concerns in modern chatbot design. Due to the huge amounts of training data, extremely large model sizes, and lack of interpretability, bias mitigation and fairness preservation of modern chatbots are challenging. Thus, a comprehensive overview on bias and fairness in chatbot systems is given in this paper. The history of chatbots and their categories are first reviewed. Then, bias sources and potential harms in applications are analyzed. Considerations in designing fair and unbiased chatbot systems are examined. Finally, future research directions are discussed.
翻訳日:2023-09-19 19:02:59 公開日:2023-09-16
# ディファレンシャルニューラルコンピューティングによる非構造化環境で動作するインテリジェントマシン

Intelligent machines work in unstructured environments by differential neural computing ( http://arxiv.org/abs/2309.08835v1 )

ライセンス: Link先を確認
Shengbo Wang, Shuo Gao, Chenyu Tang, Cong Li, Shurui Wang, Jiaqi Wang, Hubin Zhao, Guohua Hu, Arokia Nathan, Ravinder Dahiya, Luigi Occhipinti(参考訳) インテリジェントマシンが現実世界で効率的に動作することを期待するには、未知の環境における非構造化情報を理解する新しい方法が必要である。 本研究では,環境情報の主な特徴を抽出し,関連する符号化刺激をmemristorに適用することにより,機械刺激の増幅(>720%)や適応(>50%)といった非構造化環境情報を処理するためのヒューマンライクな能力を得ることに成功した。 この方法は優れたスケーラビリティと一般化を示し、インテリジェントマシンの典型的な応用であるオブジェクト把握と自律運転の2つで検証されている。 前者では、未知の物体の特徴(シャープコーナーや滑らかな表面など)を1ミリ秒で学習し、安全で安定した把持を実現する。後者では、自律運転における10の非構造化環境(例えば、車や歩行者)の意思決定情報を、40x25のmemristorアレイで正確に(94%)抽出する。 電子記憶型ニューラルネットワークにおける人間の低レベル知覚機構の本質的な性質を模倣することにより、提案手法は多様なセンシング技術に適応し、インテリジェントマシンが現実世界でスマートな高レベルな決定を下すのに役立つ。

Expecting intelligent machines to efficiently work in real world requires a new method to understand unstructured information in unknown environments with good accuracy, scalability and generalization, like human. Here, a memristive neural computing based perceptual signal differential processing and learning method for intelligent machines is presented, via extracting main features of environmental information and applying associated encoded stimuli to memristors, we successfully obtain human-like ability in processing unstructured environmental information, such as amplification (>720%) and adaptation (<50%) of mechanical stimuli. The method also exhibits good scalability and generalization, validated in two typical applications of intelligent machines: object grasping and autonomous driving. In the former, a robot hand experimentally realizes safe and stable grasping, through learning unknown object features (e.g., sharp corner and smooth surface) with a single memristor in 1 ms. In the latter, the decision-making information of 10 unstructured environments in autonomous driving (e.g., overtaking cars, pedestrians) are accurately (94%) extracted with a 40x25 memristor array. By mimicking the intrinsic nature of human low-level perception mechanisms in electronic memristive neural circuits, the proposed method is adaptable to diverse sensing technologies, helping intelligent machines to generate smart high-level decisions in real world.
翻訳日:2023-09-19 19:02:48 公開日:2023-09-16
# SLIDE:スライディングドキュメンテーションウィンドウを用いた機械翻訳の参照不要評価

SLIDE: Reference-free Evaluation for Machine Translation using a Sliding Document Window ( http://arxiv.org/abs/2309.08832v1 )

ライセンス: Link先を確認
Vikas Raunak, Tom Kocmi, Matt Post(参考訳) 文レベルで運用される参照ベースのメトリクスは、典型的には、ソースとシステム出力にのみアクセス可能な品質推定メトリクスよりも優れている。 なぜなら、参照はソースに存在する可能性のある曖昧さを解消するからである。 追加のソースコンテキストが参照を効果的に置き換えられるかどうかを検討する。 これはテストセット内の各ドキュメントをスライディングするウィンドウを使用して文ブロック上で動作し、各チャンクを修正されていない、既定の品質推定モデルに送出する。 SLIDEは,基準基準値との差をなくす場合もあり,文レベルベースラインよりもはるかに高いペアワイズシステム精度が得られることがわかった。 これは、ソースコンテキストが人間の参照と同じ情報を提供する可能性があることを示唆している。

Reference-based metrics that operate at the sentence level typically outperform quality estimation metrics, which have access only to the source and system output. This is unsurprising, since references resolve ambiguities that may be present in the source. We investigate whether additional source context can effectively substitute for a reference. We present a metric, SLIDE (SLiding Document Evaluator), which operates on blocks of sentences using a window that slides over each document in the test set, feeding each chunk into an unmodified, off-the-shelf quality estimation model. We find that SLIDE obtains significantly higher pairwise system accuracy than its sentence-level baseline, in some cases even eliminating the gap with reference-base metrics. This suggests that source context may provide the same information as a human reference.
翻訳日:2023-09-19 19:02:17 公開日:2023-09-16
# 確率的保証者による象徴的、統計的AI統合のための満足度モデュロの解決

Solving Satisfiability Modulo Counting for Symbolic and Statistical AI Integration With Provable Guarantees ( http://arxiv.org/abs/2309.08883v1 )

ライセンス: Link先を確認
Jinzhao Li, Nan Jiang, Yexiang Xue(参考訳) SMC(Satifiability Modulo Counting)は、象徴的な意思決定と統計的推論の両方を必要とする問題を含む。 その一般的な定式化は、象徴的および統計的人工知能の交差点で多くの現実世界の問題を捉えている。 SMCは確率的結果を制御するための政策介入を探索する。 SMCの解法は、非常に難解な性質($\text{NP}^{\text{PP}}$-complete)のために困難であり、統計的推論と記号的推論を取り入れている。 SMC解決に関するこれまでの研究は、特に組合せ制約が存在する場合、証明可能な保証が欠如し、また/または準最適経験的性能に悩まされている。 本稿では,NPオーラへのアクセスが可能な多項式アルゴリズムであるXOR-SMCを提案する。 XOR-SMCは、SMCで数えられるモデルを、ランダムなXOR制約を受けるSAT式に置き換えることで、非常に難解なSMCを満足できる問題に変換する。 社会的善のためのAIにおける重要なSMC問題の解決に関する実験は、XOR-SMCが真に最適に近い解を見つけることを示した。

Satisfiability Modulo Counting (SMC) encompasses problems that require both symbolic decision-making and statistical reasoning. Its general formulation captures many real-world problems at the intersection of symbolic and statistical Artificial Intelligence. SMC searches for policy interventions to control probabilistic outcomes. Solving SMC is challenging because of its highly intractable nature($\text{NP}^{\text{PP}}$-complete), incorporating statistical inference and symbolic reasoning. Previous research on SMC solving lacks provable guarantees and/or suffers from sub-optimal empirical performance, especially when combinatorial constraints are present. We propose XOR-SMC, a polynomial algorithm with access to NP-oracles, to solve highly intractable SMC problems with constant approximation guarantees. XOR-SMC transforms the highly intractable SMC into satisfiability problems, by replacing the model counting in SMC with SAT formulae subject to randomized XOR constraints. Experiments on solving important SMC problems in AI for social good demonstrate that XOR-SMC finds solutions close to the true optimum, outperforming several baselines which struggle to find good approximations for the intractable model counting in SMC.
翻訳日:2023-09-19 18:54:08 公開日:2023-09-16
# chatgpt-4とコードインタプリタは、初歩的な大学レベルのベクトル計算と電磁気問題を解くのに使える

ChatGPT-4 with Code Interpreter can be used to solve introductory college-level vector calculus and electromagnetism problems ( http://arxiv.org/abs/2309.08881v1 )

ライセンス: Link先を確認
Tanuj Kumar and Mikhail A. Kats(参考訳) chatgpt 3.5, 4, 4を大学レベルの工学計算と電磁気学の問題に対してコードインタプリタを用いて評価した。 私たちは13の問題を選択し、ChatGPTを複数回、毎回新しいインスタンス(チャット)を使って解決させました。 Code Interpreterを使ったChatGPT-4は、ほとんどの時間でテストしたほとんどの問題を解決することができました。 ChatGPTの性能はやや確率的であり、新しいChatGPTインスタンスで同じ問題をN回解決し、最も一般的な答えを取ることが効果的な戦略であることがわかった。 本研究の結果と観察結果に基づき,このレベルにおける授業指導者および学生に対して,いくつかの推奨事項を提供する。

We evaluated ChatGPT 3.5, 4, and 4 with Code Interpreter on a set of college-level engineering-math and electromagnetism problems, such as those often given to sophomore electrical engineering majors. We selected a set of 13 problems, and had ChatGPT solve them multiple times, using a fresh instance (chat) each time. We found that ChatGPT-4 with Code Interpreter was able to satisfactorily solve most problems we tested most of the time -- a major improvement over the performance of ChatGPT-4 (or 3.5) without Code Interpreter. The performance of ChatGPT was observed to be somewhat stochastic, and we found that solving the same problem N times in new ChatGPT instances and taking the most-common answer was an effective strategy. Based on our findings and observations, we provide some recommendations for instructors and students of classes at this level.
翻訳日:2023-09-19 18:53:46 公開日:2023-09-16
# リアルタイムかつ効率的な強化学習アルゴリズムを用いたデータ駆動型Hインフィニティ制御:自律型モビリティ・オン・デスマンドシステムへの応用

Data-Driven H-infinity Control with a Real-Time and Efficient Reinforcement Learning Algorithm: An Application to Autonomous Mobility-on-Demand Systems ( http://arxiv.org/abs/2309.08880v1 )

ライセンス: Link先を確認
Ali Aalipour and Alireza Khani(参考訳) 強化学習(Reinforcement Learning、RL)は、オンライン学習を通じて最適なコントローラを設計するために使用される人工知能アルゴリズムのクラスである。 本稿では,線形離散時間系のH$_{\infty}$制御を解くために,モデルフリー,リアルタイム,データ効率のQ学習に基づくアルゴリズムを提案する。 計算複雑性は文献では$\mathcal{o}(\underline{q}^3)$ から、提案されたアルゴリズムでは$\mathcal{o}(\underline{q}^2)$ となる。 適応最適制御器を設計し、動作パラメータと批評家ネットワークのパラメータをシステムダイナミクスの知識なしにオンラインで学習し、提案アルゴリズムを完全にモデルフリーにする。 また、十分な検出ノイズは最初のイテレーションでのみ必要であり、提案アルゴリズムには影響を与えない。 初期安定化ポリシーを必要とせず、アルゴリズムはリッカティ方程式を解くことで得られる閉形式解に収束する。 提案手法の有効性を評価するために,提案アルゴリズムを実世界における自律移動オンデマンドシステム(amod)のリアルタイム制御に適用し,シミュレーション実験を行った。

Reinforcement learning (RL) is a class of artificial intelligence algorithms being used to design adaptive optimal controllers through online learning. This paper presents a model-free, real-time, data-efficient Q-learning-based algorithm to solve the H$_{\infty}$ control of linear discrete-time systems. The computational complexity is shown to reduce from $\mathcal{O}(\underline{q}^3)$ in the literature to $\mathcal{O}(\underline{q}^2)$ in the proposed algorithm, where $\underline{q}$ is quadratic in the sum of the size of state variables, control inputs, and disturbance. An adaptive optimal controller is designed and the parameters of the action and critic networks are learned online without the knowledge of the system dynamics, making the proposed algorithm completely model-free. Also, a sufficient probing noise is only needed in the first iteration and does not affect the proposed algorithm. With no need for an initial stabilizing policy, the algorithm converges to the closed-form solution obtained by solving the Riccati equation. A simulation study is performed by applying the proposed algorithm to real-time control of an autonomous mobility-on-demand (AMoD) system for a real-world case study to evaluate the effectiveness of the proposed algorithm.
翻訳日:2023-09-19 18:53:30 公開日:2023-09-16
# 確率グラフを用いたテキストデータの意味情報抽出

Semantic Information Extraction for Text Data with Probability Graph ( http://arxiv.org/abs/2309.08879v1 )

ライセンス: Link先を確認
Zhouxiang Zhao, Zhaohui Yang, Ye Hu, Licheng Lin, Zhaoyang Zhang(参考訳) 本稿では,資源制約付きテキストデータ伝送における意味情報抽出の問題について検討する。 検討されたモデルでは、テキストデータのシーケンスは、限られたデータ転送しかできない通信リソース制約付きネットワーク内で送信する必要がある。 したがって、送信機では、原文データを自然言語処理技術を用いて抽出する。 そして、抽出した意味情報を知識グラフにキャプチャする。 このグラフでは、各情報の重要性を捉えるために、さらなる確率次元が導入された。 この意味情報抽出問題は、送信のための最も重要な意味情報を抽出する最適化フレームワークとして提案される。 この問題に対する最適解を求めるために,効率的なソート機構を組み込んだフロイドアルゴリズムに基づく解を提案する。 提案手法の有効性を,意味的不確かさと意味的類似性を含む2つの新しい性能指標を用いて検証した。

In this paper, the problem of semantic information extraction for resource constrained text data transmission is studied. In the considered model, a sequence of text data need to be transmitted within a communication resource-constrained network, which only allows limited data transmission. Thus, at the transmitter, the original text data is extracted with natural language processing techniques. Then, the extracted semantic information is captured in a knowledge graph. An additional probability dimension is introduced in this graph to capture the importance of each information. This semantic information extraction problem is posed as an optimization framework whose goal is to extract most important semantic information for transmission. To find an optimal solution for this problem, a Floyd's algorithm based solution coupled with an efficient sorting mechanism is proposed. Numerical results testify the effectiveness of the proposed algorithm with regards to two novel performance metrics including semantic uncertainty and semantic similarity.
翻訳日:2023-09-19 18:53:04 公開日:2023-09-16
# X-PARADE: パラグラフ間の言語間テキストの包含と情報の多様性

X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs ( http://arxiv.org/abs/2309.08873v1 )

ライセンス: Link先を確認
Juan Diego Rodriguez, Katrin Erk, Greg Durrett(参考訳) 2つのテキストが同じ情報を伝達する際の理解は、テキストのエンテーメントやファクトチェックを含む、NLPの多くのサブプロブレムに触れるゴールである。 この2つのテキストが異なる言語である場合、この問題はより複雑になる。 本稿では,第1の言語横断データセットであるx-parade (cross-lingual paragraph-level analysis of divergences and entailments) を紹介する。 アノテーションは、目的言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落について評価し、所定の情報が同じ、新しい、あるいは新しいものであるかを示すが、推測することができる。 この最後の概念は、言語間NLIとのリンクを確立する。 整列した段落は、異なる言語のwikipediaページから出され、野生で観察される実際の情報の多様性を反映している。 当社のデータセットを用いて,機械翻訳からの古典的なトークンアライメント,決定を局所化するテキストによる補足手法,大規模言語モデルの推進など,この問題に対するさまざまなアプローチを調査した。 以上の結果から,これらの手法は推定不可能な情報を扱う能力に異なるが,いずれも人的性能に欠けることがわかった。

Understanding when two pieces of text convey the same information is a goal touching many subproblems in NLP, including textual entailment and fact-checking. This problem becomes more complex when those two pieces of text are in different languages. Here, we introduce X-PARADE (Cross-lingual Paragraph-level Analysis of Divergences and Entailments), the first cross-lingual dataset of paragraph-level information divergences. Annotators label a paragraph in a target language at the span level and evaluate it with respect to a corresponding paragraph in a source language, indicating whether a given piece of information is the same, new, or new but can be inferred. This last notion establishes a link with cross-language NLI. Aligned paragraphs are sourced from Wikipedia pages in different languages, reflecting real information divergences observed in the wild. Armed with our dataset, we investigate a diverse set of approaches for this problem, including classic token alignment from machine translation, textual entailment methods that localize their decisions, and prompting of large language models. Our results show that these methods vary in their capability to handle inferable information, but they all fall short of human performance.
翻訳日:2023-09-19 18:52:52 公開日:2023-09-16
# PDFTriage:長い構造化ドキュメントに対する質問回答

PDFTriage: Question Answering over Long, Structured Documents ( http://arxiv.org/abs/2309.08872v1 )

ライセンス: Link先を確認
Jon Saad-Falcon, Joe Barrow, Alexa Siu, Ani Nenkova, Ryan A. Rossi, Franck Dernoncourt(参考訳) 大規模言語モデル(LLM)は、文書がLLMの小さなコンテキスト長に収まらない状況において、文書質問応答(QA)に問題がある。 この問題を克服するために、既存の作品の多くは文書から関連するコンテキストを取得し、それらを平易なテキストとして表現することに焦点を当てている。 しかし、PDF、Webページ、プレゼンテーションなどのドキュメントは、異なるページ、テーブル、セクションなどで自然に構造化されている。 このような構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザのメンタルモデルと矛盾する。 システムが文書にコンテキストを問い合わせる必要がある場合、この矛盾が前面に持ち込まれ、一見自明な質問がQAシステムに反映される。 構造化ドキュメントを扱う上でのこの根本的なギャップを埋めるため、pdftriageと呼ばれるアプローチを提案し、モデルが構造とコンテンツの両方に基づいてコンテキストを検索できるようにする。 本実験は,既存の検索拡張LPMが失敗する問題に対して,提案したPDFTriage-augmented Modelの有効性を示す。 そこで本研究では,文書QAのための10種類の質問タイプから,80以上の構造化文書に900以上の人間が生成した質問からなるベンチマークデータセットを作成した。

Large Language Models (LLMs) have issues with document question answering (QA) in situations where the document is unable to fit in the small context length of an LLM. To overcome this issue, most existing works focus on retrieving the relevant context from the document, representing them as plain text. However, documents such as PDFs, web pages, and presentations are naturally structured with different pages, tables, sections, and so on. Representing such structured documents as plain text is incongruous with the user's mental model of these documents with rich structure. When a system has to query the document for context, this incongruity is brought to the fore, and seemingly trivial questions can trip up the QA system. To bridge this fundamental gap in handling structured documents, we propose an approach called PDFTriage that enables models to retrieve the context based on either structure or content. Our experiments demonstrate the effectiveness of the proposed PDFTriage-augmented models across several classes of questions where existing retrieval-augmented LLMs fail. To facilitate further research on this fundamental problem, we release our benchmark dataset consisting of 900+ human-generated questions over 80 structured documents from 10 different categories of question types for document QA.
翻訳日:2023-09-19 18:52:29 公開日:2023-09-16
# mhlat: 自動icd符号化のためのマルチホップラベルワイズ注意モデル

MHLAT: Multi-hop Label-wise Attention Model for Automatic ICD Coding ( http://arxiv.org/abs/2309.08868v1 )

ライセンス: Link先を確認
Junwen Duan, Han Jiang and Ying Yu(参考訳) 国際疾患分類(ICD)コーディングは、ICDの診断コードを臨床ノートに割り当てる作業である。 大量のラベル(約9000枚)と長いテキスト(最大8000枚までのトークン)を考えると、これは困難である。 しかし、以前の作品のシングルパス読解プロセスとは異なり、人間はテキストを読み、より自信のある回答を得るために定義をラベル付けする傾向がある。 さらに、これらの問題に対処するために事前学習された言語モデルが使われてきたが、膨大なメモリ使用量に苦しめられている。 上記の問題に対処するために,マルチホップラベルワイズ・アテンション(mhlat)と呼ばれる,より正確な情報表現を得るためにマルチホップラベルワイズアテンションを配置する簡易かつ効果的なモデルを提案する。 3つのベンチマークMIMICデータセットの大規模な実験は、我々の手法が7つの指標すべてに対して、はるかに優れた、または競合的な性能を達成し、最適化するパラメータがはるかに少ないことを示唆している。

International Classification of Diseases (ICD) coding is the task of assigning ICD diagnosis codes to clinical notes. This can be challenging given the large quantity of labels (nearly 9,000) and lengthy texts (up to 8,000 tokens). However, unlike the single-pass reading process in previous works, humans tend to read the text and label definitions again to get more confident answers. Moreover, although pretrained language models have been used to address these problems, they suffer from huge memory usage. To address the above problems, we propose a simple but effective model called the Multi-Hop Label-wise ATtention (MHLAT), in which multi-hop label-wise attention is deployed to get more precise and informative representations. Extensive experiments on three benchmark MIMIC datasets indicate that our method achieves significantly better or competitive performance on all seven metrics, with much fewer parameters to optimize.
翻訳日:2023-09-19 18:52:07 公開日:2023-09-16
# twitter上でのcovid-19関連メディア消費の測定

Measuring COVID-19 Related Media Consumption on Twitter ( http://arxiv.org/abs/2309.08866v1 )

ライセンス: Link先を確認
Cai Yang(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、2020年以来、世界に大きな影響を与えている。 ロックダウン中の物理的相互作用の最小限の可用性により、ソーシャルメディアプラットフォーム上でのオンライン活動に切り替える人が増えている。 これらのプラットフォームはパンデミックに関する重要なアップデートを提供し、コミュニケーションのための橋として機能している。 その間に異なるプラットフォーム上でのこれらのコミュニケーションの研究が出現する。 先行研究は、トピックモデリング、感情分析、予測タスク、新型コロナウイルス陽性例の予測、誤情報拡散などの分野に焦点を当てている。 しかし、メディアとのオンラインコミュニケーションは国際規模ではまだ探索されていない。 地理的にメディア消費のパターンや、オフラインの政治的嗜好との関連についてはほとんど知識がない。 これらの問題に取り組むことで、政府や研究者がパンデミック時の人間の行動をより理解できるようになるとわれわれは信じている。 本論では,Twitter上でのメディアのオンライン消費について,定量的分析を通じて検討する。 我々は、いくつかの公開メディアアウトレットデータセットを使用して、covid-19キーワードマッチングに基づいて収集されたツイートからメディア消費を抽出する。 重み付けされたTwitter活動を通じてメディア消費を定量化するために,メトリック"インタラクション"を活用している。 我々はさらに,異なる粒度でユーザメディアの消費を直接測定するために使用できるマトリックスを構築した。 その後、米国と世界のレベルで分析を行います。 この論文は、新型コロナウイルス(COVID-19)の各国におけるメディア消費に関する初めての研究であり、パンデミックの間、人々がメディアをどう消費するかを理解することに光を当てています。

The COVID-19 pandemic has been affecting the world dramatically ever since 2020. The minimum availability of physical interactions during the lockdown has caused more and more people to turn to online activities on social media platforms. These platforms have provided essential updates regarding the pandemic, serving as bridges for communications. Research on studying these communications on different platforms emerges during the meantime. Prior studies focus on areas such as topic modeling, sentiment analysis and prediction tasks such as predicting COVID-19 positive cases, misinformation spread, etc. However, online communications with media outlets remain unexplored on an international scale. We have little knowledge about the patterns of the media consumption geographically and their association with offline political preference. We believe addressing these questions could help governments and researchers better understand human behaviors during the pandemic. In this thesis, we specifically investigate the online consumption of media outlets on Twitter through a set of quantitative analyses. We make use of several public media outlet datasets to extract media consumption from tweets collected based on COVID-19 keyword matching. We make use of a metric "interaction" to quantify media consumption through weighted Twitter activities. We further construct a matrix based on it which could be directly used to measure user-media consumption in different granularities. We then conduct analyses on the United States level and global level. To the best of our knowledge, this thesis presents the first-of-its-kind study on media consumption on COVID-19 across countries, it sheds light on understanding how people consume media outlets during the pandemic and provides potential insights for peer researchers.
翻訳日:2023-09-19 18:51:50 公開日:2023-09-16
# スライディングモード制御とディープラーニングを用いたスリップ・スキッド補償を用いたスキッドステアリング移動ロボットの軌道追従制御

Trajectory Tracking Control of Skid-Steering Mobile Robots with Slip and Skid Compensation using Sliding-Mode Control and Deep Learning ( http://arxiv.org/abs/2309.08863v1 )

ライセンス: Link先を確認
Payam Nourizadeh, Fiona J Stevens McFadden, Will N Browne(参考訳) スリップとスキッド補償は、屋外環境や不均一な地形における移動ロボットの航行に不可欠である。 屋外環境における移動ロボットの一般的な滑りやスキディングの危険性に加えて、滑りやスキッドは軌道追尾システムの不確実性を引き起こし、安定性解析の妥当性を危険にさらす。 この分野での研究にもかかわらず、実世界のオンラインスリップとスキッド補償は、屋外環境でのホイール・テライン相互作用の複雑さのため、依然として困難である。 本稿では,屋外におけるスキッドステアリング型移動ロボットのための実世界のオンラインスリップとスキッド補償を用いた新しい軌道追跡手法を提案する。 このスライディングモード制御技術を用いて、ロバストな軌道追跡システムを設計し、このタイプのロボットのパラメータの不確かさを考慮できる。 従来開発された2つのディープラーニングモデル[1],[2]を制御フィードバックループに統合し、ロボットの滑走と望ましくないスキディングを推定し、補償器をリアルタイムに供給する。 提案手法の主な利点は,(1)車輪レベルでの従来の3つのスリップパラメータよりも2つのスリップ関連パラメータを考慮し,(2)オンライン実世界で実現可能なスリップとスキッド補償装置を備え,予期せぬ環境での追跡誤差を低減できる点である。 実験の結果,スリップ・スキッド補償器を用いた制御器は,軌道追尾システムの性能を27%以上向上させることがわかった。

Slip and skid compensation is crucial for mobile robots' navigation in outdoor environments and uneven terrains. In addition to the general slipping and skidding hazards for mobile robots in outdoor environments, slip and skid cause uncertainty for the trajectory tracking system and put the validity of stability analysis at risk. Despite research in this field, having a real-world feasible online slip and skid compensation is still challenging due to the complexity of wheel-terrain interaction in outdoor environments. This paper presents a novel trajectory tracking technique with real-world feasible online slip and skid compensation at the vehicle-level for skid-steering mobile robots in outdoor environments. The sliding mode control technique is utilized to design a robust trajectory tracking system to be able to consider the parameter uncertainty of this type of robot. Two previously developed deep learning models [1], [2] are integrated into the control feedback loop to estimate the robot's slipping and undesired skidding and feed the compensator in a real-time manner. The main advantages of the proposed technique are (1) considering two slip-related parameters rather than the conventional three slip parameters at the wheel-level, and (2) having an online real-world feasible slip and skid compensator to be able to reduce the tracking errors in unforeseen environments. The experimental results show that the proposed controller with the slip and skid compensator improves the performance of the trajectory tracking system by more than 27%.
翻訳日:2023-09-19 18:51:27 公開日:2023-09-16
# 大規模言語モデル時代における学習速度チューニングの再考

Rethinking Learning Rate Tuning in the Era of Large Language Models ( http://arxiv.org/abs/2309.08859v1 )

ライセンス: Link先を確認
Hongpeng Jin, Wenqi Wei, Xuyu Wang, Wenbin Zhang, Yanzhao Wu(参考訳) 大規模言語モデル(LLM)は、人間のような優れた予測性能を達成するためのディープラーニングの成功を表している。 LLMトレーニングに伴う禁忌費用のため、様々な現実の応用に適用するために微調整を活用することが主流となっている。 学習速度は、微調整効率と微調整LDMの品質の両方に直接的な影響を及ぼすLLM微細調整における最も重要なハイパーパラメータの1つである。 既存の学習率ポリシは主に、従来のディープニューラルネットワーク(DNN)のトレーニング用に設計されている。 我々は,今後の大規模言語モデルにおける学習率チューニングの課題と機会を再評価する。 本稿は3つのオリジナルコントリビュートを示す。 まず,LLM時代の学習率調整における重要な課題を分析するために,既存の学習率ポリシーを再検討する。 次に、LRBench++を用いて学習率ポリシーのベンチマークを行い、従来のDNNとLLMの学習率チューニングを容易にする。 第3に、LRBench++を用いた実験分析は、LLM微調整と従来のDNNトレーニングの主な違いを示し、分析を検証する。

Large Language Models (LLMs) represent the recent success of deep learning in achieving remarkable human-like predictive performance. It has become a mainstream strategy to leverage fine-tuning to adapt LLMs for various real-world applications due to the prohibitive expenses associated with LLM training. The learning rate is one of the most important hyperparameters in LLM fine-tuning with direct impacts on both fine-tuning efficiency and fine-tuned LLM quality. Existing learning rate policies are primarily designed for training traditional deep neural networks (DNNs), which may not work well for LLM fine-tuning. We reassess the research challenges and opportunities of learning rate tuning in the coming era of Large Language Models. This paper makes three original contributions. First, we revisit existing learning rate policies to analyze the critical challenges of learning rate tuning in the era of LLMs. Second, we present LRBench++ to benchmark learning rate policies and facilitate learning rate tuning for both traditional DNNs and LLMs. Third, our experimental analysis with LRBench++ demonstrates the key differences between LLM fine-tuning and traditional DNN training and validates our analysis.
翻訳日:2023-09-19 18:50:59 公開日:2023-09-16
# AI応用のためのTPUの探索

Exploration of TPUs for AI Applications ( http://arxiv.org/abs/2309.08918v1 )

ライセンス: Link先を確認
Diego Sanmart\'in Carri\'on, Vera Prohaska(参考訳) Tensor Processing Units (TPU) は、Googleが開発したディープラーニングのためのハードウェアアクセラレーターである。 本稿では,AIに着目したTPUの性能とエッジコンピューティングの実装について述べる。 まず、TPUの概要、特にニューラルネットワークに関する設計、一般的なアーキテクチャ、コンパイルテクニック、サポートフレームワークについて説明する。 さらに,他のチップアーキテクチャと比較して,クラウドとエッジTPUの性能の比較分析を行った。 次に、AIワークロードの高速化にTPUを使用する方法について議論する。 その結果,クラウドとエッジコンピューティングの両方において,TPUは大幅なパフォーマンス向上を実現することができた。 さらに、Edge TPUにより多くのアーキテクチャを配置するためのさらなる研究の必要性や、エッジコンピューティングにおけるより堅牢な比較の開発の必要性にも対処する。

Tensor Processing Units (TPUs) are specialized hardware accelerators for deep learning developed by Google. This paper explores the performance of TPU with a focus on AI and its implementation in edge computing. It first provides an overview of TPUs, specifically their design in relation to neural networks, their general architecture, compilation techniques and supporting frameworks. Furthermore, we provide a comparative analysis of Cloud and Edge TPU performance against other counterpart chip architectures. It is then discussed how TPUs can be used to speed up AI workloads. The results show that TPUs can provide significant performance improvements both in cloud and edge computing. Additionally, we address the need for further research for the deployment of more architectures in the Edge TPU, as well as the need for the development of more robust comparisons in edge computing.
翻訳日:2023-09-19 18:46:17 公開日:2023-09-16
# アルツハイマー病の脳構造-機能結合を表す双方向グラフgan

Bidirectional Graph GAN: Representing Brain Structure-Function Connections for Alzheimer's Disease ( http://arxiv.org/abs/2309.08916v1 )

ライセンス: Link先を確認
Shuqiang Wang, Chen Ding(参考訳) 脳の構造と機能の関係は、アルツハイマー病(AD)を含む脳疾患の病因を明らかにするために重要である。 しかし、様々な理由から、脳の構造-機能接続をマッピングすることは大きな課題である。 本研究では,脳構造-機能結合を表すために,双方向グラフ生成対向ネットワーク(BGGAN)を提案する。 具体的には、内部グラフ畳み込みネットワーク(InnerGCN)を組み込んだモジュールを設計することにより、BGGANのジェネレータは、直接および間接的な脳領域の機能を用いて、構造ドメインと機能ドメインの間のマッピング機能を学ぶことができる。 さらに、新しいモジュールである balancer は、ジェネレータと判別器の間の最適化を偽装するように設計されている。 バランサをBGGANに導入することで、構造発電機と機能発電機の両方がモード崩壊の問題を軽減するだけでなく、構造的および機能的特徴の相補性を学ぶことができる。 ADNIデータセットを用いた実験結果から、生成された構造接続と生成された関数接続の両方がADの識別精度を向上させることが示された。 さらに,提案モデルに基づき,脳の構造と機能の関係は完全な1対1対応ではないことがわかった。 脳構造は脳機能の基礎である。 強い構造接続は、ほとんど強い機能接続を伴っている。

The relationship between brain structure and function is critical for revealing the pathogenesis of brain disease, including Alzheimer's disease (AD). However, it is a great challenge to map brain structure-function connections due to various reasons. In this work, a bidirectional graph generative adversarial networks (BGGAN) is proposed to represent brain structure-function connections. Specifically, by designing a module incorporating inner graph convolution network (InnerGCN), the generators of BGGAN can employ features of direct and indirect brain regions to learn the mapping function between structural domain and functional domain. Besides, a new module named Balancer is designed to counterpoise the optimization between generators and discriminators. By introducing the Balancer into BGGAN, both the structural generator and functional generator can not only alleviate the issue of mode collapse but also learn complementarity of structural and functional features. Experimental results using ADNI datasets show that the both the generated structure connections and generated function connections can improve the identification accuracy of AD. More importantly, based the proposed model, it is found that the relationship between brain structure and function is not a complete one-to-one correspondence. Brain structure is the basis of brain function. The strong structural connections are almost accompanied by strong functional connections.
翻訳日:2023-09-19 18:46:06 公開日:2023-09-16
# 生成モデルの統計的チューリングテスト

A Statistical Turing Test for Generative Models ( http://arxiv.org/abs/2309.08913v1 )

ライセンス: Link先を確認
Hayden Helm and Carey E. Priebe and Weiwei Yang(参考訳) テキスト、オーディオ、ビジョンなどの領域におけるコンテンツ生成のためのAIシステムの人間ライクな能力の出現は、コンテンツが人間または機械に由来するかどうかを判断する分類器の開発を促している。 これらの取り組みにおいて暗黙的なことは、人間の世代特性が機械と異なるという仮定である。 本研究では,評価コンテキストに条件付けされた人間と機械生成コンテンツの分布の違いを定量化する,統計的パターン認識の言語におけるフレームワークを提供する。 フレームワークの文脈における現在の手法を解説し、多くの分析軸の中で、生成モデルの人間的能力への進歩を評価するためのフレームワークの使い方を実証する。

The emergence of human-like abilities of AI systems for content generation in domains such as text, audio, and vision has prompted the development of classifiers to determine whether content originated from a human or a machine. Implicit in these efforts is an assumption that the generation properties of a human are different from that of the machine. In this work, we provide a framework in the language of statistical pattern recognition that quantifies the difference between the distributions of human and machine-generated content conditioned on an evaluation context. We describe current methods in the context of the framework and demonstrate how to use the framework to evaluate the progression of generative models towards human-like capabilities, among many axes of analysis.
翻訳日:2023-09-19 18:45:44 公開日:2023-09-16
# 細粒度視覚分類のためのマルチモーダルプロンプトへの展開

Delving into Multimodal Prompting for Fine-grained Visual Classification ( http://arxiv.org/abs/2309.08912v1 )

ライセンス: Link先を確認
Xin Jiang, Hao Tang, Junyao Gao, Xiaoyu Du, Shengfeng He, Zechao Li(参考訳) 細粒度視覚分類(英語版)(fgvc)は、より広いカテゴリ内の細部を分類することであり、微妙なクラス間格差と大きなクラス内変異のために問題を引き起こす。 しかし、一般的なアプローチは主に一様視覚概念に焦点を当てている。 事前学習された視覚言語モデルの最近の進歩は、様々なハイレベルな視覚タスクにおいて顕著な性能を示しているが、そのようなモデルがFGVCタスクに適用可能であるかどうかは不明だ。 本稿では,FGVCタスクに取り組むためのクロスモーダル記述の能力をフル活用することを目的として,CLIPモデルに基づく,MP-FGVCと呼ばれる新しいマルチモーダルプロンプトソリューションを提案する。 我々のMP-FGVCはマルチモーダルプロンプトスキームとマルチモーダル適応スキームからなる。 前者にはssvp(subcategory-specific vision prompt)とdatp(discrepancy-aware text prompt)が含まれており、視覚と言語の両方の観点から、サブカテゴリ固有の不一致を明確に強調している。 後者は、共通意味空間におけるビジョンとテキストの要素を協調させ、FGVCのさらなる改善のためにビジョン・ランゲージ・フュージョン・モジュール(VLFM)による相互協調推論を促進する。 さらに、MP-FGVCの2段階最適化戦略を調整し、事前学習したCLIPモデルを完全に活用し、FGVCの効率的な適応を高速化する。 4つのFGVCデータセットを用いた大規模な実験により,MP-FGVCの有効性が示された。

Fine-grained visual classification (FGVC) involves categorizing fine subdivisions within a broader category, which poses challenges due to subtle inter-class discrepancies and large intra-class variations. However, prevailing approaches primarily focus on uni-modal visual concepts. Recent advancements in pre-trained vision-language models have demonstrated remarkable performance in various high-level vision tasks, yet the applicability of such models to FGVC tasks remains uncertain. In this paper, we aim to fully exploit the capabilities of cross-modal description to tackle FGVC tasks and propose a novel multimodal prompting solution, denoted as MP-FGVC, based on the contrastive language-image pertaining (CLIP) model. Our MP-FGVC comprises a multimodal prompts scheme and a multimodal adaptation scheme. The former includes Subcategory-specific Vision Prompt (SsVP) and Discrepancy-aware Text Prompt (DaTP), which explicitly highlights the subcategory-specific discrepancies from the perspectives of both vision and language. The latter aligns the vision and text prompting elements in a common semantic space, facilitating cross-modal collaborative reasoning through a Vision-Language Fusion Module (VLFM) for further improvement on FGVC. Moreover, we tailor a two-stage optimization strategy for MP-FGVC to fully leverage the pre-trained CLIP model and expedite efficient adaptation for FGVC. Extensive experiments conducted on four FGVC datasets demonstrate the effectiveness of our MP-FGVC.
翻訳日:2023-09-19 18:45:25 公開日:2023-09-16
# 非定常オンライン学習の効率的な方法

Efficient Methods for Non-stationary Online Learning ( http://arxiv.org/abs/2309.08911v1 )

ライセンス: Link先を確認
Peng Zhao and Yan-Feng Xie and Lijun Zhang and Zhi-Hua Zhou(参考訳) 非定常オンライン学習は近年注目を集めている。 特に,非定常環境におけるオンライン凸最適化のための2つの原理的性能指標として動的後悔と適応後悔が提案されている。 これらを最適化するために、通常、2層オンラインアンサンブルは、ベースラーナーのグループを維持し、メタアルゴリズムを用いて、最高のアンサンブルを追跡する非定常性の固有の不確実性のために展開される。 しかし、2層構造は計算の複雑さに関する懸念を提起する - これらの手法は通常、$t$-roundオンラインゲームのために$\mathcal{o}(\log t)$ base-learnerを同時に保持し、従ってラウンド当たりの実行可能な領域に複数の射影を実行する。 本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$\mathcal{O}(\log T)$から$1$に削減する。 さらに,得られたアルゴリズムでは,各ラウンドの勾配クエリと1つの関数評価のみを要求できる。 本手法は,パラメータフリーオンライン学習で開発されたリダクション機構に依存しており,非定常オンライン手法では非自明なツイストを必要とする。 実証研究は我々の理論的な結果を検証する。

Non-stationary online learning has drawn much attention in recent years. In particular, dynamic regret and adaptive regret are proposed as two principled performance measures for online convex optimization in non-stationary environments. To optimize them, a two-layer online ensemble is usually deployed due to the inherent uncertainty of the non-stationarity, in which a group of base-learners are maintained and a meta-algorithm is employed to track the best one on the fly. However, the two-layer structure raises the concern about the computational complexity -- those methods typically maintain $\mathcal{O}(\log T)$ base-learners simultaneously for a $T$-round online game and thus perform multiple projections onto the feasible domain per round, which becomes the computational bottleneck when the domain is complicated. In this paper, we present efficient methods for optimizing dynamic regret and adaptive regret, which reduce the number of projections per round from $\mathcal{O}(\log T)$ to $1$. Moreover, our obtained algorithms require only one gradient query and one function evaluation at each round. Our technique hinges on the reduction mechanism developed in parameter-free online learning and requires non-trivial twists on non-stationary online methods. Empirical studies verify our theoretical findings.
翻訳日:2023-09-19 18:44:40 公開日:2023-09-16
# LLMにおけるサブトラー・バイアスの調査:世代モデルにおける年齢、美、制度、国籍バイアス

Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models ( http://arxiv.org/abs/2309.08902v1 )

ライセンス: Link先を確認
Mahammed Kamruzzaman, Md. Minul Islam Shovon, Gene Louis Kim(参考訳) LLMはますます強力になり、様々なタスクでユーザを支援するために広く利用されている。 この使用は、雇用、人事評価、刑事判決などの連続的な決定に対するLLMバイアスの導入を危険にさらしている。 性別や民族の線に沿ったNLPシステムのバイアスは、特に特定のステレオタイプ(例えばアジア人は数学が得意)について広く研究されている。 本稿では,LLM(特に自己回帰言語モデル)が社会集団と無関係な正・負の属性の間に生み出す微妙な相関決定を,年齢や美しさなど,あまり研究されていないがそれでも連続的に調査する。 実験心理学において, LLMは「美しいものは良い」というような, 特定の社会集団に対して, 肯定的, 否定的感情の偏見を広く有するか否かを問う。 本稿では,特定のソーシャルグループの一員として記述された人物について,最も適切な属性を選択するようにモデルに依頼する,文補完タスクのテンプレート生成データセットを提案する。 また、完了タスクを逆転して属性に基づいてソーシャルグループを選択する。 最後に,複数の最先端LCMの相関関係について報告する。 このデータセットは、より一般的なバイアスの進捗を評価するベンチマークとして使用することができ、テンプレート技術は、最小限の人間のアノテーションでベンチマークを拡張するために使用できる。

LLMs are increasingly powerful and widely used to assist users in a variety of tasks. This use risks the introduction of LLM biases to consequential decisions such as job hiring, human performance evaluation, and criminal sentencing. Bias in NLP systems along the lines of gender and ethnicity has been widely studied, especially for specific stereotypes (e.g., Asians are good at math). In this paper, we investigate bias along less studied, but still consequential, dimensions, such as age and beauty, measuring subtler correlated decisions that LLMs (specially autoregressive language models) make between social groups and unrelated positive and negative attributes. We ask whether LLMs hold wide-reaching biases of positive or negative sentiment for specific social groups similar to the ``what is beautiful is good'' bias found in people in experimental psychology. We introduce a template-generated dataset of sentence completion tasks that asks the model to select the most appropriate attribute to complete an evaluative statement about a person described as a member of a specific social group. We also reverse the completion task to select the social group based on an attribute. Finally, we report the correlations that we find for multiple cutting-edge LLMs. This dataset can be used as a benchmark to evaluate progress in more generalized biases and the templating technique can be used to expand the benchmark with minimal additional human annotation.
翻訳日:2023-09-19 18:43:50 公開日:2023-09-16
# V2CE: ビデオから連続イベントシミュレータ

V2CE: Video to Continuous Events Simulator ( http://arxiv.org/abs/2309.08891v1 )

ライセンス: Link先を確認
Zhongyang Zhang, Shuyang Cui, Kaidong Chai, Haowen Yu, Subhasis Dasgupta, Upal Mahbub, Tauhidur Rahman(参考訳) ダイナミックビジョンセンサー(dvs)ベースのソリューションは最近、様々なコンピュータビジョンタスクで大きな関心を集めており、ダイナミックレンジ、時間分解能、推論速度の点で顕著な利点を提供している。 しかし、rgbカメラのようなアクティブなピクセルセンサー(aps)と比較すると比較的新しいビジョンセンサーとして、dvsは大量のラベル付きデータセットに苦しめられている。 APSデータをイベントに変換する以前の取り組みは、実際のイベントからかなりのドメインシフト、定量化バリデーションの欠如、時間軸内の階層化問題といった問題に悩まされることが多かった。 本稿では,DVSの特性を考慮した複数視点からのストリーム変換手法を提案する。 慎重に設計された一連の損失は、生成されたイベントボクセルの品質を大幅に向上させるのに役立つ。 また,イベントボクセルからイベントのタイムスタンプを連続的に復元し,時間的階層化問題を解消する,局所的動的対応型タイムスタンプ推論手法を提案する。 パイプラインのすべての段階における定量化メトリクスによる厳密な検証の結果は、現在のSOTA(State-of-the-art)として必然的に我々の方法を確立します。

Dynamic Vision Sensor (DVS)-based solutions have recently garnered significant interest across various computer vision tasks, offering notable benefits in terms of dynamic range, temporal resolution, and inference speed. However, as a relatively nascent vision sensor compared to Active Pixel Sensor (APS) devices such as RGB cameras, DVS suffers from a dearth of ample labeled datasets. Prior efforts to convert APS data into events often grapple with issues such as a considerable domain shift from real events, the absence of quantified validation, and layering problems within the time axis. In this paper, we present a novel method for video-to-events stream conversion from multiple perspectives, considering the specific characteristics of DVS. A series of carefully designed losses helps enhance the quality of generated event voxels significantly. We also propose a novel local dynamic-aware timestamp inference strategy to accurately recover event timestamps from event voxels in a continuous fashion and eliminate the temporal layering problem. Results from rigorous validation through quantified metrics at all stages of the pipeline establish our method unquestionably as the current state-of-the-art (SOTA).
翻訳日:2023-09-19 18:43:01 公開日:2023-09-16
# 確率的schr\"odinger方程式によるanderson-holstein不純物のリアルタイムダイナミクス : オープン量子システムの観点から

Stochastic Schr\"odinger equation approach to real-time dynamics of Anderson-Holstein impurities: an open quantum system perspective ( http://arxiv.org/abs/2309.08890v1 )

ライセンス: Link先を確認
Zhen Huang, Limin Xu and Zhennan Zhou(参考訳) 連続フェルミオン浴に結合したアンダーソン・ホルシュタイン(AH)不純物の実時間力学をシミュレートする確率的シュリンガー方程式(SSE)フレームワークを開発した。 浴槽の等級は、正確なシステムバス相関によって決定される変動項により組み込まれ、アブイニシアチブ方式で導出される。 このようなSSE処理は, 数値的拡大顕微鏡シミュレーションと巨視的マスター方程式の中間点となることを示す。 SSEモデルは,確率軌道を伝搬する効率的な数値計算方法を提供する。 このアプローチは、縮小モデルから利用できない顕微鏡的詳細情報を提供するだけでなく、マスター方程式以外の効果を捉え、物理学や化学で現れるオープン量子力学を研究する上で有望なツールであることを示す。

We develop a stochastic Schr\"odinger equation (SSE) framework to simulate real-time dynamics of Anderson-Holstein (AH) impurities coupled to a continuous fermionic bath. The bath degrees of freedom are incorporated through fluctuating terms determined by exact system-bath correlations, which is derived in an ab initio manner. We show that such an SSE treatment provides a middle ground between numerically expansive microscopic simulations and macroscopic master equations. Computationally, the SSE model enables efficient numerical methods for propagating stochastic trajectories. We demonstrate that this approach not only naturally provides microscopically-detailed information unavailable from reduced models, but also captures effects beyond master equations, thus serves as a promising tool to study open quantum dynamics emerging in physics and chemistry.
翻訳日:2023-09-19 18:42:42 公開日:2023-09-16
# gcl:マルチパースペクティブメタラベルを用いた医用画像分割のための勾配誘導型コントラスト学習

GCL: Gradient-Guided Contrastive Learning for Medical Image Segmentation with Multi-Perspective Meta Labels ( http://arxiv.org/abs/2309.08888v1 )

ライセンス: Link先を確認
Yixuan Wu, Jintai Chen, Jiahuan Yan, Yiheng Zhu, Danny Z. Chen, Jian Wu(参考訳) セグメンテーション作業における医用画像の注釈付けは費用がかかるため,アノテーションの負担を軽減するためのアノテーション効率の高い手法を設計することが望ましい。 近年、コントラスト学習は、限られたラベルで下流タスクを増強する堅牢な表現を学習する大きな可能性を示している。 医療画像のシナリオでは、既製のメタラベル(すなわち医療画像の特定の属性情報)が本質的に画像間の意味的関係を明らかにする。 しかし、様々なメタラベルによって明らかにされるマルチパースペクティブセマンティクスは、通常互換性がなく、異なるメタラベルを組み合わせると、難解な「意味的矛盾」を引き起こす可能性がある。 本稿では,多視点メタラベルを体系的に統一し,事前学習モデルによりより高レベルなセマンティック認識能力を実現するグラディエント・ミティゲータ法を用いて,勾配誘導方式による「意味矛盾」の問題に取り組む。 さらに,セグメンテーション指向の事前学習にはきめ細かい識別能力が不可欠であることを強調し,グラディエントフィルタと呼ばれる新しい手法を開発し,勾配の大きさに基づいて最も識別力の高い画素対を動的にスクリーニングする。 4つの医用画像セグメンテーションデータセットに関する包括的実験により,(1)情報的な画像表現を学習し,限定ラベルによるセグメンテーション性能を著しく向上させ,(2)分布外データセットに有望な一般化性を示す。

Since annotating medical images for segmentation tasks commonly incurs expensive costs, it is highly desirable to design an annotation-efficient method to alleviate the annotation burden. Recently, contrastive learning has exhibited a great potential in learning robust representations to boost downstream tasks with limited labels. In medical imaging scenarios, ready-made meta labels (i.e., specific attribute information of medical images) inherently reveal semantic relationships among images, which have been used to define positive pairs in previous work. However, the multi-perspective semantics revealed by various meta labels are usually incompatible and can incur intractable "semantic contradiction" when combining different meta labels. In this paper, we tackle the issue of "semantic contradiction" in a gradient-guided manner using our proposed Gradient Mitigator method, which systematically unifies multi-perspective meta labels to enable a pre-trained model to attain a better high-level semantic recognition ability. Moreover, we emphasize that the fine-grained discrimination ability is vital for segmentation-oriented pre-training, and develop a novel method called Gradient Filter to dynamically screen pixel pairs with the most discriminating power based on the magnitude of gradients. Comprehensive experiments on four medical image segmentation datasets verify that our new method GCL: (1) learns informative image representations and considerably boosts segmentation performance with limited labels, and (2) shows promising generalizability on out-of-distribution datasets.
翻訳日:2023-09-19 18:42:27 公開日:2023-09-16
# 任意データ破損下におけるロバストオンライン共分散とスパース精度推定

Robust Online Covariance and Sparse Precision Estimation Under Arbitrary Data Corruption ( http://arxiv.org/abs/2309.08884v1 )

ライセンス: Link先を確認
Tong Yao, Shreyas Sundaram(参考訳) ガウス図形モデルは、エンティティ間の相関を表すために広く使われているが、データの破損に弱いままである。 本研究では,任意のデータアタックや逆データアタックがあっても,オンラインシナリオにおける共分散を頑健に推定する改良型トリミング・インナー生産アルゴリズムを提案する。 各時間ステップで、名目上独立かつ同一に多変量ガウス分布から引き出されたデータポイントが到着する。 しかし、これらの点の一部が任意に崩壊した可能性がある。 この汚損にもかかわらずスパース逆共分散(すなわち精度)行列を推定するオンラインアルゴリズムを提案する。 アルゴリズムの真精度行列に対する推定値の誤差バウンドおよび収束特性を提供する。

Gaussian graphical models are widely used to represent correlations among entities but remain vulnerable to data corruption. In this work, we introduce a modified trimmed-inner-product algorithm to robustly estimate the covariance in an online scenario even in the presence of arbitrary and adversarial data attacks. At each time step, data points, drawn nominally independently and identically from a multivariate Gaussian distribution, arrive. However, a certain fraction of these points may have been arbitrarily corrupted. We propose an online algorithm to estimate the sparse inverse covariance (i.e., precision) matrix despite this corruption. We provide the error-bound and convergence properties of the estimates to the true precision matrix under our algorithms.
翻訳日:2023-09-19 18:41:53 公開日:2023-09-16
# コールドスタートシナリオのための統一検索・勧告基礎モデル

An Unified Search and Recommendation Foundation Model for Cold-Start Scenario ( http://arxiv.org/abs/2309.08939v1 )

ライセンス: Link先を確認
Yuqi Gong, Xichen Ding, Yehui Su, Kaiming Shen, Zhongyi Liu, Guannan Zhang(参考訳) 現代の商用検索エンジンやレコメンデーションシステムでは、複数のドメインからのデータを使ってマルチドメインモデルを共同で訓練することができる。 従来の方法はマルチタスク設定でマルチドメインモデルをトレーニングし、複数のタスクの類似性を学ぶための共有パラメータと、個々のタスクの特徴、ラベル、サンプル分布のばらつきを学ぶためのタスク固有のパラメータがある。 大規模言語モデルの開発により、LLMは検索とレコメンデーションの両方に役立つグローバルなドメイン不変テキスト機能を抽出できる。 我々は,LLMを用いてドメイン不変の特徴を抽出するS\&R Multi-Domain Foundationと,ID特徴,ドメイン不変テキスト特徴,タスク固有の異種スパース特徴をマージしてクエリと項目の表現を得るAspect Gating Fusionを提案する。 さらに、複数の検索シナリオとレコメンデーションシナリオからサンプルをドメイン適応型マルチタスクモジュールと共同でトレーニングし、マルチドメイン基盤モデルを得る。 本研究では,s\&rマルチドメイン基礎モデルを用いて,事前トレーニング・フィギュチューン方式のコールドスタートシナリオに適用し,他のsoma転送学習法よりも優れた性能を実現する。 S\&R Multi-Domain Foundationモデルは、コンテンツクエリレコメンデーションやサービスカードレコメンデーションなど、Alipay Mobile Applicationのオンラインサービスにうまくデプロイされています。

In modern commercial search engines and recommendation systems, data from multiple domains is available to jointly train the multi-domain model. Traditional methods train multi-domain models in the multi-task setting, with shared parameters to learn the similarity of multiple tasks, and task-specific parameters to learn the divergence of features, labels, and sample distributions of individual tasks. With the development of large language models, LLM can extract global domain-invariant text features that serve both search and recommendation tasks. We propose a novel framework called S\&R Multi-Domain Foundation, which uses LLM to extract domain invariant features, and Aspect Gating Fusion to merge the ID feature, domain invariant text features and task-specific heterogeneous sparse features to obtain the representations of query and item. Additionally, samples from multiple search and recommendation scenarios are trained jointly with Domain Adaptive Multi-Task module to obtain the multi-domain foundation model. We apply the S\&R Multi-Domain foundation model to cold start scenarios in the pretrain-finetune manner, which achieves better performance than other SOTA transfer learning methods. The S\&R Multi-Domain Foundation model has been successfully deployed in Alipay Mobile Application's online services, such as content query recommendation and service card recommendation, etc.
翻訳日:2023-09-19 18:34:15 公開日:2023-09-16
# 3次元物体検出のための意味認識型LiDAR専用擬似点雲生成

Semantics-aware LiDAR-Only Pseudo Point Cloud Generation for 3D Object Detection ( http://arxiv.org/abs/2309.08932v1 )

ライセンス: Link先を確認
Tiago Cortinhal, Idriss Gouigah, Eren Erdal Aksoy(参考訳) lidarセンサーは、正確な深度情報を提供するため、自律システムにとって重要であるが、狭く不均一なデータのために、細かな物体の詳細を、特に遠距離で捉えるのに苦労している。 近年の進歩は擬似LiDAR、すなわち合成高密度点雲を導入し、カメラなどの追加のモダリティを使って3Dオブジェクト検出を強化している。 本稿では,lidarセンサとシーンセマンティクスのみを頼りにして,より密集した疑似点雲によるrawスキャンを強化する,新しいlidar専用フレームワークを提案する。 筆者らはまず,シーンセグメンテーションモデルを用いて生の点雲からシーンセグメンテーションを抽出し,さらにマルチモーダル領域トランスレータを用いて合成画像セグメントと深度キューを生成する。 これにより、意味情報に富んだ密接な疑似点雲が生まれる。 また,関連する疑似点のみを保持することで検出性能を向上させる新しい意味的誘導投影法を提案する。 このフレームワークを様々な高度な3Dオブジェクト検出手法に適用し、2.9%の性能向上を報告した。 我々はまた、他の最先端LiDAR専用検出器と対照的に、KITTI 3Dオブジェクト検出データセットで同等の結果を得た。

Although LiDAR sensors are crucial for autonomous systems due to providing precise depth information, they struggle with capturing fine object details, especially at a distance, due to sparse and non-uniform data. Recent advances introduced pseudo-LiDAR, i.e., synthetic dense point clouds, using additional modalities such as cameras to enhance 3D object detection. We present a novel LiDAR-only framework that augments raw scans with denser pseudo point clouds by solely relying on LiDAR sensors and scene semantics, omitting the need for cameras. Our framework first utilizes a segmentation model to extract scene semantics from raw point clouds, and then employs a multi-modal domain translator to generate synthetic image segments and depth cues without real cameras. This yields a dense pseudo point cloud enriched with semantic information. We also introduce a new semantically guided projection method, which enhances detection performance by retaining only relevant pseudo points. We applied our framework to different advanced 3D object detection methods and reported up to 2.9% performance upgrade. We also obtained comparable results on the KITTI 3D object detection dataset, in contrast to other state-of-the-art LiDAR-only detectors.
翻訳日:2023-09-19 18:33:50 公開日:2023-09-16
# 統計的関係学習におけるニューラルシンボリックシステム

A Novel Neural-symbolic System under Statistical Relational Learning ( http://arxiv.org/abs/2309.08931v1 )

ライセンス: Link先を確認
Dongran Yu, Xueyan Liu, Shirui Pan, Anchen Li and Bo Yang(参考訳) 人工知能の分野における重要な目的は、人間のような知的能力を示す認知モデルを開発することである。 これを達成するための有望なアプローチの1つは、ディープラーニングの強みとシンボリック推論を組み合わせたニューラルシンボリックシステムである。 しかし、この領域の現在のアプローチは、一般化と解釈可能性を組み合わせた方法で制限されている。 これらの制約に対処するため,我々はgbpgrと呼ばれる一般のbi-level probabilistic graphical reasoning frameworkを提案する。 このフレームワークは、統計的リレーショナル学習を利用して、深層学習モデルとシンボリック推論を相互に有益な方法で効果的に統合する。 gbpgrでは、深層学習モデルによる予測を洗練し、補正するために記号推論の結果が利用される。 同時に、ディープラーニングモデルはシンボリック推論プロセスの効率を高めるのに役立つ。 広範な実験を通じて,提案手法が高い性能を達成し,トランスダクティブタスクとインダクティブタスクの両方において効果的な一般化を示すことを実証した。

A key objective in field of artificial intelligence is to develop cognitive models that can exhibit human-like intellectual capabilities. One promising approach to achieving this is through neural-symbolic systems, which combine the strengths of deep learning and symbolic reasoning. However, current approaches in this area have been limited in their combining way, generalization and interpretability. To address these limitations, we propose a general bi-level probabilistic graphical reasoning framework called GBPGR. This framework leverages statistical relational learning to effectively integrate deep learning models and symbolic reasoning in a mutually beneficial manner. In GBPGR, the results of symbolic reasoning are utilized to refine and correct the predictions made by the deep learning models. At the same time, the deep learning models assist in enhancing the efficiency of the symbolic reasoning process. Through extensive experiments, we demonstrate that our approach achieves high performance and exhibits effective generalization in both transductive and inductive tasks.
翻訳日:2023-09-19 18:33:25 公開日:2023-09-16
# コントラスト学習における多言語陽性事例の活用による文の埋め込み改善

Leveraging Multi-lingual Positive Instances in Contrastive Learning to Improve Sentence Embedding ( http://arxiv.org/abs/2309.08929v1 )

ライセンス: Link先を確認
Kaiyan Zhao, Qiyu Wu, Xin-Qiang Cai, Yoshimasa Tsuruoka(参考訳) 多言語文埋め込みの学習は自然言語処理において基本的かつ重要な課題である。 最近の一言語文と多言語文の埋め込みの学習の傾向は、主にアンカーと1つの正、複数の負のインスタンスを持つ対照的学習(CL)に基づいている。 本研究では,(1)多様な言語群における正は言語間学習に有用であり,(2)複数の正語間の推移的類似性は,学習に信頼できる構造情報を提供できるため,多言語文埋め込みに複数の正の活用を考慮すべきである。 本稿では,多言語文の埋め込み学習を改善するために,複数の正のインスタンスを効果的に活用するための新しいアプローチMPCLを提案する。 各種バックボーンモデルおよび下流タスクに対する実験結果から,MPCLは従来のCLと比較して,検索性,意味的類似性,分類性能が向上することがわかった。 また,未熟な言語では,複数の正のインスタンスで訓練された文埋め込みモデルの方が,単一の正のインスタンスで訓練されたモデルよりも言語間伝達性能が優れていることも観察した。

Learning multi-lingual sentence embeddings is a fundamental and significant task in natural language processing. Recent trends of learning both mono-lingual and multi-lingual sentence embeddings are mainly based on contrastive learning (CL) with an anchor, one positive, and multiple negative instances. In this work, we argue that leveraging multiple positives should be considered for multi-lingual sentence embeddings because (1) positives in a diverse set of languages can benefit cross-lingual learning, and (2) transitive similarity across multiple positives can provide reliable structural information to learn. In order to investigate the impact of CL with multiple positives, we propose a novel approach MPCL to effectively utilize multiple positive instances to improve learning multi-lingual sentence embeddings. Our experimental results on various backbone models and downstream tasks support that compared with conventional CL, MPCL leads to better retrieval, semantic similarity, and classification performances. We also observe that on unseen languages, sentence embedding models trained on multiple positives have better cross-lingual transferring performance than models trained on a single positive instance.
翻訳日:2023-09-19 18:33:08 公開日:2023-09-16
# In-Style: テキスト-ビデオ検索のためのスタイル転送付きテキストと未修正ビデオ

In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video Retrieval ( http://arxiv.org/abs/2309.08928v1 )

ライセンス: Link先を確認
Nina Shvetsova, Anna Kukleva, Bernt Schiele, Hilde Kuehne(参考訳) 大規模なノイズの多いweb画像テキストデータセットは、堅牢な視覚言語モデルの学習に効率的であることが証明されている。 しかし、ビデオ検索のタスクにそれらを転送する場合、手作りのテキスト・ビデオデータでモデルを微調整して、ビデオ記述の多様なスタイルに適応させる必要がある。 そこで本研究では,テキスト・ビデオのペアを使わずにテキスト・クェリと未作成のwebビデオのみを利用する新しい設定,未作成データを用いたテキスト・ビデオ検索を提案する。 そこで本研究では,テキストクエリのスタイルを学習し,未処理のWebビデオに転送する手法であるIn-Styleを提案する。 さらに、一般化を改善するために、1つのモデルを複数のテキストスタイルで訓練できることを示す。 そこで本研究では,複数のデータセットの汎用性を向上させるマルチスタイルコントラストトレーニング手法を提案する。 我々は,複数データセットを対象とした検索性能のモデルを評価し,未修正テキストビデオ検索の新しいタスクにおけるスタイル転送フレームワークの利点を実証し,ゼロショットテキストビデオ検索における最先端パフォーマンスを改善する。

Large-scale noisy web image-text datasets have been proven to be efficient for learning robust vision-language models. However, when transferring them to the task of video retrieval, models still need to be fine-tuned on hand-curated paired text-video data to adapt to the diverse styles of video descriptions. To address this problem without the need for hand-annotated pairs, we propose a new setting, text-video retrieval with uncurated & unpaired data, that during training utilizes only text queries together with uncurated web videos without any paired text-video data. To this end, we propose an approach, In-Style, that learns the style of the text queries and transfers it to uncurated web videos. Moreover, to improve generalization, we show that one model can be trained with multiple text styles. To this end, we introduce a multi-style contrastive training procedure that improves the generalizability over several datasets simultaneously. We evaluate our model on retrieval performance over multiple datasets to demonstrate the advantages of our style transfer framework on the new task of uncurated & unpaired text-video retrieval and improve state-of-the-art performance on zero-shot text-video retrieval.
翻訳日:2023-09-19 18:32:49 公開日:2023-09-16
# DynaMoN:ダイナミックNeRFのための高速でロバストなカメラローカライゼーション

DynaMoN: Motion-Aware Fast And Robust Camera Localization for Dynamic NeRF ( http://arxiv.org/abs/2309.08927v1 )

ライセンス: Link先を確認
Mert Asim Karaoglu, Hannah Schieber, Nicolas Schischka, Melih G\"org\"ul\"u, Florian Gr\"otzner, Alexander Ladikos, Daniel Roth, Nassir Navab, Benjamin Busam(参考訳) ニューラルレイディアンスフィールド(NeRF)を用いた動的再構成には正確なカメラポーズが必要である。 これらは、カメラとシーンの内容が変更される可能性があるため、既存のStructure-from-motion (SfM)パイプラインで取得することがしばしば困難である。 本研究では,動的なシーンコンテンツを扱うために,モーションマスキングと共同でSLAMを利用するDynaMoNを提案する。 我々のSLAMベースの追跡モジュールは、動的NeRFのトレーニングプロセスを著しく加速し、同時に合成されたビューの品質を向上させる。 TUM RGB-D、BONN RGB-D Dynamic、およびDyCheckのiPhoneデータセットの3つの実世界のデータセットに対する大規模な実験的検証は、カメラポーズ推定と新しいビュー合成の両方にDynaMoNの利点を示している。

Dynamic reconstruction with neural radiance fields (NeRF) requires accurate camera poses. These are often hard to retrieve with existing structure-from-motion (SfM) pipelines as both camera and scene content can change. We propose DynaMoN that leverages simultaneous localization and mapping (SLAM) jointly with motion masking to handle dynamic scene content. Our robust SLAM-based tracking module significantly accelerates the training process of the dynamic NeRF while improving the quality of synthesized views at the same time. Extensive experimental validation on TUM RGB-D, BONN RGB-D Dynamic and the DyCheck's iPhone dataset, three real-world datasets, shows the advantages of DynaMoN both for camera pose estimation and novel view synthesis.
翻訳日:2023-09-19 18:32:29 公開日:2023-09-16
# DOMAIN:軽度保存モデルベースオフリン強化学習

DOMAIN: MilDly COnservative Model-BAsed OfflINe Reinforcement Learning ( http://arxiv.org/abs/2309.08925v1 )

ライセンス: Link先を確認
Xiao-Yin Liu, Xiao-Hu Zhou, Xiao-Liang Xie, Shi-Qi Liu, Zhen-Qiu Feng, Hao Li, Mei-Jiang Gui, Tian-Yu Xiang, De-Xing Huang, Zeng-Guang Hou(参考訳) オフラインデータセットから環境モデルを学習し,より多くのアウト・オブ・ディストリビューションモデルデータを生成するモデルベース強化学習(RL)は,オフラインRLにおける分布シフト問題に対する効果的なアプローチとなっている。 学習環境と実際の環境のギャップのため、正確なオフラインデータと不正確なモデルデータのバランスをとるために、保守主義をアルゴリズムに組み込む必要がある。 現在のアルゴリズムの保守性は主にモデル不確実性推定に依存する。 しかし、不確実性の推定は信頼性が低く、あるシナリオでは性能が低下し、以前の手法ではモデルデータ間の差異を無視し、大きな保守性をもたらす。 そこで本稿では,モデルの不確実性を推定することなく,MilDly cOnservative Model-bAsed offlINe RLアルゴリズム(DOMAIN)を提案する。 ドメインは、モデルデータペナルティを適応的に調整できるモデルサンプルの適応サンプリング分布を導入する。 本稿では,領域外においてDOMAINが学習したQ値が真のQ値の下限であること,DOMAINは従来のモデルベースオフラインRLアルゴリズムよりも保守的ではなく,セキュリティポリシーの改善が保証されていることを理論的に示す。 大規模な実験の結果、DOMAINは、D4RLデータセットのベンチマークにおいて、以前のRLアルゴリズムよりも優れており、一般化を必要とするタスクにおいて、他のRLアルゴリズムよりも優れたパフォーマンスを実現している。

Model-based reinforcement learning (RL), which learns environment model from offline dataset and generates more out-of-distribution model data, has become an effective approach to the problem of distribution shift in offline RL. Due to the gap between the learned and actual environment, conservatism should be incorporated into the algorithm to balance accurate offline data and imprecise model data. The conservatism of current algorithms mostly relies on model uncertainty estimation. However, uncertainty estimation is unreliable and leads to poor performance in certain scenarios, and the previous methods ignore differences between the model data, which brings great conservatism. Therefore, this paper proposes a milDly cOnservative Model-bAsed offlINe RL algorithm (DOMAIN) without estimating model uncertainty to address the above issues. DOMAIN introduces adaptive sampling distribution of model samples, which can adaptively adjust the model data penalty. In this paper, we theoretically demonstrate that the Q value learned by the DOMAIN outside the region is a lower bound of the true Q value, the DOMAIN is less conservative than previous model-based offline RL algorithms and has the guarantee of security policy improvement. The results of extensive experiments show that DOMAIN outperforms prior RL algorithms on the D4RL dataset benchmark, and achieves better performance than other RL algorithms on tasks that require generalization.
翻訳日:2023-09-19 18:32:14 公開日:2023-09-16
# 付加次数実験設計に基づくShapley値の高速近似

Fast Approximation of the Shapley Values Based on Order-of-Addition Experimental Designs ( http://arxiv.org/abs/2309.08923v1 )

ライセンス: Link先を確認
Liuqing Yang, Yongdao Zhou, Haoda Fu, Min-Qian Liu, Wei Zheng(参考訳) シャプリー・バリュー(shapley value)は、econometrics(econometrics)のコンセプトで、プレイヤーに利益とコストを公平に分配する。 この数十年で、そのアプリケーションはマーケティング、エンジニアリング、機械学習など他の分野にも拡張された。 例えば、感度分析、解釈可能な機械学習へのローカルモデル説明、ソーシャルネットワークにおけるノードの重要性、属性モデルなどの問題に対する合理的なソリューションを生成する。 しかし、計算の重荷は長い間認識されてきたが、ほとんど調査されていない。 具体的には、$d$-player coalitionゲームでは、shapley値を計算するには$dの評価が必要です! Shapley値の置換や組み合わせの定式化を行うかどうかによっては、$または$2^d$の限界寄与値がある。 従って$d$が合理的に大きい場合にはShapley値を計算できない。 一般的な治療法は、置換の完全なリストのために置換のランダムなサンプルを取ることである。 単純なランダムサンプリング (srs) よりも, シャプリー値の高精度な推定を実現するために, 高度なサンプリング手法が提案されている。 提案手法は実験計画(doe)における組合せ構造に基づいており、特に成分の順序が出力にどのように影響するかを研究するための付加順序実験設計を行っている。 得られた推定値が偏りがなく、時には元のShapley値を決定的に復元できることを示す。 理論およびシミュレーションの結果から,doeに基づくサンプリング手法は推定精度でsrsを上回っていることがわかった。 驚くべきことに、SRSよりも若干速い。 最後に、C. elegans神経系と9/11テロネットワークの実際のデータ分析を行う。

Shapley value is originally a concept in econometrics to fairly distribute both gains and costs to players in a coalition game. In the recent decades, its application has been extended to other areas such as marketing, engineering and machine learning. For example, it produces reasonable solutions for problems in sensitivity analysis, local model explanation towards the interpretable machine learning, node importance in social network, attribution models, etc. However, its heavy computational burden has been long recognized but rarely investigated. Specifically, in a $d$-player coalition game, calculating a Shapley value requires the evaluation of $d!$ or $2^d$ marginal contribution values, depending on whether we are taking the permutation or combination formulation of the Shapley value. Hence it becomes infeasible to calculate the Shapley value when $d$ is reasonably large. A common remedy is to take a random sample of the permutations to surrogate for the complete list of permutations. We find an advanced sampling scheme can be designed to yield much more accurate estimation of the Shapley value than the simple random sampling (SRS). Our sampling scheme is based on combinatorial structures in the field of design of experiments (DOE), particularly the order-of-addition experimental designs for the study of how the orderings of components would affect the output. We show that the obtained estimates are unbiased, and can sometimes deterministically recover the original Shapley value. Both theoretical and simulations results show that our DOE-based sampling scheme outperforms SRS in terms of estimation accuracy. Surprisingly, it is also slightly faster than SRS. Lastly, real data analysis is conducted for the C. elegans nervous system and the 9/11 terrorist network.
翻訳日:2023-09-19 18:31:51 公開日:2023-09-16
# ツール間の会話を通したマルチモーダル・マルチホップ質問応答と大規模言語モデルの効率向上

Multimodal Multi-Hop Question Answering Through a Conversation Between Tools and Efficiently Finetuned Large Language Models ( http://arxiv.org/abs/2309.08922v1 )

ライセンス: Link先を確認
Hossein Rajabzadeh, Suyuchen Wang, Hyock Ju Kwon, Bang Liu(参考訳) 我々は,言語モデル (LLM) が複雑なマルチモーダルなマルチホップ問題に答えられるような,ツール間相互作用型分割型戦略を採用している。 特に,大規模言語モデルのパワーを利用して,与えられたマルチモーダルなマルチホップ質問を,事前定義されたツールセットから適切なツールによって答えられるような単一ホップサブクェリに分割する。 対応するすべてのツールが LLM に回答を与えると、LCM は次の一対一の単一ホップ問題を生成する。 LLMの推論能力を高めるため,チャットGPTにツール間相互作用型分割・クエリーデータセットを生成する。 このデータセットは、対応するLLMを効率的に微調整するために使用される。 提案手法の有効性を評価するため,最近導入された2つの複雑な質問応答データセットについて評価を行った。 実験解析により既存の最先端ソリューションよりも大幅に改善され、我々の戦略の有効性と汎用性を示している。

We employ a tool-interacting divide-and-conquer strategy enabling large language models (LLMs) to answer complex multimodal multi-hop questions. In particular, we harness the power of large language models to divide a given multimodal multi-hop question into unimodal single-hop sub-questions to be answered by the appropriate tool from a predefined set of tools. After all corresponding tools provide the LLM with their answers, the LLM generates the next relevant unimodal single-hop question. To increase the reasoning ability of LLMs, we prompt chatGPT to generate a tool-interacting divide-and-conquer dataset. This dataset is then used to efficiently finetune the corresponding LLM. To assess the effectiveness of this approach, we conduct an evaluation on two recently introduced complex question-answering datasets. The experimental analysis demonstrate substantial improvements over existing state-of-the-art solutions, indicating the efficacy and generality of our strategy
翻訳日:2023-09-19 18:31:25 公開日:2023-09-16
# pixel adapter: シーンテキスト画像のスーパーレゾリューションのためのグラフベースのポストプロセッシングアプローチ

Pixel Adapter: A Graph-Based Post-Processing Approach for Scene Text Image Super-Resolution ( http://arxiv.org/abs/2309.08919v1 )

ライセンス: Link先を確認
Wenyu Zhang, Xin Deng, Baojun Jia, Xingtong Yu, Yifan Chen, jin Ma, Qing Ding, Xinming Zhang(参考訳) 現在のSceneテキスト画像の超解像アプローチは主に、頑健な特徴の抽出、テキスト情報取得、および超解像を生成する複雑なトレーニング戦略に焦点を当てている。 しかし,低解像度画像から高解像度画像への変換において重要なアップサンプリングモジュールは,既存の作品ではほとんど注目されていない。 この問題に対処するために,アップサンプリングによるアドレス画素歪みに対するグラフの注意に基づくpixel adapter module (pam)を提案する。 PAMは、各ピクセルが隣人と対話し、機能を更新することで、ローカルな構造情報を効果的にキャプチャする。 従来のグラフアテンション機構とは異なり,分散隣接行列への依存をなくし,効率的な並列計算のためにスライディングウィンドウアプローチを導入することで,効率とメモリ利用の2~3桁の改善を実現する。 さらに,テキスト画像からのロバストな特徴抽出のためのMLPベースのSequential Residual Block (MSRB) と,詳細に対するモデルの認識を高めるためのローカルコンターアウェアネス損失($\mathcal{L}_{lca}$)を導入する。 TextZoomの総合的な実験により,提案手法は認識精度において既存の手法を超え,高品質な超解像を生成することを示した。 単段階戦略と多段階戦略では,それぞれ0.7\%,2.6\%の改善を実現し,52.6\%,53.7\%から53.3\%,56.3\%に向上した。 コードはhttps://github.com/wenyu1009/rtsrnで入手できる。

Current Scene text image super-resolution approaches primarily focus on extracting robust features, acquiring text information, and complex training strategies to generate super-resolution images. However, the upsampling module, which is crucial in the process of converting low-resolution images to high-resolution ones, has received little attention in existing works. To address this issue, we propose the Pixel Adapter Module (PAM) based on graph attention to address pixel distortion caused by upsampling. The PAM effectively captures local structural information by allowing each pixel to interact with its neighbors and update features. Unlike previous graph attention mechanisms, our approach achieves 2-3 orders of magnitude improvement in efficiency and memory utilization by eliminating the dependency on sparse adjacency matrices and introducing a sliding window approach for efficient parallel computation. Additionally, we introduce the MLP-based Sequential Residual Block (MSRB) for robust feature extraction from text images, and a Local Contour Awareness loss ($\mathcal{L}_{lca}$) to enhance the model's perception of details. Comprehensive experiments on TextZoom demonstrate that our proposed method generates high-quality super-resolution images, surpassing existing methods in recognition accuracy. For single-stage and multi-stage strategies, we achieved improvements of 0.7\% and 2.6\%, respectively, increasing the performance from 52.6\% and 53.7\% to 53.3\% and 56.3\%. The code is available at https://github.com/wenyu1009/RTSRN.
翻訳日:2023-09-19 18:31:07 公開日:2023-09-16
# 実世界における物体検出に対するロバストバックドア攻撃

Robust Backdoor Attacks on Object Detection in Real World ( http://arxiv.org/abs/2309.08953v1 )

ライセンス: Link先を確認
Yaguan Qian, Boyuan Ji, Shuke He, Shenhui Huang, Xiang Ling, Bin Wang, Wei Wang(参考訳) ディープラーニングモデルは、さまざまなセキュリティ分野におけるオブジェクト検出など、多くのアプリケーションに広く展開されている。 しかし、これらのモデルはバックドア攻撃に弱い。 ほとんどのバックドア攻撃は分類されたモデルで集中的に研究されたが、オブジェクト検出ではそうではなかった。 以前の作品は、主にデジタル世界のバックドア攻撃に焦点を当てていたが、現実世界を無視していた。 特に、現実世界におけるバックドア攻撃の効果は、距離や照明といった物理的要因の影響を受けやすい。 本稿では,攻撃対象の異なるサイズに対応するための可変サイズのバックドアトリガーを提案し,視聴地点と攻撃対象の距離による乱れを克服する。 さらに,悪質な敵意トレーニングと呼ばれるバックドアトレーニングを提案し,バックドア物体検出装置がトリガーの特徴を物理ノイズで学習できるようにした。 実験の結果,このロバストバックドアアタック(rba)は,実世界の攻撃成功率を高めることができることがわかった。

Deep learning models are widely deployed in many applications, such as object detection in various security fields. However, these models are vulnerable to backdoor attacks. Most backdoor attacks were intensively studied on classified models, but little on object detection. Previous works mainly focused on the backdoor attack in the digital world, but neglect the real world. Especially, the backdoor attack's effect in the real world will be easily influenced by physical factors like distance and illumination. In this paper, we proposed a variable-size backdoor trigger to adapt to the different sizes of attacked objects, overcoming the disturbance caused by the distance between the viewing point and attacked object. In addition, we proposed a backdoor training named malicious adversarial training, enabling the backdoor object detector to learn the feature of the trigger with physical noise. The experiment results show this robust backdoor attack (RBA) could enhance the attack success rate in the real world.
翻訳日:2023-09-19 18:25:08 公開日:2023-09-16
# 大規模言語モデルにおける言語間知識編集

Cross-Lingual Knowledge Editing in Large Language Models ( http://arxiv.org/abs/2309.08952v1 )

ライセンス: Link先を確認
Jiaan Wang, Yunlong Liang, Zengkui Sun, Yuxuan Cao, Jiarong Xu(参考訳) 知識編集は、言語モデルの性能をいくつかの特別なケース(すなわち、編集範囲)で変化させることを目的としている。 近年の大規模言語モデル (LLM) の進歩により, 知識編集は, ゼロから再学習することなく, LLMを新しい知識に適応させる有望な手法として示されている。 しかしながら、以前の研究の多くは、LLMの多言語性(LLaMA、ChatGPT、GPT-4など)を無視し、通常、LLMを同じ言語で編集し評価する単言語シナリオに焦点を当てていた。 結果として、異なるターゲット言語におけるソース言語編集の効果はまだ不明である。 本稿では,知識編集におけるこの言語間効果を明らかにすることを目的とする。 具体的には,まずzsreを英語から中国語に翻訳することで,大規模言語間合成データセットを収集した。 そして、異なるパラダイムをカバーする様々な知識編集手法で英語編集を行い、その性能を中国語で評価する。 言語間効果のより深い分析を行うため、評価には4つの側面、すなわち信頼性、汎用性、局所性、可搬性が含まれる。 さらに,編集モデルの不整合挙動を分析し,それらの課題について考察する。

Knowledge editing aims to change language models' performance on several special cases (i.e., editing scope) by infusing the corresponding expected knowledge into them. With the recent advancements in large language models (LLMs), knowledge editing has been shown as a promising technique to adapt LLMs to new knowledge without retraining from scratch. However, most of the previous studies neglect the multi-lingual nature of some main-stream LLMs (e.g., LLaMA, ChatGPT and GPT-4), and typically focus on monolingual scenarios, where LLMs are edited and evaluated in the same language. As a result, it is still unknown the effect of source language editing on a different target language. In this paper, we aim to figure out this cross-lingual effect in knowledge editing. Specifically, we first collect a large-scale cross-lingual synthetic dataset by translating ZsRE from English to Chinese. Then, we conduct English editing on various knowledge editing methods covering different paradigms, and evaluate their performance in Chinese, and vice versa. To give deeper analyses of the cross-lingual effect, the evaluation includes four aspects, i.e., reliability, generality, locality and portability. Furthermore, we analyze the inconsistent behaviors of the edited models and discuss their specific challenges.
翻訳日:2023-09-19 18:24:54 公開日:2023-09-16
# ルックフォワードモチベーション目標による大規模言語モデルによるタスク指向対話システムの拡張

Enhancing Large Language Model Induced Task-Oriented Dialogue Systems Through Look-Forward Motivated Goals ( http://arxiv.org/abs/2309.08949v1 )

ライセンス: Link先を確認
Zhiyuan Hu, Yue Feng, Yang Deng, Zekun Li, See-Kiong Ng, Anh Tuan Luu, Bryan Hooi(参考訳) 近年,大規模言語モデル(llms)の開発により,質問応答や対話生成が大幅に向上し,現在の実用シナリオで人気が高まっている。 意味的性能を重視した一般的な対話システムとは異なり、タスク指向対話(tod)システムは、対話目標を複数回で効率的に達成することを目的としている。 残念ながら、既存のLLMによるToDシステムには最終目標に対する直接的な報酬がなく、対話効率を向上できる対話能率を考慮していない。 これらのギャップを埋めるために,今後の対話行動を予測し,目標指向の報酬シグナルを組み込んでtodシステムを強化するprotod (proactively goal-driven llm-induced tod) アプローチを導入する。 さらに,目標駆動型対話シミュレーションに基づいてToDシステムを評価する新しい評価手法を提案する。 本手法により,現在の情報・成功指標の限界を克服しつつ,ユーザの満足度,システム効率,成功率を測定することができる。 multiwoz 2.1データセットで行った実証実験では、従来のエンドツーエンドの完全な教師付きモデルと比較して、データのわずか10%で優れた性能を達成できることが示されている。 この改善には、ユーザの満足度と効率の向上が伴う。

Recently, the development of large language models (LLMs) has been significantly enhanced the question answering and dialogue generation, and makes them become increasingly popular in current practical scenarios. While unlike the general dialogue system which emphasizes the semantic performance, the task-oriented dialogue (ToD) systems aim to achieve the dialogue goal efficiently and successfully in multiple turns. Unfortunately, existing LLM-induced ToD systems lack the direct reward toward the final goal and do not take account of the dialogue proactivity that can strengthen the dialogue efficiency. To fill these gaps, we introduce the ProToD (Proactively Goal-Driven LLM-Induced ToD) approach, which anticipates the future dialogue actions and incorporates the goal-oriented reward signal to enhance ToD systems. Additionally, we present a novel evaluation method that assesses ToD systems based on goal-driven dialogue simulations. This method allows us to gauge user satisfaction, system efficiency and successful rate while overcoming the limitations of current Information and Success metrics. Empirical experiments conducted on the MultiWoZ 2.1 dataset demonstrate that our model can achieve superior performance using only 10% of the data compared to previous end-to-end fully supervised models. This improvement is accompanied by enhanced user satisfaction and efficiency.
翻訳日:2023-09-19 18:24:34 公開日:2023-09-16
# 段階的接触型グローバルヒューマンモーション予測

Staged Contact-Aware Global Human Motion Forecasting ( http://arxiv.org/abs/2309.08947v1 )

ライセンス: Link先を確認
Luca Scofano, Alessio Sampieri, Elisabeth Schiele, Edoardo De Matteis, Laura Leal-Taix\'e, Fabio Galasso(参考訳) バーチャルリアリティ、ロボティクス、スポーツなど、マニホールドアプリケーションではシーン認識による世界的人間の動き予測が重要である。 このタスクは人間の軌道を合成し、提供されたシーンコンテキスト内で予測を行う。 今のところはMaoらのみ。 NeurIPS'22はシーン認識のグローバルな動きに対処し、将来のシーン接触点の予測とグローバルな動きの推定をカスケードした。 後者は、将来の軌道とポーズのエンドツーエンド予測として実行される。 しかし、エンド・ツー・エンドはタスクの粗さと対照的であり、経験的に示すようにパフォーマンスが低下する。 本稿では,3次元環境下でのグローバルな人間の動きを予測するための新しい3段階パイプラインSTAGを提案する。 まず、シーンと人間同士の相互作用を接触点とみなす。 第2に,人体の粗い動きを予測し,シーン内で予測する人間の軌跡をモデル化する。 3段目と最後の段目は、推定された接触を考慮した軌道を補完するために、考えられる微細なヒト関節運動と一致する。 最先端(SoA)と比較すると、STAGはシーン認識のGTA-IMデータセットでそれぞれ1.8%と16.2%の改善を達成している。 包括的なアブレーション研究は、エンドツーエンドアプローチよりもステージドモデリングの利点を確認している。 さらに,シーンコンタクトやエンドポイントに到達するまでの時間を示す"time-to-go"と呼ばれる新たに提案された時間カウンタの重要性も確認した。 特にSTAGは、シーンを欠いたデータセットに一般化する機能を示し、CMU-Mocapの最先端のパフォーマンスをソーシャルな手がかりを活用せずに実現している。 私たちのコードは、https://github.com/L-Scofano/STAGでリリースされています。

Scene-aware global human motion forecasting is critical for manifold applications, including virtual reality, robotics, and sports. The task combines human trajectory and pose forecasting within the provided scene context, which represents a significant challenge. So far, only Mao et al. NeurIPS'22 have addressed scene-aware global motion, cascading the prediction of future scene contact points and the global motion estimation. They perform the latter as the end-to-end forecasting of future trajectories and poses. However, end-to-end contrasts with the coarse-to-fine nature of the task and it results in lower performance, as we demonstrate here empirically. We propose a STAGed contact-aware global human motion forecasting STAG, a novel three-stage pipeline for predicting global human motion in a 3D environment. We first consider the scene and the respective human interaction as contact points. Secondly, we model the human trajectory forecasting within the scene, predicting the coarse motion of the human body as a whole. The third and last stage matches a plausible fine human joint motion to complement the trajectory considering the estimated contacts. Compared to the state-of-the-art (SoA), STAG achieves a 1.8% and 16.2% overall improvement in pose and trajectory prediction, respectively, on the scene-aware GTA-IM dataset. A comprehensive ablation study confirms the advantages of staged modeling over end-to-end approaches. Furthermore, we establish the significance of a newly proposed temporal counter called the "time-to-go", which tells how long it is before reaching scene contact and endpoints. Notably, STAG showcases its ability to generalize to datasets lacking a scene and achieves a new state-of-the-art performance on CMU-Mocap, without leveraging any social cues. Our code is released at: https://github.com/L-Scofano/STAG
翻訳日:2023-09-19 18:24:12 公開日:2023-09-16
# 蝶の因子化によるIPUのメモリ要求の低減

Reducing Memory Requirements for the IPU using Butterfly Factorizations ( http://arxiv.org/abs/2309.08946v1 )

ライセンス: Link先を確認
S.-Kazem Shekofteh, Christian Alles, Holger Fr\"oning(参考訳) ハイパフォーマンスコンピューティング(HPC)は、特にハードウェアプラットフォームにおいて、適切なレベルでの消費電力を維持しながら、より多くの処理能力を提供するという、過去数十年間の異なる改善の恩恵を受ける。 インテリジェンス処理ユニット(IPU)は、大量の処理コアと高速ファブリックに接続されたオンチップメモリコンポーネントで並列計算を高速化するために設計された、新しいタイプの超並列プロセッサである。 IPUは主に機械学習アプリケーションをターゲットにしているが、GPUとIPUのアーキテクチャ上の違い、特にIPUのメモリ容量が著しく少ないため、スパーシフィケーションによるモデルサイズ削減の方法を考える必要がある。 バタフライ因子分解は、完全連結層と畳み込み層の置き換えとしてよく知られている。 本稿では,バタフライ構造をIPU上に実装し,その挙動と性能をGPUと比較して検討する。 実験結果から, これらの手法は, メモリ使用量を大幅に削減するために98.5%の圧縮比が得られ, IPUの実装は, 蝶と蝶の1.3倍, 1.6倍の性能向上を享受できることがわかった。 また、CIFAR10のようなリアルワードデータセット上でのトレーニング時間の1.62倍にも達します。

High Performance Computing (HPC) benefits from different improvements during last decades, specially in terms of hardware platforms to provide more processing power while maintaining the power consumption at a reasonable level. The Intelligence Processing Unit (IPU) is a new type of massively parallel processor, designed to speedup parallel computations with huge number of processing cores and on-chip memory components connected with high-speed fabrics. IPUs mainly target machine learning applications, however, due to the architectural differences between GPUs and IPUs, especially significantly less memory capacity on an IPU, methods for reducing model size by sparsification have to be considered. Butterfly factorizations are well-known replacements for fully-connected and convolutional layers. In this paper, we examine how butterfly structures can be implemented on an IPU and study their behavior and performance compared to a GPU. Experimental results indicate that these methods can provide 98.5% compression ratio to decrease the immense need for memory, the IPU implementation can benefit from 1.3x and 1.6x performance improvement for butterfly and pixelated butterfly, respectively. We also reach to 1.62x training time speedup on a real-word dataset such as CIFAR10.
翻訳日:2023-09-19 18:23:40 公開日:2023-09-16
# ロジスティックおよびソフトマックス分類器を用いた逆分類:効率的な最適化

Inverse classification with logistic and softmax classifiers: efficient optimization ( http://arxiv.org/abs/2309.08945v1 )

ライセンス: Link先を確認
Miguel \'A. Carreira-Perpi\~n\'an and Suryabhan Singh Hada(参考訳) 近年、訓練された分類器をクエリしたい場合、ある種の問題に注目が集まっている。 具体的には、分類器の予測ラベルが望ましい方法で変更されるように、与えられた入力インスタンスに最も近いインスタンスを見つける。 これらの「逆分類」問題の例としては、反実的説明、逆例、モデル反転がある。 これらすべては、固定分類器を含む入力インスタンスベクトルに対する根本的な最適化問題であり、インタラクティブまたはリアルタイムアプリケーションのための高速なソリューションを実現することが関心がある。 我々は、ロジスティック回帰とソフトマックス分類器の2つの最も広く使われている分類器に対して、この問題を効率的に解決することに集中する。 これらのモデルの特殊性から,ロジスティック回帰に対しては閉形式で解くことができ,softmax分類器では反復的だが非常に高速であることを示す。 これにより、非常に高次元のインスタンスや多くのクラスであっても、ミリ秒から約1秒のランタイムで、どちらのケースも正確に(ほぼマシン精度まで)解決できます。

In recent years, a certain type of problems have become of interest where one wants to query a trained classifier. Specifically, one wants to find the closest instance to a given input instance such that the classifier's predicted label is changed in a desired way. Examples of these ``inverse classification'' problems are counterfactual explanations, adversarial examples and model inversion. All of them are fundamentally optimization problems over the input instance vector involving a fixed classifier, and it is of interest to achieve a fast solution for interactive or real-time applications. We focus on solving this problem efficiently for two of the most widely used classifiers: logistic regression and softmax classifiers. Owing to special properties of these models, we show that the optimization can be solved in closed form for logistic regression, and iteratively but extremely fast for the softmax classifier. This allows us to solve either case exactly (to nearly machine precision) in a runtime of milliseconds to around a second even for very high-dimensional instances and many classes.
翻訳日:2023-09-19 18:23:18 公開日:2023-09-16
# パラメータ効率の高い転送学習を用いたユニバーサルメトリックラーニング

Universal Metric Learning with Parameter-Efficient Transfer Learning ( http://arxiv.org/abs/2309.08944v1 )

ライセンス: Link先を確認
Sungyeon Kim, Donghyun Kim, Suha Kwak(参考訳) メトリック学習の一般的なプラクティスは、各データセットの組み込みモデルをトレーニングし、テストすることだ。 このデータセット固有のアプローチは、複数の異種データ分布を含む現実世界のシナリオをシミュレートすることができない。 本稿では,複数のデータ分布にまたがる関係を捉えることができる統一距離計量を学習するUniversal Metric Learning(UML)と呼ばれる新しい距離学習パラダイムを導入する。 UMLは、不均衡なデータ分布や支配的な分布に対するバイアスなど、新しい課題を提示します。 これらの課題に対処するために,事前学習した凍結モデルと,確率的アダプタとプロンプトプールという2つの追加モジュールで構成されるパラメータ効率のよいユニバーサル・メトリック・レアーニング(PUMA)を提案する。 これらのモジュールは、支配的な分布へのバイアスを避けながら、データセット固有の知識をキャプチャすることを可能にする。 さらに、合計8つのデータセットを持つ新しいユニバーサルメトリック学習ベンチマークをコンパイルする。 PUMAは、トレーニング可能なパラメータの約69分の1を使用して、最先端のデータセット特化モデルを上回った。

A common practice in metric learning is to train and test an embedding model for each dataset. This dataset-specific approach fails to simulate real-world scenarios that involve multiple heterogeneous distributions of data. In this regard, we introduce a novel metric learning paradigm, called Universal Metric Learning (UML), which learns a unified distance metric capable of capturing relations across multiple data distributions. UML presents new challenges, such as imbalanced data distribution and bias towards dominant distributions. To address these challenges, we propose Parameter-efficient Universal Metric leArning (PUMA), which consists of a pre-trained frozen model and two additional modules, stochastic adapter and prompt pool. These modules enable to capture dataset-specific knowledge while avoiding bias towards dominant distributions. Additionally, we compile a new universal metric learning benchmark with a total of 8 different datasets. PUMA outperformed the state-of-the-art dataset-specific models while using about 69 times fewer trainable parameters.
翻訳日:2023-09-19 18:23:04 公開日:2023-09-16
# 言語間構造抽出のための文脈ラベル投影

Contextual Label Projection for Cross-Lingual Structure Extraction ( http://arxiv.org/abs/2309.08943v1 )

ライセンス: Link先を確認
Tanmay Parekh, I-Hung Hsu, Kuan-Hao Huang, Kai-Wei Chang, Nanyun Peng(参考訳) トレーニングデータをターゲット言語に翻訳することは、言語間転送に有益であることが証明されている。 しかし、構造抽出タスクでは、データ変換には、入力テキストを翻訳し、翻訳テキスト中の翻訳ラベルを共同で取得するラベル投影ステップが必要となる。 ラベルプロジェクションのこれまでの研究は、翻訳テキストからの翻訳ラベルの識別を容易にするか、翻訳ペア間の単語レベルのアライメントを使用して翻訳単語から翻訳フレーズレベルのラベルを変換することで、翻訳品質を損なうことが多かった。 本稿では,まずテキストを対象言語に翻訳し,翻訳文を文脈として使用するラベル上で文脈翻訳を行い,翻訳されたラベルの精度を向上させるclapを紹介する。 コンテクストトランスレータとして多言語機能を持つ命令調整言語モデルを活用し,翻訳されたテキストに翻訳されたラベルが存在することの制約を付与する。 我々はCLAPと他のラベルプロジェクション技術を比較し、イベント引数抽出において対象言語で擬似学習データを生成する。 その結果,中国およびアラビア語のace05データセットの他の手法よりも2-2.5 f1-scoreが改善された。

Translating training data into target languages has proven beneficial for cross-lingual transfer. However, for structure extraction tasks, translating data requires a label projection step, which translates input text and obtains translated labels in the translated text jointly. Previous research in label projection mostly compromises translation quality by either facilitating easy identification of translated labels from translated text or using word-level alignment between translation pairs to assemble translated phrase-level labels from the aligned words. In this paper, we introduce CLAP, which first translates text to the target language and performs contextual translation on the labels using the translated text as the context, ensuring better accuracy for the translated labels. We leverage instruction-tuned language models with multilingual capabilities as our contextual translator, imposing the constraint of the presence of translated labels in the translated text via instructions. We compare CLAP with other label projection techniques for creating pseudo-training data in target languages on event argument extraction, a representative structure extraction task. Results show that CLAP improves by 2-2.5 F1-score over other methods on the Chinese and Arabic ACE05 datasets.
翻訳日:2023-09-19 18:22:48 公開日:2023-09-16
# AffordPose: Affordance-driven Hand Poseとハンドオブジェクトインタラクションの大規模データセット

AffordPose: A Large-scale Dataset of Hand-Object Interactions with Affordance-driven Hand Pose ( http://arxiv.org/abs/2309.08942v1 )

ライセンス: Link先を確認
Juntao Jian, Xiuping Liu, Manyi Li, Ruizhen Hu, Jian Liu(参考訳) 人間がどのようにオブジェクトと相互作用するかは、対象オブジェクトの機能的役割に依存する。 妥当で適切なハンドオブジェクトインタラクションの学習と理解のためには、多数の人間によるデモンストレーションが必要です。 本研究では,手動ポーズを用いた手動オブジェクトインタラクションの大規模データセットであるAffordPoseを紹介する。 まず、使用やハンドオーバといった一般的な意図ではなく、各オブジェクトに対する特定の部分レベルのアフォーマンスラベル(ツイスト、プル、ハンドルグラップなど)をアノテートし、目的を示し、ハンドオブジェクトインタラクションのローカライゼーションを導く。 細粒度のハンドオブジェクトインタラクションは、手のポーズの詳細な配置に手中心のアフォーアンスが与える影響を明らかにしているが、ある程度の多様性も示している。 計26.7Kのハンドオブジェクトインタラクションを収集し、それぞれ3次元オブジェクト形状、部分レベルアベイランスラベル、手動で調整した手ポーズを含む。 包括的データ分析は,パラメータ統計と接触計算により,手-物体間相互作用の共通特性と多様性を示す。 また,ハンドオブジェクト・アプライアンス理解とアプライアンス指向のハンドオブジェクトインタラクション生成のタスクについて実験を行い,詳細なハンドオブジェクトインタラクションの学習におけるデータセットの有効性を検証する。 プロジェクトページ: https://github.com/GentlesJan/AffordPose.com

How human interact with objects depends on the functional roles of the target objects, which introduces the problem of affordance-aware hand-object interaction. It requires a large number of human demonstrations for the learning and understanding of plausible and appropriate hand-object interactions. In this work, we present AffordPose, a large-scale dataset of hand-object interactions with affordance-driven hand pose. We first annotate the specific part-level affordance labels for each object, e.g. twist, pull, handle-grasp, etc, instead of the general intents such as use or handover, to indicate the purpose and guide the localization of the hand-object interactions. The fine-grained hand-object interactions reveal the influence of hand-centered affordances on the detailed arrangement of the hand poses, yet also exhibit a certain degree of diversity. We collect a total of 26.7K hand-object interactions, each including the 3D object shape, the part-level affordance label, and the manually adjusted hand poses. The comprehensive data analysis shows the common characteristics and diversity of hand-object interactions per affordance via the parameter statistics and contacting computation. We also conduct experiments on the tasks of hand-object affordance understanding and affordance-oriented hand-object interaction generation, to validate the effectiveness of our dataset in learning the fine-grained hand-object interactions. Project page: https://github.com/GentlesJan/AffordPose.
翻訳日:2023-09-19 18:22:27 公開日:2023-09-16
# 量子擬似ランダムスクランブラ

Quantum Pseudorandom Scramblers ( http://arxiv.org/abs/2309.08941v1 )

ライセンス: Link先を確認
Chuhan Lu, Minglong Qin, Fang Song, Penghui Yao and Mingnan Zhao(参考訳) 量子擬似ランダム状態発生器(PRSG)は近年、エキサイティングな発展を促している。 prsgは、固定初期状態(例えば、全ゼロ状態)において、ハール乱数と計算的に区別できない出力状態を生成する。 しかし、出力状態の擬似ランダム性は他の初期状態では保証されない。 実際、既知のPSSG構造は、いくつかの初期状態において確実に失敗する。 本研究では、任意の初期状態上で擬似乱数状態を生成する量子擬似乱数状態スクランブラ(PRSS)を提案し、構築する。 情報理論的な設定では、任意の初期状態を全変動距離におけるハールランダムに近い量子状態の分布にマッピングするスクランブラを得る。 その結果,我々のPRSSは分散特性を示した。 一般には、状態空間の$\epsilon$-netにまたがることができる。 これは、平均出力状態が全変動距離でハール乱数を近似している限り、状態空間の小さな領域に集中できるため、標準的なprsgが誘導できることを著しく強化する。 我々のPRSS構造は有名なKacの歩行を平行に拡張し、標準のKacの歩行よりも指数関数的に高速に混合することを示す。 これは我々の証明の核となる。 PRSSの応用についても述べる。 PRSSの構成は、量子後片道関数を仮定するが、PRSSはより弱いプリミティブであり、標準PSSGと同様の相対化世界の片道関数から分離することができる。

Quantum pseudorandom state generators (PRSGs) have stimulated exciting developments in recent years. A PRSG, on a fixed initial (e.g., all-zero) state, produces an output state that is computationally indistinguishable from a Haar random state. However, pseudorandomness of the output state is not guaranteed on other initial states. In fact, known PRSG constructions provably fail on some initial state. In this work, we propose and construct quantum Pseudorandom State Scramblers (PRSSs), which can produce a pseudorandom state on an arbitrary initial state. In the information-theoretical setting, we obtain a scrambler which maps an arbitrary initial state to a distribution of quantum states that is close to Haar random in total variation distance. As a result, our PRSS exhibits a dispersing property. Loosely, it can span an $\epsilon$-net of the state space. This significantly strengthens what standard PRSGs can induce, as they may only concentrate on a small region of the state space as long as the average output state approximates a Haar random state in total variation distance. Our PRSS construction develops a parallel extension of the famous Kac's walk, and we show that it mixes exponentially faster than the standard Kac's walk. This constitutes the core of our proof. We also describe a few applications of PRSSs. While our PRSS construction assumes a post-quantum one-way function, PRSSs are potentially a weaker primitive and can be separated from one-way functions in a relativized world similar to standard PRSGs.
翻訳日:2023-09-19 18:21:58 公開日:2023-09-16
# 勧告システムのオピニオンダイナミクスへの影響:顕微鏡とマクロ効果

The Impact of Recommendation Systems on Opinion Dynamics: Microscopic versus Macroscopic Effects ( http://arxiv.org/abs/2309.08967v1 )

ライセンス: Link先を確認
Nicolas Lanzetti, Florian D\"orfler, Nicol\`o Pagan(参考訳) レコメンデーションシステムは、ソーシャルネットワークやeコマースプラットフォームなどのWebサービスで広く使われており、ユーザーに対してパーソナライズされたコンテンツを配信し、その体験を向上させる。 パーソナライゼーションはユーザーが利用可能なオプションをナビゲートするのを助けるが、ユーザーとその意見に対する影響について懸念が高まっている。 ネガティブな影響の例としては、フィルタバブルの出現や、ユーザの確認バイアスの増幅があり、意見偏極や過激化を引き起こす可能性がある。 本稿では,ユーザに対するレコメンデーションシステムの効果を,顕微鏡的(すなわち,個人的ユーザレベルで)視点とマクロ的視点(すなわち,均質的人口のレベルで)の両方から検討する。 具体的には、最近の意見力学とレコメンデーションシステム間の相互作用に関する研究に基づいて、この閉ループのモデルを提案し、解析的および数値的に研究する。 分析の結果,個々のユーザの意見の変化は,人口の意見分布の変化と必ずしも一致しないことが明らかとなった。 特に、世論分布が変化していないような状況(例えば人口調査による測定など)においても、個々のユーザの意見はレコメンデーションシステムによって著しく歪められる可能性がある。

Recommendation systems are widely used in web services, such as social networks and e-commerce platforms, to serve personalized content to the users and, thus, enhance their experience. While personalization assists users in navigating through the available options, there have been growing concerns regarding its repercussions on the users and their opinions. Examples of negative impacts include the emergence of filter bubbles and the amplification of users' confirmation bias, which can cause opinion polarization and radicalization. In this paper, we study the impact of recommendation systems on users, both from a microscopic (i.e., at the level of individual users) and a macroscopic (i.e., at the level of a homogenous population) perspective. Specifically, we build on recent work on the interactions between opinion dynamics and recommendation systems to propose a model for this closed loop, which we then study both analytically and numerically. Among others, our analysis reveals that shifts in the opinions of individual users do not always align with shifts in the opinion distribution of the population. In particular, even in settings where the opinion distribution appears unaltered (e.g., measured via surveys across the population), the opinion of individual users might be significantly distorted by the recommendation system.
翻訳日:2023-09-19 18:14:05 公開日:2023-09-16
# FF-LOGO: 機能フィルタリングとグローバル最適化によるクロスモーダルポイントクラウド登録

FF-LOGO: Cross-Modality Point Cloud Registration with Feature Filtering and Local to Global Optimization ( http://arxiv.org/abs/2309.08966v1 )

ライセンス: Link先を確認
Nan Ma, Mohan Wang, Yiheng Han, Yong-Jin Liu(参考訳) クロスモダリティポイントクラウド登録は、異なるセンサー間のモダリティに固有の違いがあるため、重大な課題に直面している。 本稿では,機能フィルタリングと局所グローバル最適化を備えたクロスモダリティポイントクラウド登録手法FF-LOGOを提案する。 クロスモダリティ特徴相関フィルタモジュールは、クロスモダリティ点雲から幾何学変換不変特徴を抽出し、特徴マッチングによる点選択を実現する。 また、局所適応鍵領域集約モジュールと大域的モダリティ整合融合最適化モジュールを含む、モダリティ間の最適化プロセスも導入する。 実験の結果,2段階最適化により,機能関連モジュールと選択モジュールの登録精度が大幅に向上した。 提案手法は, 3DCSR データセットにおける現在の最先端手法と比較して, 大幅なリコール率の向上を実現し, 40.59% から 75.74% に改善した。 私たちのコードはhttps://github.com/wangmohan17/FFLOGOで公開されます。

Cross-modality point cloud registration is confronted with significant challenges due to inherent differences in modalities between different sensors. We propose a cross-modality point cloud registration framework FF-LOGO: a cross-modality point cloud registration method with feature filtering and local-global optimization. The cross-modality feature correlation filtering module extracts geometric transformation-invariant features from cross-modality point clouds and achieves point selection by feature matching. We also introduce a cross-modality optimization process, including a local adaptive key region aggregation module and a global modality consistency fusion optimization module. Experimental results demonstrate that our two-stage optimization significantly improves the registration accuracy of the feature association and selection module. Our method achieves a substantial increase in recall rate compared to the current state-of-the-art methods on the 3DCSR dataset, improving from 40.59% to 75.74%. Our code will be available at https://github.com/wangmohan17/FFLOGO.
翻訳日:2023-09-19 18:13:44 公開日:2023-09-16
# LoRaネットワークにおけるエネルギー効率向上のための注意機構をもつマルチエージェント強化学習

Multiagent Reinforcement Learning with an Attention Mechanism for Improving Energy Efficiency in LoRa Networks ( http://arxiv.org/abs/2309.08965v1 )

ライセンス: Link先を確認
Xu Zhang, Ziqi Lin, Shimin Gong, Bo Gu and Dusit Niyato(参考訳) 低消費電力と長距離通信を特徴とするLoRa無線技術は、産業用IoT(Industrial Internet of Things, IIoT)において実現可能な技術の1つである。 しかし,ネットワーク規模が大きくなるにつれて,パケット衝突によるLoRaネットワークのエネルギー効率(EE)は急激に低下する。 この問題に対処するためには、各エンドデバイス(ed)に対して、拡散係数や伝送電力などの伝送パラメータを適切に割り当てる必要がある。 しかし,LoRaネットワークの分散トラフィックと低デューティサイクルのため,異なるパラメータ設定下でのシステムEEの性能評価には時間を要する。 そこで,まず分析モデルを定式化し,システムeeを計算する。 そこで本研究では,LoRaネットワークのシステムEEの最大化を目的としたマルチエージェント強化学習(MALoRa)に基づく送信パラメータ割り当てアルゴリズムを提案する。 特に、MALoRaは、システムEEを改善するために、各EDをガイドするアテンションメカニズムを使用して、関連するEDのパラメータ割り当てにどの程度の'アテンション'を与えるべきかを学習する。 シミュレーションの結果,MALoRaは,パケット配信速度(PDR)の低下を許容できるベースラインアルゴリズムと比較して,システムEEを著しく改善することが示された。

Long Range (LoRa) wireless technology, characterized by low power consumption and a long communication range, is regarded as one of the enabling technologies for the Industrial Internet of Things (IIoT). However, as the network scale increases, the energy efficiency (EE) of LoRa networks decreases sharply due to severe packet collisions. To address this issue, it is essential to appropriately assign transmission parameters such as the spreading factor and transmission power for each end device (ED). However, due to the sporadic traffic and low duty cycle of LoRa networks, evaluating the system EE performance under different parameter settings is time-consuming. Therefore, we first formulate an analytical model to calculate the system EE. On this basis, we propose a transmission parameter allocation algorithm based on multiagent reinforcement learning (MALoRa) with the aim of maximizing the system EE of LoRa networks. Notably, MALoRa employs an attention mechanism to guide each ED to better learn how much ''attention'' should be given to the parameter assignments for relevant EDs when seeking to improve the system EE. Simulation results demonstrate that MALoRa significantly improves the system EE compared with baseline algorithms with an acceptable degradation in packet delivery rate (PDR).
翻訳日:2023-09-19 18:13:28 公開日:2023-09-16
# 未知の活用によるオープンセット領域適応における分類境界の強化

Tightening Classification Boundaries in Open Set Domain Adaptation through Unknown Exploitation ( http://arxiv.org/abs/2309.08964v1 )

ライセンス: Link先を確認
Lucas Fernando Alvarenga e Silva, Nicu Sebe, Jurandy Almeida(参考訳) 畳み込みニューラルネットワーク(CNN)は、生データから学習する能力のため、多くの研究領域に革命的な進歩をもたらした。 しかし、これらの手法が制御不能な環境に適用された場合、ドメインシフトやカテゴリシフトのレベルが異なるラベル付きデータセットなど、多くの異なる要因がモデルの性能を低下させる可能性がある。 特に、両方の問題が同時に発生した場合、オープンセット・ドメイン・アダプション(osda)問題として、この困難な設定に取り組みます。 一般的に、既存のosdaのアプローチは、既知のクラスを整合させるか、あるいは既に負のインスタンスを抽出している場合は、トレーニング中に監視によって学習された新しいカテゴリとして使用することに集中している。 未知のインスタンスの高信頼集合を抽出し,OSDA手法の分類境界を厳格化するための制約として利用することにより,OSDAアプローチを改善する新しい手法を提案する。 特に,(1)プリスタン陰性事例と直接対応し,(2)データ拡張技術を用いてランダムに変換された負,(3)敵対的特徴を含む合成生成された負の3つの方法で評価された新たな損失制約を採用する。 OVANetに基づく広範な実験ですべてのアプローチを評価し、Office-31とOffice-Homeのデータセットという2つの公開ベンチマークで一貫した改善を観察し、Office-31の精度とH-Scoreの両方で最大1.3%、Office-Homeで5.8%、H-Scoreの4.7%という絶対的なゲインを得た。

Convolutional Neural Networks (CNNs) have brought revolutionary advances to many research areas due to their capacity of learning from raw data. However, when those methods are applied to non-controllable environments, many different factors can degrade the model's expected performance, such as unlabeled datasets with different levels of domain shift and category shift. Particularly, when both issues occur at the same time, we tackle this challenging setup as Open Set Domain Adaptation (OSDA) problem. In general, existing OSDA approaches focus their efforts only on aligning known classes or, if they already extract possible negative instances, use them as a new category learned with supervision during the course of training. We propose a novel way to improve OSDA approaches by extracting a high-confidence set of unknown instances and using it as a hard constraint to tighten the classification boundaries of OSDA methods. Especially, we adopt a new loss constraint evaluated in three different means, (1) directly with the pristine negative instances; (2) with randomly transformed negatives using data augmentation techniques; and (3) with synthetically generated negatives containing adversarial features. We assessed all approaches in an extensive set of experiments based on OVANet, where we could observe consistent improvements for two public benchmarks, the Office-31 and Office-Home datasets, yielding absolute gains of up to 1.3% for both Accuracy and H-Score on Office-31 and 5.8% for Accuracy and 4.7% for H-Score on Office-Home.
翻訳日:2023-09-19 18:13:10 公開日:2023-09-16
# Struc-Bench: 大規模言語モデルは複雑な構造化データを生成するのに本当に優れているか?

Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? ( http://arxiv.org/abs/2309.08963v1 )

ライセンス: Link先を確認
Xiangru Tang, Yiming Zong, Yilun Zhao, Arman Cohan, Mark Gerstein(参考訳) GPT-4のようなLarge Language Models(LLM)のパワーにもかかわらず、複雑な構造化された出力を生成する必要のあるタスクに苦戦している。 本研究では, 複素構造データの生成における電流LLMの性能評価を行い, 構造を考慮した微調整手法を提案する。 包括的評価を行うために,struc-benchを提案する。5つの代表的なllm(gpt-neox 20b,gpt-3.5,gpt-4,vicuna)を含み,生のテキスト,html,latexテーブルにまたがる注意深く構築されたデータセット上で評価する。 現在のモデル性能の分析に基づいて、特定の共通フォーマットエラーと潜在的な改善領域を同定する。 複雑なフォーマット要求に対処するために、FormatCoT(Chain-of-Thought)を使用してターゲット出力からフォーマット命令を生成する。 実験により,LLaMA-7Bに適用した構造認識微調整法は,自然言語制約の順守を著しく改善し,他の評価LCMよりも優れた性能を示した。 これらの結果に基づいて,6次元のモデル能力の能力マップ(カバレッジ,フォーマット,推論,理解,実用,幻覚)を示す。 このマップは、複雑な構造化された出力を扱う際のLCMの弱点を強調し、将来の作業に期待できる方向性を提案する。 私たちのコードとモデルはhttps://github.com/gersteinlab/struc-benchにあります。

Despite the power of Large Language Models (LLMs) like GPT-4, they still struggle with tasks that require generating complex, structured outputs. In this study, we assess the capability of Current LLMs in generating complex structured data and propose a structure-aware fine-tuning approach as a solution to improve this ability. To perform a comprehensive evaluation, we propose Struc-Bench, include five representative LLMs (i.e., GPT-NeoX 20B, GPT-3.5, GPT-4, and Vicuna) and evaluate them on our carefully constructed datasets spanning raw text, HTML, and LaTeX tables. Based on our analysis of current model performance, we identify specific common formatting errors and areas of potential improvement. To address complex formatting requirements, we utilize FormatCoT (Chain-of-Thought) to generate format instructions from target outputs. Our experiments show that our structure-aware fine-tuning method, when applied to LLaMA-7B, significantly improves adherence to natural language constraints, outperforming other evaluated LLMs. Based on these results, we present an ability map of model capabilities from six dimensions (i.e., coverage, formatting, reasoning, comprehension, pragmatics, and hallucination). This map highlights the weaknesses of LLMs in handling complex structured outputs and suggests promising directions for future work. Our code and models can be found at https://github.com/gersteinlab/Struc-Bench.
翻訳日:2023-09-19 18:12:43 公開日:2023-09-16
# unideal: カリキュラム知識蒸留連合学習

UNIDEAL: Curriculum Knowledge Distillation Federated Learning ( http://arxiv.org/abs/2309.08961v1 )

ライセンス: Link先を確認
Yuwen Yang, Chang Liu, Xun Cai, Suizhi Huang, Hongtao Lu, Yue Ding(参考訳) フェデレートラーニング(FL)は、データプライバシを保持しながら、複数のクライアント間で協調学習を可能にする、有望なアプローチとして登場した。 しかし、クライアントが異なるドメインやディストリビューションのデータを持っているクロスドメインflタスクは、固有の異質性のため、依然として困難な問題である。 本稿では,クロスドメインシナリオと異種モデルアーキテクチャの課題に対処するために設計された新しいFLアルゴリズムUNIDEALを提案する。 FL設定における知識蒸留の有効性を大幅に向上させる適応型教師・学生相互評価カリキュラム学習を提案する。 様々なデータセットについて広範な実験を行い、最先端のベースラインと比較した。 その結果,unidealはモデル精度と通信効率の両面で優れた性能を達成できた。 さらに,非凸条件下でのO(1/T)の収束率を示すアルゴリズムの収束解析を行う。

Federated Learning (FL) has emerged as a promising approach to enable collaborative learning among multiple clients while preserving data privacy. However, cross-domain FL tasks, where clients possess data from different domains or distributions, remain a challenging problem due to the inherent heterogeneity. In this paper, we present UNIDEAL, a novel FL algorithm specifically designed to tackle the challenges of cross-domain scenarios and heterogeneous model architectures. The proposed method introduces Adjustable Teacher-Student Mutual Evaluation Curriculum Learning, which significantly enhances the effectiveness of knowledge distillation in FL settings. We conduct extensive experiments on various datasets, comparing UNIDEAL with state-of-the-art baselines. Our results demonstrate that UNIDEAL achieves superior performance in terms of both model accuracy and communication efficiency. Additionally, we provide a convergence analysis of the algorithm, showing a convergence rate of O(1/T) under non-convex conditions.
翻訳日:2023-09-19 18:12:16 公開日:2023-09-16
# ODSum: Open Domain Multi-Document Summarizationの新しいベンチマーク

ODSum: New Benchmarks for Open Domain Multi-Document Summarization ( http://arxiv.org/abs/2309.08960v1 )

ライセンス: Link先を確認
Yijie Zhou, Kejian Shi, Wencai Zhang, Yixin Liu, Yilun Zhao, Arman Cohan(参考訳) open-domain multi-document summarization (odmds) は、大量の文書をコヒーレントで簡潔な要約にまとめるための重要なツールである。 より関連性の高いドキュメントセットでは、検索に対する正しい回答が存在するとは限らないため、検索性能の測定は困難である。 我々は,クエリに基づく文書要約データセットをODMDSデータセットに処理するためのルールベース手法を提案する。 この手法に基づき,ドキュメントインデックスが相互依存的かつしばしば相互に関連した,新しいデータセット odsum を紹介する。 我々は ODMDS に <textit{retrieve-then-summarize} 法で取り組み,検索者リストと要約者のパフォーマンスについて検討した。 広範な実験を通じて評価指標のばらつきを特定し,信頼性に関する洞察を提供する。 また、LLMはエラーの検索によって大きなパフォーマンス損失を被ることがわかった。 さらに,不完全検索に対するロバスト性を検証し,性能改善のための手法についても検討した。 データとコードはhttps://github.com/yale-nlp/ODSumで公開します。

Open-domain Multi-Document Summarization (ODMDS) is a critical tool for condensing vast arrays of documents into coherent, concise summaries. With a more inter-related document set, there does not necessarily exist a correct answer for the retrieval, making it hard to measure the retrieving performance. We propose a rule-based method to process query-based document summarization datasets into ODMDS datasets. Based on this method, we introduce a novel dataset, ODSum, a sophisticated case with its document index interdependent and often interrelated. We tackle ODMDS with the \textit{retrieve-then-summarize} method, and the performance of a list of retrievers and summarizers is investigated. Through extensive experiments, we identify variances in evaluation metrics and provide insights into their reliability. We also found that LLMs suffer great performance loss from retrieving errors. We further experimented methods to improve the performance as well as investigate their robustness against imperfect retrieval. We will release our data and code at https://github.com/yale-nlp/ODSum.
翻訳日:2023-09-19 18:12:00 公開日:2023-09-16
# 単言語または多言語命令チューニング:より優れたalpacaを作る

Monolingual or Multilingual Instruction Tuning: Which Makes a Better Alpaca ( http://arxiv.org/abs/2309.08958v1 )

ライセンス: Link先を確認
Pinzhen Chen, Shaoxiong Ji, Nikolay Bogoychev, Barry Haddow, Kenneth Heafield(参考訳) 基礎的大言語モデル(LLM)は、AIアシスタント作成などのアプリケーションを容易にし、オープンエンドの質問応答機能を開発するために、インストラクションを調整できる。 このような取り組みは、先行研究に基づいて単一の言語でしばしば行われるが、単言語と多言語チューニングのコスト効率の高いアプローチを実証的に分析し、単言語と多言語間のクエリに対するllmの有効性に光を当てる。 本稿では,Alpacaデータセットと機械翻訳を用いて多言語学習データを作成し,低ランク適応とフルパラメータトレーニングを通じてLLMをチューニングする。 比較では、多言語チューニングはLLMの英語演奏にとって必須ではなく、多言語環境における頑健さの鍵となる。 固定予算では、ダウンサンプルデータでのみ訓練された多言語命令チューニングモデルは、各言語のための単言語モデルのトレーニングと同じくらい強力になる。 本研究は,制約付き計算資源を用いた命令調整による言語サポートの拡張ガイドとして機能する。

Foundational large language models (LLMs) can be instruction-tuned to develop open-ended question-answering capability, facilitating applications such as the creation of AI assistants. While such efforts are often carried out in a single language, building on prior research, we empirically analyze cost-efficient approaches of monolingual and multilingual tuning, shedding light on the efficacy of LLMs in responding to queries across monolingual and multilingual contexts. Our study employs the Alpaca dataset and machine translations of it to form multilingual training data, which is then used to tune LLMs through low-rank adaptation and full-parameter training. Comparisons reveal that multilingual tuning is not crucial for an LLM's English performance, but is key to its robustness in a multilingual environment. With a fixed budget, a multilingual instruction-tuned model, merely trained on downsampled data, can be as powerful as training monolingual models for each language. Our findings serve as a guide for expanding language support through instruction tuning with constrained computational resources.
翻訳日:2023-09-19 18:11:45 公開日:2023-09-16
# ExBluRF:Extreme Motion Blurred画像のための高効率放射場

ExBluRF: Efficient Radiance Fields for Extreme Motion Blurred Images ( http://arxiv.org/abs/2309.08957v1 )

ライセンス: Link先を確認
Dongwoo Lee, Jeongtaek Oh, Jaesung Lim, Sunghyun Cho and Kyoung Mu Lee(参考訳) 本稿では,効率的な放射場最適化に基づく極端運動ぼかし画像の新しいビュー合成法であるExBluRFを提案する。 提案手法は,6-DOFカメラトラジェクトリに基づく運動ぼけの定式化とボクセルベースの放射場からなる。 極めてぼやけた画像から、ぼやけた画像を生成するカメラの軌跡を共同で推定し、シャープな輝度場を最適化する。 トレーニングでは、カメラ軌道に沿った複数の光を蓄積して、物理的な動きぼけ操作に相当する単一のぼやけた色を再構成する。 ぼやけた画像空間におけるフォトコンシステンシー損失を最小限に抑え、全画像のぼやけを説明するカメラ軌跡を持つ鋭い輝度場を得る。 ぼやけた画像空間における共同最適化は、そのぼやけたサイズに比例した計算と資源の激増を要求する。 MLPベースのフレームワークを低次元の6-DOFカメラポーズとボクセルベースの放射場に置き換えることで,この問題を解決する。 既存の作品と比較して、より鮮明な3dシーンを10倍のトレーニング時間とgpuメモリ消費で、動きのぼやけたビューから復元する。

We present ExBluRF, a novel view synthesis method for extreme motion blurred images based on efficient radiance fields optimization. Our approach consists of two main components: 6-DOF camera trajectory-based motion blur formulation and voxel-based radiance fields. From extremely blurred images, we optimize the sharp radiance fields by jointly estimating the camera trajectories that generate the blurry images. In training, multiple rays along the camera trajectory are accumulated to reconstruct single blurry color, which is equivalent to the physical motion blur operation. We minimize the photo-consistency loss on blurred image space and obtain the sharp radiance fields with camera trajectories that explain the blur of all images. The joint optimization on the blurred image space demands painfully increasing computation and resources proportional to the blur size. Our method solves this problem by replacing the MLP-based framework to low-dimensional 6-DOF camera poses and voxel-based radiance fields. Compared with the existing works, our approach restores much sharper 3D scenes from challenging motion blurred views with the order of 10 times less training time and GPU memory consumption.
翻訳日:2023-09-19 18:11:25 公開日:2023-09-16
# IntelliBeeHive:ハニービー、ポーレン、バラアデストラクタ自動監視システム

IntelliBeeHive: An Automated Honey Bee, Pollen, and Varroa Destructor Monitoring System ( http://arxiv.org/abs/2309.08955v1 )

ライセンス: Link先を確認
Christian I. Narcia-Macias, Joselito Guardado, Jocell Rodriguez, Joanne Rampersad-Ammons, Erik Enriquez, Dong-Chul Kim(参考訳) 本研究は, コンピュータビジョンと最新の技術進歩を活用して, ミツバチのコロニー崩壊障害, ハチの行動, 個体数減少, および総ヒツバチの健康状態の理解を高めることを目的としたミツバチモニタリングシステムを開発した。 このシステムは、リアルタイムデータを提供するhiveの入り口に位置しており、養蜂家たちはアカウントベースのウェブサイトを通じてhiveの活動と健康を注意深く監視することができる。 機械学習を用いることで、ミツバチを正確に追跡し、花粉収集活動を監視し、ミツバチを混乱させることなくバロアミツバチを検出できます。 また,このモニタリングシステムの開発には費用効率の高い技術が利用されており,ホビイストや商業的養蜂事業,研究者など,様々なスケールのアパイアに利用することができる。 ミツバチ、花粉、ダニの検出に使用される推論モデルは、私たちのデータでトレーニングされたyolov7-tinyアーキテクチャに基づいています。 ミツバチモデル認識用F1スコアは0.95であり、精度およびリコール値は0.981である。 花粉およびマイト物検出モデルF1スコアは0.95で, 精度とリコール値は0.821, マイトは0.996であった。 本システムの性能は,ハチの活動のモニタリングに有効であることを示し,追跡精度96.28%を達成し,花粉モデルは0.831のf1-scoreを達成した。

Utilizing computer vision and the latest technological advancements, in this study, we developed a honey bee monitoring system that aims to enhance our understanding of Colony Collapse Disorder, honey bee behavior, population decline, and overall hive health. The system is positioned at the hive entrance providing real-time data, enabling beekeepers to closely monitor the hive's activity and health through an account-based website. Using machine learning, our monitoring system can accurately track honey bees, monitor pollen-gathering activity, and detect Varroa mites, all without causing any disruption to the honey bees. Moreover, we have ensured that the development of this monitoring system utilizes cost-effective technology, making it accessible to apiaries of various scales, including hobbyists, commercial beekeeping businesses, and researchers. The inference models used to detect honey bees, pollen, and mites are based on the YOLOv7-tiny architecture trained with our own data. The F1-score for honey bee model recognition is 0.95 and the precision and recall value is 0.981. For our pollen and mite object detection model F1-score is 0.95 and the precision and recall value is 0.821 for pollen and 0.996 for "mite". The overall performance of our IntelliBeeHive system demonstrates its effectiveness in monitoring the honey bee's activity, achieving an accuracy of 96.28 % in tracking and our pollen model achieved a F1-score of 0.831.
翻訳日:2023-09-19 18:11:05 公開日:2023-09-16
# OmniLRS:月面ロボットのためのフォトリアリスティックシミュレータ

OmniLRS: A Photorealistic Simulator for Lunar Robotics ( http://arxiv.org/abs/2309.08997v1 )

ライセンス: Link先を確認
Antoine Richard, Junnosuke Kamohara, Kentaro Uno, Shreya Santra, Dave van der Meer, Miguel Olivares-Mendez, Kazuya Yoshida(参考訳) 地球外ロボット探査のためのアルゴリズムの開発は常に困難だった。 これらの環境に関連する複雑さに加えて、主要な問題の1つは、上記のアルゴリズムの評価である。 月面探査への関心が再び高まる中、月面ロボットの開発を可能にする質の高いシミュレーターの需要もある。 本稿では,nvidiaのロボットシミュレータであるアイザック・シムを基に月面シミュレータを構築した方法について述べる。 本稿では,Nvidiaのロボットシミュレータをベースとした光リアルルナーシミュレータであるOmniverse Lunar Robotic-Sim (OmniLRS)を提案する。 このシミュレーションは、高速な手続き環境生成、マルチボット機能、および機械学習アプリケーションのための合成データパイプラインを提供する。 ROS1とROS2のバインディングが付属しており、ロボットだけでなく環境もコントロールできる。 本研究は,画像に基づく知覚におけるシミュレータの有効性を示すために,シミュレート・トゥ・リアル・ロック・インスタンス・セグメンテーションを行う。 私たちの合成データに基づいてトレーニングされたyolov8モデルは、実世界のデータでトレーニングされたモデルに近いパフォーマンスを達成します。 実データで微調整すると、実世界のデータで訓練されたモデルよりも平均精度が14%高く、シミュレータのフォトリアリズムを実証する。 %であった。 コードは完全にオープンソースで、ここでアクセスできる。 https://github.com/AntoineRichard/LunarSim。

Developing algorithms for extra-terrestrial robotic exploration has always been challenging. Along with the complexity associated with these environments, one of the main issues remains the evaluation of said algorithms. With the regained interest in lunar exploration, there is also a demand for quality simulators that will enable the development of lunar robots. % In this paper, we explain how we built a Lunar simulator based on Isaac Sim, Nvidia's robotic simulator. In this paper, we propose Omniverse Lunar Robotic-Sim (OmniLRS) that is a photorealistic Lunar simulator based on Nvidia's robotic simulator. This simulation provides fast procedural environment generation, multi-robot capabilities, along with synthetic data pipeline for machine-learning applications. It comes with ROS1 and ROS2 bindings to control not only the robots, but also the environments. This work also performs sim-to-real rock instance segmentation to show the effectiveness of our simulator for image-based perception. Trained on our synthetic data, a yolov8 model achieves performance close to a model trained on real-world data, with 5% performance gap. When finetuned with real data, the model achieves 14% higher average precision than the model trained on real-world data, demonstrating our simulator's photorealism.% to realize sim-to-real. The code is fully open-source, accessible here: https://github.com/AntoineRichard/LunarSim, and comes with demonstrations.
翻訳日:2023-09-19 18:05:12 公開日:2023-09-16
# 協調量子現象のための固体プラットフォーム

A solid-state platform for cooperative quantum phenomena ( http://arxiv.org/abs/2309.08991v1 )

ライセンス: Link先を確認
Xin Li, Jamir Marino, Darrick E. Chang and Benedetta Flebus(参考訳) システムと環境の結合によって生じる散逸は、一般的に量子技術にとっての敵と見なされる。 にもかかわらず、近年の光物質界面における研究は、相関散逸を多体量子系の新しい動的状態や絡み合いの工学に活用できることを示した。 この進歩に触発されて、ここでは量子ハイブリッド固体プラットフォームにおける協調量子現象の探索の舞台を定めます。 我々は, 共有固体貯水池の磁場変動を介して相互作用する固体スピン欠陥の集合の量子多体力学の包括的定式化を開発する。 我々の一般フレームワークは、相関散逸によって媒介される有効量子ビット-量子ビット相互作用を捉え、単一固体スピン欠陥による局所磁気ノイズの量子センシング理論を非局所時間的および空間的相関のセンシングへと自然に拡張する。 分散相関が実際の実験環境において重要な役割を果たすかどうかを理解するため、強磁性貯留層のスピン揺らぎを介して相互作用する量子ビットアレイに適用する。 その結果, 強磁性薄膜近傍に配置した固体スピン欠陥の集団緩和速度は, 適切なパラメータ領域において, 超レイ度, サブレイディアンスの明確なシグネチャを示すことがわかった。 さらに, 協調量子行動は空間障害や熱ゆらぎに対して顕著な堅牢性を示す。 私たちの研究は、スピントロニクスと量子光学を融合する基礎を、今後の共通の研究の地平に向けて築き上げています。

The dissipation resulting from the coupling of a system with its environment is commonly viewed as a foe for quantum technologies. Nonetheless, recent developments at light-matter interfaces have shown that correlated dissipation can be leveraged to engineer novel dynamical states of matter and entanglement in many-body quantum systems. Inspired by this progress, here we set the stage for the -- yet uncharted -- exploration of cooperative quantum phenomena in quantum hybrid solid-state platforms. We develop a comprehensive formalism for the quantum many-body dynamics of an ensemble of solid-state spin defects interacting via the magnetic field fluctuations of a common solid-state reservoir. Our general framework captures effective qubit-qubit interactions mediated by correlated dissipation and naturally extends the theory of quantum sensing of local magnetic noise via single solid-state spin defects to sensing of nonlocal temporal and spatial correlations. To understand whether dissipative correlations can play a relevant role in a realistic experimental setup, we apply our model to a qubit array interacting via the spin fluctuations of a ferromagnetic reservoir. Our results show that collective relaxation rates of an ensemble of solid-state spin defects placed nearby a common ferromagnetic thin film can display clear signatures of superradiance and subradiance in the appropriate parameter regime. Furthermore, we find that the cooperative quantum behavior exhibits remarkable robustness against spatial disorder and thermal fluctuations. Our work lays the foundation for merging spintronics and quantum optics towards a common research horizon in the incoming future.
翻訳日:2023-09-19 18:04:49 公開日:2023-09-16
# RMP: 動き予測のためのランダムマスク事前トレーニングフレームワーク

RMP: A Random Mask Pretrain Framework for Motion Prediction ( http://arxiv.org/abs/2309.08989v1 )

ライセンス: Link先を確認
Yi Yang, Qingwen Zhang, Thomas Gilles, Nazre Batool, John Folkesson(参考訳) プリトレーニング技術が普及するにつれて、自動運転における事前学習に基づく動き予測手法の研究はほとんど行われていない。 本稿では,交通参加者の軌道予測のための事前学習タスクを形式化する枠組みを提案する。 自然言語処理(NLP)とコンピュータビジョン(CV)のランダムマスクモデルにインスパイアされたフレームワーク内では、ランダムな時間ステップにおけるオブジェクトの位置がマスクされ、学習されたニューラルネットワーク(NN)によって埋められる。 マスクプロファイルを変更することで、我々のフレームワークは様々なモーション関連のタスクに簡単に切り替えることができる。 提案手法は,argoverse と nuscenes のデータセット上で評価することで,ノイズの多い入力に対処でき,特に時間経過に伴う物体の動作予測精度とミス率の向上が期待できることを示す。

As the pretraining technique is growing in popularity, little work has been done on pretrained learning-based motion prediction methods in autonomous driving. In this paper, we propose a framework to formalize the pretraining task for trajectory prediction of traffic participants. Within our framework, inspired by the random masked model in natural language processing (NLP) and computer vision (CV), objects' positions at random timesteps are masked and then filled in by the learned neural network (NN). By changing the mask profile, our framework can easily switch among a range of motion-related tasks. We show that our proposed pretraining framework is able to deal with noisy inputs and improves the motion prediction accuracy and miss rate, especially for objects occluded over time by evaluating it on Argoverse and NuScenes datasets.
翻訳日:2023-09-19 18:04:25 公開日:2023-09-16
# 生活支援施設における文脈認識型環境情報システム

Deliberative Context-Aware Ambient Intelligence System for Assisted Living Homes ( http://arxiv.org/abs/2309.08984v1 )

ライセンス: Link先を確認
Mohannad Babli, Jaime A Rincon, Eva Onaindia, Carlos Carrascosa and Vicente Julian(参考訳) 健康とストレスのモニタリングは、環境知性によってカバーされる問題の1つであり、ストレスは人間の病気が感情状態に直接影響を及ぼす重要な原因である。 主な目的は、環境情報医療アプリケーションのための検討アーキテクチャの提案であった。 建築は、生活支援施設で負の感情に苦しむストレスのある高齢者を慰め、環境のダイナミックな性質を考慮して計画を実行する。 文献は、熟考と環境知能の収束と、後者の最新医療動向を明らかにするためにレビューされた。 検討機能は、環境に関するコンテキスト対応の動的人間ロボット相互作用、知覚、計画能力、反応性、文脈認識を実現するために設計された。 本手法の動作と妥当性を実証するために,シミュレーション支援住宅シナリオにおける実験ケーススタディを多数実施した。 提案手法は分類精度を示すために検証された。 検証の結果, 検討関数はその検討目的を効果的に達成していることがわかった。

Monitoring wellbeing and stress is one of the problems covered by ambient intelligence, as stress is a significant cause of human illnesses directly affecting our emotional state. The primary aim was to propose a deliberation architecture for an ambient intelligence healthcare application. The architecture provides a plan for comforting stressed seniors suffering from negative emotions in an assisted living home and executes the plan considering the environment's dynamic nature. Literature was reviewed to identify the convergence between deliberation and ambient intelligence and the latter's latest healthcare trends. A deliberation function was designed to achieve context-aware dynamic human-robot interaction, perception, planning capabilities, reactivity, and context-awareness with regard to the environment. A number of experimental case studies in a simulated assisted living home scenario were conducted to demonstrate the approach's behavior and validity. The proposed methods were validated to show classification accuracy. The validation showed that the deliberation function has effectively achieved its deliberative objectives.
翻訳日:2023-09-19 18:04:10 公開日:2023-09-16
# ジャストインタイムカーネル最適化によるブラウザ内深層学習の高速化

Accelerating In-Browser Deep Learning Inference on Diverse Edge Clients through Just-in-Time Kernel Optimizations ( http://arxiv.org/abs/2309.08978v1 )

ライセンス: Link先を確認
Fucheng Jia, Shiqi Jiang, Ting Cao, Wei Cui, Tianrui Xia, Xu Cao, Yuanchun Li, Deyu Zhang, Ju Ren, Yunxin Liu, Lili Qiu, Mao Yang(参考訳) ブラウザ内ディープラーニング(DL)推論をより目立たせるように、Webアプリケーションは、AIサービスデリバリの主要なプラットフォームになりつつある。 しかし、現在のブラウザ内推論システムは、先進的なwebプログラミング手法を効果的に活用できず、様々なクライアントデバイス用のカーネルをカスタマイズする。 そこで本研究では,CPUとGPUの両方に最適化されたカーネルのジャスト・イン・タイム(JIT)自動生成を可能にする,ブラウザ内推論システム nn-JIT.web を提案する。 このシステムは、TVMのような他のテンソルコンパイラと比較してカーネル生成時間を大幅に短縮し、性能を維持・改善する2つの新しいWebプログラミング技術を用いて実現している。 最初のテクニックであるTensor-Web Compiling Co-Designは、テンソルとWebコンパイルを統合することでコンパイルコストを削減し、冗長で非効率なコンパイルパスを排除する。 第2のテクニックであるWeb-Specific Lite Kernel Optimization Space Designは、Webプログラミング要件と効率的なハードウェアリソース利用に焦点を当ててカーネルチューニングコストを削減し、最適化スペースを数十に制限する。 nn-JIT.webは、ARM、Intel、AMD、NvidiaのメインストリームCPUやGPUを含む、さまざまなクライアントデバイス上のモダンなトランスフォーマーモデルに対して評価されている。 その結果、nn-JIT.webは、様々なモデルのベースラインと比較して、30秒で最大8.2倍高速に達成できることがわかった。

Web applications are increasingly becoming the primary platform for AI service delivery, making in-browser deep learning (DL) inference more prominent. However, current in-browser inference systems fail to effectively utilize advanced web programming techniques and customize kernels for various client devices, leading to suboptimal performance. To address the issues, this paper presents the first in-browser inference system, nn-JIT.web, which enables just-in-time (JIT) auto-generation of optimized kernels for both CPUs and GPUs during inference. The system achieves this by using two novel web programming techniques that can significantly reduce kernel generation time, compared to other tensor compilers such as TVM, while maintaining or even improving performance. The first technique, Tensor-Web Compiling Co-Design, lowers compiling costs by unifying tensor and web compiling and eliminating redundant and ineffective compiling passes. The second technique, Web-Specific Lite Kernel Optimization Space Design, reduces kernel tuning costs by focusing on web programming requirements and efficient hardware resource utilization, limiting the optimization space to only dozens. nn-JIT.web is evaluated for modern transformer models on a range of client devices, including the mainstream CPUs and GPUs from ARM, Intel, AMD and Nvidia. Results show that nn-JIT.web can achieve up to 8.2x faster within 30 seconds compared to the baselines across various models.
翻訳日:2023-09-19 18:03:55 公開日:2023-09-16
# christoffel関数と共形予測を用いたデータ駆動到達可能性

Data-driven Reachability using Christoffel Functions and Conformal Prediction ( http://arxiv.org/abs/2309.08976v1 )

ライセンス: Link先を確認
Abdelmouaiz Tebjou, Goran Frehse, Fa\"icel Chamroukhi(参考訳) 力学系の解析における重要な数学的ツールは、到達集合の近似、すなわち与えられた初期状態から与えられた時間後に到達可能な状態の集合である。 この集合は、系の力学が知られ、既知の係数を持つ常微分方程式の系によって与えられるとしても、複素系では計算が難しい。 実際、パラメータはしばしば未知であり、数学的モデルを得るのが難しい。 データベースのアプローチは、状態のサンプルに基づいてリーチセットを推定することで、これらの困難を避けることを約束する。 モデルが利用可能であれば、このトレーニングセットは数値シミュレーションによって得られる。 モデルがない場合、実際の観測は代わりに使用することができる。 データベースのリーチ集合近似に対する最近提案されたアプローチは、リーチ集合を近似するためにChristoffel関数を使用する。 ある仮定の下では、近似は真の解に収束することが保証される。 本稿では, サンプル効率を著しく向上させ, トレーニングとキャリブレーションセットによるコンフォメーション予測から統計的保証を活用し, いくつかの仮定を緩和することで, これらの結果を改善した。 さらに、統計収束保証を維持しながら、キャリブレーションセットを避けるために、Christoffel関数を漸進的に計算する方法を利用する。 さらに,本手法はトレーニングとキャリブレーションセットの外れ値に対して頑健である。

An important mathematical tool in the analysis of dynamical systems is the approximation of the reach set, i.e., the set of states reachable after a given time from a given initial state. This set is difficult to compute for complex systems even if the system dynamics are known and given by a system of ordinary differential equations with known coefficients. In practice, parameters are often unknown and mathematical models difficult to obtain. Data-based approaches are promised to avoid these difficulties by estimating the reach set based on a sample of states. If a model is available, this training set can be obtained through numerical simulation. In the absence of a model, real-life observations can be used instead. A recently proposed approach for data-based reach set approximation uses Christoffel functions to approximate the reach set. Under certain assumptions, the approximation is guaranteed to converge to the true solution. In this paper, we improve upon these results by notably improving the sample efficiency and relaxing some of the assumptions by exploiting statistical guarantees from conformal prediction with training and calibration sets. In addition, we exploit an incremental way to compute the Christoffel function to avoid the calibration set while maintaining the statistical convergence guarantees. Furthermore, our approach is robust to outliers in the training and calibration set.
翻訳日:2023-09-19 18:03:29 公開日:2023-09-16
# クリフォードテーブルーからの安定化回路のアーキテクチャによる合成

Architecture-Aware Synthesis of Stabilizer Circuits from Clifford Tableaus ( http://arxiv.org/abs/2309.08972v1 )

ライセンス: Link先を確認
David Winder, Qunsheng Huang, Arianne Meijer-van de Griend, and Richie Yeung(参考訳) 現在、量子コンピューティングはNISQ-Eraにあるため、特定のハードウェア上で実行されるゲートの数を減らすためのコンパイル戦略が必要である。 本研究では,量子デバイスの各接続グラフにCNOTを適用することに焦点を当て,Clifford tableausと呼ばれるデータ構造の合成という概念を利用する。 したがって、我々は合成量子回路におけるCNOTの数を減らし、コンパイルやより正確には合成の分野に寄与する。 収束すると,本手法は,特定のハードウェアに対して実行した場合に,他の最先端合成技術よりも優れていることを示す。 実際のハードウェア上で結果の回路を実行すると、我々の合成回路は最終的な忠実度を高め、全体の実行時間を短縮する傾向にある。

Since quantum computing is currently in the NISQ-Era, compilation strategies to reduce the number of gates executed on specific hardware are required. In this work, we utilize the concept of synthesis of a data structure called Clifford tableaus, focusing on applying CNOTs within the respective connectivity graph of the quantum device. We hence contribute to the field of compilation or, more precisely, synthesis by reducing the number of CNOTs in the synthesized quantum circuit. Upon convergence, our method shows to outperform other state-of-the-art synthesis techniques, when executed with respect to a specific hardware. Upon executing the resulting circuits on real hardware, our synthesized circuits tend to increase the final fidelity and reduce the overall execution times.
翻訳日:2023-09-19 18:03:10 公開日:2023-09-16
# バイオ音響検出のための正規化コントラスト事前学習

Regularized Contrastive Pre-training for Few-shot Bioacoustic Sound Detection ( http://arxiv.org/abs/2309.08971v1 )

ライセンス: Link先を確認
Ilyass Moummad, Romain Serizel, Nicolas Farrugia(参考訳) バイオアコースティックな音響イベント検出は、動物の行動をよりよく理解し、オーディオによる生物多様性の監視を改善する。 ディープラーニングシステムは、この目標を達成するのに役立つが、これらのシステムをスクラッチからトレーニングするのに十分な注釈付きデータを取得するのは難しい。 この制限に対処するため、音響シーンとイベント(dcase)コミュニティの検出と分類は、少数の学習の枠組みの中で問題を再キャストし、5つの注釈付き例から動物音を検出するための毎年の課題を組織した。 本研究は、教師付きコントラスト事前学習を規則化し、訓練中に動物音が見えない新しい目標タスクにうまく伝達できる特徴を学習し、特徴適応が適用されない場合のFスコアは61.52%(0.48)、学習対象タスク毎にさらに適応する場合のFスコアは68.19%(0.75)となる。 本研究の目的は,オープンソースのコードも提供することにより,簡単な,かつ効果的なフレームワークを提案することで,バイオアコースティックな音のイベント検出を実現することにある。

Bioacoustic sound event detection allows for better understanding of animal behavior and for better monitoring biodiversity using audio. Deep learning systems can help achieve this goal, however it is difficult to acquire sufficient annotated data to train these systems from scratch. To address this limitation, the Detection and Classification of Acoustic Scenes and Events (DCASE) community has recasted the problem within the framework of few-shot learning and organize an annual challenge for learning to detect animal sounds from only five annotated examples. In this work, we regularize supervised contrastive pre-training to learn features that can transfer well on new target tasks with animal sounds unseen during training, achieving a high F-score of 61.52%(0.48) when no feature adaptation is applied, and an F-score of 68.19%(0.75) when we further adapt the learned features for each new target task. This work aims to lower the entry bar to few-shot bioacoustic sound event detection by proposing a simple and yet effective framework for this task, by also providing open-source code.
翻訳日:2023-09-19 18:02:57 公開日:2023-09-16
# 大規模言語モデルにおけるSTSとNLIの再考

Rethinking STS and NLI in Large Language Models ( http://arxiv.org/abs/2309.08969v1 )

ライセンス: Link先を確認
Yuxia Wang, Minghan Wang, Preslav Nakov(参考訳) 本研究では,大規模言語モデル (LLM) の時代にSTSとNLIを再考することを目的とする。 まず,5つのデータセットを用いて臨床・バイオメディカルSTSとNLIの精度を評価し,LLMの予測信頼度と集団的人間の意見の収集能力を評価する。 LLMは特定のトピックについてパーソナライズされた記述を提供したり、異なるトーンで意味的に類似したコンテンツを生成することができるが、現在のLCMではパーソナライズされた判断や決定を行うのは難しい。 さらに,ゼロショット ChatGPT は臨床・生医学的 STS/NLI よりも精度が高く,細調整された BERT-base に制約があることがわかった。 しかし、サンプリングのバリエーションは多様で、アンサンブルされた結果が最適である。

In this study, we aim to rethink STS and NLI in the era of large language models (LLMs). We first evaluate the accuracy of clinical/biomedical STS and NLI over five datasets, and then we assess LLM predictive confidence and their capability of capturing collective human opinions. We find that LLMs may be able to provide personalised descriptions for a specific topic, or to generate semantically similar content in different tones, but that this is hard for current LLMs to make personalised judgements or decisions. We further find that zero-shot ChatGPT achieves competitive accuracy over clinical and biomedical STS/NLI, constraining to the fine-tuned BERT-base. However, there is a large variation in sampling, ensembled results perform the best.
翻訳日:2023-09-19 18:02:32 公開日:2023-09-16
# Sorted LLaMA: Sorted Fine-Tuning (SoFT) を用いた動的推論のための大規模言語モデルの中間層の可能性の解錠

Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference Using Sorted Fine-Tuning (SoFT) ( http://arxiv.org/abs/2309.08968v1 )

ライセンス: Link先を確認
Parsa Kavehzadeh, Mojtaba Valipour, Marzieh Tahaei, Ali Ghodsi, Boxing Chen, Mehdi Rezagholizadeh(参考訳) 大規模言語モデル(LLM)の急速な進歩は、自然言語処理(NLP)に革命をもたらした。 これらのモデルは人間のようなテキストの理解と生成に優れていますが、その広範な展開は違法に高価です。 SortedNetは、ディープニューラルネットワークの動的推論を可能にするための最近のトレーニングテクニックである。 ネットワークのモジュラリティを利用して、様々な計算負荷を持つサブモデルを作成し、ネストした方法で計算/精度特性に基づいてそれらをソートする。 我々はSortedNetを生成NLPタスクに拡張し、事前トレーニングなしで大きな言語モデルを動的にし、標準のSupervised Fine-Tuning (SFT) をSorted Fine-Tuning (SoFT) に同じコストで置き換える。 我々のアプローチはモデル効率を高め、推論中に様々なシナリオで複数のモデルの必要性をなくす。 この手法を用いて, 対象出力を生成する際に, 中間層のトランスフォーマの電位を解き放つことができることを示す。 我々のサブモデルは、ストレージ要件と異なる計算/レイテンシ予算間の遷移コストを最小限に抑えながら、元のモデルの不可欠なコンポーネントのままです。 この手法をStanford AlpacaデータセットのチューニングにLLaMa 2 13Bに適用し、通常のチューニングとPandaLMベンチマークによる早期終了と比較することにより、Sorted Fine-Tuningはオリジナルのモデルの2倍の速度で、性能を維持したり超えたりしながらモデルを提供できることを示す。

The rapid advancement of large language models (LLMs) has revolutionized natural language processing (NLP). While these models excel at understanding and generating human-like text, their widespread deployment can be prohibitively expensive. SortedNet is a recent training technique for enabling dynamic inference for deep neural networks. It leverages network modularity to create sub-models with varying computational loads, sorting them based on computation/accuracy characteristics in a nested manner. We extend SortedNet to generative NLP tasks, making large language models dynamic without any pretraining and by only replacing standard Supervised Fine-Tuning (SFT) with Sorted Fine-Tuning (SoFT) at the same costs. Our approach boosts model efficiency, eliminating the need for multiple models for various scenarios during inference. We show that using this approach, we are able to unlock the potential of intermediate layers of transformers in generating the target output. Our sub-models remain integral components of the original model, minimizing storage requirements and transition costs between different computational/latency budgets. By applying this approach on LLaMa 2 13B for tuning on the Stanford Alpaca dataset and comparing it to normal tuning and early exit via PandaLM benchmark, we show that Sorted Fine-Tuning can deliver models twice as fast as the original model while maintaining or exceeding performance.
翻訳日:2023-09-19 18:02:16 公開日:2023-09-16
# ビデオ記録解析による脳神経疾患の変形自動評価のためのストア・アンド・フォワード型遠隔監視システム

A store-and-forward cloud-based telemonitoring system for automatic assessing dysarthria evolution in neurological diseases from video-recording analysis ( http://arxiv.org/abs/2309.09038v1 )

ライセンス: Link先を確認
Lucia Migliorelli, Daniele Berardini, Kevin Cela, Michela Coccia, Laura Villani, Emanuele Frontoni, Sara Moccia(参考訳) 背景と目的: 神経疾患に苦しむ患者は、発話の実行に影響を与える運動性言語障害であるジステリアを発症する可能性がある。 臨床医が患者の管理戦略を迅速に実施し、回復、補充、調整の際のコミュニケーション機能の有効性と効率を最大化するためには、難治性進化の綿密かつ定量的なモニタリングが不可欠である。 顔面構造や機能,休息状態,音声・非音声動作の臨床的評価では,視覚的観察を通して質的評価が通常行われる。 方法:質的評価によって生じる限界を克服するため,本研究では,クラウドアーキテクチャ内に,不整脈を有する個人が取得したビデオ記録を分析する畳み込みニューラルネットワーク(cnn)を統合した,ストア・アンド・フォワード型セルフサービス遠隔監視システムを提案する。 このアーキテクチャは、Mask RCNNと呼ばれ、顔のランドマークを、音声に関連する口腔機能の評価と、神経疾患の変形の観察の先駆けとして位置づけることを目的としている。 結果: 筋萎縮性側索硬化症 (als) および脳卒中患者からの映像記録を一般公開したannotated datasetであるトロント・ニューロフェイス・データセットでテストしたところ, 顔ランドマークのローカライズにおいて, cnnの正規化平均誤差は1.79。 また,11名の球根型als被験者に対して実生活シナリオで実験を行い,顔のランドマーク位置推定で有望な結果を得た。 考察と結論:この予備研究は、変形の進化を監視するために臨床医を支援するための遠隔ツールの使用に向けた重要なステップである。

Background and objectives: Patients suffering from neurological diseases may develop dysarthria, a motor speech disorder affecting the execution of speech. Close and quantitative monitoring of dysarthria evolution is crucial for enabling clinicians to promptly implement patient management strategies and maximizing effectiveness and efficiency of communication functions in term of restoring, compensating or adjusting. In the clinical assessment of orofacial structures and functions, at rest condition or during speech and non-speech movements, a qualitative evaluation is usually performed, throughout visual observation. Methods: To overcome limitations posed by qualitative assessments, this work presents a store-and-forward self-service telemonitoring system that integrates, within its cloud architecture, a convolutional neural network (CNN) for analyzing video recordings acquired by individuals with dysarthria. This architecture, called facial landmark Mask RCNN, aims at locating facial landmarks as a prior for assessing the orofacial functions related to speech and examining dysarthria evolution in neurological diseases. Results: When tested on the Toronto NeuroFace dataset, a publicly available annotated dataset of video recordings from patients with amyotrophic lateral sclerosis (ALS) and stroke, the proposed CNN achieved a normalized mean error equal to 1.79 on localizing the facial landmarks. We also tested our system in a real-life scenario on 11 bulbar-onset ALS subjects, obtaining promising outcomes in terms of facial landmark position estimation. Discussion and conclusions: This preliminary study represents a relevant step towards the use of remote tools to support clinicians in monitoring the evolution of dysarthria.
翻訳日:2023-09-19 17:55:14 公開日:2023-09-16
# スパースあるいは生成前処理を用いたフルランク行列による二次系解法

Solving Quadratic Systems with Full-Rank Matrices Using Sparse or Generative Priors ( http://arxiv.org/abs/2309.09032v1 )

ライセンス: Link先を確認
Junren Chen, Shuai Huang, Michael K. Ng, Zhaoqiang Liu(参考訳) 二次系 $\{y_i=\boldsymbol{x}^\top\boldsymbol{A}_i\boldsymbol{x},\i=1,\ldots,m\}$ から信号 $\boldsymbol{x} \in \mathbb{R}^n$ を回復する問題は、符号のない距離幾何学やサブ波長イメージングのような応用で頻繁に発生する。 本稿では、標準ガウス行列 $\boldsymbol{a}_i$ を用いて、$\boldsymbol{x}$ の事前知識を組み込んで $m\ll n$ という高次元の場合を扱う。 まず、$k$-sparse $\boldsymbol{x}$を検討し、空間レベル$k$を必要としないしきい値のWirtinger Flow (TWF)アルゴリズムを導入する。 twfは、$m=o(k^2\log n)$のとき、$\boldsymbol{x}$(符号フリップまで)に十分近い点を特定するスペクトル初期化と、$m=o(k\log n)$の測定値で$\boldsymbol{x}$に線形収束するシーケンスを生成するしきい値勾配降下(適切な初期化を伴う)である。 第二に、$\boldsymbol{x}$が$L$-Lipschitz連続生成モデルの範囲内であり、半径$r$の$\ell_2$-ballにおいて$k$-次元入力を持つと仮定して、生成の事前を探索する。 我々は、$O\big(\sqrt {\frac{k \log L}{m}}\big)$$\ell_2$-error given $m=O(k\log(Lnr))$ Measurementと、$m=O(k\log\frac{Lrn}{\delta^2})$のときの幾何速度で$O(\delta)$を洗練させる射影勾配降下法(PGD)アルゴリズムを開発する。 実験結果は理論的な結果と一致し、以下のことが示される。 (i)スパースケースに対する我々のアプローチは、既存の証明可能なアルゴリズムスパースパワーファクタライゼーションを著しく上回っている。 (ii) 生成前処理を利用することで、少数の二次計測値からmnistデータセットの正確な画像復元が可能となる。

The problem of recovering a signal $\boldsymbol{x} \in \mathbb{R}^n$ from a quadratic system $\{y_i=\boldsymbol{x}^\top\boldsymbol{A}_i\boldsymbol{x},\ i=1,\ldots,m\}$ with full-rank matrices $\boldsymbol{A}_i$ frequently arises in applications such as unassigned distance geometry and sub-wavelength imaging. With i.i.d. standard Gaussian matrices $\boldsymbol{A}_i$, this paper addresses the high-dimensional case where $m\ll n$ by incorporating prior knowledge of $\boldsymbol{x}$. First, we consider a $k$-sparse $\boldsymbol{x}$ and introduce the thresholded Wirtinger flow (TWF) algorithm that does not require the sparsity level $k$. TWF comprises two steps: the spectral initialization that identifies a point sufficiently close to $\boldsymbol{x}$ (up to a sign flip) when $m=O(k^2\log n)$, and the thresholded gradient descent (with a good initialization) that produces a sequence linearly converging to $\boldsymbol{x}$ with $m=O(k\log n)$ measurements. Second, we explore the generative prior, assuming that $\boldsymbol{x}$ lies in the range of an $L$-Lipschitz continuous generative model with $k$-dimensional inputs in an $\ell_2$-ball of radius $r$. We develop the projected gradient descent (PGD) algorithm that also comprises two steps: the projected power method that provides an initial vector with $O\big(\sqrt{\frac{k \log L}{m}}\big)$ $\ell_2$-error given $m=O(k\log(Lnr))$ measurements, and the projected gradient descent that refines the $\ell_2$-error to $O(\delta)$ at a geometric rate when $m=O(k\log\frac{Lrn}{\delta^2})$. Experimental results corroborate our theoretical findings and show that: (i) our approach for the sparse case notably outperforms the existing provable algorithm sparse power factorization; (ii) leveraging the generative prior allows for precise image recovery in the MNIST dataset from a small number of quadratic measurements.
翻訳日:2023-09-19 17:54:42 公開日:2023-09-16
# 階層化政策計画による深い森林の改善

Improve Deep Forest with Learnable Layerwise Augmentation Policy Schedule ( http://arxiv.org/abs/2309.09030v1 )

ライセンス: Link先を確認
Hongyu Zhu, Sichu Liang, Wentao Hu, Fang-Qi Li, Yali yuan, Shi-Lin Wang, Guang Cheng(参考訳) 現代のアンサンブル技法として、ディープフォレスト (DF) は、伝統的な決定林に比べて表現力の強い深層モデルを構築するためにカスケード構造を採用している。 しかし,その多層学習手法は,モデルの有効性や一般化可能性の制限,過度に適合する傾向にある。 本稿では,学習可能な階層的データ拡張ポリシースケジュールを特徴とする,ディープフォレストを最適化した。 具体的には,過剰フィッティングを緩和するための表データ拡張のためのカットミックス(cmt)手法を導入し,各層に拡張強度を付与する集団探索アルゴリズムを開発した。 さらに,中間層からの出力をチェックポイントアンサンブルに組み込んで,より安定した性能を実現することを提案する。 実験結果から,本手法は,表層分類タスクに新たなSOTA(State-of-the-art)ベンチマークを設定し,浅い樹木アンサンブル,深い森林,ディープニューラルネットワーク,AutoMLコンペティタを上回る結果を得た。 学習したポリシーはディープフォレストにも効果的に移行し、表状信号処理における非微分型ディープラーニングモジュールの拡張の可能性を強調している。

As a modern ensemble technique, Deep Forest (DF) employs a cascading structure to construct deep models, providing stronger representational power compared to traditional decision forests. However, its greedy multi-layer learning procedure is prone to overfitting, limiting model effectiveness and generalizability. This paper presents an optimized Deep Forest, featuring learnable, layerwise data augmentation policy schedules. Specifically, We introduce the Cut Mix for Tabular data (CMT) augmentation technique to mitigate overfitting and develop a population-based search algorithm to tailor augmentation intensity for each layer. Additionally, we propose to incorporate outputs from intermediate layers into a checkpoint ensemble for more stable performance. Experimental results show that our method sets new state-of-the-art (SOTA) benchmarks in various tabular classification tasks, outperforming shallow tree ensembles, deep forests, deep neural network, and AutoML competitors. The learned policies also transfer effectively to Deep Forest variants, underscoring its potential for enhancing non-differentiable deep learning modules in tabular signal processing.
翻訳日:2023-09-19 17:53:25 公開日:2023-09-16
# FHEを用いた高効率プライバシ保存畳み込みニューラルネットワーク

Efficient Privacy-Preserving Convolutional Spiking Neural Networks with FHE ( http://arxiv.org/abs/2309.09025v1 )

ライセンス: Link先を確認
Pengbo Li, Huifang Huang, Ting Gao, Jin Guo, Jinqiao Duan(参考訳) AI技術の急速な発展により、私たちは多くのイノベーションと利便性を目の当たりにした。 しかし、これらの進歩とともに、プライバシーの脅威とリスクが伴う。 完全な準同型暗号化(fhe)は、データのプライバシを維持しながら計算を可能にするプライバシ保存計算の鍵技術として現れる。 それでも、FHEは離散整数に制限される連続非多項式関数の処理に制限があり、加算と乗法のみをサポートする。 スパイキングニューラルネットワーク(SNN)は離散スパイク信号で動作し、FHEの特性と自然に一致している。 本稿では,FHE-DiCSNNというフレームワークを提案する。 このフレームワークは、効率的なTFHE方式に基づいており、SNNの離散特性を利用して、暗号文上で高い予測性能を実現する。 まず,ブートストラップ技術を用いて,暗号文上でのLeaky Integrate-and-Fireニューロンモデルの計算を成功させる。 ブートストラップにより任意の深さのSNNの計算を容易にすることができる。 この枠組みは他のスパイクニューロンモデルにも拡張することができ、SNNの同型評価のための新しい枠組みを提供する。 第二に、CNNにインスパイアされた私たちは、Poissonエンコーディングを置き換えるために畳み込み方式を採用しています。 これは精度を高めるだけでなく、ランダムエンコーディングによる長期シミュレーション時間の問題を軽減する。 さらに,ブートストラップの計算を並列化する工学的手法を用いることにより,計算効率が大幅に向上した。 最後に,MNISTデータセットを用いたモデルの評価を行った。 実験の結果、fhe-dicsnnは最適なパラメータ構成で暗号文の精度97.94%を達成し、元のネットワークの精度98.47%に比べて0.53%の損失しか得られなかった。 さらに、各予測は計算時間0.75秒しか必要としない。

With the rapid development of AI technology, we have witnessed numerous innovations and conveniences. However, along with these advancements come privacy threats and risks. Fully Homomorphic Encryption (FHE) emerges as a key technology for privacy-preserving computation, enabling computations while maintaining data privacy. Nevertheless, FHE has limitations in processing continuous non-polynomial functions as it is restricted to discrete integers and supports only addition and multiplication. Spiking Neural Networks (SNNs) operate on discrete spike signals, naturally aligning with the properties of FHE. In this paper, we present a framework called FHE-DiCSNN. This framework is based on the efficient TFHE scheme and leverages the discrete properties of SNNs to achieve high prediction performance on ciphertexts. Firstly, by employing bootstrapping techniques, we successfully implement computations of the Leaky Integrate-and-Fire neuron model on ciphertexts. Through bootstrapping, we can facilitate computations for SNNs of arbitrary depth. This framework can be extended to other spiking neuron models, providing a novel framework for the homomorphic evaluation of SNNs. Secondly, inspired by CNNs, we adopt convolutional methods to replace Poisson encoding. This not only enhances accuracy but also mitigates the issue of prolonged simulation time caused by random encoding. Furthermore, we employ engineering techniques to parallelize the computation of bootstrapping, resulting in a significant improvement in computational efficiency. Finally, we evaluate our model on the MNIST dataset. Experimental results demonstrate that, with the optimal parameter configuration, FHE-DiCSNN achieves an accuracy of 97.94% on ciphertexts, with a loss of only 0.53% compared to the original network's accuracy of 98.47%. Moreover, each prediction requires only 0.75 seconds of computation time
翻訳日:2023-09-19 17:52:37 公開日:2023-09-16
# Rydberg原子に基づく等方性アンテナ

An isotropic antenna based on Rydberg atoms ( http://arxiv.org/abs/2309.09023v1 )

ライセンス: Link先を確認
Shaoxin Yuan, Mingyong Jing, Hao Zhang, Linjie Zhang, Liantuan Xiao, Suotang Jia(参考訳) ヘアリーボール定理により、線形偏波に対する等方性応答を持つ古典アンテナは実現不可能である。 この研究は、リドベルク原子に基づくアンテナが線形偏光電波に対する理想的な等方性応答を理論的に達成できることを示し、すなわち、等方性偏差がゼロである。 マイクロ波およびテラヘルツ波の測定では、5dB以内の等方偏差と0.3dBの最適化が可能であり、従来の全方位アンテナよりも少なくとも15dB改善されている。 SIトレーサブルと超広帯域特性を組み合わせることで、理想的な等方性応答は、従来の方法よりもずっと正確で信頼性の高い原子アンテナに基づく電波測定を可能にする。 この等方性原子アンテナは、仕立て量子センサが実現できる優れた例であるが、古典的なセンサでは実現できない。 電波エレクトロメトリーなどの分野において重要な応用がある。

Governed by the hairy ball theorem, classical antennas with isotropic responses to linearly polarized radio waves are unrealizable. This work shows that the antenna based on Rydberg atoms can theoretically achieve an ideal isotropic response to linearly polarized radio waves; that is, it has zero isotropic deviation. Experimental results of isotropic deviation within 5 dB, and 0.3 dB achievable after optimization, in microwave and terahertz wave measurements support the theory and are at least 15 dB improvement than the classical omnidirectional antenna. Combined with the SI traceable and ultrawideband property, the ideal isotropic response will make radio wave measurement based on atomic antenna much more accurate and reliable than the traditional method. This isotropic atomic antenna is an excellent example of what a tailored quantum sensor can realize, but a classical sensor cannot. It has crucial applications in fields such as radio wave electrometry.
翻訳日:2023-09-19 17:51:57 公開日:2023-09-16
# ジムサチュレーション:サチュレーションプロバーのための体育館環境(システム記述)

gym-saturation: Gymnasium environments for saturation provers (System description) ( http://arxiv.org/abs/2309.09022v1 )

ライセンス: Link先を確認
Boris Shminke(参考訳) この研究は、以前公開されたPythonパッケージジャム飽和の新バージョンについて説明する: 強化学習を伴う与えられた節アルゴリズムに基づいて飽和スタイルのプローバーを誘導するOpenAI Gym環境のコレクション。 VampireとiProverの2つの異なるプロバーで使用例を提供しています。 また,実証状態表現を自己強化学習から切り離し,既知の ast2vec Python コード埋め込みモデルを一階述語論理表現として使用する例を示した。 さらに,環境ラッパーが証明器をマルチアームのバンディットに似た問題に変換する方法を示す。 我々は,Ray RLlibに実装された2つの強化学習アルゴリズム(トンプソンサンプリングと近似ポリシー最適化)を適用し,パッケージの新リリースによる実験の容易さを示した。

This work describes a new version of a previously published Python package - gym-saturation: a collection of OpenAI Gym environments for guiding saturation-style provers based on the given clause algorithm with reinforcement learning. We contribute usage examples with two different provers: Vampire and iProver. We also have decoupled the proof state representation from reinforcement learning per se and provided examples of using a known ast2vec Python code embedding model as a first-order logic representation. In addition, we demonstrate how environment wrappers can transform a prover into a problem similar to a multi-armed bandit. We applied two reinforcement learning algorithms (Thompson sampling and Proximal policy optimisation) implemented in Ray RLlib to show the ease of experimentation with the new release of our package.
翻訳日:2023-09-19 17:51:40 公開日:2023-09-16
# ringmo-lite:cnn-transformerハイブリッドフレームワークによるリモートセンシングマルチタスク軽量ネットワーク

RingMo-lite: A Remote Sensing Multi-task Lightweight Network with CNN-Transformer Hybrid Framework ( http://arxiv.org/abs/2309.09003v1 )

ライセンス: Link先を確認
Yuelei Wang, Ting Zhang, Liangjin Zhao, Lin Hu, Zhechao Wang, Ziqing Niu, Peirui Cheng, Kaiqiang Chen, Xuan Zeng, Zhirui Wang, Hongqi Wang and Xian Sun(参考訳) 近年、RingMoのようなリモートセンシング(RS)ビジョン基盤モデルが登場し、様々な下流タスクで優れたパフォーマンスを実現している。 しかし、コンピューティングリソースに対する高い需要は、エッジデバイスへのこれらのモデルの適用を制限する。 軌道上のrs画像解釈をサポートするために、より軽量な基盤モデルを設計する必要がある。 既存の手法は、rs画像解釈の一般化を維持しながら、軽量なソリューションを実現する上での課題に直面している。 これは、RS画像の複雑な高周波数スペクトル成分のためであり、従来の単一CNNやビジョントランスフォーマーの手法はタスクに適さない。 そこで本研究では,RSの周波数領域特性を効果的に活用して解釈プロセスを最適化する,CNN-Transformerハイブリッドフレームワークを備えたRSマルチタスク軽量ネットワークであるRingMo-liteを提案する。 トランスモジュールを低域通過フィルタとして組み合わせ、デュアルブランチ構造を介してrs画像の全体的特徴を抽出し、cnnモジュールを積み重ねた高域通過フィルタとして、細部の詳細を効果的に抽出する。 さらに、プリトレーニング段階では、設計した周波数領域マスク画像モデリング(fd-mim)が各画像パッチの高周波特性と低周波特性を結合し、rsデータの潜在特徴表現を効果的にキャプチャする。 図1に示すように、RingMo-liteは様々なRS画像解釈タスクにおいて60%以上のパラメータを削減し、ほとんどのシーンで平均精度は2%以下に低下し、類似サイズのモデルと比較してSOTA性能が向上する。 さらに、近い将来、私たちの仕事はMindSporeコンピューティングプラットフォームに統合されます。

In recent years, remote sensing (RS) vision foundation models such as RingMo have emerged and achieved excellent performance in various downstream tasks. However, the high demand for computing resources limits the application of these models on edge devices. It is necessary to design a more lightweight foundation model to support on-orbit RS image interpretation. Existing methods face challenges in achieving lightweight solutions while retaining generalization in RS image interpretation. This is due to the complex high and low-frequency spectral components in RS images, which make traditional single CNN or Vision Transformer methods unsuitable for the task. Therefore, this paper proposes RingMo-lite, an RS multi-task lightweight network with a CNN-Transformer hybrid framework, which effectively exploits the frequency-domain properties of RS to optimize the interpretation process. It is combined by the Transformer module as a low-pass filter to extract global features of RS images through a dual-branch structure, and the CNN module as a stacked high-pass filter to extract fine-grained details effectively. Furthermore, in the pretraining stage, the designed frequency-domain masked image modeling (FD-MIM) combines each image patch's high-frequency and low-frequency characteristics, effectively capturing the latent feature representation in RS data. As shown in Fig. 1, compared with RingMo, the proposed RingMo-lite reduces the parameters over 60% in various RS image interpretation tasks, the average accuracy drops by less than 2% in most of the scenes and achieves SOTA performance compared to models of the similar size. In addition, our work will be integrated into the MindSpore computing platform in the near future.
翻訳日:2023-09-19 17:51:25 公開日:2023-09-16
# 地球仮想化エンジン --技術的展望

Earth Virtualization Engines -- A Technical Perspective ( http://arxiv.org/abs/2309.09002v1 )

ライセンス: Link先を確認
Torsten Hoefler, Bjorn Stevens, Andreas F. Prein, Johanna Baehr, Thomas Schulthess, Thomas F. Stocker, John Taylor, Daniel Klocke, Pekka Manninen, Piers M. Forster, Tobias K\"olling, Nicolas Gruber, Hartwig Anzt, Claudia Frauen, Florian Ziemen, Milan Kl\"ower, Karthik Kashinath, Christoph Sch\"ar, Oliver Fuhrer, Bryan N. Lawrence(参考訳) ベルリンで開催された地球仮想化エンジン会議(EVE)の参加者は、気候変動に対処する能力を改善するためのアイデアと概念について議論した。 EVEは、対話的でアクセス可能な気候シミュレーションとデータを、幅広いユーザに提供することを目指している。 それらは高解像度の物理モデルと機械学習技術を組み合わせて、気候予測の忠実さ、効率、解釈可能性を改善する。 EVEのコアとなるのは,シンプルなインターフェースを通じて,エクサバイト規模の気候データへの簡単かつ迅速なアクセスを可能にする,フェデレートされたデータレイヤだ。 本稿では,EVE開発における技術的課題と機会を要約し,気候変動の影響に対処するためには,それらが不可欠であると主張する。

Participants of the Berlin Summit on Earth Virtualization Engines (EVEs) discussed ideas and concepts to improve our ability to cope with climate change. EVEs aim to provide interactive and accessible climate simulations and data for a wide range of users. They combine high-resolution physics-based models with machine learning techniques to improve the fidelity, efficiency, and interpretability of climate projections. At their core, EVEs offer a federated data layer that enables simple and fast access to exabyte-sized climate data through simple interfaces. In this article, we summarize the technical challenges and opportunities for developing EVEs, and argue that they are essential for addressing the consequences of climate change.
翻訳日:2023-09-19 17:50:58 公開日:2023-09-16
# 量子場理論における量子拡張教会チューリング論

The Quantum-Extended Church-Turing Thesis in Quantum Field Theory ( http://arxiv.org/abs/2309.09000v1 )

ライセンス: Link先を確認
Cameron Cianci(参考訳) 量子拡張されたチャーチチューリング理論は一般相対性理論を含む多くの物理理論で研究されてきたが、量子電磁力学のような量子場理論では探索が欠けている。 ゲートセットがQEDの相互作用を模倣する計算モデルの構築を通じて、量子場理論、粒子生成、消滅という決定的な特徴の1つは、量子拡張教会・チューリング論に反するものではないことを実証する。 この計算モデルを通じて、粒子生成は量子並列論の別の形態である可能性が示されている。 しかし、量子拡張チャーチ・チューリング論が場の量子論における全ての計算装置に当てはまるかどうかはまだ分かっていない。 例えば、マルチキュービットゲートを生成する量子電磁力学における特定の相互作用を簡潔に検討する。 これらのゲートは指数的に弱いコストで指数関数的な複雑さを持つ。 これにより、クリフォード+Tのような伝統的なゲート集合よりも計算上の優位性が得られる。

The quantum-Extended Church-Turing thesis has been explored in many physical theories including general relativity but lacks exploration in quantum field theories such as quantum electrodynamics. Through construction of a computational model whose gate set mimics the interactions of QED, we demonstrate that one of the defining features of quantum field theory, particle creation and annihilation, is not likely to violate the quantum-Extended Church-Turing thesis. Through this computational model, it is shown that particle creation is likely only another form of quantum parallelism. However, whether or not the quantum-Extended Church-Turing thesis will hold for all computational devices in quantum field theories is still not known. For example, we briefly examine certain interactions in quantum electrodynamics which may create multi-qubit gates. These gates may have exponential complexity at the cost of being exponentially weak. This may in turn allow for computational advantage over traditional gate sets such as Clifford+T.
翻訳日:2023-09-19 17:50:48 公開日:2023-09-16
# 名前付きエンティティ認識に対するコンテキストアウェアな敵対的攻撃

Context-aware Adversarial Attack on Named Entity Recognition ( http://arxiv.org/abs/2309.08999v1 )

ライセンス: Link先を確認
Shuguang Chen, Leonardo Neves, and Thamar Solorio(参考訳) 近年,大規模事前学習型言語モデル (PLM) は,多くの自然言語処理ベンチマークにおいて顕著な性能を発揮している。 彼らの成功にもかかわらず、以前の研究では、PLMは敵の例からの攻撃に弱いことが示されている。 本研究では,モデルが持つロバスト性を調べるために,名前付きエンティティ認識タスクとコンテキスト認識型敵攻撃手法について検討する。 具体的には,エンティティ認識のための最も有意義な単語の摂動を行い,敵の例を作成し,異なる候補の置換法を調査して,自然かつ妥当な敵の例を生成する。 実験と分析により,本手法は,強いベースラインよりも誤った予測にモデルを欺くのに有効であることが示された。

In recent years, large pre-trained language models (PLMs) have achieved remarkable performance on many natural language processing benchmarks. Despite their success, prior studies have shown that PLMs are vulnerable to attacks from adversarial examples. In this work, we focus on the named entity recognition task and study context-aware adversarial attack methods to examine the model's robustness. Specifically, we propose perturbing the most informative words for recognizing entities to create adversarial examples and investigate different candidate replacement methods to generate natural and plausible adversarial examples. Experiments and analyses show that our methods are more effective in deceiving the model into making wrong predictions than strong baselines.
翻訳日:2023-09-19 17:50:32 公開日:2023-09-16
# ローカル構造に基づく埋め込みによるノード機能の復元

Recovering Missing Node Features with Local Structure-based Embeddings ( http://arxiv.org/abs/2309.09068v1 )

ライセンス: Link先を確認
Victor M. Tenorio, Madeline Navarro, Santiago Segarra and Antonio G. Marques(参考訳) Nodeはネットワーク構造と併用してグラフベースの学習を行う。 しかし、グラフデータではnodal属性の欠如が一般的である。 グラフのサブセットの信号しか知ることができないグラフの集合に対して、完全に欠落したノード機能を回復するためのフレームワークを提案する。 本手法では,グラフトポロジーと既存のnodal値の両方から事前情報を取り込む。 我々は,ノードの機能が局所グラフ構造に依存すると仮定したフレームワークの実装例を示す。 nodal値の欠如は、最も類似したノードから既知の特徴を集約することで推定される。 類似性は、ローカルなトポロジ的特徴を保存するノード埋め込みスペースを通じて測定され、グラフオートエンコーダを使ってトレーニングする。 我々は,特徴量推定手法の精度だけでなく,下流のグラフ分類におけるその価値を実証的に示す。 我々の成功は、グラフベースの学習において、ノードの特徴とグラフ構造との関係を強調する必要性を浮き彫りにしている。

Node features bolster graph-based learning when exploited jointly with network structure. However, a lack of nodal attributes is prevalent in graph data. We present a framework to recover completely missing node features for a set of graphs, where we only know the signals of a subset of graphs. Our approach incorporates prior information from both graph topology and existing nodal values. We demonstrate an example implementation of our framework where we assume that node features depend on local graph structure. Missing nodal values are estimated by aggregating known features from the most similar nodes. Similarity is measured through a node embedding space that preserves local topological features, which we train using a Graph AutoEncoder. We empirically show not only the accuracy of our feature estimation approach but also its value for downstream graph classification. Our success embarks on and implies the need to emphasize the relationship between node features and graph structure in graph-based learning.
翻訳日:2023-09-19 17:44:57 公開日:2023-09-16
# MMST-ViT:マルチモーダル空間時間視覚変換器による気候変動を考慮した作物収量予測

MMST-ViT: Climate Change-aware Crop Yield Prediction via Multi-Modal Spatial-Temporal Vision Transformer ( http://arxiv.org/abs/2309.09067v1 )

ライセンス: Link先を確認
Fudong Lin, Summer Crawford, Kaleb Guillot, Yihe Zhang, Yan Chen, Xu Yuan, Li Chen, Shelby Willams, Robert Minvielle, Xiangming Xiao, Drew Gholson, Nicolas Ashwell, Tri Setiyono, Brenda Tubana, Lu Peng, Magdy Bayoumi, Nian-Feng Tzeng(参考訳) 正確な収穫予測は、農業計画と意思決定プロセスに貴重な情報を提供する。 しかし、作物の生育が季節の気象変動や気候変動に敏感であるため、収穫量を予測する時期尚早である。 本研究では,生育期における短期気象変動と作物の長期的気候変化の影響を考慮し,米国全域の郡レベルでの作物収量を予測するための,多モード空間時空間視覚トランスフォーマ(mmst-vit)という深層学習に基づくソリューションを開発した。 具体的には,Multi-Modal Transformer,Spatial Transformer,Temporal Transformerから構成される。 Multi-Modal Transformerは、視覚的リモートセンシングデータと短期気象データの両方を利用して、季節変動が作物の成長に与える影響をモデル化する。 空間変換器は、正確な農業追跡のために郡間の高分解能空間依存性を学習する。 テンポラルトランスフォーマーは、長期的な気候変動が作物に与える影響を学ぶための長期の時間的依存を捉えます。 また,人間の介入なしにモデルの事前学習を行うための,新しいマルチモーダルコントラスト学習手法を考案した。 その結果,衛星画像と気象データを利用して,短期的な気象変動と作物に対する長期的気候変動の影響を把握できた。 我々は米国の200以上の郡で広範な実験を行い、実験の結果、我々のmmst-vitは3つのパフォーマンス指標でその郡よりも優れています。

Precise crop yield prediction provides valuable information for agricultural planning and decision-making processes. However, timely predicting crop yields remains challenging as crop growth is sensitive to growing season weather variation and climate change. In this work, we develop a deep learning-based solution, namely Multi-Modal Spatial-Temporal Vision Transformer (MMST-ViT), for predicting crop yields at the county level across the United States, by considering the effects of short-term meteorological variations during the growing season and the long-term climate change on crops. Specifically, our MMST-ViT consists of a Multi-Modal Transformer, a Spatial Transformer, and a Temporal Transformer. The Multi-Modal Transformer leverages both visual remote sensing data and short-term meteorological data for modeling the effect of growing season weather variations on crop growth. The Spatial Transformer learns the high-resolution spatial dependency among counties for accurate agricultural tracking. The Temporal Transformer captures the long-range temporal dependency for learning the impact of long-term climate change on crops. Meanwhile, we also devise a novel multi-modal contrastive learning technique to pre-train our model without extensive human supervision. Hence, our MMST-ViT captures the impacts of both short-term weather variations and long-term climate change on crops by leveraging both satellite images and meteorological data. We have conducted extensive experiments on over 200 counties in the United States, with the experimental results exhibiting that our MMST-ViT outperforms its counterparts under three performance metrics of interest.
翻訳日:2023-09-19 17:44:45 公開日:2023-09-16
# 点レベル弱教師付き時間行動定位のためのサブアクションプロトタイプ学習

Sub-action Prototype Learning for Point-level Weakly-supervised Temporal Action Localization ( http://arxiv.org/abs/2309.09060v1 )

ライセンス: Link先を確認
Yueyang Li, Yonghong Hou, Wanqing Li(参考訳) PWTAL(Point-level weak-supervised temporal action Localization)は、アクションインスタンスごとに単一のタイムスタンプアノテーションでアクションをローカライズすることを目的としている。 既存の手法では、ラベルの空間性を緩和するために密度の高い擬似ラベルをマイニングする傾向があるが、潜在的サブアクション時間構造を見落とし、性能が劣る。 そこで本研究では,サブアクションプロトタイプクラスタリング (spc) と順序付きプロトタイプアライメント (opa) を組み合わせたサブアクションプロトタイプ学習フレームワーク (spl-loc) を提案する。 SPCは、アクションインスタンスの時間スケールと空間内容の変化を知覚できる代表的サブアクションプロトタイプを適応的に抽出する。 OPAは関連するプロトタイプを選択し、時間的アライメントロスを適用して擬似ラベル生成の完全性を示す。 その結果、アライメント結果から擬似ラベルが導出され、動作境界予測が向上する。 3つの人気のあるベンチマークの大規模な実験により、提案されたSPL-Locは既存のSOTA PWTAL法よりも大幅に優れていることが示された。

Point-level weakly-supervised temporal action localization (PWTAL) aims to localize actions with only a single timestamp annotation for each action instance. Existing methods tend to mine dense pseudo labels to alleviate the label sparsity, but overlook the potential sub-action temporal structures, resulting in inferior performance. To tackle this problem, we propose a novel sub-action prototype learning framework (SPL-Loc) which comprises Sub-action Prototype Clustering (SPC) and Ordered Prototype Alignment (OPA). SPC adaptively extracts representative sub-action prototypes which are capable to perceive the temporal scale and spatial content variation of action instances. OPA selects relevant prototypes to provide completeness clue for pseudo label generation by applying a temporal alignment loss. As a result, pseudo labels are derived from alignment results to improve action boundary prediction. Extensive experiments on three popular benchmarks demonstrate that the proposed SPL-Loc significantly outperforms existing SOTA PWTAL methods.
翻訳日:2023-09-19 17:44:17 公開日:2023-09-16
# 低ランク適応がRLHFの性能, 効率, 正規化に及ぼす影響について

Exploring the impact of low-rank adaptation on the performance, efficiency, and regularization of RLHF ( http://arxiv.org/abs/2309.09055v1 )

ライセンス: Link先を確認
Simeng Sun, Dhawal Gupta, Mohit Iyyer(参考訳) RLHFの最終段階では、大規模な言語モデルは、大規模な計算資源を必要とするプロセスであるPPOトレーニングを通じて人間の意図に一致している。 本稿では,低ランク適応(LoRA)を用いたRLHFの効率的な実装を実証的に検討し,フルモデル微調整に必要な8つのA100 GPUの代わりに2つのA100 GPUのみを用いて,Alpacaデータセット上のLLaMA 7Bチェックポイントの整列を可能にする。 llama 7b のパラメータの 0.2% しかチューニングしていないが、フルモデルの微調整によるalpacafarm チェックポイントよりも優れた性能を実現している。 次に、LoRAベースのPPO実装のいくつかの構成を分析し、トレーニング目的におけるKL正規化項の形式を変化させる。 その結果,(1)このペナルティ項の除去は,lora設定のalpacafarm評価における性能に影響を与えない,(2)jensen-shannon divergenceのような他の正規化剤は性能向上につながり,(3)ppoトレーニングはモデル生成応答の事実性に悪影響を及ぼすが,loraのトレーニングはこの効果をほとんど軽減することがわかった。 我々は、より効率的なRLHFの研究を促進するために、コードと事前訓練されたチェックポイントをリリースする。

During the last stage of RLHF, a large language model is aligned to human intents via PPO training, a process that generally requires large-scale computational resources. In this technical report, we empirically investigate an efficient implementation of RLHF using low-rank adaptation (LoRA), which allows us to align the LLaMA 7B checkpoint on the Alpaca dataset using only two A100 GPUs instead of the eight required for full model fine-tuning. Despite tuning only 0.2% of LLaMA 7B's parameters, our implementation achieves better performance than the publicly-released AlpacaFarm checkpoint with full model fine-tuning. Next, we analyze several configurations of our LoRA-based PPO implementation, varying the form of the KL regularization term in the training objective. We find that (1) removing this penalty term does not harm performance on the AlpacaFarm evaluation set under our LoRA setup; (2) other regularizers, such as Jensen-Shannon divergence, lead to improved performance; and (3) while PPO training negatively impacts the factuality of model-generated responses, training with LoRA largely mitigates this effect. We release our code and pretrained checkpoints to facilitate future research on more efficient RLHF.
翻訳日:2023-09-19 17:43:57 公開日:2023-09-16
# GenDOM:パラメータ対応ポリシーによる汎用的なワンショットデフォルマブルオブジェクト操作

GenDOM: Generalizable One-shot Deformable Object Manipulation with Parameter-Aware Policy ( http://arxiv.org/abs/2309.09051v1 )

ライセンス: Link先を確認
So Kuroki, Jiaxian Guo, Tatsuya Matsushima, Takuya Okubo, Masato Kobayashi, Yuya Ikeda, Ryosuke Takanami, Paul Yoo, Yutaka Matsuo, Yusuke Iwasawa(参考訳) 動作中の変形性に固有の不確実性があるため、ロープや布などの変形可能なオブジェクト操作の以前の方法は、各オブジェクトの操作ポリシーを訓練するために、何百もの実世界のデモンストレーションを必要とした。 この問題に対処するため,1つの実世界の実演だけで異なる変形可能なオブジェクトを操作できるフレームワークであるGenDOMを紹介した。 これを実現するために、変形可能なオブジェクトパラメータに条件付けし、様々な種類の変形可能なオブジェクトでトレーニングすることで、ポリシーを補強し、異なるオブジェクトパラメータに基づいてアクションを調整する。 新しいオブジェクトが推測されたとき、GenDOMは、実世界のデモの点雲の格子密度と微分可能な物理シミュレータのシミュレーションとの差を最小化することにより、単一の実世界のデモだけで変形可能なオブジェクトパラメータを推定できる。 Empirical validations on both simulated and real-world object manipulation setups clearly show that our method can manipulate different objects with a single demonstration and significantly outperforms the baseline in both environments (a 62% improvement for in-domain ropes and a 15% improvement for out-of-distribution ropes in simulation, as well as a 26% improvement for ropes and a 50% improvement for cloths in the real world), demonstrating the effectiveness of our approach in one-shot deformable object manipulation.

Due to the inherent uncertainty in their deformability during motion, previous methods in deformable object manipulation, such as rope and cloth, often required hundreds of real-world demonstrations to train a manipulation policy for each object, which hinders their applications in our ever-changing world. To address this issue, we introduce GenDOM, a framework that allows the manipulation policy to handle different deformable objects with only a single real-world demonstration. To achieve this, we augment the policy by conditioning it on deformable object parameters and training it with a diverse range of simulated deformable objects so that the policy can adjust actions based on different object parameters. At the time of inference, given a new object, GenDOM can estimate the deformable object parameters with only a single real-world demonstration by minimizing the disparity between the grid density of point clouds of real-world demonstrations and simulations in a differentiable physics simulator. Empirical validations on both simulated and real-world object manipulation setups clearly show that our method can manipulate different objects with a single demonstration and significantly outperforms the baseline in both environments (a 62% improvement for in-domain ropes and a 15% improvement for out-of-distribution ropes in simulation, as well as a 26% improvement for ropes and a 50% improvement for cloths in the real world), demonstrating the effectiveness of our approach in one-shot deformable object manipulation.
翻訳日:2023-09-19 17:43:28 公開日:2023-09-16
# 生成的なai駆動ストーリーテリング:マーケティングの新しい時代

Generative AI-Driven Storytelling: A New Era for Marketing ( http://arxiv.org/abs/2309.09048v1 )

ライセンス: Link先を確認
Marko Vidrih, Shiva Mayahi(参考訳) 本稿では,マーケティング分野における生成型ai駆動ストーリーテリングのトランスフォーメーションパワーについて述べる。 従来の機械学習とは異なる生成AIは、消費者と深い個人的なレベルで共鳴する物語を作る能力を提供する。 google、netflix、stitch fixといった業界リーダーによる実世界の例を通じて、この技術がマーケティング戦略をどのように形成し、消費者体験をパーソナライズし、提示する課題をナビゲートするかを解明する。 この論文は、リアルタイムのパーソナライズされたストーリーテリング、没入的なストーリーテリング体験、ソーシャルメディアのストーリーテリングといった将来的な応用を含む、AI駆動型ストーリーテリングの方向性と推奨についても検討している。 マーケティングにおける生成的AI駆動型ストーリーテリングの可能性と影響に光を当てることで、この最先端アプローチの理解と、マーケティング分野における変革力に寄与する。

This paper delves into the transformative power of Generative AI-driven storytelling in the realm of marketing. Generative AI, distinct from traditional machine learning, offers the capability to craft narratives that resonate with consumers on a deeply personal level. Through real-world examples from industry leaders like Google, Netflix and Stitch Fix, we elucidate how this technology shapes marketing strategies, personalizes consumer experiences, and navigates the challenges it presents. The paper also explores future directions and recommendations for generative AI-driven storytelling, including prospective applications such as real-time personalized storytelling, immersive storytelling experiences, and social media storytelling. By shedding light on the potential and impact of generative AI-driven storytelling in marketing, this paper contributes to the understanding of this cutting-edge approach and its transformative power in the field of marketing.
翻訳日:2023-09-19 17:43:04 公開日:2023-09-16
# ニューラルネットワーク予測のための時間的平滑性正規化器

Temporal Smoothness Regularisers for Neural Link Predictors ( http://arxiv.org/abs/2309.09045v1 )

ライセンス: Link先を確認
Manuel Dileo, Pasquale Minervini, Matteo Zignani and Sabrina Gaito(参考訳) 関係データの表現学習とリンク予測のためのほとんどのアルゴリズムは静的データのために設計されている。 しかし、それらが適用されるデータは、オンラインソーシャルネットワークやレコメンデーションシステムにおけるユーザとアイテム間のインタラクションなど、一般的に時間とともに進化する。 これはまた、時間内の特定のポイントにのみ有効な事実を含むグラフ構造化知識ベース -- 知識グラフ -- にも当てはまる。 このような文脈では、時間的予測リンクタスクなど、正確な時点における欠落リンクを正確に識別することが重要となる。 ラクロワらは最近、4階テンソルの正準分解に触発された時間制約下での知識グラフのリンク予測問題に対する解決策を提案し、時間ステップの表現を時間的平滑化を強制することによって規則化する。 しかし、時相正規化項の選択の影響はいまだ理解されていない。 本研究では,線形関数と繰り返しアーキテクチャを用いて時間平滑化正規化器の選択を系統的に解析する。 本研究では,時間的スムーズな正規化と正規化の重み付けを慎重に選択することにより,TNTComplExのような単純な手法は,3つの広く使用されている時間的リンク予測データセットの最先端手法よりもはるかに正確な結果が得られることを示す。 さらに,2つの時間的リンク予測モデルに対する幅広い時間的平滑化正規化の影響を評価する。 我々の研究は、新しい時間正規化器を用いて、単純なテンソル分解モデルが新しい最先端の結果を生成できることを示し、将来的な研究の道筋を浮き彫りにしている。

Most algorithms for representation learning and link prediction on relational data are designed for static data. However, the data to which they are applied typically evolves over time, including online social networks or interactions between users and items in recommender systems. This is also the case for graph-structured knowledge bases -- knowledge graphs -- which contain facts that are valid only for specific points in time. In such contexts, it becomes crucial to correctly identify missing links at a precise time point, i.e. the temporal prediction link task. Recently, Lacroix et al. and Sadeghian et al. proposed a solution to the problem of link prediction for knowledge graphs under temporal constraints inspired by the canonical decomposition of 4-order tensors, where they regularise the representations of time steps by enforcing temporal smoothing, i.e. by learning similar transformation for adjacent timestamps. However, the impact of the choice of temporal regularisation terms is still poorly understood. In this work, we systematically analyse several choices of temporal smoothing regularisers using linear functions and recurrent architectures. In our experiments, we show that by carefully selecting the temporal smoothing regulariser and regularisation weight, a simple method like TNTComplEx can produce significantly more accurate results than state-of-the-art methods on three widely used temporal link prediction datasets. Furthermore, we evaluate the impact of a wide range of temporal smoothing regularisers on two state-of-the-art temporal link prediction models. Our work shows that simple tensor factorisation models can produce new state-of-the-art results using newly proposed temporal regularisers, highlighting a promising avenue for future research.
翻訳日:2023-09-19 17:42:46 公開日:2023-09-16
# 高いuDOFと低相互結合を有するMISC系スパースアレイの研究

Study of Enhanced MISC-Based Sparse Arrays with High uDOFs and Low Mutual Coupling ( http://arxiv.org/abs/2309.09044v1 )

ライセンス: Link先を確認
X. Sheng, D. Lu, Y. Li and R. C. de Lamare(参考訳) 本文は, 最大要素間間隔制約 (IES) 基準, 高次数自由度 (uDOF) と低相互結合 (MC) を持つ拡張MISC (EMISC) スパースアレイ (SA) に着想を得たものである。 EMISC SA に対して、IES セットは、まず最大 IES と要素数によって決定される。 そして、EMISC SAは、IES集合から派生した7つの一様線形サブアレイ(ULSA)からなる。 uDOF と重み関数の解析により,提案したEMISC SA は uDOF と MC において IMISC SA よりも優れていた。 シミュレーションの結果, EMISC SAは既存のSAに比べて有意な優位性を示した。

In this letter, inspired by the maximum inter-element spacing (IES) constraint (MISC) criterion, an enhanced MISC-based (EMISC) sparse array (SA) with high uniform degrees-of-freedom (uDOFs) and low mutual-coupling (MC) is proposed, analyzed and discussed in detail. For the EMISC SA, an IES set is first determined by the maximum IES and number of elements. Then, the EMISC SA is composed of seven uniform linear sub-arrays (ULSAs) derived from an IES set. An analysis of the uDOFs and weight function shows that, the proposed EMISC SA outperforms the IMISC SA in terms of uDOF and MC. Simulation results show a significant advantage of the EMISC SA over other existing SAs.
翻訳日:2023-09-19 17:42:14 公開日:2023-09-16
# ニューラルネットワーク制御系の前方不変性

Forward Invariance in Neural Network Controlled Systems ( http://arxiv.org/abs/2309.09043v1 )

ライセンス: Link先を確認
Akash Harapanahalli, Saber Jafarpour, Samuel Coogan(参考訳) 本稿では,ニューラルネットワークコントローラを用いた非線形システムにおける前方不変集合の証明と探索を行うための,区間解析と単調システム理論に基づくフレームワークを提案する。 枠組み i)ジャコビアン境界と既存のニューラルネットワーク検証ツールを用いて閉ループシステムに対する局所化一階包含関数を構築する。 (二)単一の軌道に沿った評価が、元のシステムの魅力的な集合に確実に収束するネストされた超矩形族と直接対応する動的埋め込みシステムを構築する。 (iii) 線形変換を利用して、同じ性質を持つネストした平行対の族を構築する。 このフレームワークは、インターバル解析ツールボックス$\texttt{npinterval}$とシンボリック算術ツールボックス$\texttt{sympy}$を使って、Pythonで自動化されています。

We present a framework based on interval analysis and monotone systems theory to certify and search for forward invariant sets in nonlinear systems with neural network controllers. The framework (i) constructs localized first-order inclusion functions for the closed-loop system using Jacobian bounds and existing neural network verification tools; (ii) builds a dynamical embedding system where its evaluation along a single trajectory directly corresponds with a nested family of hyper-rectangles provably converging to an attractive set of the original system; (iii) utilizes linear transformations to build families of nested paralleletopes with the same properties. The framework is automated in Python using our interval analysis toolbox $\texttt{npinterval}$, in conjunction with the symbolic arithmetic toolbox $\texttt{sympy}$, demonstrated on an $8$-dimensional leader-follower system.
翻訳日:2023-09-19 17:41:56 公開日:2023-09-16
# CMOSセンサアレイを用いたマイクロ3次元キャパシタンストモグラフィ

Microscale 3-D Capacitance Tomography with a CMOS Sensor Array ( http://arxiv.org/abs/2309.09039v1 )

ライセンス: Link先を確認
anar Abdelatty, Joseph Incandela, Kangping Hu, Joseph W. Larkin, Sherief Reda, Jacob K. Rosenstein(参考訳) 電気容量トモグラフィ(ECT)は、体積の内部誘電率のマップを、その境界で容量測定を行い、逆問題を解くことによって推定する非光学的イメージング技術である。 以前のECTデモはしばしばセンチメートルスケールで行われているが、ECTはマクロシステムに限定されていない。 本稿では,cmosマイクロ電極アレイを用いた高分子微粒子および細菌バイオフィルムのctイメージングを行い,空間分解能を10ミクロンとした。 さらに,センサ計測から平面外誘電率マップを再構成するための深層学習アーキテクチャと多目的学習手法を提案する。 実験の結果, 提案手法は微細な3次元構造を解くことができ, マイクロスフィアデータセットでは91.5%, バイオフィルムデータセットでは82.7%, ベースライン計算法では平均4.6%向上した。

Electrical capacitance tomography (ECT) is a nonoptical imaging technique in which a map of the interior permittivity of a volume is estimated by making capacitance measurements at its boundary and solving an inverse problem. While previous ECT demonstrations have often been at centimeter scales, ECT is not limited to macroscopic systems. In this paper, we demonstrate ECT imaging of polymer microspheres and bacterial biofilms using a CMOS microelectrode array, achieving spatial resolution of 10 microns. Additionally, we propose a deep learning architecture and an improved multi-objective training scheme for reconstructing out-of-plane permittivity maps from the sensor measurements. Experimental results show that the proposed approach is able to resolve microscopic 3-D structures, achieving 91.5% prediction accuracy on the microsphere dataset and 82.7% on the biofilm dataset, including an average of 4.6% improvement over baseline computational methods.
翻訳日:2023-09-19 17:41:40 公開日:2023-09-16
# 限定フィードバックによる逆強化学習者の相互指導

Interactively Teaching an Inverse Reinforcement Learner with Limited Feedback ( http://arxiv.org/abs/2309.09095v1 )

ライセンス: Link先を確認
Rustam Zayanov, Francisco S. Melo, Manuel Lopes(参考訳) 逐次意思決定課題における実演を通して指導の課題について検討する。 特に,教師が学習者のモデルや方針にアクセスできない状況に注目し,学習者のフィードバックは教師が選択した状態から始まる軌跡に限られる。 開始状態を選択して学習者の方針を推測する必要性は,教師による逆強化学習と能動的学習の手法を利用する機会を生み出す。 本研究では,教育過程を限定的なフィードバックで定式化し,この課題を解決するアルゴリズムを提案する。 アルゴリズムは、アクティブバリュー・アット・リスク法の修正版を使用して開始状態を選択するとともに、ポリシーを推測する修正された最大因果エントロピーアルゴリズムと、指導デモを選択する困難スコア比法を用いる。 提案手法を合成自動車運転環境でテストし,学習者のフィードバックが制限された場合,提案アルゴリズムが効果的な解となると結論づける。

We study the problem of teaching via demonstrations in sequential decision-making tasks. In particular, we focus on the situation when the teacher has no access to the learner's model and policy, and the feedback from the learner is limited to trajectories that start from states selected by the teacher. The necessity to select the starting states and infer the learner's policy creates an opportunity for using the methods of inverse reinforcement learning and active learning by the teacher. In this work, we formalize the teaching process with limited feedback and propose an algorithm that solves this teaching problem. The algorithm uses a modified version of the active value-at-risk method to select the starting states, a modified maximum causal entropy algorithm to infer the policy, and the difficulty score ratio method to choose the teaching demonstrations. We test the algorithm in a synthetic car driving environment and conclude that the proposed algorithm is an effective solution when the learner's feedback is limited.
翻訳日:2023-09-19 17:33:18 公開日:2023-09-16
# 下流タスクにおける言語モデルの性能に対するデバイアスの影響は過小評価される

The Impact of Debiasing on the Performance of Language Models in Downstream Tasks is Underestimated ( http://arxiv.org/abs/2309.09092v1 )

ライセンス: Link先を確認
Masahiro Kaneko, Danushka Bollegala, Naoaki Okazaki(参考訳) 大規模データに基づいてトレーニングされた事前学習された言語モデルは、深刻な社会的バイアスを学習した。 その結果、事前訓練されたモデルに様々な手法が提案されている。 デバイアス法は、下流のタスクに有用な情報を保持しながら、事前訓練されたモデルから差別バイアス情報のみを緩和する必要がある。 先行研究では,デバイアス事前学習モデルにおけるダウンストリームタスクの性能によって,有用な情報が保持されているかどうかを確認した。 一方、これらのベンチマークが社会的偏見に関連するデータから成り、デバイアスの影響を調べるのに適切かどうかは不明である。 例えば、性別に関する社会的偏見では、女性語(例:「彼女、女性、女性」)、男性語(例:「彼、男性、男性」)、ステレオタイプ語(例:「彼、医師、教授」)を含むデータが、最も嫌悪の影響を受けていると考えられている。 ターゲットタスクのベンチマークデータセットにこれらの単語を含むデータがあまりない場合、デバイアスの効果を誤って評価する可能性がある。 本研究では,女性,男性,ステレオタイプの単語を含む幅広いベンチマークデータセットを用いて,複数の下流タスクのパフォーマンスに及ぼすデバイアスの影響を比較した。 実験により、デバイアスの効果は全てのタスクで一貫して「emph{understimated"」であることが示されている。 さらに、ベンチマークデータセットのすべての例よりも、女性、男性、ステレオタイプワードを含むインスタンスを別々に考慮することで、デバイアスの効果を確実に評価することができる。

Pre-trained language models trained on large-scale data have learned serious levels of social biases. Consequently, various methods have been proposed to debias pre-trained models. Debiasing methods need to mitigate only discriminatory bias information from the pre-trained models, while retaining information that is useful for the downstream tasks. In previous research, whether useful information is retained has been confirmed by the performance of downstream tasks in debiased pre-trained models. On the other hand, it is not clear whether these benchmarks consist of data pertaining to social biases and are appropriate for investigating the impact of debiasing. For example in gender-related social biases, data containing female words (e.g. ``she, female, woman''), male words (e.g. ``he, male, man''), and stereotypical words (e.g. ``nurse, doctor, professor'') are considered to be the most affected by debiasing. If there is not much data containing these words in a benchmark dataset for a target task, there is the possibility of erroneously evaluating the effects of debiasing. In this study, we compare the impact of debiasing on performance across multiple downstream tasks using a wide-range of benchmark datasets that containing female, male, and stereotypical words. Experiments show that the effects of debiasing are consistently \emph{underestimated} across all tasks. Moreover, the effects of debiasing could be reliably evaluated by separately considering instances containing female, male, and stereotypical words than all of the instances in a benchmark dataset.
翻訳日:2023-09-19 17:33:03 公開日:2023-09-16
# フレームラ:自己教師付きビデオフレーム再構成器とキーフレームセレクタからなるビデオフレーム圧縮モデル

FrameRS: A Video Frame Compression Model Composed by Self supervised Video Frame Reconstructor and Key Frame Selector ( http://arxiv.org/abs/2309.09083v1 )

ライセンス: Link先を確認
Qiqian Fu, Guanhong Wang, Gaoang Wang(参考訳) 本稿では,フレーム再構成モデルであるFrameRSを提案する。 自己監督型ビデオフレームコンストラクタとキーフレームセレクタから構成される。 フレーム再構成器 FrameMAE は,Masked Autoencoder for Images (MAE) の原理をビデオコンテキストに適用することによって開発されている。 キーフレームセレクタであるFrame SelectorはCNNアーキテクチャ上に構築されている。 フレームメイのエンコーダからハイレベルな意味情報を入力として取り込むことで、計算コストの少ないキーフレームを予測できる。 FrameMAEは,我々のBespoke Frame Selectorと統合され,動画クリップの約30%を保持することで,効果的に圧縮することができる。 性能面では,従来のキーフレーム抽出アルゴリズムに比べて著しく改善した計算効率と競合精度を示す。 実装はgithubで公開されている

In this paper, we present frame reconstruction model: FrameRS. It consists self-supervised video frame reconstructor and key frame selector. The frame reconstructor, FrameMAE, is developed by adapting the principles of the Masked Autoencoder for Images (MAE) for video context. The key frame selector, Frame Selector, is built on CNN architecture. By taking the high-level semantic information from the encoder of FrameMAE as its input, it can predicted the key frames with low computation costs. Integrated with our bespoke Frame Selector, FrameMAE can effectively compress a video clip by retaining approximately 30% of its pivotal frames. Performance-wise, our model showcases computational efficiency and competitive accuracy, marking a notable improvement over traditional Key Frame Extract algorithms. The implementation is available on Github
翻訳日:2023-09-19 17:32:39 公開日:2023-09-16
# 自律運転のためのマルチカメラ鳥眼視知覚

Multi-camera Bird's Eye View Perception for Autonomous Driving ( http://arxiv.org/abs/2309.09080v1 )

ライセンス: Link先を確認
David Unger, Nikhil Gosala, Varun Ravi Kumar, Shubhankar Borse, Abhinav Valada, Senthil Yogamani(参考訳) ほとんどの自動走行システムは、複数のカメラ、レーダー、LiDARを含む多様なセンサーセットで構成されており、近距離および遠距離領域における360度範囲を完全に確保している。 3Dで直接計測するRadarやLiDARとは異なり、カメラは固有の奥行きの曖昧さで2Dの視点を投影する。 しかし、他のエージェントの空間的推論と最適経路計画のための構造を実現するためには、3次元で知覚出力を生成することが不可欠である。 カメラ画像から所望のbev表現を達成するための最も基本的なアプローチは、平坦な地上面を仮定してipmである。 新しい車両でよく見られる周囲の視覚システムは、IPM原則を使ってBEV画像を生成し、それを運転者に見せる。 しかし、このアプローチは、この単純すぎる変換法によって引き起こされる激しい歪みがあるため、自律運転には適さない。

Most automated driving systems comprise a diverse sensor set, including several cameras, Radars, and LiDARs, ensuring a complete 360\deg coverage in near and far regions. Unlike Radar and LiDAR, which measure directly in 3D, cameras capture a 2D perspective projection with inherent depth ambiguity. However, it is essential to produce perception outputs in 3D to enable the spatial reasoning of other agents and structures for optimal path planning. The 3D space is typically simplified to the BEV space by omitting the less relevant Z-coordinate, which corresponds to the height dimension.The most basic approach to achieving the desired BEV representation from a camera image is IPM, assuming a flat ground surface. Surround vision systems that are pretty common in new vehicles use the IPM principle to generate a BEV image and to show it on display to the driver. However, this approach is not suited for autonomous driving since there are severe distortions introduced by this too-simplistic transformation method.
翻訳日:2023-09-19 17:32:23 公開日:2023-09-16
# オフライン事前トレーニングのない教師なしグリーンオブジェクトトラッカ(got)

Unsupervised Green Object Tracker (GOT) without Offline Pre-training ( http://arxiv.org/abs/2309.09078v1 )

ライセンス: Link先を確認
Zhiruo Zhou, Suya You, C.-C. Jay Kuo(参考訳) ラベル付きデータでトレーニングされた教師付きトラッカーは、追跡精度に優れた単一のオブジェクト追跡フィールドを支配している。 ラベル付けコストと膨大な計算複雑性は、エッジデバイス上のアプリケーションを妨げる。 ラベル付けコストを削減するために教師なし学習手法も検討されているが、その複雑さは高いままである。 本研究は,軽量な高性能トラッキング,オフライン事前学習のない実現可能性,アルゴリズム透過性に着目し,グリーンオブジェクトトラッカー(GOT)と呼ばれる新しい単一オブジェクトトラッキング手法を提案する。 GOTは、堅牢なボックストラッキングのための3つの予測分岐のアンサンブルを実行する。 1)大まかにオブジェクトの位置を予測するグローバルなオブジェクトベースのコリレータ 2)小さな空間単位の時間的相関を構築する局所パッチベースの相関器 3) 対象フレームの空間情報を利用するスーパーピクセルベースのセグメンテーション装置。 GOTは、高度なオフライン事前トレーニングを必要とする最先端の教師なしトラッカーと、より低い計算コストで競合追跡精度を提供する。 GOTはモデルのサイズが小さい(<3kパラメータ)、推論の複雑さが低い(フレームあたり約58M FLOP)。 推論の複雑さはDLトラッカーの0.1%-10%なので、モバイルやエッジデバイスに簡単にデプロイできる。

Supervised trackers trained on labeled data dominate the single object tracking field for superior tracking accuracy. The labeling cost and the huge computational complexity hinder their applications on edge devices. Unsupervised learning methods have also been investigated to reduce the labeling cost but their complexity remains high. Aiming at lightweight high-performance tracking, feasibility without offline pre-training, and algorithmic transparency, we propose a new single object tracking method, called the green object tracker (GOT), in this work. GOT conducts an ensemble of three prediction branches for robust box tracking: 1) a global object-based correlator to predict the object location roughly, 2) a local patch-based correlator to build temporal correlations of small spatial units, and 3) a superpixel-based segmentator to exploit the spatial information of the target frame. GOT offers competitive tracking accuracy with state-of-the-art unsupervised trackers, which demand heavy offline pre-training, at a lower computation cost. GOT has a tiny model size (<3k parameters) and low inference complexity (around 58M FLOPs per frame). Since its inference complexity is between 0.1%-10% of DL trackers, it can be easily deployed on mobile and edge devices.
翻訳日:2023-09-19 17:32:08 公開日:2023-09-16
# 極端交通予測のためのテスト時間補償表現学習

Test-Time Compensated Representation Learning for Extreme Traffic Forecasting ( http://arxiv.org/abs/2309.09074v1 )

ライセンス: Link先を確認
Zhiwei Zhang and Weizhong Zhang and Yaowei Huang and Kani Chen(参考訳) 交通系列間の複雑な時空間相関のため、交通予測は難しい課題である。 本稿では,多変量トラヒック予測における過度な問題であるextreme eventsを特定する。 道路混雑とラッシュ時間は、隣接する時間帯における様々な交差点での車両速度の相関が低い。 既存の方法は、最近の観測に基づいて将来の時系列を予測し、テストフェーズ中にトレーニングデータを完全に破棄し、高度に非線形な多変量時系列を予測できない。 本研究では,時空間分解型データバンクとマルチヘッド空間トランスフォーマモデル(コンフォーマ)を組み合わせたテスト時間補償表現学習フレームワークを提案する。 前者コンポーネントは、周期性特性に応じて時間次元に沿ったすべてのトレーニングデータを明示的に分離し、後者コンポーネントは、空間的注意行列を介して、データバンク内の最近の観測と過去の時系列との接続を確立する。 これによりCompFormerは、少ない計算リソースを使用しながら、堅牢な機能を転送して異常なイベントを克服することができる。 我々のモジュールは、エンドツーエンドのトレーニングを通じて既存の予測手法と柔軟に統合することができ、METR-LAおよびPEMS-BAYベンチマークでそれらの効果を実証する。 大規模な実験結果から,本手法は極端事象において特に重要であり,最大28.2%の精度で6つの強いベースラインに対して顕著な改善が達成できることが示された。

Traffic forecasting is a challenging task due to the complex spatio-temporal correlations among traffic series. In this paper, we identify an underexplored problem in multivariate traffic series prediction: extreme events. Road congestion and rush hours can result in low correlation in vehicle speeds at various intersections during adjacent time periods. Existing methods generally predict future series based on recent observations and entirely discard training data during the testing phase, rendering them unreliable for forecasting highly nonlinear multivariate time series. To tackle this issue, we propose a test-time compensated representation learning framework comprising a spatio-temporal decomposed data bank and a multi-head spatial transformer model (CompFormer). The former component explicitly separates all training data along the temporal dimension according to periodicity characteristics, while the latter component establishes a connection between recent observations and historical series in the data bank through a spatial attention matrix. This enables the CompFormer to transfer robust features to overcome anomalous events while using fewer computational resources. Our modules can be flexibly integrated with existing forecasting methods through end-to-end training, and we demonstrate their effectiveness on the METR-LA and PEMS-BAY benchmarks. Extensive experimental results show that our method is particularly important in extreme events, and can achieve significant improvements over six strong baselines, with an overall improvement of up to 28.2%.
翻訳日:2023-09-19 17:31:49 公開日:2023-09-16
# HVAC制御改善のためのアクティブラーニングによるパーソナライズされた熱快適性モデルの強化

Enhancing personalised thermal comfort models with Active Learning for improved HVAC controls ( http://arxiv.org/abs/2309.09073v1 )

ライセンス: Link先を確認
Zeynep Duygu Tekler, Yue Lei, Xilei Dai, Adrian Chong(参考訳) 建物内の占有者中心制御(occ)を知らせるパーソナライズされた熱快適モデルの開発には、大量のリアルタイム占有者嗜好データを収集する必要がある。 このプロセスは、大規模な実装において非常に侵入的かつ労働集約的であり、現実世界のOCC実装の実用性を制限する。 この問題に対処するため,本研究では,実世界のoccシステム実装に関するデータ課題に対処するために,アクティブラーニング(al)により拡張された熱選好ベースのhvac制御フレームワークを提案する。 提案したALアプローチは,ヒトのアノテーションに最も有意な温度条件を積極的に同定し,教師付き熱快適モデルを繰り返し更新する。 得られたモデルはその後、建物内のHVAC制御に統合された異なる温度条件下での乗員の熱的嗜好を予測するために使用される。 提案したAL対応OCCの有効性は,58人の被験者の熱嗜好データを補足した実世界のテストベッドのEnergyPlusシミュレーションで実証された。 予備実験の結果, AL対応OCCと従来のOCCとの間には, 全体のラベリング効果(31.0%)が著しく減少し, 省エネ効果(1.3%)と熱満足度(98%)はわずかに増加した。 この結果は、このようなシステムを将来の現実的な実装に展開する可能性を示し、パーソナライズされた快適さとエネルギー効率の高い建築作業を可能にする。

Developing personalised thermal comfort models to inform occupant-centric controls (OCC) in buildings requires collecting large amounts of real-time occupant preference data. This process can be highly intrusive and labour-intensive for large-scale implementations, limiting the practicality of real-world OCC implementations. To address this issue, this study proposes a thermal preference-based HVAC control framework enhanced with Active Learning (AL) to address the data challenges related to real-world implementations of such OCC systems. The proposed AL approach proactively identifies the most informative thermal conditions for human annotation and iteratively updates a supervised thermal comfort model. The resulting model is subsequently used to predict the occupants' thermal preferences under different thermal conditions, which are integrated into the building's HVAC controls. The feasibility of our proposed AL-enabled OCC was demonstrated in an EnergyPlus simulation of a real-world testbed supplemented with the thermal preference data of 58 study occupants. The preliminary results indicated a significant reduction in overall labelling effort (i.e., 31.0%) between our AL-enabled OCC and conventional OCC while still achieving a slight increase in energy savings (i.e., 1.3%) and thermal satisfaction levels above 98%. This result demonstrates the potential for deploying such systems in future real-world implementations, enabling personalised comfort and energy-efficient building operations.
翻訳日:2023-09-19 17:31:28 公開日:2023-09-16
# rmdm: ベトナムの証拠検証のためのマルチラベルフェイクニュースデータセット

RMDM: A Multilabel Fakenews Dataset for Vietnamese Evidence Verification ( http://arxiv.org/abs/2309.09071v1 )

ライセンス: Link先を確認
Hai-Long Nguyen, Thi-Kieu-Trang Pham, Thai-Son Le, Tan-Minh Nguyen, Thi-Hai-Yen Vuong, Ha-Thanh Nguyen(参考訳) 本研究では,大規模言語モデル(llm)の性能評価を目的として,法的文脈に関連する電子情報を検証し,電子的証拠の入力として偽ニュースに着目した,新規かつ挑戦的なマルチラベル・ベトナム語データセット(rmdm)を提案する。 rmdmデータセットは、実情報、誤情報、誤情報、誤情報を表すreal、mis、dis、malの4つのラベルで構成されている。 これらの多様なラベルを含めることで、rmdmは異なる偽ニュースカテゴリの複雑さを捉え、電子的証拠の一部である様々な種類の情報を扱う様々な言語モデルの能力に関する洞察を提供する。 データセットは合計1,556のサンプルからなり、各ラベルに389のサンプルがある。 GPTベースのモデルとBERTベースのモデルを用いたデータセットの予備的なテストでは、異なるラベル間でモデルのパフォーマンスが変動していることが示され、これらの情報の真正性を検証するために、データセットが様々な言語モデルの能力に効果的に挑戦していることが示されている。 我々の研究結果は、偽ニュースを含む法的な文脈に関する電子情報を検証することは、言語モデルにとって難しい問題であり、研究コミュニティがより信頼性の高いAIモデルに進むことを保証していることを示唆している。

In this study, we present a novel and challenging multilabel Vietnamese dataset (RMDM) designed to assess the performance of large language models (LLMs), in verifying electronic information related to legal contexts, focusing on fake news as potential input for electronic evidence. The RMDM dataset comprises four labels: real, mis, dis, and mal, representing real information, misinformation, disinformation, and mal-information, respectively. By including these diverse labels, RMDM captures the complexities of differing fake news categories and offers insights into the abilities of different language models to handle various types of information that could be part of electronic evidence. The dataset consists of a total of 1,556 samples, with 389 samples for each label. Preliminary tests on the dataset using GPT-based and BERT-based models reveal variations in the models' performance across different labels, indicating that the dataset effectively challenges the ability of various language models to verify the authenticity of such information. Our findings suggest that verifying electronic information related to legal contexts, including fake news, remains a difficult problem for language models, warranting further attention from the research community to advance toward more reliable AI models for potential legal applications.
翻訳日:2023-09-19 17:31:00 公開日:2023-09-16
# NOWJ1@ALQAC 2023:古典統計モデルと事前学習言語モデルによる法的タスクパフォーマンスの向上

NOWJ1@ALQAC 2023: Enhancing Legal Task Performance with Classic Statistical Models and Pre-trained Language Models ( http://arxiv.org/abs/2309.09070v1 )

ライセンス: Link先を確認
Tan-Minh Nguyen, Xuan-Hoa Nguyen, Ngoc-Duy Mai, Minh-Quan Hoang, Van-Huan Nguyen, Hoang-Viet Nguyen, Ha-Thanh Nguyen, Thi-Hai-Yen Vuong(参考訳) 本稿では,従来の統計モデルとPLM(Pre-trained Language Models)の統合による法的タスクパフォーマンスの向上に焦点を当てた,ALQAC(Automated Legal Question Answering Competition)2023に対するNOWJ1チームのアプローチについて述べる。 文書検索タスクでは,入力制限を克服する前処理ステップを実装し,様々なモデルの特徴を統合するための学習からランクへの手法を適用する。 質問応答タスクは、文分類と回答抽出の2つのサブタスクに分けられる。 従来の統計モデルと事前学習された言語モデルの両方を利用して,サブタスク毎に異なるシステムを開発するための最先端モデルを取り入れた。 実験結果は,提案手法の競争における可能性を示す。

This paper describes the NOWJ1 Team's approach for the Automated Legal Question Answering Competition (ALQAC) 2023, which focuses on enhancing legal task performance by integrating classical statistical models and Pre-trained Language Models (PLMs). For the document retrieval task, we implement a pre-processing step to overcome input limitations and apply learning-to-rank methods to consolidate features from various models. The question-answering task is split into two sub-tasks: sentence classification and answer extraction. We incorporate state-of-the-art models to develop distinct systems for each sub-task, utilizing both classic statistical models and pre-trained Language Models. Experimental results demonstrate the promising potential of our proposed methodology in the competition.
翻訳日:2023-09-19 17:30:37 公開日:2023-09-16
# 異種性グラフを用いたベトナムの立法症例の知識グラフの構築

Constructing a Knowledge Graph for Vietnamese Legal Cases with Heterogeneous Graphs ( http://arxiv.org/abs/2309.09069v1 )

ライセンス: Link先を確認
Thi-Hai-Yen Vuong, Minh-Quan Hoang, Tan-Minh Nguyen, Hoang-Trung Nguyen, Ha-Thanh Nguyen(参考訳) 本稿では,法務情報を効率的に整理し,様々な下流業務を強化することを目的とした,法務事例文書及び関連法律に関する知識グラフ構築手法を提案する。 当社のアプローチは,データクローリング,情報抽出,知識グラフ展開という3つの主要なステップで構成されています。 まず、データクローラは、様々なソースから大量の訴訟書類及び関連法律を収集し、さらなる処理のために豊富なデータベースを提供する。 次に、自然言語処理技術を用いて、裁判所、事件、ドメイン、法律などのエンティティを抽出し、構造化されていないテキストからそれらの関係を抽出する。 最後に、知識グラフが展開され、抽出された関係に基づいてこれらのエンティティを接続し、法律情報を効果的に表現する異質なグラフを作成し、弁護士、裁判官、学者などのユーザを対象とする。 確立されたベースラインモデルは教師なしの学習手法を活用し、知識グラフを組み込むことで、特定の訴訟事件に関連する法律を識別する能力を示す。 このアプローチは、訴訟分析、法的勧告、意思決定支援など、法的領域における様々な応用の機会を開放する。

This paper presents a knowledge graph construction method for legal case documents and related laws, aiming to organize legal information efficiently and enhance various downstream tasks. Our approach consists of three main steps: data crawling, information extraction, and knowledge graph deployment. First, the data crawler collects a large corpus of legal case documents and related laws from various sources, providing a rich database for further processing. Next, the information extraction step employs natural language processing techniques to extract entities such as courts, cases, domains, and laws, as well as their relationships from the unstructured text. Finally, the knowledge graph is deployed, connecting these entities based on their extracted relationships, creating a heterogeneous graph that effectively represents legal information and caters to users such as lawyers, judges, and scholars. The established baseline model leverages unsupervised learning methods, and by incorporating the knowledge graph, it demonstrates the ability to identify relevant laws for a given legal case. This approach opens up opportunities for various applications in the legal domain, such as legal case analysis, legal recommendation, and decision support.
翻訳日:2023-09-19 17:30:23 公開日:2023-09-16
# 逐次推定による逐次変化検出の低減

Reducing sequential change detection to sequential estimation ( http://arxiv.org/abs/2309.09111v1 )

ライセンス: Link先を確認
Shubhanshu Shekhar and Aaditya Ramdas(参考訳) パラメータや関数の$\theta$で検出遅延が小さいが、変更がない場合の誤報頻度の制御が保証されるデータストリーム分布を,パラメータや関数的な$\theta$で検出するスキームを設計することを目的として,逐次的な変更検出の問題を考える。 本稿では,各ステップ毎に1-\alpha($-confidence)の新たな$(1-\alpha)$-confidenceシーケンスを起動し,すべてのアクティブな信頼シーケンスの交叉が空になった場合の変化を宣言する。 平均ラン長が少なくとも1/\alpha$であることを証明するため、構造的仮定を最小限に抑えた変更検出スキームが成立する(従属的な観測や非パラメトリック分布クラスを許容する)が、強い保証は得られない。 提案手法は,1971年のLordenと2022年のShinらのe-detectorによる変化検出からシーケンシャルなテストへの削減と類似している。

We consider the problem of sequential change detection, where the goal is to design a scheme for detecting any changes in a parameter or functional $\theta$ of the data stream distribution that has small detection delay, but guarantees control on the frequency of false alarms in the absence of changes. In this paper, we describe a simple reduction from sequential change detection to sequential estimation using confidence sequences: we begin a new $(1-\alpha)$-confidence sequence at each time step, and proclaim a change when the intersection of all active confidence sequences becomes empty. We prove that the average run length is at least $1/\alpha$, resulting in a change detection scheme with minimal structural assumptions~(thus allowing for possibly dependent observations, and nonparametric distribution classes), but strong guarantees. Our approach bears an interesting parallel with the reduction from change detection to sequential testing of Lorden (1971) and the e-detector of Shin et al. (2022).
翻訳日:2023-09-19 17:21:39 公開日:2023-09-16
# 非線形量子フォトニック回路における単一光子崩壊による最大効率のバイフォトン生成

Maximally efficient biphoton generation by single photon decay in nonlinear quantum photonic circuits ( http://arxiv.org/abs/2309.09107v1 )

ライセンス: Link先を確認
Mikhail Tokman, Jitendra Verma, Jacob Bohreer, and Alexey Belyanin(参考訳) 我々は、一般の非摂動形式論を開発し、単一光子のパラメトリック減衰による双光子状態の最大効率生成のための特定のスキームを提案する。 集積光学の有名な臨界結合の概念は、量子化された光子モードの非線形結合に一般化し、単一光子非線形性の非摂動的最適配置を記述し、量子相関光子の非線形生成効率の基本的な上限を定式化できることが示されている。

We develop a general nonperturbative formalism and propose a specific scheme for maximally efficient generation of biphoton states by parametric decay of single photons. We show that the well-known critical coupling concept of integrated optics can be generalized to the nonlinear coupling of quantized photon modes to describe the nonperturbative optimal regime of a single-photon nonlinearity and establish a fundamental upper limit on the nonlinear generation efficiency of quantum-correlated photons, which approaches unity for low enough absorption losses.
翻訳日:2023-09-19 17:21:20 公開日:2023-09-16
# 量子物質に対する古典重力の区別可能な結果

Distinguishable consequence of classical gravity on quantum matter ( http://arxiv.org/abs/2309.09105v1 )

ライセンス: Link先を確認
Serhii Kryhin and Vivishek Sudhir(参考訳) もし重力が古典だったら? もし本当なら、古典重力と量子物質の一貫した共存は、重力が既約古典揺らぎを示す必要がある。 これらのゆらぎは、重力相互作用する物質の量子化運動の間の古典的相関を媒介することができる。 量子古典力学の一貫した理論と一般相対性理論を用いて、重力が古典的であるという仮説を実験的に検証できることを示す。 これは例えば、高いコヒーレントな源質量を重力的に相互作用させ、それらの運動の相互相関を正確に測定することでできる。 理論は古典的な重力と量子重力を区別する特性的な位相応答を予測し、デコヒーレンスの単純な源となる。 そのような実験はすぐに実行できます。

What if gravity is classical? If true, a consistent co-existence of classical gravity and quantum matter requires that gravity exhibit irreducible classical fluctuations. These fluctuations can mediate classical correlations between the quantized motion of the gravitationally interacting matter. We use a consistent theory of quantum-classical dynamics, together with general relativity, to show that experimentally relevant observables can conclusively test the hypothesis that gravity is classical. This can be done for example by letting highly coherent source masses interact with each other gravitationally, and performing precise measurements of the cross-correlation of their motion. Theory predicts a characteristic phase response that distinguishes classical gravity from quantum gravity, and from naive sources of decoherence. Such experiments are imminently viable.
翻訳日:2023-09-19 17:21:10 公開日:2023-09-16
# CPMR: Pseudo-Multi-Task Learning を用いた文脈対応インクリメンタルシークエンシャルレコメンデーション

CPMR: Context-Aware Incremental Sequential Recommendation with Pseudo-Multi-Task Learning ( http://arxiv.org/abs/2309.04802v3 )

ライセンス: Link先を確認
Qingtian Bian, Jiaxing Xu, Hui Fang, Yiping Ke(参考訳) ユーザによるインタラクションのモチベーションは、静的な好みと動的関心に分けることができる。 ユーザの表現を時間とともに正確にモデル化するために,近年の逐次的な推奨研究は,到着するインタラクションのバッチから情報伝達と進化を利用する。 しかし、人々は文脈シナリオにおける他のユーザの最近の行動に影響を受けやすいという事実を無視し、すべての歴史的相互作用に進化を適用することは、最近のものの重要性を弱め、ダイナミックな関心の進化を正確にモデル化できない。 この問題を解決するために,静的埋め込み,時間的時間的状態,文脈的時間的状態の3つの表現を作成することで,歴史的・文脈的シナリオの進化をモデル化するコンテキスト認識型Pseudo-Multi-Task Recommender System (CPMR)を提案する。 時間的状態の進化と漸進的レコメンデーションのパフォーマンスを両立させるため,逐次的単目標レコメンデーションを1つのマルチターゲットタスクに積み重ねることで,疑似マルチタスク学習(pmtl)パラダイムを設計する。 PMTLパラダイム内では、CPMRは共有ボットネットワークを使用して、歴史的、文脈的なシナリオをまたいだ時間的状態の進化と、それらの融合をユーザ・イテムレベルで行う。 さらにCPMRは、インクリメンタルな予測のために1つの実際の塔と、新しい相互作用のバッチに基づいてそれぞれの時間状態を更新する2つの擬似塔を組み込んでいる。 4つのベンチマークレコメンデーションデータセットの実験結果から、CPMRは最先端のベースラインを一貫して上回り、3つのベースラインで大幅に向上している。 コードはhttps://github.com/dimarziobian/cpmr。

The motivations of users to make interactions can be divided into static preference and dynamic interest. To accurately model user representations over time, recent studies in sequential recommendation utilize information propagation and evolution to mine from batches of arriving interactions. However, they ignore the fact that people are easily influenced by the recent actions of other users in the contextual scenario, and applying evolution across all historical interactions dilutes the importance of recent ones, thus failing to model the evolution of dynamic interest accurately. To address this issue, we propose a Context-Aware Pseudo-Multi-Task Recommender System (CPMR) to model the evolution in both historical and contextual scenarios by creating three representations for each user and item under different dynamics: static embedding, historical temporal states, and contextual temporal states. To dually improve the performance of temporal states evolution and incremental recommendation, we design a Pseudo-Multi-Task Learning (PMTL) paradigm by stacking the incremental single-target recommendations into one multi-target task for joint optimization. Within the PMTL paradigm, CPMR employs a shared-bottom network to conduct the evolution of temporal states across historical and contextual scenarios, as well as the fusion of them at the user-item level. In addition, CPMR incorporates one real tower for incremental predictions, and two pseudo towers dedicated to updating the respective temporal states based on new batches of interactions. Experimental results on four benchmark recommendation datasets show that CPMR consistently outperforms state-of-the-art baselines and achieves significant gains on three of them. The code is available at: https://github.com/DiMarzioBian/CPMR.
翻訳日:2023-09-19 10:14:24 公開日:2023-09-16